老司机精品成免费视频 ,欧美成人免费观看在线看

文檔“大數(shù)據(jù)” 漢王攻堅(jiān)AI難點(diǎn)-自然語(yǔ)言處理（上）

源起OCR技術(shù)優(yōu)勢(shì)

因OCR技術(shù)優(yōu)勢(shì)，漢王接到多個(gè)國(guó)家級(jí)單位的文檔數(shù)字化項(xiàng)目，在具體工作中又將技術(shù)延伸到自然語(yǔ)言理解領(lǐng)域，可以說(shuō)，漢王科技踏入了更為廣闊的數(shù)據(jù)化智能大市場(chǎng)。

漢王科技是業(yè)界最早致力于OCR識(shí)別技術(shù)研發(fā)和應(yīng)用的公司之一，借助在該領(lǐng)域和數(shù)據(jù)加工平臺(tái)累積多年的技術(shù)優(yōu)勢(shì)，漢王將OCR技術(shù)應(yīng)用拓展至國(guó)內(nèi)多個(gè)行業(yè)，其中一大重要的應(yīng)用就是文檔電子化。

國(guó)家級(jí)項(xiàng)目折射漢王專業(yè)程度

2013年，北京漢王數(shù)字科技有限公司成立，作為漢王科技的子公司，漢王數(shù)字在該領(lǐng)域的觸角已延伸至多個(gè)國(guó)家級(jí)項(xiàng)目。其中不乏針對(duì)各級(jí)圖書館傳統(tǒng)近現(xiàn)代圖書進(jìn)行掃描、圖像處理的數(shù)字化工程，而對(duì)某圖書館藏明清時(shí)期的家譜類文獻(xiàn)進(jìn)行數(shù)字化加工的項(xiàng)目作為漢王文檔數(shù)字化的一個(gè)特殊案例尤其引人關(guān)注，由于古籍對(duì)識(shí)別系統(tǒng)以及操作方法要求極高，且古籍中含有標(biāo)注、欄線、大量形態(tài)各異的異體字，情況十分復(fù)雜。而對(duì)此類復(fù)雜項(xiàng)目的承接折射出漢王在該領(lǐng)域的專業(yè)程度。

除了服務(wù)國(guó)家級(jí)的圖書館、檔案館，漢王科技的數(shù)據(jù)化業(yè)務(wù)也在銀行、醫(yī)院、法院等行業(yè)廣泛鋪陳，幫助相關(guān)部門將紙質(zhì)單據(jù)的信息轉(zhuǎn)化為電子文檔。也就是在這些具體項(xiàng)目的實(shí)施中，漢王開(kāi)始意識(shí)到“文檔電子化”只是完成了知識(shí)、信息應(yīng)用的一部分，形成的電子文本是非結(jié)構(gòu)化數(shù)據(jù)。

文檔電子化-文檔大數(shù)據(jù)應(yīng)用入口

將紙質(zhì)文檔變成電子化文檔，只是漢王步入文檔大數(shù)據(jù)的入口。如果把文檔大數(shù)據(jù)應(yīng)用比作摩天大樓，文檔電子化只是其高聳入云的扎實(shí)地基，通過(guò)掃描將紙質(zhì)文檔變成圖像，再通過(guò)OCR技術(shù)將圖像變成數(shù)字化文本，但這樣的電子文檔知識(shí)之間缺乏關(guān)聯(lián)，被電腦檢索也只是對(duì)比相同字符搜集信息，對(duì)語(yǔ)義沒(méi)有理解，還是需要閱讀者進(jìn)行人工甄別，根據(jù)自己的需求找尋所需信息。要將海量的電子文檔“智慧化”，就必須將文字信息形成結(jié)構(gòu)化數(shù)據(jù)，只有形成結(jié)構(gòu)化數(shù)據(jù)，信息和知識(shí)之間形成關(guān)聯(lián)，才能為大數(shù)據(jù)應(yīng)用服務(wù)。

將文檔的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理，轉(zhuǎn)化為技術(shù)術(shù)語(yǔ)，就要用到“自然語(yǔ)言理解”技術(shù)，俗稱“人機(jī)對(duì)話”，這是未來(lái)計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向?？梢詴诚?，未來(lái)你想了解某類知識(shí)點(diǎn)，通過(guò)對(duì)已結(jié)構(gòu)化的信息數(shù)據(jù)進(jìn)行檢索，查找瞬間，涉及到該類知識(shí)點(diǎn)的書籍便會(huì)全部呈現(xiàn)眼簾，相關(guān)內(nèi)容也會(huì)被抽撿萃取。這種將文檔“知識(shí)化”的自然語(yǔ)言處理技術(shù)，在閱讀者眼前展現(xiàn)的不僅僅是一本一本的書，而是與之相關(guān)的知識(shí)浩渺的書庫(kù)和智能化的知識(shí)分揀工具。

上一篇：第一頁(yè)

下一篇：文檔“大數(shù)據(jù)” 漢王攻堅(jiān)AI難點(diǎn)-自然語(yǔ)言處理（下）

美女樱桃被扒开液体流出来图_18禁亚洲深夜福利入口gif_把你玩坏掉免费看全集_被夫好友侵犯中文字幕影音

HOME

HOME

×分享到微信

文檔“大數(shù)據(jù)” 漢王攻堅(jiān)AI難點(diǎn)-自然語(yǔ)言處理（上）