文檔“大數(shù)據(jù)” 漢王攻堅(jiān)AI難點(diǎn)-自然語(yǔ)言處理(上)
源起OCR技術(shù)優(yōu)勢(shì)
因OCR技術(shù)優(yōu)勢(shì),漢王接到多個(gè)國(guó)家級(jí)單位的文檔數(shù)字化項(xiàng)目,在具體工作中又將技術(shù)延伸到自然語(yǔ)言理解領(lǐng)域,可以說(shuō),漢王科技踏入了更為廣闊的數(shù)據(jù)化智能大市場(chǎng)。
漢王科技是業(yè)界最早致力于OCR識(shí)別技術(shù)研發(fā)和應(yīng)用的公司之一,借助在該領(lǐng)域和數(shù)據(jù)加工平臺(tái)累積多年的技術(shù)優(yōu)勢(shì),漢王將OCR技術(shù)應(yīng)用拓展至國(guó)內(nèi)多個(gè)行業(yè),其中一大重要的應(yīng)用就是文檔電子化。
國(guó)家級(jí)項(xiàng)目折射漢王專業(yè)程度
2013年,北京漢王數(shù)字科技有限公司成立,作為漢王科技的子公司,漢王數(shù)字在該領(lǐng)域的觸角已延伸至多個(gè)國(guó)家級(jí)項(xiàng)目。其中不乏針對(duì)各級(jí)圖書館傳統(tǒng)近現(xiàn)代圖書進(jìn)行掃描、圖像處理的數(shù)字化工程,而對(duì)某圖書館藏明清時(shí)期的家譜類文獻(xiàn)進(jìn)行數(shù)字化加工的項(xiàng)目作為漢王文檔數(shù)字化的一個(gè)特殊案例尤其引人關(guān)注,由于古籍對(duì)識(shí)別系統(tǒng)以及操作方法要求極高,且古籍中含有標(biāo)注、欄線、大量形態(tài)各異的異體字,情況十分復(fù)雜。而對(duì)此類復(fù)雜項(xiàng)目的承接折射出漢王在該領(lǐng)域的專業(yè)程度。

除了服務(wù)國(guó)家級(jí)的圖書館、檔案館,漢王科技的數(shù)據(jù)化業(yè)務(wù)也在銀行、醫(yī)院、法院等行業(yè)廣泛鋪陳,幫助相關(guān)部門將紙質(zhì)單據(jù)的信息轉(zhuǎn)化為電子文檔。也就是在這些具體項(xiàng)目的實(shí)施中,漢王開(kāi)始意識(shí)到“文檔電子化”只是完成了知識(shí)、信息應(yīng)用的一部分,形成的電子文本是非結(jié)構(gòu)化數(shù)據(jù)。
文檔電子化-文檔大數(shù)據(jù)應(yīng)用入口
將紙質(zhì)文檔變成電子化文檔,只是漢王步入文檔大數(shù)據(jù)的入口。如果把文檔大數(shù)據(jù)應(yīng)用比作摩天大樓,文檔電子化只是其高聳入云的扎實(shí)地基,通過(guò)掃描將紙質(zhì)文檔變成圖像,再通過(guò)OCR技術(shù)將圖像變成數(shù)字化文本,但這樣的電子文檔知識(shí)之間缺乏關(guān)聯(lián),被電腦檢索也只是對(duì)比相同字符搜集信息,對(duì)語(yǔ)義沒(méi)有理解,還是需要閱讀者進(jìn)行人工甄別,根據(jù)自己的需求找尋所需信息。要將海量的電子文檔“智慧化”,就必須將文字信息形成結(jié)構(gòu)化數(shù)據(jù),只有形成結(jié)構(gòu)化數(shù)據(jù),信息和知識(shí)之間形成關(guān)聯(lián),才能為大數(shù)據(jù)應(yīng)用服務(wù)。

將文檔的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,轉(zhuǎn)化為技術(shù)術(shù)語(yǔ),就要用到“自然語(yǔ)言理解”技術(shù),俗稱“人機(jī)對(duì)話”,這是未來(lái)計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向??梢詴诚?,未來(lái)你想了解某類知識(shí)點(diǎn),通過(guò)對(duì)已結(jié)構(gòu)化的信息數(shù)據(jù)進(jìn)行檢索,查找瞬間,涉及到該類知識(shí)點(diǎn)的書籍便會(huì)全部呈現(xiàn)眼簾,相關(guān)內(nèi)容也會(huì)被抽撿萃取。這種將文檔“知識(shí)化”的自然語(yǔ)言處理技術(shù),在閱讀者眼前展現(xiàn)的不僅僅是一本一本的書,而是與之相關(guān)的知識(shí)浩渺的書庫(kù)和智能化的知識(shí)分揀工具。