文檔“大數(shù)據(jù)” 漢王攻堅AI難點-自然語言處理(上)
源起OCR技術(shù)優(yōu)勢
因OCR技術(shù)優(yōu)勢,漢王接到多個國家級單位的文檔數(shù)字化項目,在具體工作中又將技術(shù)延伸到自然語言理解領(lǐng)域,可以說,漢王科技踏入了更為廣闊的數(shù)據(jù)化智能大市場。
漢王科技是業(yè)界最早致力于OCR識別技術(shù)研發(fā)和應(yīng)用的公司之一,借助在該領(lǐng)域和數(shù)據(jù)加工平臺累積多年的技術(shù)優(yōu)勢,漢王將OCR技術(shù)應(yīng)用拓展至國內(nèi)多個行業(yè),其中一大重要的應(yīng)用就是文檔電子化。
國家級項目折射漢王專業(yè)程度
2013年,北京漢王數(shù)字科技有限公司成立,作為漢王科技的子公司,漢王數(shù)字在該領(lǐng)域的觸角已延伸至多個國家級項目。其中不乏針對各級圖書館傳統(tǒng)近現(xiàn)代圖書進行掃描、圖像處理的數(shù)字化工程,而對某圖書館藏明清時期的家譜類文獻進行數(shù)字化加工的項目作為漢王文檔數(shù)字化的一個特殊案例尤其引人關(guān)注,由于古籍對識別系統(tǒng)以及操作方法要求極高,且古籍中含有標(biāo)注、欄線、大量形態(tài)各異的異體字,情況十分復(fù)雜。而對此類復(fù)雜項目的承接折射出漢王在該領(lǐng)域的專業(yè)程度。

除了服務(wù)國家級的圖書館、檔案館,漢王科技的數(shù)據(jù)化業(yè)務(wù)也在銀行、醫(yī)院、法院等行業(yè)廣泛鋪陳,幫助相關(guān)部門將紙質(zhì)單據(jù)的信息轉(zhuǎn)化為電子文檔。也就是在這些具體項目的實施中,漢王開始意識到“文檔電子化”只是完成了知識、信息應(yīng)用的一部分,形成的電子文本是非結(jié)構(gòu)化數(shù)據(jù)。
文檔電子化-文檔大數(shù)據(jù)應(yīng)用入口
將紙質(zhì)文檔變成電子化文檔,只是漢王步入文檔大數(shù)據(jù)的入口。如果把文檔大數(shù)據(jù)應(yīng)用比作摩天大樓,文檔電子化只是其高聳入云的扎實地基,通過掃描將紙質(zhì)文檔變成圖像,再通過OCR技術(shù)將圖像變成數(shù)字化文本,但這樣的電子文檔知識之間缺乏關(guān)聯(lián),被電腦檢索也只是對比相同字符搜集信息,對語義沒有理解,還是需要閱讀者進行人工甄別,根據(jù)自己的需求找尋所需信息。要將海量的電子文檔“智慧化”,就必須將文字信息形成結(jié)構(gòu)化數(shù)據(jù),只有形成結(jié)構(gòu)化數(shù)據(jù),信息和知識之間形成關(guān)聯(lián),才能為大數(shù)據(jù)應(yīng)用服務(wù)。

將文檔的非結(jié)構(gòu)化數(shù)據(jù)進行結(jié)構(gòu)化處理,轉(zhuǎn)化為技術(shù)術(shù)語,就要用到“自然語言理解”技術(shù),俗稱“人機對話”,這是未來計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。可以暢想,未來你想了解某類知識點,通過對已結(jié)構(gòu)化的信息數(shù)據(jù)進行檢索,查找瞬間,涉及到該類知識點的書籍便會全部呈現(xiàn)眼簾,相關(guān)內(nèi)容也會被抽撿萃取。這種將文檔“知識化”的自然語言處理技術(shù),在閱讀者眼前展現(xiàn)的不僅僅是一本一本的書,而是與之相關(guān)的知識浩渺的書庫和智能化的知識分揀工具。