漢王數(shù)字承建的又一個(gè)省檔案局科技立項(xiàng)項(xiàng)目——“基于超算平臺(tái)的高性能OCR技術(shù)在檔案數(shù)據(jù)化中的研究與實(shí)踐”項(xiàng)目正式啟動(dòng)
1月18日,由寧波市檔案館、北京漢王數(shù)字科技有限公司共同申報(bào)、承擔(dān)建設(shè)的浙江省檔案局科技立項(xiàng)項(xiàng)目——“基于超算平臺(tái)的高性能OCR技術(shù)在檔案數(shù)據(jù)化中的研究與實(shí)踐”項(xiàng)目,在寧波市檔案館正式啟動(dòng)。
▲項(xiàng)目啟動(dòng)會(huì)現(xiàn)場(chǎng)
▲漢王數(shù)字首席數(shù)據(jù)官聶昱發(fā)言

▲項(xiàng)目啟動(dòng)會(huì)現(xiàn)場(chǎng)
“基于超算平臺(tái)的高性能OCR技術(shù)在檔案數(shù)據(jù)化中的研究與實(shí)踐”項(xiàng)目(以下稱:本項(xiàng)目),是2023年寧波市檔案館聯(lián)合北京漢王數(shù)字科技有限公司共同申報(bào)成功的浙江省檔案局科技項(xiàng)目。本項(xiàng)目以寧波市檔案館豐富的館藏檔案資源為基礎(chǔ),借助寧波市人工智能超算中心全自主國(guó)產(chǎn)化算力資源,將寧波市檔案館多年來在人工智能應(yīng)用、信息化建設(shè)工作中積累的實(shí)踐經(jīng)驗(yàn)與北京漢王數(shù)字科技有限公司在OCR識(shí)別和人工智能領(lǐng)域領(lǐng)先的技術(shù)相結(jié)合。旨在研究復(fù)雜圖像文本檢測(cè)、表格識(shí)別技術(shù)、基于深度學(xué)習(xí)的檔案OCR工作流程;探討超算平臺(tái)加速卡推理方法及高性能加速方法、非超算推理環(huán)境下加速方法。
2013年以來,在國(guó)家檔案局大力實(shí)施“存量數(shù)字化、增量電子化”的戰(zhàn)略背景下,紙質(zhì)檔案數(shù)字化副本大量產(chǎn)生。截至2019年年底,全國(guó)各級(jí)綜合檔案館館藏檔案數(shù)字化副本容量已達(dá)1407.8萬GB。而隨著檔案事業(yè)的不斷發(fā)展、相關(guān)技術(shù)的不斷革新,檔案利用需求不斷開始從“電子圖像”向“檔案文本”、“檔案知識(shí)”轉(zhuǎn)移。為規(guī)范相關(guān)工作的開展,國(guó)家檔案局因勢(shì)利導(dǎo),于2019年12月發(fā)布《紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識(shí)別(OCR)工作規(guī)范》,規(guī)定了紙質(zhì)檔案數(shù)字復(fù)制件OCR工作的組織、實(shí)施和管理要求,確定了開展檔案OCR工作的總體原則、工作流程、質(zhì)量規(guī)定等。
OCR(Optical Character Recognition,光學(xué)字符識(shí)別)其原理是通過專門的OCR技術(shù),將含有文字的圖像按字切割成可獨(dú)立識(shí)別的單元,然后運(yùn)用各種算法分析每個(gè)圖像單元中文字的形態(tài)特征,通過比對(duì)標(biāo)準(zhǔn)特征庫(kù)中的數(shù)據(jù),判斷出該文字在計(jì)算機(jī)中的標(biāo)準(zhǔn)編碼,并按通用格式輸出保存在文本文件中。
另外,在檔案OCR識(shí)別中,需要用到圖形處理器(Graphic Processing Unit,GPU)資源。而當(dāng)動(dòng)輒上千萬頁(yè)的檔案數(shù)據(jù)需要做OCR識(shí)別時(shí),所需要的大量GPU算力資源就成了各級(jí)檔案館的難題。同時(shí)主流顯卡的顯示芯片主要由NVIDIA(英偉達(dá))和AMD(超威半導(dǎo)體公司)兩大廠商制造,2022年9月,美國(guó)對(duì)中國(guó)實(shí)施新的貿(mào)易限制,禁止英偉達(dá)和AMD向中國(guó)出售高性能計(jì)算機(jī)和人工智能技術(shù)。未來,運(yùn)用基于國(guó)產(chǎn)技術(shù)建設(shè)而成的超算中心算力將成為主流選擇。
漢王致力于OCR、NLP技術(shù)多年,技術(shù)力量行業(yè)領(lǐng)先。本項(xiàng)目將基于寧波超算中心全國(guó)產(chǎn)化算力,與華為昇騰技術(shù)團(tuán)隊(duì)進(jìn)行技術(shù)對(duì)接。旨在研發(fā)一套基于全國(guó)產(chǎn)化高算力環(huán)境下的深度學(xué)習(xí)高精度OCR數(shù)據(jù)化系統(tǒng)。研究超算平臺(tái)資源調(diào)度方法、國(guó)產(chǎn)化平臺(tái)推理技術(shù)適配以及識(shí)別軟件開發(fā)包適配開發(fā),實(shí)現(xiàn)全棧國(guó)產(chǎn)化的同時(shí)對(duì)深度學(xué)習(xí)OCR硬件賦能,實(shí)現(xiàn)檔案數(shù)據(jù)結(jié)構(gòu)化提速。實(shí)現(xiàn)智能算法與檔案業(yè)務(wù)工作的深度融合,降低數(shù)據(jù)資源采集成本,提升檔案數(shù)據(jù)資源數(shù)據(jù)化效率。

▲漢王數(shù)字首席數(shù)據(jù)官聶昱發(fā)言
會(huì)議中,漢王數(shù)字首席數(shù)據(jù)官聶昱指出:“本課題研究?jī)?nèi)容,既有助于充分發(fā)揮超算平臺(tái)算力的價(jià)值,也有助于幫助檔案館解決在業(yè)務(wù)工作開展中遇到對(duì)海量數(shù)據(jù)進(jìn)行復(fù)雜處理的實(shí)際問題。同時(shí),在課題研究?jī)?nèi)容中,一方面,研究與實(shí)證OCR算法模型與包括國(guó)產(chǎn)化硬件在內(nèi)的底層硬件的適配,另一方面,也研究與探索,在此過程中跨域數(shù)據(jù)的傳輸、管理與保護(hù)機(jī)制。通過這些研究,在未來也可以給兄弟單位和部門,類似應(yīng)用提供寶貴的經(jīng)驗(yàn)與示范。另外,在數(shù)字檔案館向智慧檔案館的提升過程中,越來越多的AI能力會(huì)被引入用于挖掘檔案的數(shù)據(jù)價(jià)值,擴(kuò)展與提升應(yīng)用和服務(wù)能力。目前,漢王數(shù)字與各檔案館在數(shù)據(jù)化識(shí)別、數(shù)據(jù)挖掘、數(shù)據(jù)治理、數(shù)據(jù)質(zhì)檢、開放審核、專題知識(shí)庫(kù),智慧編研等各方面都有相關(guān)合作和探索。所有這些相關(guān)工作中,基于OCR進(jìn)行數(shù)據(jù)化工作,只是其中最上游的工作。后續(xù)還有相當(dāng)多的工作一樣需要強(qiáng)大的算力作為支撐。因此,在本課題中,針對(duì)OCR技術(shù)進(jìn)行相關(guān)的研究,可以為后續(xù)更廣闊的算力應(yīng)用與AI能力開發(fā)提供先行探索的經(jīng)驗(yàn)。”
檔案OCR識(shí)別數(shù)據(jù)化業(yè)務(wù),作為檔案數(shù)據(jù)利用的基礎(chǔ)工作,我們一直堅(jiān)持最高標(biāo)準(zhǔn)、提前準(zhǔn)備。早在2020年,漢王數(shù)字承建的數(shù)據(jù)化識(shí)別項(xiàng)目中,我們就堅(jiān)持為客戶提供除TXT、雙層PDF格式之外能夠保留更多版式信息的JSON格式數(shù)據(jù),提前為客戶數(shù)據(jù)利用做好準(zhǔn)備。我們?cè)?021年與杭州市檔案館聯(lián)合申報(bào)成功并已通過驗(yàn)收的國(guó)家檔案局科技項(xiàng)目“OCR+NLP技術(shù)在檔案數(shù)據(jù)化中的研究與實(shí)踐”中,就研究提出當(dāng)檔案數(shù)據(jù)在NLP技術(shù)下利用時(shí),要求前期OCR識(shí)別輸出有一定的數(shù)據(jù)規(guī)范,為數(shù)據(jù)利用提前布局。
漢王數(shù)字作為本次課題的聯(lián)合申報(bào)方之一,十分感謝各單位對(duì)我們的支持。在本課題的研究與實(shí)施過程中,我們一定會(huì)積極探索,扎實(shí)落地,全力以赴,一定圓滿完成本課題的研究與實(shí)踐。
同時(shí),值得一提的是,這已經(jīng)是漢王承擔(dān)建設(shè)的第五個(gè)省檔案局或國(guó)家檔案局科技項(xiàng)目啦,漢王在檔案行業(yè)承擔(dān)的其他科技課題項(xiàng)目分別為:
1、OCR+NLP技術(shù)在檔案數(shù)據(jù)化中的研究與實(shí)踐——杭州市檔案館&北京漢王數(shù)字科技有限公司(2021年國(guó)家課題)
2、基于深度學(xué)習(xí)技術(shù)的民國(guó)檔案OCR識(shí)別引擎研究——湖北省檔案館&北京漢王數(shù)字科技有限公司(2023年國(guó)家課題)
3、基于跨門類民生檔案的多模態(tài)彈性關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)建設(shè)及智慧化利用研究----以五類民生檔案為例——紹興市檔案館&北京漢王數(shù)字科技有限公司(2023年國(guó)家課題)
4、基于自然語言處理技術(shù)的革命歷史檔案資源庫(kù)構(gòu)建與應(yīng)用——寧波市檔案館&北京漢王數(shù)字科技有限公司(2023年省課題)
“讓機(jī)器更懂你”是為漢王人不懈追求的使命,在解決檔案行業(yè)的重難點(diǎn)問題上,漢王將不辱使命、不斷求索!