漢王還有這功夫
作為一種使用了幾百年的語言,清代滿文檔案包羅萬象,涉及面極為廣泛,是研究清代通史和各種專史的第一手資料。而且,其反映的內(nèi)容多不見于漢文檔案和其他文獻,具有重要的利用和研究價值。另外,滿文檔案中有關(guān)水文、氣象、地理、物產(chǎn)等方面的文件,對我國現(xiàn)代化建設(shè)具有一定的參考價值。
數(shù)年前,國家與各地檔案館、圖書館,就已經(jīng)開始古籍保存的工作,早期的出發(fā)點在于“保護”,即用專門的掃描儀對古籍進行掃描成像,閱覽時無需翻閱原版。然而,這種方式的缺點在于難搜索,看圖像時需要逐頁翻看,且不能剪切、拷貝以及做摘要記錄。
因此,古籍收錄成為當(dāng)下重點。古籍收錄有兩種方法,一種是依靠手工進行打字及校對,因其工作量巨大,通常情況下只能解決標(biāo)題、目錄以及摘要的檢索需求。而另一種方法,是數(shù)字化保護,即利用現(xiàn)代信息技術(shù)對古籍文獻進行加工處理,使其轉(zhuǎn)化為電子數(shù)據(jù)的形式,從而形成古籍文獻書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫,以達到對古籍長期保護和利用的目的。
漢王作為國內(nèi)最早開始研發(fā)中文識別的企業(yè)之一,在多年的研發(fā)和識別經(jīng)驗的積累下為古籍的數(shù)字化保護提供了良好的解決方案。漢王科技旗下子公司漢王數(shù)字,利用OCR識別技術(shù)(Optical Character Recognition,光學(xué)字符識別,該技術(shù)為人工智能研究的重要領(lǐng)域之一)對古籍進行識別與收錄,再輔之以圖像的整理與美化,可以快速且高效地完成古籍保護工作。

古籍?dāng)?shù)字化保護,說易行難。OCR技術(shù)雖然在很多領(lǐng)域已經(jīng)相當(dāng)成熟,但在2011年底漢王初次接觸古籍識別時,行業(yè)中利用OCR進行古籍?dāng)?shù)字化僅僅處于起步階段,直到今天放眼這一領(lǐng)域,能利用OCR進行古籍?dāng)?shù)字化的公司也是寥寥無幾。且由于當(dāng)時缺乏訓(xùn)練樣本,深度學(xué)習(xí)技術(shù)尚未實用,只能利用傳統(tǒng)機器學(xué)習(xí)方法對古籍文檔進行操作,經(jīng)歷切分、識別等一系列處理流程后,其準(zhǔn)確率不足50%。根據(jù)漢王數(shù)字在古籍保護領(lǐng)域的經(jīng)驗,與現(xiàn)代文本相比,古籍識別有幾大難點。
首先,古文字數(shù)量多且難以識別。對于簡體漢字來說,早期字符集GB2312收錄簡體漢字6763個,3000字已覆蓋到99%常用書面資料。而在漢字古籍中,常用文字已超過10000個,類別多,訓(xùn)練所需樣本數(shù)目巨大,訓(xùn)練時難以收斂,需要消耗許多時間。

【古籍樣張】
其次,由于古文演變周期較長,存在大量的通假字、異體字,給古籍文字的編碼帶來了極大的挑戰(zhàn)。此外,這些復(fù)雜的文字形式也造成了字形間的區(qū)分困難,許多相近字的寫法過于相像,甚至無法用人眼分辨。因此出現(xiàn)大量標(biāo)記錯誤樣本,為數(shù)據(jù)的清洗及訓(xùn)練帶來極大的挑戰(zhàn)。
同時,古籍識別對技術(shù)人員也有著較強專業(yè)知識的要求,以滿文為例,雖然字母在數(shù)量上沒有漢字大,但是其字形卻為數(shù)字化帶來了難題。滿文字母多是成串出現(xiàn),從上到下排列,相似字形多,技術(shù)人員需要知道每個字母或者音節(jié)的書寫規(guī)律及分隔位置。而懂滿文的人鳳毛麟角,泱泱中華不過數(shù)十人左右。不懂滿文,技術(shù)人員就需找到滿文專家學(xué)習(xí)滿文,了解滿文規(guī)律,才能設(shè)計出融入相關(guān)規(guī)律的識別算法,對其進行準(zhǔn)確識別。
另外,剛開始的時候,漢王古籍識別受數(shù)據(jù)獲取方面的限制,只能從少量古籍片段甚至是單詞中獲取相應(yīng)的數(shù)據(jù)。在開始進行古籍?dāng)?shù)字化的時候,收集數(shù)據(jù)的過程非常艱難,前期需要通過算法與人工的結(jié)合來獲取數(shù)據(jù),然后不斷發(fā)現(xiàn)錯誤的數(shù)據(jù),對其進行標(biāo)記修改后重新訓(xùn)練,進行一步步迭代,而迭代過程經(jīng)歷的時間會很長。而就載體而言,古籍紙質(zhì)本身粗糙,且時間久遠,受水漬、搬運、保存不當(dāng)?shù)扔绊懀R別時也會受到很大程度的干擾。

【《地方志》還原結(jié)果】
得益于漢王多年的識別技術(shù)積累,借著近年來深度學(xué)習(xí)的技術(shù)潮流,漢王數(shù)字在古籍識別方面取得了突破性的發(fā)展?;诖罅繑?shù)據(jù)的支撐,在獲取古籍?dāng)?shù)據(jù)后,漢王數(shù)字的技術(shù)人員對其進行基本的分析,并針對問題數(shù)據(jù)進行清洗和有效的預(yù)處理。然后,根據(jù)數(shù)據(jù)的情況,建立合適的深度學(xué)習(xí)模型。為了更好地提升效果,漢王訓(xùn)練多個模型并集成使用,目前在漢王的不斷努力下中文古籍識別準(zhǔn)確率已達到98%。
而對于滿文古籍這一比價特殊的少數(shù)民族古籍,漢王也有著良好的解決方案,早在2016年漢王就以唯一合作方的身份和國家第一歷史檔案館合作完成了“滿文檔案圖像識別軟件”的研發(fā),這款軟件在對滿文檔案掃描圖像進行識別后,能自動轉(zhuǎn)換成拉丁字母,也可以轉(zhuǎn)換成標(biāo)準(zhǔn)的滿文,極大提高了手寫體滿文向拉丁字母和滿文標(biāo)準(zhǔn)字體的轉(zhuǎn)化效率。“經(jīng)專家評審,認為此次研發(fā)的滿文輸入法和軟件達到了國內(nèi)外領(lǐng)先水平,具有重要的推廣實用價值,可用以建立滿文檔案全文檢索數(shù)據(jù)庫,為實現(xiàn)滿文檔案的數(shù)字化和信息化提供新的現(xiàn)代化途徑。”這也意味著現(xiàn)在漢王是能做手寫體滿文識別的第一家企業(yè)。
漢王在識別領(lǐng)域一直是行業(yè)的引領(lǐng)者,這得益于漢王人不斷創(chuàng)新的進取精神,同時作為一家民族科技創(chuàng)新企業(yè)漢王也有著強烈的民族責(zé)任感,做好古籍、滿文識別讓古籍資料更好的為人所知,更好的保存是漢王應(yīng)該也必須去做的,未來漢王將努力在這些方面做得更好。