漢王科技聯(lián)合第一歷史檔案館成功研發(fā)滿文識別通軟件,推動滿文檔案信息化跨越式發(fā)展
11月5日,中國第一歷史檔案館在京舉辦的“改革開放四十年滿文檔案工作回顧與展望”座談會上,正式發(fā)布了由一史館與漢王科技等單位合作研發(fā)的滿文圖像識別軟件系統(tǒng)—“滿文識別通”、“滿文輸入通”,以及基于這兩個軟件開發(fā)的“滿文朱批奏折全文檢索數(shù)據(jù)庫”。






漢王科技高級副總裁李志峰(右二)在項目成果發(fā)布儀式上代表合作企業(yè)為軟件發(fā)布揭幕
該項目軟件開創(chuàng)了少數(shù)民族文字手寫體識別技術的先河,填補了滿文檔案信息化和數(shù)字化領域的技術和應用軟件空白,不僅使?jié)M文檔案數(shù)字化及利用方式產(chǎn)生了飛躍式變革,還為歷史檔案在“互聯(lián)網(wǎng)+”時代如何弘揚中國歷史文化提供了新思路。同時,這一滿文圖像識別軟件項目也榮獲了“2018年度國家檔案局優(yōu)秀科技成果特等獎”:

漢王科技作為第一歷史檔案館滿文識別軟件的技術提供方,在多年模式識別技術及應用經(jīng)驗積累下為古籍的數(shù)字化保護提供了良好的解決方案。漢王科技旗下子公司漢王數(shù)字,利用OCR識別技術(光學字符識別,該技術為人工智能研究的重要領域之一)對古籍進行識別與收錄,再輔之以圖像的整理與美化,可以快速且高效地完成古籍保護工作。
早在2015年漢王科技就與一史館合作開始了“滿文檔案圖像識別軟件”項目的研發(fā),其中的“滿文識別通”軟件可將滿文檔案的圖像信息通過識別技術轉(zhuǎn)換成可編輯檢索的文本信息,同時可實現(xiàn)識別模型的迭代更新,隨著樣本庫的增加,識別率逐步提升。這一系統(tǒng)的滿文行書識別率86.6%,滿文楷書識別率95.1%,其單機識別速度達到每小時625畫幅,而人工每人每小時處理速度僅約4畫幅。此外,軟件易操作、兼容性強,具有重要的推廣實用價值,可用以建立滿文檔案全文檢索數(shù)據(jù)庫,為滿語言這一國家語言文字遺產(chǎn)的傳承和活化開辟了途徑,并將推動滿文檔案工作和研究實現(xiàn)跨越式發(fā)展。

軟件界面可同時顯示滿文檔案原圖、滿文標準字體或滿文轉(zhuǎn)寫字母,便于校對。上圖演示以滿文朱批為例,左邊是檔案的文件名,淡黃色背景為檔案圖像,右邊的拉丁字母是識別結(jié)果
滿文檔案種類多樣,內(nèi)容豐富,滿文檔案在完整、準確解讀歷史方面的獨特作用和珍貴價值是中華民族歷史文化遺產(chǎn)的重要組成部分。據(jù)介紹,一史館館藏1000多萬件檔案中,滿文檔案占約200萬件,占館藏的五分之一,是世界上現(xiàn)存滿文檔案數(shù)量最多的機構。過去滿文檔案的整理、著錄、編目和翻譯等工作基本依靠專業(yè)人員純?nèi)斯げ僮鳎且豁楊H費時日的工程,“滿文檔案圖像識別軟件系統(tǒng)”項目研發(fā)開拓了滿文檔案的工作思路,提高了滿文檔案文獻信息化工作效率,同時在一定程度緩解了滿文人才緊缺的難題。此外,這一項目也為其他少數(shù)民族文字的文獻數(shù)字化項目提供了參考。