91精品无码国产综合久久,日本免费网站2021年能用的6,跟前妻见一次睡一次

漢王還有這功夫

作為一種使用了幾百年的語言，清代滿文檔案包羅萬象，涉及面極為廣泛，是研究清代通史和各種專史的第一手資料。而且，其反映的內(nèi)容多不見于漢文檔案和其他文獻(xiàn)，具有重要的利用和研究價值。另外，滿文檔案中有關(guān)水文、氣象、地理、物產(chǎn)等方面的文件，對我國現(xiàn)代化建設(shè)具有一定的參考價值。

數(shù)年前，國家與各地檔案館、圖書館，就已經(jīng)開始古籍保存的工作，早期的出發(fā)點在于“保護”，即用專門的掃描儀對古籍進行掃描成像，閱覽時無需翻閱原版。然而，這種方式的缺點在于難搜索，看圖像時需要逐頁翻看，且不能剪切、拷貝以及做摘要記錄。

因此，古籍收錄成為當(dāng)下重點。古籍收錄有兩種方法，一種是依靠手工進行打字及校對，因其工作量巨大，通常情況下只能解決標(biāo)題、目錄以及摘要的檢索需求。而另一種方法，是數(shù)字化保護，即利用現(xiàn)代信息技術(shù)對古籍文獻(xiàn)進行加工處理，使其轉(zhuǎn)化為電子數(shù)據(jù)的形式，從而形成古籍文獻(xiàn)書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫，以達(dá)到對古籍長期保護和利用的目的。

漢王作為國內(nèi)最早開始研發(fā)中文識別的企業(yè)之一，在多年的研發(fā)和識別經(jīng)驗的積累下為古籍的數(shù)字化保護提供了良好的解決方案。漢王科技旗下子公司漢王數(shù)字，利用OCR識別技術(shù)（Optical Character Recognition，光學(xué)字符識別，該技術(shù)為人工智能研究的重要領(lǐng)域之一）對古籍進行識別與收錄，再輔之以圖像的整理與美化，可以快速且高效地完成古籍保護工作。

古籍?dāng)?shù)字化保護，說易行難。OCR技術(shù)雖然在很多領(lǐng)域已經(jīng)相當(dāng)成熟，但在2011年底漢王初次接觸古籍識別時，行業(yè)中利用OCR進行古籍?dāng)?shù)字化僅僅處于起步階段，直到今天放眼這一領(lǐng)域，能利用OCR進行古籍?dāng)?shù)字化的公司也是寥寥無幾。且由于當(dāng)時缺乏訓(xùn)練樣本，深度學(xué)習(xí)技術(shù)尚未實用，只能利用傳統(tǒng)機器學(xué)習(xí)方法對古籍文檔進行操作，經(jīng)歷切分、識別等一系列處理流程后，其準(zhǔn)確率不足50%。根據(jù)漢王數(shù)字在古籍保護領(lǐng)域的經(jīng)驗，與現(xiàn)代文本相比，古籍識別有幾大難點。

首先，古文字?jǐn)?shù)量多且難以識別。對于簡體漢字來說，早期字符集GB2312收錄簡體漢字6763個，3000字已覆蓋到99%常用書面資料。而在漢字古籍中，常用文字已超過10000個，類別多，訓(xùn)練所需樣本數(shù)目巨大，訓(xùn)練時難以收斂，需要消耗許多時間。

【古籍樣張】

其次，由于古文演變周期較長，存在大量的通假字、異體字，給古籍文字的編碼帶來了極大的挑戰(zhàn)。此外，這些復(fù)雜的文字形式也造成了字形間的區(qū)分困難，許多相近字的寫法過于相像，甚至無法用人眼分辨。因此出現(xiàn)大量標(biāo)記錯誤樣本，為數(shù)據(jù)的清洗及訓(xùn)練帶來極大的挑戰(zhàn)。

同時，古籍識別對技術(shù)人員也有著較強專業(yè)知識的要求，以滿文為例，雖然字母在數(shù)量上沒有漢字大，但是其字形卻為數(shù)字化帶來了難題。滿文字母多是成串出現(xiàn)，從上到下排列，相似字形多，技術(shù)人員需要知道每個字母或者音節(jié)的書寫規(guī)律及分隔位置。而懂滿文的人鳳毛麟角，泱泱中華不過數(shù)十人左右。不懂滿文，技術(shù)人員就需找到滿文專家學(xué)習(xí)滿文，了解滿文規(guī)律，才能設(shè)計出融入相關(guān)規(guī)律的識別算法，對其進行準(zhǔn)確識別。

另外，剛開始的時候，漢王古籍識別受數(shù)據(jù)獲取方面的限制，只能從少量古籍片段甚至是單詞中獲取相應(yīng)的數(shù)據(jù)。在開始進行古籍?dāng)?shù)字化的時候，收集數(shù)據(jù)的過程非常艱難，前期需要通過算法與人工的結(jié)合來獲取數(shù)據(jù)，然后不斷發(fā)現(xiàn)錯誤的數(shù)據(jù)，對其進行標(biāo)記修改后重新訓(xùn)練，進行一步步迭代，而迭代過程經(jīng)歷的時間會很長。而就載體而言，古籍紙質(zhì)本身粗糙，且時間久遠(yuǎn)，受水漬、搬運、保存不當(dāng)?shù)扔绊?，識別時也會受到很大程度的干擾。

【《地方志》還原結(jié)果】

得益于漢王多年的識別技術(shù)積累，借著近年來深度學(xué)習(xí)的技術(shù)潮流，漢王數(shù)字在古籍識別方面取得了突破性的發(fā)展?；诖罅繑?shù)據(jù)的支撐，在獲取古籍?dāng)?shù)據(jù)后，漢王數(shù)字的技術(shù)人員對其進行基本的分析，并針對問題數(shù)據(jù)進行清洗和有效的預(yù)處理。然后，根據(jù)數(shù)據(jù)的情況，建立合適的深度學(xué)習(xí)模型。為了更好地提升效果，漢王訓(xùn)練多個模型并集成使用，目前在漢王的不斷努力下中文古籍識別準(zhǔn)確率已達(dá)到98%。

而對于滿文古籍這一比價特殊的少數(shù)民族古籍，漢王也有著良好的解決方案，早在2016年漢王就以唯一合作方的身份和國家第一歷史檔案館合作完成了“滿文檔案圖像識別軟件”的研發(fā)，這款軟件在對滿文檔案掃描圖像進行識別后，能自動轉(zhuǎn)換成拉丁字母，也可以轉(zhuǎn)換成標(biāo)準(zhǔn)的滿文，極大提高了手寫體滿文向拉丁字母和滿文標(biāo)準(zhǔn)字體的轉(zhuǎn)化效率。“經(jīng)專家評審，認(rèn)為此次研發(fā)的滿文輸入法和軟件達(dá)到了國內(nèi)外領(lǐng)先水平，具有重要的推廣實用價值，可用以建立滿文檔案全文檢索數(shù)據(jù)庫，為實現(xiàn)滿文檔案的數(shù)字化和信息化提供新的現(xiàn)代化途徑。”這也意味著現(xiàn)在漢王是能做手寫體滿文識別的第一家企業(yè)。

漢王在識別領(lǐng)域一直是行業(yè)的引領(lǐng)者，這得益于漢王人不斷創(chuàng)新的進取精神，同時作為一家民族科技創(chuàng)新企業(yè)漢王也有著強烈的民族責(zé)任感，做好古籍、滿文識別讓古籍資料更好的為人所知，更好的保存是漢王應(yīng)該也必須去做的，未來漢王將努力在這些方面做得更好。

上一篇：文檔“大數(shù)據(jù)” 漢王攻堅AI難點-自然語言處理（下）

下一篇：漢王科技聯(lián)合第一歷史檔案館成功研發(fā)滿文識別通軟件，推動滿文檔案信息化跨越式發(fā)展

美女樱桃被扒开液体流出来图_18禁亚洲深夜福利入口gif_把你玩坏掉免费看全集_被夫好友侵犯中文字幕影音

HOME

HOME

×分享到微信

漢王還有這功夫