
我國1970年代末開始進(jìn)行漢字OCR的研究工作,在1990年代以后推出了許多成熟的印刷體簡體中文OCR軟件及搭載OCR軟件的掃描儀、掃描筆,然而中文古籍的學(xué)習(xí)者、研究者、整理者,仿佛被遺忘在了筆耕硯田的時(shí)代中。市面上可以處理繁體豎排、手寫體的OCR產(chǎn)品鳳毛麟角,更別說能處理古籍的了。面向工程化生產(chǎn)的古籍OCR系則往往需要大量人工干預(yù),效率低、成本高、周期長,僅適合大型項(xiàng)目,個(gè)人工作、學(xué)習(xí)中無緣得見。
直到2017年AI元年到來,深度學(xué)習(xí)飛速發(fā)展,多個(gè)算法模型在自然語言處理、圖像識(shí)別領(lǐng)域大放異彩,我們終于有機(jī)會(huì)暢想:如果古籍OCR也能應(yīng)用前沿AI技術(shù)實(shí)現(xiàn)識(shí)別準(zhǔn)確率的突破,那么什么樣的應(yīng)用系統(tǒng),才是中文古籍的整理、出版、研究工作最需要的?

古聯(lián)的OCR探索筆記
2018年10月,古聯(lián)公司開始帶著實(shí)現(xiàn)古籍整理出版數(shù)字化轉(zhuǎn)型的展望和在以往古籍?dāng)?shù)字化工程中遇到的問題,與圖像識(shí)別、自然語言信息處理、云計(jì)算等相關(guān)領(lǐng)域的研究團(tuán)隊(duì)、技術(shù)公司接洽,想要研發(fā)一款面向中文古籍的整理、研究、出版的智能OCR技術(shù)。

中文古籍OCR技術(shù)
核心需求
可處理刻本、稿鈔本、石印本等古籍圖像。
識(shí)別準(zhǔn)確率高于95%;單頁識(shí)別時(shí)效在1s內(nèi)。
便捷、高效的人工校對(duì)功能。
識(shí)別和編輯結(jié)果,符合閱讀順序,方便導(dǎo)出或復(fù)制。
2020年1月,古聯(lián)公司正式啟動(dòng)智能OCR技術(shù)的研發(fā),經(jīng)過了漫長而曲折的技術(shù)路線實(shí)驗(yàn),與多個(gè)合作伙伴的磨合、探索,古聯(lián)研發(fā)團(tuán)隊(duì)從理論到實(shí)踐的成長,終于初步完成了應(yīng)用級(jí)的OCR算法。
目前,古聯(lián)研發(fā)的OCR系統(tǒng)使用Cascade R-CNN模型進(jìn)行版面分析、CRAFT模型進(jìn)行文字檢測(cè)、CRNN進(jìn)行文字識(shí)別,可以實(shí)現(xiàn)對(duì)版刻、稿鈔本古籍圖片的智能OCR,一般版刻、精抄本的文字識(shí)別準(zhǔn)確率接近為98%。對(duì)古籍常見版面,不僅能準(zhǔn)確識(shí)別文字,而且通過針對(duì)性訓(xùn)練優(yōu)化分區(qū)效果,從而避免出現(xiàn)雖然單字識(shí)別正確,但顛倒錯(cuò)亂不能復(fù)用的情況。

含眉批頁面示例

跨頁復(fù)雜表格示例
在本次推出的面向個(gè)人的輕量型OCR系統(tǒng)中,實(shí)現(xiàn)了在頁面綜合圖文校對(duì)中,提示系統(tǒng)自評(píng)分不高的潛在誤字及其候選字,并實(shí)時(shí)提示圖文的對(duì)應(yīng)位置。也可以雙擊原圖中需校對(duì)的地方,快速進(jìn)入模擬傳統(tǒng)折校法的逐行校對(duì)模式,有效提升精校工作時(shí)的專注度。

折校示例
識(shí)別、校對(duì)結(jié)果可以導(dǎo)出Word文檔下載至本地,文檔中還會(huì)保留版面中體現(xiàn)的內(nèi)容成分特征,如眉批與版框內(nèi)容分開,小字注釋與大字有不同的樣式,甚至表格都會(huì)轉(zhuǎn)換出來。

含眉批頁面導(dǎo)出示例

復(fù)雜表格頁面導(dǎo)出示例
在過去9個(gè)月,古聯(lián)OCR算法已通過內(nèi)部批處理的方式為許多文獻(xiàn)整理工作提供了OCR服務(wù),識(shí)別結(jié)果經(jīng)過作者、校對(duì)者、編輯的驗(yàn)證,一般情況下都比較理想。但每次對(duì)研發(fā)同事表達(dá)驚喜、贊嘆之后,我們總會(huì)追問,還可以更好嗎?反應(yīng)速度好像還有些慢,識(shí)別錯(cuò)漏似乎還有點(diǎn)多,又遇到表現(xiàn)不好的版面了,輸出結(jié)果要做的后處理還比較麻煩……
優(yōu)化永無止境,我們是時(shí)候做個(gè)復(fù)盤,邀請(qǐng)所有熱愛古籍、從事古籍整理研究事業(yè)的朋友們來討論,對(duì)于中文古籍的整理、研究、出版來說,什么樣的OCR系統(tǒng)是好用的、真正需要的系統(tǒng)?

舉例來說,在一開始研發(fā)OCR系統(tǒng)時(shí),整理的功能需求包含了過去工程化的OCR系統(tǒng)各流程的自動(dòng)處理算法和手動(dòng)編輯工具。如圖像的預(yù)處理、版面切分校正、文本順序調(diào)整、內(nèi)容成分標(biāo)注,以及嘗試在行識(shí)別算法中讓語義分析發(fā)揮作用……

歷史測(cè)試記錄示例
在這些功能反復(fù)折磨測(cè)試人員和開發(fā)人員許久之后,我們決定先擱置其他需求,將優(yōu)化OCR識(shí)別算法及輸出效果作為核心目標(biāo)。當(dāng)前版本的OCR系統(tǒng)中,圖像處理、分區(qū)、調(diào)序、成分標(biāo)注功能都被舍棄了,上傳圖像、自動(dòng)OCR、校對(duì)、下載結(jié)果在一個(gè)頁面上一氣呵成。

籍合網(wǎng)古籍OCR界面示例
但由于算法的完成度較高,一般古籍圖像不經(jīng)過嚴(yán)格預(yù)處理也不影響識(shí)別效果,網(wǎng)頁輸出結(jié)果和下載文件基本符合人的閱讀習(xí)慣,整體而言用起來似乎更方便了。那么之前被擱置的那些功能需求,是否還有必要重新考慮呢?
在本次系統(tǒng)上線期間,算法團(tuán)隊(duì)還在進(jìn)行一些特殊版面、字體、應(yīng)覆蓋未覆蓋的漢字的標(biāo)注和訓(xùn)練,前端開發(fā)團(tuán)隊(duì)在緊鑼密鼓地搭建一個(gè)支持整本書多頁圖像批處理且提供自動(dòng)標(biāo)點(diǎn)、富文本編輯等OCR后處理服務(wù)的工作平臺(tái),待論證的研發(fā)計(jì)劃里還有書名牌記頁面的識(shí)別、合理引入NLP算法等等。這些設(shè)想里,會(huì)有沒有真實(shí)使用場(chǎng)景的偽需求,或者是令人感覺“可以但沒必要”的假創(chuàng)新嗎?