前言 文字識(shí)別是計(jì)算機(jī)視覺(jué)研究領(lǐng)域的分支之一,歸屬于模式識(shí)別和人工智能,是計(jì)算機(jī)科學(xué)的重要組成部分 本文將以上圖為主要線索,簡(jiǎn)要闡述在文字識(shí)別領(lǐng)域中的各個(gè)組成部分。 一 ,文字識(shí)別簡(jiǎn)介 計(jì)算機(jī)文字識(shí)別,俗稱(chēng)光學(xué)字符識(shí)別,英文全稱(chēng)是Optical Character Recognition(簡(jiǎn)稱(chēng)OCR),它是利用光學(xué)技術(shù)和計(jì)算機(jī)技術(shù)把印在或?qū)懺诩埳系奈淖肿x取出來(lái),并轉(zhuǎn)換成一種計(jì)算機(jī)能夠接受、人又可以理解的格式。OCR技術(shù)是實(shí)現(xiàn)文字高速錄入的一項(xiàng)關(guān)鍵技術(shù)。 在OCR技術(shù)中,印刷體文字識(shí)別是開(kāi)展最早,技術(shù)上最為成熟的一個(gè)。早在1929年德國(guó)科學(xué)家Taushek就取得了一項(xiàng)光學(xué)字符識(shí)別(Optical Character Recognition,簡(jiǎn)稱(chēng)OCR)的專(zhuān)利131。歐美國(guó)家為了將浩如煙海、與日俱增的大量報(bào)刊雜志、文件資料和單據(jù)報(bào)表等文字材料輸入計(jì)算機(jī)進(jìn)行信息處理,從上世紀(jì)50年代就開(kāi)始了西文OCR技術(shù)的研究,以便代替人工鍵盤(pán)輸入。經(jīng)過(guò)40多年的不斷發(fā)展和完善,并隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,西文OCR技術(shù)現(xiàn)已廣泛應(yīng)用于各個(gè)領(lǐng)域,使得大量的文字資料能夠快速、方便、省時(shí)省力和及時(shí)地輸入到計(jì)算機(jī)中,實(shí)現(xiàn)了信息處理的“電子化”。 與印刷體西文OCR相比,印刷體漢文OCR技術(shù)的研究是在印刷體數(shù)字識(shí)別和印刷體英文識(shí)別的基礎(chǔ)上發(fā)展起來(lái)的,最早可以追溯到上世紀(jì)60年代。1966年,BIM公司的Casey和Nagy發(fā)表了第一篇關(guān)于印刷體漢字識(shí)別的論文,在這篇論文中他們利用簡(jiǎn)單的模板匹配法,識(shí)別了1000個(gè)印刷體漢字。從上世紀(jì)70年代以來(lái),日本學(xué)者在漢文OCR方面做了許多研究工作,其中有代表性的系統(tǒng)有1977年?yáng)|芝綜合研究所研制的可以識(shí)別2000個(gè)單體印刷漢字的識(shí)別系統(tǒng);80年代初期,日本武藏野電氣研究所研制的可以識(shí)別2300個(gè)多體漢字的印刷體漢字識(shí)別系統(tǒng),代表了當(dāng)時(shí)漢字識(shí)別的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷體漢字識(shí)別系統(tǒng)。這些系統(tǒng)在方法上,大都采用基于K-L數(shù)字變換的匹配方案,使用了大量專(zhuān)用硬件,其設(shè)備有的相當(dāng)于小型機(jī)甚至大型機(jī),價(jià)格極其昂貴,所以并沒(méi)有得到廣泛應(yīng)用。 與國(guó)外相比,我國(guó)的印刷體漢字識(shí)別研究是從上世紀(jì)70年代末起步的,至今己有近三十年的發(fā)展歷史,大致可以分成如下三個(gè)階段: 1)探索階段(1979一1985) 在對(duì)數(shù)字、英文、符號(hào)識(shí)別研究的基礎(chǔ)上,自上世紀(jì)70年代末,國(guó)內(nèi)就有少數(shù)單位的研究人員對(duì)漢字識(shí)別方法進(jìn)行了探索,發(fā)表了一些論文,研制了少量模擬識(shí)別軟件和系統(tǒng)。這個(gè)階段漫長(zhǎng),成果不多,但是卻孕育了下一個(gè)階段的豐碩果實(shí)。 2)研制階段(1986~1988) 1986年初到1988年底,這三年是漢字識(shí)別技術(shù)研究的高潮期,也是印刷體漢字識(shí)別技術(shù)研究的豐收期。總共有11個(gè)單位進(jìn)行了14次印刷體漢字識(shí)別的成果鑒定,這些系統(tǒng)對(duì)樣張識(shí)別能達(dá)到高指標(biāo):可以識(shí)別宋體、仿宋體、黑體、楷體,識(shí)別的字?jǐn)?shù)最多可達(dá)6763個(gè),字號(hào)從3號(hào)到5號(hào),識(shí)別率高達(dá)99.5%以上,識(shí)別速度在286微機(jī)條件下能夠達(dá)到10~14字/秒,但對(duì)真實(shí)文本識(shí)別率大大下降,這是由于以上系統(tǒng)對(duì)印刷體文字形狀變化(如文字模糊、筆劃粘連、斷筆、黑白不均、紙質(zhì)質(zhì)量差、油墨反透等等)的適應(yīng)性和抗干擾性比較差造成的。但是這三年研制的識(shí)別系統(tǒng)為印刷體漢字識(shí)別系統(tǒng)的實(shí)用化打下了基礎(chǔ),是識(shí)別系統(tǒng)從研制到實(shí)用化必經(jīng)的過(guò)程。 3)實(shí)用階段(1989一至今) 印刷體漢字識(shí)別自1986年掀起高潮以來(lái),清華大學(xué)電子工程系、中國(guó)科學(xué)院計(jì)算所智能中心、北京信息工程學(xué)院、沈陽(yáng)自動(dòng)化研究所等多家單位分別研制并開(kāi)發(fā)出了實(shí)用化的印刷體漢字識(shí)別系統(tǒng)。尤其是由清華大學(xué)電子工程系研制的清華TH一OCR產(chǎn)品和由漢王集團(tuán)開(kāi)發(fā)的尚書(shū)OCR產(chǎn)品,它們始終都處于技術(shù)發(fā)展的最前沿,并占據(jù)著最大的市場(chǎng)份額,代表著印刷體漢字識(shí)別技術(shù)的發(fā)展潮流。目前,印刷體漢字識(shí)別技術(shù)的研究熱點(diǎn)已經(jīng)從單純的文字識(shí)別轉(zhuǎn)移到了表格的自動(dòng)識(shí)別與錄入,圖文混排和多語(yǔ)種混排的版面分析、版面理解和版面恢復(fù),名片識(shí)別,金融票據(jù)識(shí)別和古籍識(shí)別等內(nèi)容上。并且出現(xiàn)了許多相關(guān)的識(shí)別系統(tǒng),如:紫光文通推出的名片識(shí)別系統(tǒng)(e一card)、身份證識(shí)別系統(tǒng)(e驗(yàn)通)和“慧視”屏幕文字圖像識(shí)別系統(tǒng)等等。這些新的識(shí)別系統(tǒng)的出現(xiàn),標(biāo)志著印刷體漢字識(shí)別技術(shù)的應(yīng)用領(lǐng)域得到了廣闊的擴(kuò)展。 國(guó)家高技術(shù)研究發(fā)展“863”計(jì)劃、國(guó)家重點(diǎn)科技攻關(guān)計(jì)劃、國(guó)家自然科學(xué)基金和軍事基礎(chǔ)研究基金都對(duì)印刷體漢字識(shí)別這一研究課題予以極大的重視和大力的支持。目前,印刷體漢字識(shí)別和聯(lián)機(jī)手寫(xiě)漢字識(shí)別走向?qū)嵱没浼夹g(shù)水平和當(dāng)前世界最高水平并駕齊驅(qū)。 這篇文章將對(duì)OCR技術(shù)進(jìn)行分類(lèi)描述,并介紹一些在OCR領(lǐng)域中較常使用的算法,由于個(gè)人主要參與的項(xiàng)目實(shí)踐與印刷體識(shí)別較為相關(guān),所以對(duì)于其他領(lǐng)域的描述若有不當(dāng)之處,請(qǐng)大家指正,希望本文的介紹會(huì)讓大家對(duì)OCR的整個(gè)流程有一個(gè)簡(jiǎn)要的概念。 二 ,印刷體文字識(shí)別 OCR技術(shù)的興起便是從印刷體識(shí)別開(kāi)始的,印刷體識(shí)別的成功為后來(lái)手寫(xiě)體的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。印刷體識(shí)別的主要流程大致分為以下幾個(gè)部分:圖像預(yù)處理;版面處理;圖像切分;特征提取、匹配及模型訓(xùn)練、匹配;識(shí)別后處理。 2.1 圖像預(yù)處理 輸入文本經(jīng)過(guò)掃描儀進(jìn)入計(jì)算機(jī)后,由于紙張的厚薄、光潔度和印刷質(zhì)量都會(huì)造成文字畸變,產(chǎn)生斷筆、粘連和污點(diǎn)等干擾,所以在進(jìn)行文字識(shí)別之前,要對(duì)帶有噪聲的文字圖像進(jìn)行處理。由于這種處理工作是在文字識(shí)別之前,所以被稱(chēng)為預(yù)處理。預(yù)處理一般包括灰度化、二值化,傾斜檢測(cè)與校正,行、字切分,平滑,規(guī)范化等等。 2.1.1灰度化 通過(guò)外設(shè)采集的圖像通常為彩色圖像,彩色圖像會(huì)夾雜一些干擾信息,灰度化處理的主要目的就是濾除這些信息,灰度化的實(shí)質(zhì)其實(shí)就是將原本由三維描述的像素點(diǎn),映射為一維描述的像素點(diǎn)。轉(zhuǎn)換的方式和規(guī)則有很多,在這里不詳細(xì)介紹。 2.1.2 二值化 經(jīng)過(guò)灰度處理的彩色圖像還需經(jīng)過(guò)二值化處理將文字與背景進(jìn)一步分離開(kāi),所謂二值化,就是將灰度值(或者彩色值)圖像信號(hào)轉(zhuǎn)化成只有黑(l)和白(0)的二值圖像信號(hào)。二值化效果的好壞,會(huì)直接影響灰度文本圖像的識(shí)別率。二值化方法大致可以分為局部閾值二值化和整體閾值二值化。目前使用較多的日本學(xué)者大津提出的“大津法” 2.1.3傾斜校正 印刷體文本資料大多是由平行于頁(yè)面邊緣的水平(或者垂直)的文本行(或者列)組成的,即傾斜角度為零度。然而在文本頁(yè)面掃描過(guò)程中,不論是手工掃描還是機(jī)器掃描,都不可避免地會(huì)出現(xiàn)圖像傾斜現(xiàn)象。而傾斜的文檔圖像對(duì)后期的字符分割、識(shí)別和圖像壓縮等工作將產(chǎn)生很大影響。為了保證后續(xù)處理的正確性,對(duì)文本圖像進(jìn)行傾斜檢測(cè)和校正是十分必要的。 文本圖像的傾斜校正分為手動(dòng)校正和自動(dòng)校正兩種。手動(dòng)校正,是指識(shí)別系統(tǒng)提供某種人機(jī)交互手段,實(shí)現(xiàn)文本圖像的傾斜校正。自動(dòng)校正,是指由計(jì)算機(jī)自動(dòng)分析文本圖像的版面特征,估計(jì)圖像的傾斜角度,并根據(jù)傾斜角度對(duì)文本圖像進(jìn)行校正。 目前,文本圖像的傾斜檢測(cè)方法有許多種,主要可以劃分為以下五類(lèi):基于投影圖的方法,基于Houhg變換的方法,基于交叉相關(guān)性的方法,基于Fourier變換的方法和基于最近鄰聚類(lèi)方法。 最簡(jiǎn)單的基于投影圖的方法是將文本圖像沿不同方向進(jìn)行投影。當(dāng)投影方向和文字行方向一致時(shí),文字行在投影圖上的峰值最大,并且投影圖存在明顯的峰谷,此時(shí)的投影方向就是傾斜角度。 Huogh變換也是一種最常用的傾斜檢測(cè)方法,它是利用Hough變換的特性,將圖像中的前景像素映射到極坐標(biāo)空間,通過(guò)統(tǒng)計(jì)極坐標(biāo)空間各點(diǎn)的累加值得到文檔圖像的傾斜角度。 Fourier變換的方法是利用頁(yè)面傾角對(duì)應(yīng)于使Fourier空間密度最大的方向角的特性,將文檔圖像的所有像素點(diǎn)進(jìn)行Fourier變換。這種方法的計(jì)算量非常大,目前很少采用。 基于最近鄰聚類(lèi)方法,取文本圖像的某個(gè)子區(qū)域中字符連通域的中心點(diǎn)作為特征點(diǎn),利用基線上的點(diǎn)的連續(xù)性,計(jì)算出對(duì)應(yīng)的文本行的方向 角,從而得到整個(gè)頁(yè)面的傾斜角。 2.1.4規(guī)范化 規(guī)范化操作就是將輸入的任意尺寸的文字都處理成統(tǒng)一尺寸的標(biāo)準(zhǔn)文字,以便與己經(jīng)預(yù)先存儲(chǔ)在字典中的參考模板相匹配。規(guī)范化操作包括1211:位置規(guī)范化、大小規(guī)范化以及筆劃粗細(xì)規(guī)范化。在本節(jié)只討論位置規(guī)范化和大小規(guī)范化。 為了消除文字點(diǎn)陣位置上的偏差,需要把整個(gè)文字點(diǎn)陣圖移動(dòng)到規(guī)定的位置上,這個(gè)過(guò)程被稱(chēng)為位置規(guī)范化。常用的位置規(guī)范化操作有兩種,一種是基于質(zhì)心的位置規(guī)范化,另一種是基于文字外邊框的位置規(guī)范化?;谖淖滞膺吙虻奈恢靡?guī)范化需要首先計(jì)算文字的外邊框,并找出中心,然后把文字中心移動(dòng)到指定的位置上來(lái)?;谫|(zhì)心的位置規(guī)范化方法抗干擾能力比基于文字外邊框的位置規(guī)范化方法要強(qiáng)。 使用基于文字外邊框的位置規(guī)范化方法對(duì)文字進(jìn)行位置規(guī)范化的操作結(jié)果,如下圖所示。 對(duì)不同大小的文字做變換,使之成為同一尺寸大小,這個(gè)過(guò)程被稱(chēng)為大小規(guī)范化。很多已有的多字號(hào)印刷體識(shí)別系統(tǒng)都是通過(guò)大小規(guī)范化來(lái)識(shí)別不同字號(hào)的文字。常用的大小規(guī)范化操作也有兩種,一種是將文字的外邊框按比例線性放大或縮小成規(guī)定尺寸的文字,另一種是根據(jù)水平和垂直兩個(gè)方向上文字黑像素的分布情況進(jìn)行大小規(guī)范化。 使用根據(jù)水平和垂直兩個(gè)方向上文字黑像素的分布情況方法對(duì)文字進(jìn)行大小規(guī)范化操作的效果,如下圖所示。 2.1.5圖像平滑 文本圖像經(jīng)過(guò)平滑處理之后,能夠去掉筆劃上的孤立白點(diǎn)和筆劃外部的孤立黑點(diǎn),以及筆劃邊緣的凹凸點(diǎn),使得筆劃邊緣變得平滑。一種簡(jiǎn)單的平滑處理方法如下。采用NxN窗口(N一般為3,如圖2-1所示是一個(gè)3X3窗口),依次在二值文字點(diǎn)陣中進(jìn)行掃描,根據(jù)窗口中黑白像素的分布情況,使處于窗口中心的被平滑像素X。,從“0”變成“1”或者從“l(fā)”變成“0”。 該方法是按以下規(guī)則對(duì)文字輪廓邊緣進(jìn)行平滑的。 規(guī)則1如果滿足圖2-2中(a),(b),(c),(d)四種情況中的任何一種,則中心點(diǎn)應(yīng)該由“0”變成“l(fā)”。 規(guī)則2如果滿足圖2-2中(e),(f),(g),(h)四種情況中的任何一種,則中心點(diǎn)應(yīng)該由“1”變成“0”。 2.2版面處理 通常版面處理分為三個(gè)主要部分,版面分析、版面理解、版面重構(gòu)。 2.2.1版面分析 將文本圖像分割為不同部分,并標(biāo)定各部分屬性,如:文本、圖像、表格。目前在版面分析方面的工作核心思想都是基于連通域分析法,后衍生出的基于神經(jīng)網(wǎng)絡(luò)的版面分析法等也都是以連通域?yàn)榛A(chǔ)進(jìn)行的。連通域是指將圖像經(jīng)過(guò)二值化后轉(zhuǎn)為的二值矩陣中任選一個(gè)像素點(diǎn),若包圍其的所有像素點(diǎn)中存在相同像素值的像素點(diǎn)則視為兩點(diǎn)連通,以此類(lèi)推,這樣的像素點(diǎn)構(gòu)成的一個(gè)集合在圖像中所在的區(qū)域即一個(gè)連通域。根據(jù)連通域大小或像素點(diǎn)分布等特征可以將連通域的屬性標(biāo)記出來(lái),用作進(jìn)一步處理的依據(jù)。 2.2.2版面理解 獲取文章邏輯結(jié)構(gòu),包括各區(qū)域的邏輯屬性、文章的層次關(guān)系和閱讀順序。根據(jù)版面分析時(shí)記載的連通域位置信息,確定連通域歸屬序列。 2.2.3版面重構(gòu) 根據(jù)版面分析和OCR的結(jié)果,重構(gòu)出包含文字信息和版面信息的電子文檔。 2.3 圖像切分 圖像切分大致可以分為兩個(gè)個(gè)主要類(lèi)別,行(列)切分和字切分。經(jīng)過(guò)切分處理后,才能方便對(duì)單個(gè)文字進(jìn)行識(shí)別處理。如下圖所示。 2.3.1 行列切分 由于印刷體文字圖像行列間距.、字間距大致相等,且?guī)缀醪淮嬖谡尺B現(xiàn)象,所以可以采用投影法對(duì)圖像進(jìn)行切分,得到每列(行)在坐標(biāo)軸的像素值投影曲線是一個(gè)不平滑的曲線,通過(guò)高斯平滑后的曲線在每個(gè)波谷位置間的區(qū)域即為要的一行(列)。 2.3.2 字切分 字切分對(duì)于不同的文種存在著比較明顯的差異,通常意義下,字切分是指將整行或整列文字切分成獨(dú)立的一個(gè)個(gè)文字,而實(shí)際上根據(jù)文種差異,可能還需需要將單個(gè)文字進(jìn)行進(jìn)一步切分。而因?yàn)槲姆N不同,構(gòu)詞法或鉤字法也有所不同,所以切分方法的難度差別也是天壤之別。例如將漢字“屋”切分開(kāi)的難度和將英文“house”切分開(kāi)的難度差別就很大,因此在識(shí)別模式上,也會(huì)根據(jù)文種特性,設(shè)計(jì)不同的識(shí)別方法。 2.4 特征提取與模型訓(xùn)練 在深度學(xué)習(xí)廣泛應(yīng)用于圖像識(shí)別領(lǐng)域之前,模板匹配是較為常見(jiàn)的一種識(shí)別方式,之后由于神經(jīng)網(wǎng)絡(luò)的復(fù)蘇,基于反饋的神經(jīng)網(wǎng)絡(luò)給OCR領(lǐng)域帶來(lái)了又一春?,F(xiàn)在隨著計(jì)算機(jī)硬件算力的提升,利用大批數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別方面取得了傲人的成績(jī)。 2.4.1 特征提取及匹配 特征提取是從單個(gè)字符圖像上提取統(tǒng)計(jì)特征或結(jié)構(gòu)特征的過(guò)程。所提取的特征的穩(wěn)定性及有效性,決定了識(shí)別的性能。對(duì)于統(tǒng)計(jì)特征的提取,可利用統(tǒng)計(jì)模式識(shí)別中的特征提取方法,而對(duì)結(jié)構(gòu)特征的提取,應(yīng)根據(jù)具體文字所確定的識(shí)別基元確定相應(yīng)的特征提取方法。在相當(dāng)長(zhǎng)的文字識(shí)別的研究過(guò)程中,是利用人們的經(jīng)驗(yàn)知識(shí),指導(dǎo)文字特征的提取。例如邊緣特征、變換特征、穿透特征、網(wǎng)格特征、特征點(diǎn)特征、方向線素特征等等。 特征匹配是從已有的特征庫(kù)中找到與待識(shí)別文字相似度最高的文字的過(guò)程。當(dāng)待識(shí)別文字提取完特征之后,不管使用的是統(tǒng)計(jì)特征,還是結(jié)構(gòu)特征,都需要有一個(gè)特征庫(kù)來(lái)進(jìn)行比對(duì),特征庫(kù)中應(yīng)包含欲識(shí)別字符集中所有文字的特征。特征匹配的方法有很多,比較常用的有:歐式空間的比對(duì)法、松弛比對(duì)法、動(dòng)態(tài)程序比對(duì)法以及HMM(HiddneMarkovModel)法等等。在神經(jīng)網(wǎng)絡(luò)出現(xiàn)之前以及之后很長(zhǎng)一段時(shí)間,在漢字OCR領(lǐng)域,一直采用的就是這種模板匹配的方法。 2.4.2 模型訓(xùn)練 人工神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)一段時(shí)間的發(fā)展在OCR中主要充當(dāng)了分類(lèi)器的作用,網(wǎng)絡(luò)的輸入為文字特征向量,輸出是類(lèi)編碼,在識(shí)別類(lèi)型較少且結(jié)構(gòu)區(qū)分較為明顯的文字識(shí)別中,特征向量通常為字符圖像像素點(diǎn)的矩陣,這樣特征提取相當(dāng)于是一個(gè)黑盒的操作,對(duì)于原理的解釋有很多,這里不做詳細(xì)介紹。深度學(xué)習(xí)已經(jīng)成功應(yīng)用于OCR領(lǐng)域,深度學(xué)習(xí)的發(fā)展替代了繁重的特征工程,從大量標(biāo)記預(yù)料中自動(dòng)學(xué)習(xí)出圖像的特征,其中CNN(卷積神經(jīng)網(wǎng)絡(luò))尤為搶眼,除了省去人工特征提取的流程外,共享權(quán)值的方式也減少了權(quán)值數(shù)量,大幅減少了計(jì)算開(kāi)銷(xiāo),它的兩大優(yōu)勢(shì)使得CNN在OCR領(lǐng)域表現(xiàn)十分卓越。 2.4.3 識(shí)別方式 隨著用戶數(shù)量及需求的增加,識(shí)別效率也成為OCR工程化的一項(xiàng)重要指標(biāo)。傳統(tǒng)方法,會(huì)對(duì)服務(wù)器性能要求較高,這樣使得投入成本較高且不易擴(kuò)展;在Hadoop出現(xiàn)之后,該問(wèn)題得到了較好的改善,通過(guò)MapReduce編程框架,使得企業(yè)需要為之投入的硬件成本大幅減少,對(duì)OCR的發(fā)展提供了有力的推動(dòng)作用。 2.5 識(shí)別后處理 識(shí)別后處理主要應(yīng)用于兩個(gè)方面分別是版面恢復(fù)及識(shí)別校正。版面恢復(fù)在版面處理章節(jié)已經(jīng)講過(guò),這里不再贅述。識(shí)別校正,主要方式是在識(shí)別結(jié)果基礎(chǔ)上根據(jù)語(yǔ)種的語(yǔ)言模型進(jìn)行,當(dāng)然在單文種識(shí)別中相對(duì)容易一些,而在多語(yǔ)種則較為復(fù)雜。 三,手寫(xiě)體文字識(shí)別 手寫(xiě)體識(shí)別較印刷體識(shí)別難度較高,而在手寫(xiě)體識(shí)別中脫機(jī)手寫(xiě)體識(shí)別難度又比聯(lián)機(jī)手寫(xiě)體識(shí)別高。這也是脫機(jī)手寫(xiě)體識(shí)別還未成功應(yīng)用的主要原因。 聯(lián)機(jī)手寫(xiě)體文字識(shí)別(on-line handwritten character recognition)又被稱(chēng)為實(shí)時(shí)(或者在線)手寫(xiě)體識(shí)別,即:人在書(shū)寫(xiě)文字的同時(shí),機(jī)器根據(jù)所書(shū)寫(xiě)文字的筆劃、筆順等特征進(jìn)行識(shí)別。聯(lián)機(jī)手寫(xiě)體文字識(shí)別是依靠電磁式或壓電式等手寫(xiě)輸入板來(lái)完成的,當(dāng)用戶使用光筆在輸入板上寫(xiě)字的時(shí)候,光筆在板上的運(yùn)動(dòng)軌跡(板上的坐標(biāo))會(huì)被轉(zhuǎn)化為一系列的電信號(hào),這些電信號(hào)能夠串行地輸入到計(jì)算機(jī)中,從這些電信號(hào)我們可以比較容易地抽取筆劃和筆順的信息,從而進(jìn)行文字識(shí)別。從上世紀(jì)90年代以來(lái),聯(lián)機(jī)手寫(xiě)體文字識(shí)別正逐步走向?qū)嵱谩V袊?guó)的科研工作者推出了多個(gè)聯(lián)機(jī)手寫(xiě)體漢字識(shí)別系統(tǒng),國(guó)外的一些大公司也開(kāi)始進(jìn)入這一市場(chǎng)。這一技術(shù)也迎合了PDA(Personal Digital Assistant)的發(fā)展潮流。 脫機(jī)手寫(xiě)體文字識(shí)別(off-line handwritten character recognition)又被稱(chēng)為離線手寫(xiě)體文字識(shí)別:由書(shū)寫(xiě)者預(yù)先將文字寫(xiě)在紙上,然后通過(guò)掃描儀轉(zhuǎn)換成文字圖像,再由計(jì)算機(jī)識(shí)別成相應(yīng)文字。由于每個(gè)人書(shū)寫(xiě)習(xí)慣的不同,所以脫機(jī)手寫(xiě)體文字的類(lèi)型是多種多樣的,而且既便同一個(gè)人在不同情況下寫(xiě)出來(lái)的文字也會(huì)有變化,這些都給脫機(jī)手寫(xiě)體文字識(shí)別帶來(lái)了巨大的困難。對(duì)于脫機(jī)手寫(xiě)體文字識(shí)別而言,如果對(duì)文字的書(shū)寫(xiě)不加以任何限制(即自由手寫(xiě)體文字),則識(shí)別難度相當(dāng)大。 對(duì)于脫機(jī)手寫(xiě)體文字識(shí)別處理流程和技術(shù)手段大致和印刷體識(shí)別相似,但是由于手寫(xiě)體隨意性較大,因此對(duì)文字圖像的行列切分、字切分帶來(lái)了較大的困難,根據(jù)文種不同,切分的方法也有所不同,例如:在手寫(xiě)體蒙古文字中內(nèi)蒙古大學(xué)的研究學(xué)者采用了一種基于字符外接多邊形的尋找切分點(diǎn)的字切分算法,取得了不錯(cuò)的切分效果。 對(duì)于聯(lián)機(jī)手寫(xiě)體識(shí)別的處理流程,主要是利用筆劃順序作為序列模型,加上字符結(jié)構(gòu)特征、筆順?lè)较蛱卣鳌⒐P畫(huà)數(shù)量特征作為空間模型,的組合式模型,完成識(shí)別任務(wù)。 四,應(yīng)用案例 4.1印刷體識(shí)別應(yīng)用 印刷體識(shí)別引用擴(kuò)展較多,且技術(shù)發(fā)展較為成熟,無(wú)論在識(shí)別準(zhǔn)確率方面還是在識(shí)別效率方面,都達(dá)到了較高的標(biāo)準(zhǔn)。 4.1.1車(chē)牌識(shí)別 車(chē)牌識(shí)別系統(tǒng)是OCR工業(yè)化應(yīng)用較早而且成功的典型案例,如今從停車(chē)場(chǎng)到小區(qū)門(mén)禁,車(chē)牌識(shí)別技術(shù)已走進(jìn)生活的各個(gè)角落。車(chē)牌識(shí)別的成功,歸結(jié)為以下幾個(gè)原因; 1、識(shí)別內(nèi)容是封閉集合,且集合較小 2、文字字體、大小較為規(guī)范 3、文字間距均勻,噪音較少 4.1.2 Tesseract Tesseract的OCR引擎最先由HP實(shí)驗(yàn)室于1985年開(kāi)始研發(fā),至1995年時(shí)已經(jīng)成為OCR業(yè)內(nèi)最準(zhǔn)確的三款識(shí)別引擎之一。然而,HP不久便決定放棄OCR業(yè)務(wù),Tesseract也從此塵封。 數(shù)年以后,HP意識(shí)到,與其將Tesseract束之高閣,不如貢獻(xiàn)給開(kāi)源軟件業(yè),讓其重?zé)ㄐ律?005年,Tesseract由美國(guó)內(nèi)華達(dá)州信息技術(shù)研究所獲得,并求諸于Google對(duì)Tesseract進(jìn)行改進(jìn)、消除Bug、優(yōu)化工作。 Tesseract目前已作為開(kāi)源項(xiàng)目發(fā)布在Google Project,其最新版本3.0已經(jīng)支持中文OCR,并提供了一個(gè)命令行工具。 4.1.3驗(yàn)證碼識(shí)別 驗(yàn)證碼的主要目的是強(qiáng)制人機(jī)交互來(lái)抵御機(jī)器自動(dòng)化攻擊的。驗(yàn)證碼作為一種輔助安全手段在Web安全中有著特殊的地位,驗(yàn)證碼安全和web應(yīng)用中的眾多漏洞相比似乎微不足道,但是千里之堤毀于蟻穴,有些時(shí)候如果能繞過(guò)驗(yàn)證碼,則可以把手動(dòng)變?yōu)樽詣?dòng),對(duì)于Web安全檢測(cè)有很大的幫助。 全自動(dòng)區(qū)分計(jì)算機(jī)和人類(lèi)的圖靈測(cè)試(英語(yǔ):Completely Automated Public Turing test to tell Computers and Humans Apart,簡(jiǎn)稱(chēng)CAPTCHA),俗稱(chēng)驗(yàn)證碼,是一種區(qū)分用戶是計(jì)算機(jī)和人的公共全自動(dòng)程序。在CAPTCHA測(cè)試中,作為服務(wù)器的計(jì)算機(jī)會(huì)自動(dòng)生成一個(gè)問(wèn)題由用戶來(lái)解答。這個(gè)問(wèn)題可以由計(jì)算機(jī)生成并評(píng)判,但是必須只有人類(lèi)才能解答。由于計(jì)算機(jī)無(wú)法解答CAPTCHA的問(wèn)題,所以回答出問(wèn)題的用戶就可以被認(rèn)為是人類(lèi)。 對(duì)于文字識(shí)別技術(shù)只適用于字符型驗(yàn)證碼識(shí)別工作,除此之外還需要對(duì)不同驗(yàn)證碼設(shè)計(jì)相應(yīng)的去噪算法等。 4.2手寫(xiě)體識(shí)別應(yīng)用 4.2.1文通筆(聯(lián)機(jī)手寫(xiě)) 筆順和連筆是影響聯(lián)機(jī)手寫(xiě)漢字識(shí)別系統(tǒng)識(shí)別率的兩個(gè)主要因素。前面講過(guò),解決筆順問(wèn)題的方法有二:一是對(duì)使用者提出嚴(yán)格的要求,希望他們按“標(biāo)準(zhǔn)”的筆順、一筆一畫(huà)地寫(xiě)字。這種要求,實(shí)際上很難做到。這是因?yàn)?,事?shí)上我國(guó)還沒(méi)有統(tǒng)一的筆順標(biāo)準(zhǔn)或規(guī)定;即使有一種標(biāo)準(zhǔn),每個(gè)人的受教育程度和習(xí)慣不盡相同,要求做到都按標(biāo)準(zhǔn)筆順寫(xiě)字,實(shí)際上幾乎是不可能的。另一種辦法是:對(duì)于容易出現(xiàn)筆順不同的每一個(gè)漢字,設(shè)置若干標(biāo)準(zhǔn)模板。例如“女”字,有的人先寫(xiě)“く”筆,有的人則先寫(xiě)“一”筆,這個(gè)字就可能有兩種不同的筆順。在“字典”中可設(shè)置兩個(gè)模板,它們的筆畫(huà)相同,而筆順不一樣,但都代表“女”字。這樣做會(huì)使字典的容量大大增加。在集成電路規(guī)模還不夠大、速度也不夠高的年代,這種辦法不容易推廣應(yīng)用。 連筆是一個(gè)更為困難的問(wèn)題,實(shí)際上也很難解決。人們?yōu)榱颂岣邥?shū)寫(xiě)速度,寫(xiě)字時(shí)往往是一筆呵成。要求他們一筆一畫(huà)、按部就班地書(shū)寫(xiě),也幾乎是不可能的。這個(gè)問(wèn)題比筆順問(wèn)題更不易處理,這是目前市場(chǎng)上出售的筆式輸入裝置的識(shí)別率尚難進(jìn)一步提高的主要原因。 近幾年投入市場(chǎng)的“文通筆”在解決上述筆順和連筆的兩個(gè)問(wèn)題上做了一些努力,取得了一些成果,并在全國(guó)評(píng)測(cè)中獲得較好的評(píng)價(jià)。取得這些進(jìn)展的原因,一方面是由于計(jì)算機(jī)技術(shù)的迅速發(fā)展,機(jī)器資源已經(jīng)不是制約識(shí)別算法的主要矛盾,設(shè)計(jì)者不必過(guò)分擔(dān)心計(jì)算機(jī)的容量和速度的問(wèn)題,可以更大膽地設(shè)計(jì)一些具有較高的抗干擾能力的算法;另一方面,在識(shí)別算法上,文通筆的研制者提出了一種富有創(chuàng)造性的結(jié)構(gòu)法與統(tǒng)計(jì)法相結(jié)合的新技術(shù),較好地解決了單純的結(jié)構(gòu)識(shí)別方法難以適應(yīng)手寫(xiě)漢字字形及筆順變化的問(wèn)題。下面扼要介紹這種算法的要點(diǎn)。 上面講過(guò),結(jié)構(gòu)模式識(shí)別比較充分地描述被識(shí)別對(duì)象的結(jié)構(gòu)信息。但是這種方法也有不少缺點(diǎn): ①模式的描述是基于符號(hào)而不是基于數(shù)值,抗干擾能力差。 ②描述基元關(guān)系的語(yǔ)法規(guī)則一般需由人工編寫(xiě),難以利用機(jī)器自學(xué)習(xí)方法獲得。 ③句法分析較為復(fù)雜,運(yùn)算量大。 針對(duì)上述問(wèn)題,文通筆在漢字字形建模方面做了一些創(chuàng)新性工作,包括: ①在比較嚴(yán)格的概率基礎(chǔ)上建立了一種模式統(tǒng)計(jì)模型,可用于描述聯(lián)機(jī)手寫(xiě)字形的空間信息,并易于用統(tǒng)計(jì)方法進(jìn)行訓(xùn)練,建立手寫(xiě)漢字的二維模型。 ②對(duì)隱馬可夫模型(HMM)做了改進(jìn),提出控制狀態(tài)轉(zhuǎn)移路徑的概念,使模型較適用于聯(lián)機(jī)手寫(xiě)漢字的描述,較好地反映手寫(xiě)漢字的時(shí)間信息,還給出了這種模型的路徑搜索算法及參數(shù)訓(xùn)練方法。 ③將上述兩種模型結(jié)合起來(lái),用于聯(lián)機(jī)手寫(xiě)漢字識(shí)別,在很大程度上解決了連筆和筆順變化對(duì)識(shí)別系統(tǒng)性能的影響,使系統(tǒng)具有較高的魯棒性。 采用上述方法研制成功的“文通筆”,在近年兩次“863計(jì)劃”智能機(jī)主題專(zhuān)家組組織的評(píng)測(cè)會(huì)上名列前茅。系統(tǒng)可識(shí)別6763個(gè)簡(jiǎn)體漢字和5401個(gè)繁體漢字,對(duì)于書(shū)寫(xiě)比較工整的字,識(shí)別率在95%~99%之間;書(shū)寫(xiě)比較潦草的字也可達(dá)到87%~93%,前十位累加識(shí)別率仍達(dá)98%~99%;采用主流微機(jī)的識(shí)別速度大于3字/秒,能滿足實(shí)際應(yīng)用要求。 4.2.2 古籍識(shí)別(脫機(jī)手寫(xiě)體識(shí)別) 目前脫機(jī)手寫(xiě)體識(shí)別的主要應(yīng)用方向在于古籍識(shí)別,在印刷術(shù)發(fā)明之前,古人傳承書(shū)籍的方式主要依靠抄寫(xiě),在印刷術(shù)發(fā)明之后,使用人力抄寫(xiě)的書(shū)籍?dāng)?shù)量減少,但信件、奏折類(lèi)的包含大量手寫(xiě)體文字的載體依然不少。而使用人力來(lái)完成這些書(shū)信的電子化轉(zhuǎn)儲(chǔ)工作十分費(fèi)力,因此,針對(duì)古籍中文字進(jìn)行識(shí)別的科研需求應(yīng)運(yùn)而生。 但是,由于古籍在保存中難免會(huì)遭到人為或非人為的損壞,導(dǎo)致字跡不清、殘損的情況屢見(jiàn)不鮮,加之,手寫(xiě)體自身可能存在的較大差異性,使得古籍文字識(shí)別的工作難上加難。因此,對(duì)于脫機(jī)手寫(xiě)體識(shí)別的應(yīng)用尚未出現(xiàn)未成功的案例。 五 學(xué)習(xí)資料 5.1 博客推薦 5.1.1中文OCR博客 博主中文OCR系列博客,內(nèi)容講解比較直白,比較容易理解,可以比較清楚了解漢字識(shí)別整個(gè)流程。 http://blog.csdn.net/plfl520/article/details/8441478 5.1.2 卷積神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)理解 再推薦一個(gè)系列博客,博主的一系列博客,都是對(duì)神經(jīng)網(wǎng)絡(luò)算法的從數(shù)學(xué)角度的深度境界,對(duì)于想要詳細(xì)了解算法原理的童鞋,比較適用。 http://colah./posts/2014-07-Understanding-Convolutions/ 5.2 書(shū)籍推薦 5.2.1 《統(tǒng)計(jì)學(xué)習(xí)方法》—李航 本書(shū)可以說(shuō)是機(jī)器學(xué)習(xí)領(lǐng)域的圣經(jīng)級(jí)書(shū)籍,書(shū)中主要介紹了一些基礎(chǔ)機(jī)器學(xué)習(xí)算法,其中數(shù)學(xué)演算也很詳盡,十分適合機(jī)器學(xué)習(xí)入門(mén)的一本書(shū)籍。 5.2.2 《數(shù)學(xué)之美》—吳軍 “數(shù)學(xué)之美”系列文章原刊載于谷歌黑板報(bào),獲得上百萬(wàn)次點(diǎn)擊,得到讀者高度評(píng)價(jià)。吳軍博士把高深的數(shù)學(xué)原理講得更加通俗易懂,讓非專(zhuān)業(yè)讀者也能領(lǐng)略數(shù)學(xué)的魅力。讀者通過(guò)具體的例子學(xué)到的是思考問(wèn)題的方式 —— 如何化繁為簡(jiǎn),如何用數(shù)學(xué)去解決工程問(wèn)題,如何跳出固有思維不斷去思考創(chuàng)新。這種思維模式在不僅機(jī)器學(xué)習(xí)領(lǐng)域十分重要,在其他的領(lǐng)域中也會(huì)受益匪淺。 5.2.3《數(shù)字圖像處理》—岡薩雷斯 想要理解圖像處理的理論可以把岡薩雷斯的《數(shù)字圖像處理》通讀一遍,這本書(shū)主要在講基礎(chǔ)原理,推薦大家閱讀原版,譯翻譯不太好,容易導(dǎo)致誤解。 5.3 視頻資料 https://www./learn/machine-learning/home/welcome Andrew Ng的機(jī)器學(xué)習(xí)課程,配合小練習(xí),收獲很大。 5.4 論文參考 url : http://pan.baidu.com/s/1bpH2dtX code : xjwl 5.5 OCR工具 ![]() 1,識(shí)別率極高。 2,自由度高。 3,批量操作方便。 4,可以保持原有表格格式,省去二次編輯。 5,包括梯形校正,歪斜校正之類(lèi)的許多圖片校正方式。 參考文獻(xiàn) [1] 魏宏喜.印刷體蒙古文字識(shí)別中關(guān)鍵技術(shù)的研究[D].內(nèi)蒙古大學(xué)碩士學(xué)位論文,2006. [2] 劉煜星.基于MapReduce的漢字識(shí)別的研究與實(shí)現(xiàn)[D].華南理工大學(xué)碩士學(xué)位論文,2011. [3] Dan Ciresan, Ueli Meier. Multi-Column Deep Neural Networks for offline handwritten Chinese character classification[C]. In: Proceedings of the International Conference on Neural Networks (IJCNN) , 2015, pp. 1-6. [4] Chunpeng Wu,Wei Fan, Yuan He, Jun Sun.Satoshi Naoi.Handwritten Character Recognition by Alternately Trained Relaxation Convolutional Neural Network[C]. In: Proceedings of the International Conference on Frontiers in Handwriting Recognition (ICFHR), 2014, pp.291-296. |
|
來(lái)自: 昵稱(chēng)60563631 > 《百科知識(shí)》