作者:劉志軍,6年+Python使用經(jīng)驗, 高級開發(fā)工程師,目前在互聯(lián)網(wǎng)醫(yī)療行業(yè)從事Web系統(tǒng)構(gòu)架工作 個人公眾號:Python之禪(微信ID:vttalk) 題圖:https:///@alvaroserrano 在一個項目中遇到這樣的需求,要把一堆圖片中的文字識別出來并分門別類地保存數(shù)據(jù)庫,上萬字純手工敲是下下策,網(wǎng)上有很多圖片轉(zhuǎn)文字的在線服務(wù),單張圖轉(zhuǎn)沒什么問題,可惜大批量的圖缺乏定制化,愛搗鼓的程序員還是自己動手靠譜,開源項目 Tesseract 專用于 OCR 識別,它的應(yīng)用場景非常多,比如驗證碼識別、車牌識別、普通的文字圖片識別都不是問題。 安裝Linux 和 Mac 平臺的安裝非常簡單,直接命令行安裝即可,默認只有英文語言包,漢語包需要額外指定 sudo apt-get install tesseract-ocr # ubuntu Windows 平臺需要二進制安裝包,官方下載地址 https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows,安裝時需要選擇中文語言包才是識別漢字 配置安裝完成后,需要設(shè)置兩個環(huán)境變量 $PATH 和 $TESSDATA_PREFIX,如果不指定后面會報錯,把 tessertact 的安裝路徑加入 PATH 變量中,TESSDATA_PREFIX 變量的值指定為語言包的路徑 實戰(zhàn)Python-tesseract 是 tessertact 的 Python 封裝包,它需要依賴圖片處理庫 PIL(Pillow),環(huán)境搭建完成后就可以開始做定制化開發(fā)了。 以下我以杜甫的《登高》作為 demo 從中提取出其中的文字 # pip install pytesseract 先安裝依賴包 輸出結(jié)果: 風(fēng) 急 天 高 猿 哨 哀 , 渚 清 沙 白 鳥 飛 回 。無 邊 落 木 蕭 蕭 下 , 不 盡 長 江 滾 滾 來 。萬 里 悲 秋 常 作 客 , 百 年 多 病 獨 登 臺 。艱 難 苦 恨 繁 霜 鬢 , 漫 倒 新 停 濁 酒 杯 。 你可以根據(jù)自己的業(yè)務(wù)需求進行自定義開發(fā),為了適應(yīng)不同的環(huán)境下的圖片,你可能需要了解更多 Tesseract 的API,以此來提高文字識別的準確率。 如果你有興趣,甚至基于公眾號開發(fā),用戶上傳圖片,自動識別出文字,提供收費服務(wù)也不是沒有可能。 關(guān)于TesseractTesseract 有超過 30 年的歷史,它最早誕生于HP實驗室,在 2005 年,Tesseract由美國內(nèi)華達州信息技術(shù)研究所獲得,其后由 Google 贊助進行后續(xù)的開發(fā)和維護。 下面的幾篇 Tesseract 相關(guān)的論文非常適合研究生做課題設(shè)計
Python愛好者社區(qū)歷史文章大合集: |
|
來自: 長沙7喜 > 《智能技術(shù)》