用Python&Tesseract識別圖片文字

長沙7喜 2018-01-23

展開全文

作者：劉志軍，6年+Python使用經(jīng)驗，高級開發(fā)工程師，目前在互聯(lián)網(wǎng)醫(yī)療行業(yè)從事Web系統(tǒng)構(gòu)架工作

個人公眾號：Python之禪（微信ID：vttalk）

題圖：https:///@alvaroserrano

在一個項目中遇到這樣的需求，要把一堆圖片中的文字識別出來并分門別類地保存數(shù)據(jù)庫，上萬字純手工敲是下下策，網(wǎng)上有很多圖片轉(zhuǎn)文字的在線服務(wù)，單張圖轉(zhuǎn)沒什么問題，可惜大批量的圖缺乏定制化，愛搗鼓的程序員還是自己動手靠譜，開源項目 Tesseract 專用于 OCR 識別，它的應(yīng)用場景非常多，比如驗證碼識別、車牌識別、普通的文字圖片識別都不是問題。

安裝

Linux 和 Mac 平臺的安裝非常簡單，直接命令行安裝即可，默認只有英文語言包，漢語包需要額外指定

sudo apt-get install tesseract-ocr # ubuntu

brew install tesseract # macOS

Windows 平臺需要二進制安裝包，官方下載地址 https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows，安裝時需要選擇中文語言包才是識別漢字

配置

安裝完成后，需要設(shè)置兩個環(huán)境變量 $PATH 和 $TESSDATA_PREFIX，如果不指定后面會報錯，把 tessertact 的安裝路徑加入 PATH 變量中，TESSDATA_PREFIX 變量的值指定為語言包的路徑

實戰(zhàn)

Python-tesseract 是 tessertact 的 Python 封裝包，它需要依賴圖片處理庫 PIL（Pillow），環(huán)境搭建完成后就可以開始做定制化開發(fā)了。

以下我以杜甫的《登高》作為 demo 從中提取出其中的文字

# pip install pytesseract 先安裝依賴包
try:
import Image
except ImportError:
from PIL import Image
import pytesseract
# lang 指定中文簡體
text = pytesseract.image_to_string(Image.open('dufu-denggao1.jpeg'), lang='chi_sim')
print(text)

輸出結(jié)果：

風(fēng) 急天高猿哨哀 , 渚清沙白鳥飛回。無邊落木蕭蕭下 , 不盡長江滾滾來。萬里悲秋常作客 , 百年多病獨登臺。艱難苦恨繁霜鬢 , 漫倒新停濁酒杯。

你可以根據(jù)自己的業(yè)務(wù)需求進行自定義開發(fā)，為了適應(yīng)不同的環(huán)境下的圖片，你可能需要了解更多 Tesseract 的API，以此來提高文字識別的準確率。如果你有興趣，甚至基于公眾號開發(fā)，用戶上傳圖片，自動識別出文字，提供收費服務(wù)也不是沒有可能。