乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      用Python&Tesseract識別圖片文字

       長沙7喜 2018-01-23

      作者:劉志軍,6年+Python使用經(jīng)驗, 高級開發(fā)工程師,目前在互聯(lián)網(wǎng)醫(yī)療行業(yè)從事Web系統(tǒng)構(gòu)架工作

      個人公眾號:Python之禪(微信ID:vttalk)

      題圖:https:///@alvaroserrano

      在一個項目中遇到這樣的需求,要把一堆圖片中的文字識別出來并分門別類地保存數(shù)據(jù)庫,上萬字純手工敲是下下策,網(wǎng)上有很多圖片轉(zhuǎn)文字的在線服務(wù),單張圖轉(zhuǎn)沒什么問題,可惜大批量的圖缺乏定制化,愛搗鼓的程序員還是自己動手靠譜,開源項目 Tesseract 專用于 OCR 識別,它的應(yīng)用場景非常多,比如驗證碼識別、車牌識別、普通的文字圖片識別都不是問題。

      安裝

      Linux 和 Mac 平臺的安裝非常簡單,直接命令行安裝即可,默認只有英文語言包,漢語包需要額外指定

      sudo apt-get install tesseract-ocr  # ubuntu

      brew install tesseract  # macOS

      Windows 平臺需要二進制安裝包,官方下載地址 https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows,安裝時需要選擇中文語言包才是識別漢字

      配置

      安裝完成后,需要設(shè)置兩個環(huán)境變量 $PATH 和 $TESSDATA_PREFIX,如果不指定后面會報錯,把 tessertact 的安裝路徑加入 PATH 變量中,TESSDATA_PREFIX 變量的值指定為語言包的路徑

      實戰(zhàn)

      Python-tesseract 是 tessertact 的 Python 封裝包,它需要依賴圖片處理庫 PIL(Pillow),環(huán)境搭建完成后就可以開始做定制化開發(fā)了。

      以下我以杜甫的《登高》作為 demo 從中提取出其中的文字

      # pip install pytesseract 先安裝依賴包
      try:
         import Image
      except ImportError:
         from PIL import Image
      import pytesseract
      # lang 指定中文簡體
      text = pytesseract.image_to_string(Image.open('dufu-denggao1.jpeg'), lang='chi_sim')
      print(text)

      輸出結(jié)果:

      風(fēng) 急 天 高 猿 哨 哀 , 渚 清 沙 白 鳥 飛 回 。無 邊 落 木 蕭 蕭 下 , 不 盡 長 江 滾 滾 來 。萬 里 悲 秋 常 作 客 , 百 年 多 病 獨 登 臺 。艱 難 苦 恨 繁 霜 鬢 , 漫 倒 新 停 濁 酒 杯 。

      你可以根據(jù)自己的業(yè)務(wù)需求進行自定義開發(fā),為了適應(yīng)不同的環(huán)境下的圖片,你可能需要了解更多 Tesseract 的API,以此來提高文字識別的準確率。 如果你有興趣,甚至基于公眾號開發(fā),用戶上傳圖片,自動識別出文字,提供收費服務(wù)也不是沒有可能。

      關(guān)于Tesseract

      Tesseract 有超過 30 年的歷史,它最早誕生于HP實驗室,在 2005 年,Tesseract由美國內(nèi)華達州信息技術(shù)研究所獲得,其后由 Google 贊助進行后續(xù)的開發(fā)和維護。

      下面的幾篇 Tesseract 相關(guān)的論文非常適合研究生做課題設(shè)計

      • WIKI:https://github.com/tesseract-ocr/tesseract/wiki

      • 論文:https://github.com/lzjun567/the-Papers-and-Data-of-Tesseract-OCR-


      Python愛好者社區(qū)歷史文章大合集

      Python愛好者社區(qū)歷史文章列表(每周append更新一次)

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多