乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      用Python進行OCR圖像識別,小白一定要收藏

       老三的休閑書屋 2021-04-10
      用Python進行OCR圖像識別,小白一定要收藏

      數(shù)據(jù)采集就怕遇到圖片,只能看不能復(fù)制怎么辦。手動將文字提取出來,要耗費很大的工作量。例如下圖,某樓盤的一房一價表,怎么樣發(fā)現(xiàn)單價低位的房子?光憑肉眼很難發(fā)現(xiàn)吧,能否讓計算機進行文字的識別,然后再對這些數(shù)值型信息進行數(shù)據(jù)分析。

      用Python進行OCR圖像識別,小白一定要收藏

      首先把圖片中的單價提取出來,

      用Python進行OCR圖像識別,小白一定要收藏

      進而生成圖像:

      用Python進行OCR圖像識別,小白一定要收藏

      用python就可以實現(xiàn),采用現(xiàn)在流行的OCR圖像識別。主要思路是使用機器學習模式,通過已有圖片手動訓(xùn)練出一個圖像識別模型,具體步驟如下:

      一、將圖片預(yù)處理,更方便計算機識別

      (一)把圖像灰化

      使用open-cv庫對圖片進行處理。

      用Python進行OCR圖像識別,小白一定要收藏

      使用灰化后的圖片,如下圖,排除干擾信息,能讓識別更加穩(wěn)定。

      用Python進行OCR圖像識別,小白一定要收藏

      (二)把圖片分割

      將圖片分割成小方塊,一是提高識別精度,二是方便將數(shù)據(jù)儲存為表格形式??梢栽O(shè)定好參數(shù),根據(jù)坐標系把圖片裁剪成一個個小方塊,如下圖,儲存為jpg格式。

      用Python進行OCR圖像識別,小白一定要收藏

      二、建立圖像識別模型

      (一)將分割好的小方塊圖片合并成tiff文件

      下載jTessBoxEditor,打開jTessBoxEditor.jar,使用tools下的merge tiff工具,將圖片合并成tiff文件。

      (二)使用已有模型對tiff文件進行初識別

      下載并安裝tesseract,并配置好環(huán)境變量,將Tesseract-OCRtessdata的路徑加入到環(huán)境變量下的path下面。Tesseract自帶圖像識別的模型,例如中文簡體漢字識別模型chi_sim.traineddata,英文識別模型eng.traineddata,這些模型可以網(wǎng)上下載,放到tessdata里面即可使用。

      然后進入tiff所在文件夾。在命令窗口,輸入:tesseract ***.tif *** -l +++ -psm 7 batch.nochop makebox,按回車生成box文件。其中***tif的文件名,+++為要生成的traindata的文件名。

      (三)使用jTessBoxEditortiffbox文件進行調(diào)整

      打開jTessBoxEditor.jar,在box editor中的open按鈕,打開要編輯的tif文件。編輯之后保存,生成box文件。保存在同一個文件夾里。

      (四)使用tiff和box文件生成模型

      在tiff和box的文件中,在命令窗口輸入以下代碼,最終生成模型(traindata文件)

      用Python進行OCR圖像識別,小白一定要收藏

      上述腳本也可以寫在bat文件中,運行腳本來生成traindata,最終僅需要將traindata復(fù)制到tessdata里面,即可使用該模型。

      三、應(yīng)用圖像識別模型

      安裝完,訓(xùn)練完模型之后,就要在python中使用模型了。安裝pytesseract,找到pytesseract.py文件,打開編輯,將其中的“tesseract_cmd = 'tesseract'”,改成tesseract的安裝路徑(如C:\Program Files\Tesseract-OCR\\tesseract)。

      因為模型是采用灰化后的圖片訓(xùn)練的,所以在識別時也要使用灰化。

      用Python進行OCR圖像識別,小白一定要收藏

      四、優(yōu)化圖像識別模型

      在使用中,如果有錯誤,可以存下來,加入訓(xùn)練庫,優(yōu)化圖像識別模型。在一般是識別錯誤的圖片,積攢一陣子后。累積做成tif文件。注意:同類錯誤選擇幾個記號了,訓(xùn)練庫盡量小而精。

      最后

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多