經(jīng)常在網(wǎng)上查找資料,遇到PDF格式的文件就有點(diǎn)麻煩了。雖說有很多PDF to Doc工具,可以把PDF格式轉(zhuǎn)換成Word文件。但有些pdf內(nèi)容原本就是圖片格式,轉(zhuǎn)換后的Word文件自然也是圖片格式,肯定不能進(jìn)行修改和編輯操作。最好辦法就是把這些PDF文件內(nèi)容識(shí)別出來,這不,漢王 PDF OCR恰好具有該項(xiàng)功能。 把漢王 PDF OCR安裝到電腦后,運(yùn)行PDF OCR主程序。單擊PDF OCR窗口“文件→打開”菜單,打開“打開圖像文件”對話框。再單擊“查找范圍”后面的下拉按鈕,找到所要打開的PDF文件,雙擊打開即可。如果PDF文件有多頁內(nèi)容,則會(huì)彈出“選擇拆分多頁pdf”的提示,單擊確定后開始拆分頁面操作(見圖1)。 拆分完成后,會(huì)在左側(cè)列表框中生成諸多文件列表。接著,單擊窗口的“編輯→自動(dòng)傾斜校正”菜單,對圖片進(jìn)行傾斜校正。單擊窗口的“識(shí)別→選擇全部文件”菜單后,選中列表框中所有的拆分文件。繼續(xù)單擊繼續(xù)窗口的“識(shí)別→開始識(shí)別”菜單,進(jìn)行批處理識(shí)別操作(見圖2)。 等到識(shí)別完成后,再單擊窗口的“輸出→到指定格式文件”菜單,打開“保存識(shí)別結(jié)果”對話框。 單擊“保存在”按鈕,選擇合適的保存目錄后,在“文件名”后輸入便于識(shí)別的文件名,再單擊“保存類型”按鈕,選中“rtf文件”后,單擊“保存”即可(見圖3)。 打開生成的文件,可以看到所有文字和表格都能修改編輯,正確識(shí)別率高達(dá)到90%以上。 |
|