四行Python程式碼,你也能從圖片上識別文字!

  • 2019 年 10 月 6 日
  • 筆記

影像識別、文字識別,這些都是現在比較火的東西,現在大部分的AI都有在做這些東西,那我們就過來了解一下吧!

只需要四行程式碼,完成從圖片中讀取圖片中的文字!

準備工作:

我們需要兩個安裝包,先來安裝一下:

pip install pillow

pip install pytesseract

安裝完之後,我們需要下載Tesseract-OCR這個軟體,這裡我已經將東西都打包好了放在百度雲中,大家可以直接下載:

鏈接

https://pan.baidu.com/s/1osNf95ScZJYhtzsGFLtxaA

密碼

npmn

打開安裝包,一路next

記錄好自己的安裝路徑

安裝完之後找到tessdata目錄下,將下載的chi_sim.traineddata文件放到該目錄下。這樣它就能識別中文了。

之後,我們只剩下一個東西要配一下了,在pytesseract模組中pytesseract.py文件中去配置一下Tesseract-OCR的工作目錄,這個時候我們可以通過剛剛pip安裝的位置找到pytesseract.py文件,如下圖:

進入目錄找到pytesseract.py文件並且打開它:

將tesseract_cmd這個變數的值改成Tesseract-OCR的安裝目錄即可。

現在,我們在準備一張圖片,用來識別,小編就用微信截圖好了,放置在桌面文件夾上:

開始程式碼:

到這裡,我們所有的預備環境以及全部搭建好了,下面我們就開始來敲程式碼咯:

from PIL import Image

import pytesseract

pic_content=pytesseract.image_to_string(Image.open('C:\Users\yuqing.wu\Desktop\all\3.png'),lang='chi_sim')

print(pic_content)

我們來看看運行結果:

結果還是比較準的。

大家也來試試吧!

像這樣的影像識別還是挺重要、挺常用的,例如圖片驗證碼等等,都是可以去完成的,就看大家怎麼去用了!