四行Python程式碼，你也能從圖片上識別文字！ - ⎝⎛CodingNote.cc ⎞⎠

四行Python程式碼，你也能從圖片上識別文字！

2019 年 10 月 6 日
筆記

影像識別、文字識別，這些都是現在比較火的東西，現在大部分的AI都有在做這些東西，那我們就過來了解一下吧！

只需要四行程式碼，完成從圖片中讀取圖片中的文字！

準備工作：

我們需要兩個安裝包，先來安裝一下：

pip install pillow

pip install pytesseract

安裝完之後，我們需要下載Tesseract-OCR這個軟體，這裡我已經將東西都打包好了放在百度雲中，大家可以直接下載：

鏈接：

https://pan.baidu.com/s/1osNf95ScZJYhtzsGFLtxaA

密碼：

npmn

打開安裝包，一路next

記錄好自己的安裝路徑

安裝完之後找到tessdata目錄下，將下載的chi_sim.traineddata文件放到該目錄下。這樣它就能識別中文了。

之後，我們只剩下一個東西要配一下了，在pytesseract模組中的pytesseract.py文件中去配置一下Tesseract-OCR的工作目錄，這個時候我們可以通過剛剛pip安裝的位置找到pytesseract.py文件，如下圖：

進入目錄找到pytesseract.py文件並且打開它：

將tesseract_cmd這個變數的值改成Tesseract-OCR的安裝目錄即可。

現在，我們在準備一張圖片，用來識別，小編就用微信截圖好了，放置在桌面文件夾上：

開始程式碼：

到這裡，我們所有的預備環境以及全部搭建好了，下面我們就開始來敲程式碼咯：

from PIL import Image

import pytesseract

pic_content=pytesseract.image_to_string(Image.open('C:\Users\yuqing.wu\Desktop\all\3.png'),lang='chi_sim')

print(pic_content)

我們來看看運行結果：

結果還是比較準的。

大家也來試試吧！

像這樣的影像識別還是挺重要、挺常用的，例如圖片驗證碼等等，都是可以去完成的，就看大家怎麼去用了！

Previous post

爬蟲框架Scrapy的安裝與基本使用

Next post

網站滲透測試 apache nginx解析繞過上傳漏洞