pytesseract庫的安裝和使用
- 2020 年 1 月 19 日
- 筆記
在寫爬蟲的時候總是遇到一些以圖片的形式展示的資訊,因此要怎麼解析圖片上的資訊呢?在Google上查了一下,需要安裝pytesseract和pillow(我用的python3.7)和Tesseract-OCR
1. 安裝pytesseract
pip insatll pytesseract
2. 安裝pillow
pip install pillow
3. 安裝Tesseract-OCR(https://github.com/tesseract-ocr/tesseract)
4. 安裝完後將Tesseract-OCR的安裝路徑添加到環境變數中PATH和Path中都要添加
例如:
data:image/s3,"s3://crabby-images/5e169/5e169ded7e8d9700c5bd90fcbd2788c94bccc840" alt=""
5. 在python的安裝路徑下的修改安裝的pytesseract庫裡面的pytesseract.py,將默認的改成Tesseract-OCR的安裝路徑
data:image/s3,"s3://crabby-images/de361/de3610a7090c8c25bf3dd31271808c17a30ed0aa" alt=""
7. 配置完了開始擼程式碼吧
data:image/s3,"s3://crabby-images/86905/86905863723c020e0edde3922953c7693c5e70f5" alt=""
運行後發現會報錯
data:image/s3,"s3://crabby-images/5369d/5369d8adb4dbf05df1d8e6cbdaafec6bfbe062a2" alt=""
用Google查了一下,發現是因為驗證碼的圖片模式為RGBA,是無法分配調色盤給透明通道的。更換為RGB模式則不會出現該問題。
對原先的程式碼修改一下,變為:
data:image/s3,"s3://crabby-images/57b7e/57b7ec00c670bae4b97f4a26d4ed1dfa97058bd7" alt=""
修改後就能正常使用了。