開源免費圖片文字識別 OCR 工具 tesseract v4.1.0 的 Docker 鏡像製作與使用

2019 年 10 月 4 日
筆記

本文鏈接：https://blog.csdn.net/solaraceboy/article/details/100525225

開源免費圖片文字識別 OCR 工具 tesseract v4.1.0 的 Docker 鏡像製作與使用

一背景

在日常的一些工作中，偶爾也需要我們把圖片轉換為文字。目前大部分辦公軟件還無法實現類似的功能，因此遇到類似的問題時，我們只能自己動手解決。

Tesseract（識別引擎），一款由HP實驗室開發由Google維護的開源OCR（Optical Character Recognition , 光學字符識別）引擎，與Microsoft Office Document Imaging（MODI）相比，我們可以不斷的訓練的庫，使圖像轉換文本的能力不斷增強；如果團隊深度需要，還可以以它為模板，開發出符合自身需求的OCR引擎。在 GitHub 上我們目前能看到的最新版本為：v4.1.0。本文以 CentOS7.6.1810 為例對 Tesseract 的安裝及使用進行演示。為了減少大家重複造輪子，本文已將安裝過程整理為 Docker 鏡像，需要的小夥伴直接使用文中的 Dockerfile 即可構建鏡像，進而實現開箱即用。

二鏡像的構建過程

2.1 準備階段

將 Dockerfile 及相關的資源包放到同一目錄。構建目錄結構：

build/  ├── 4.1.0.tar.gz  ├── Dockerfile  ├── leptonica-1.78.0.tar.gz  └── tesseract_langs.tar.gz

2.2 構建命令

docker build -t tesseract-ocr:0903.1.00 .

2.3 Dockerfile

FROM  centos:7.6.1810  LABEL ANTHOR="IVAN DU" VERSION="0903.0.01" BUILD_DATE="2019-09-03"         RESOURCES="https://github.com/tesseract-ocr/tesserac http://www.leptonica.org/index.html https://github.com/tesseract-ocr/tessdata"  ENV   LD_LIBRARY_PATH="/usr/local/lib"         LIBLEPT_HEADERSDIR="/usr/local/include"         PKG_CONFIG_PATH="/usr/local/lib/pkgconfig"         TESSDATA_PREFIX="/usr/local/share/tessdata"  ADD   4.1.0.tar.gz /  ADD   leptonica-1.78.0.tar.gz /  ADD   tesseract_langs.tar.gz /usr/local/share/tessdata/  RUN   yum -y install file automake libjpeg-devel libpng-devel libtiff-devel zlib-devel libtool gcc-c++ make         && cd /leptonica-1.78.0 && ./configure && make && make install         && cd /tesseract-4.1.0 && ./autogen.sh && ./configure && make && make install         && rm -rf /leptonica-1.78.0 /tesseract-4.1.0

2.4 文章相關資源

本文涉及到的所以資源均已上傳至 CSDN ，如有需要，自行下載即可。

2.5 驗證

docker run --rm -v ${PWD}:/data ace78e7ad3b5 tesseract /data/3.jpg /data/gysl -l chi_sim  Tesseract Open Source OCR Engine v4.1.0 with Leptonica  cat gysl.txt  在 日 常 的 一 些 工 作 中 , 俊 爾 也 霽 妮 我 們 技 圖 片 轉 振 為 文 字 , 目 前 大 鄂 分 力 公 軟 作 廷 無 法 實 現 婁 伯 的 功  解 , 因 止 通 到 羔 佑 的 問 題 時 , 我 們 司 能 自 已 動 手 航    Tesseract (iR8S| 敷 ) , 一 欲 由 HP 實 駕 室 開 發 由 Google 雕 護 的 開 源 0CR (Oplcal Character  Recogniton , 光 學 字 祖 R3J) 引 摸 , 與 Microsoft Ofce DocumentImagmg (MODI) 相 比 , 我 們 可 以 不  斷 的 州 練 的 庫 , 俚 圖 僧 轉 浩 文 本 的 能 力 不 抗 增 強 ; 如 松 團 隊 深 度 靄 要 , 還 可 以 以 它 為 模 松 , 開 發 出 等 合  自 軀 的 OCRS| 敷 , 在 GItHub 上 我 們 目 前 能 睿 刺 的 最 新 版 本 為 : v4 10。 本 文 以 Cent0S7 6 1810  為 偉 Tesseract 的 安 裝 司 儉 用 跡 行 演 示 , 為 了 源 少 大 家 重 夏 迢 子 , 本 文 已 旅 安 裝 程 坪 理 為 Docker  鎬 像 , 霏 要 的 小 仁 伴 眼 接 俠 用 文 中 的 Dockerfie 卵 可 皎 鎬 像 , 進 市 宇 現 開 鍇 卯 用 .

識別內容為本文第一段除了標題部分內容。效果並不佳。試了一下英文資料的識別，比中文要好不少。

三總結

3.1 Tesseract 目前對中文的識別效果並不好，不推薦使用。如果你不介意多花時間，可以考慮使用它提供的訓練功能自定義你的語言庫，那樣在特定場景下識別率應該能上一個台階。

3.2 純英文內容可以試一下。

3.3 文章的資源包及鏡像在本人CSDN相關賬戶下可以找到，不想耗費時間只想直接使用的小夥伴歡迎直接下載。

3.4 Tesseract 還有 Python 版本和 windows 版本。