能直接複製圖片中文字，功能遠超普通OCR軟體，MIT學生開發了一款強大Chrome插件

有時你遇到一篇古老的文獻，PDF文檔還是掃描版。又或者是遇到一幅網頁版海報，上面的文字你完全看不懂。

但你無法把圖片中的文字複製下來做進一步處理，是不是讓人頭大？

雖然市場上有很多OCR軟體可以識別圖片中的文字，但還是有種種局限性，比如無法識別文字排版，需要轉成其他文件後才能處理，無法直接操作。

最近，一位來自MIT的學生Kevin Kwok解決了以上這些問題。他用電腦視覺演算法寫了個Chrome插件Naptha，可以直接識別網頁圖片中的文字，並直接對它們進行高亮、複製粘貼、翻譯、修改等操作。

拾取圖片中的文字

Naptha無需在電腦上安裝App，直接在Chrome應用商店中搜索Project Naptha，就可以看到這款插件，一鍵安裝後即可在Chrome瀏覽器中使用。

Naptha可以用於在線漫畫、掃描文檔，甚至連拍攝照片中的文字也能識別出來。

普通的網頁文字自然不在話下：

如果是別人給你發過來的掃描文件也沒關係，直接把文件拖到Chrome瀏覽器中（Chrome支援打開多種本地文件），Naptha就能識別。

對於照片中的圖片，Naptha也能夠讀出。作者Kevin拍攝了一本書的封面，除了文字不清晰、豎向排列的情況，封面的書名和簡介都能正常識別出來。

Naptha還支援讀取表格文字，並將複製下來的文字粘貼到Excel里。

Kevin承諾，Naptha未來還會加入翻譯、除去文字水印、直接在圖片上修改文字等功能。這些功能目前還處在beta測試階段，處於不穩定或者不可用狀態。

光學字元識別（OCR）已經不是什麼新鮮事了，雖然Naptha實現的功能看起來像OCR，但實際上它主要功能實際上是文本檢測。

一般的OCR不包含語言模型，而Naptha則可以根據上下文的概率輸出一系列字母。比如把一串字元判定成「hello」，而不是「he1 | o」。

OCR需要知道圖片中的語言才能正確識別文本，Naptha使用的是一種稱為「筆劃寬度變換」的演算法，該演算法由微軟研究院於2008年提出，它就像人一樣，即使不知道是何種語言，也能猜到文字就在那裡。

結合其他演算法，如連通分量分析（識別不同的字母）、otsu閾值（確定字間距）、不相交的集合森林（識別文本行），Naptha可以非常快速地建立文本區域、單詞和字母的模型，識別圖中存在哪些特定字母。

通過一些基本的布局分析和文本度量，Naptha還可以找出文本的對齊參數、字體大小和字體粗細。有了這些資訊，它可以在同一個地方以類似的字體重新列印文本，或者將文本改成同字體的其他文字。

部落格地址： https://projectnaptha.com/

Chrome插件下載地址： https://chrome.google.com/webstore/detail/project-naptha/molncoemjfmpgdkbdlbjmhlcgniigdnf