能直接複製圖片中文字,功能遠超普通OCR軟體,MIT學生開發了一款強大Chrome插件

  • 2019 年 10 月 4 日
  • 筆記

曉查 發自 凹非寺 本文轉載自:量子位(QbitAI)

有時你遇到一篇古老的文獻,PDF文檔還是掃描版。又或者是遇到一幅網頁版海報,上面的文字你完全看不懂。

但你無法把圖片中的文字複製下來做進一步處理,是不是讓人頭大?

雖然市場上有很多OCR軟體可以識別圖片中的文字,但還是有種種局限性,比如無法識別文字排版,需要轉成其他文件後才能處理,無法直接操作。

最近,一位來自MIT的學生Kevin Kwok解決了以上這些問題。他用電腦視覺演算法寫了個Chrome插件Naptha,可以直接識別網頁圖片中的文字,並直接對它們進行高亮、複製粘貼、翻譯、修改等操作。

拾取圖片中的文字

Naptha無需在電腦上安裝App,直接在Chrome應用商店中搜索Project Naptha,就可以看到這款插件,一鍵安裝後即可在Chrome瀏覽器中使用。

Naptha可以用於在線漫畫、掃描文檔,甚至連拍攝照片中的文字也能識別出來。

普通的網頁文字自然不在話下:

如果是別人給你發過來的掃描文件也沒關係,直接把文件拖到Chrome瀏覽器中(Chrome支援打開多種本地文件),Naptha就能識別。

對於照片中的圖片,Naptha也能夠讀出。作者Kevin拍攝了一本書的封面,除了文字不清晰、豎向排列的情況,封面的書名和簡介都能正常識別出來。

Naptha還支援讀取表格文字,並將複製下來的文字粘貼到Excel里。

Kevin承諾,Naptha未來還會加入翻譯、除去文字水印、直接在圖片上修改文字等功能。這些功能目前還處在beta測試階段,處於不穩定或者不可用狀態。

不是OCR,是文本檢測

光學字元識別(OCR)已經不是什麼新鮮事了,雖然Naptha實現的功能看起來像OCR,但實際上它主要功能實際上是文本檢測。

一般的OCR不包含語言模型,而Naptha則可以根據上下文的概率輸出一系列字母。比如把一串字元判定成「hello」,而不是「he1 | o」。

OCR需要知道圖片中的語言才能正確識別文本,Naptha使用的是一種稱為「 筆劃寬度變換」的演算法,該演算法由微軟研究院於2008年提出,它就像人一樣,即使不知道是何種語言,也能猜到文字就在那裡。

結合其他演算法,如連通分量分析(識別不同的字母)、otsu閾值(確定字間距)、不相交的集合森林(識別文本行),Naptha可以非常快速地建立文本區域、單詞和字母的模型,識別圖中存在哪些特定字母。

通過一些基本的布局分析和文本度量,Naptha還可以找出文本的對齊參數、字體大小和字體粗細。有了這些資訊,它可以在同一個地方以類似的字體重新列印文本,或者將文本改成同字體的其他文字。

傳送門

部落格地址: https://projectnaptha.com/

Chrome插件下載地址: https://chrome.google.com/webstore/detail/project-naptha/molncoemjfmpgdkbdlbjmhlcgniigdnf