數據推薦 | 自然場景OCR文字識別數據集一覽

自然場景OCR任務介紹

文字識別(optical character recognition,OCR)是指例如掃描儀或數碼相機的電子設備檢查圖像中的字符,然後用字符識別方法將形狀翻譯成計算機文字的任務。

OCR應用場景比較豐富,包括自然場景、手寫場景、文檔識別等。作為OCR任務中應用最廣泛、具備巨大市場需求的場景之一是自然場景OCR。自然場景是指人們日常生活涉及到的OCR場景,文字載體通常可以為商店牌匾、站牌、海報、路標、漫畫、井蓋畫、提示語、警示語、包裝說明、菜單、建築物標誌等。

圖片

圖片

自然場景OCR數據標註方式

按照不同的標註精細程度,通常可以分為文本行級標註和字符級標註(拉丁語系存在單詞的還會進行單詞級標註)。標註方式通常為文本框+字符轉寫,基於不同的任務需求,文本框可以為矩形框或者四邊形框。

圖片

圖片

自然場景OCR任務難點

從技術角度出發,自然場景OCR任務存在以下四個難點。

語種眾多

不同國家常用語言不同,不同語言的字符形態區別也很大,增加了OCR算法的識別難度。

字體形態複雜

在自然場景中,文字通常為藝術字體,藝術字體的狀態與標準字體差異較大;此外,自然場景中文字大小不一、顏色多變等因素更增加了OCR任務的難度。

拍攝角度多樣

用戶大多會使用手機作為拍攝文字的設備,不同用戶拍攝習慣不同,會導致拍攝時的拍攝角度多樣,給OCR算法對角度傾斜的魯棒性提出了挑戰。

文字載體多樣

自然場景OCR文字載體分佈比較豐富,部分載體會造成文字扭曲。例如食品包裝經常會發生形變,造成文字的彎曲,增加了OCR任務難度。

圖片

數據堂自然場景OCR數據集

數據堂針對自然場景OCR任務需求和難點,從數據層面針對性設計了下述數據集,分別介紹如下:

1

222289張中文自然場景OCR數據

該數據集為中文自然場景OCR數據。在數據採集方面,採集設備為手機及相機;文字載體為常見的商店牌匾、海報、路標、提示語、警示語、包裝說明、菜單等;場景分佈方面,數據採集於多種室內室外場景。在數據標註方面,對圖片中字符進行了行級、單詞級和字符級的矩形框+文字轉寫標註。

| 數據規模 | 222289張圖像 |
| 採集環境 | 室內、室外 |
| 採集多樣性 | 多種場景、多種拍攝角度 |
| 採集設備 | 手機、相機 |
| 拍攝角度 | 仰視、俯視、平視 |
| 數據格式 | 圖像為jpg、png、jpeg;標註文檔為json |
| 標註內容 | 行級矩形框標註、行級內容轉寫 |
| 準確率 | 檢測框標註、文本轉寫準確率>95% |

2

71535張英文自然場景OCR數據

該數據集為英文自然場景OCR數據。在數據採集方面,採集設備為手機、相機和平板電腦;文字載體為常見的商店牌匾、海報、路標、提示語、警示語、包裝說明、菜單、建築物標誌等;場景分佈方面,該數據採集於多種室內室外場景。在數據標註方面,對圖片中字符進行了行級、單詞級和字符級矩形框+文字轉寫標註。

| 數據規模 | 71535張圖像,每張圖像有1-200個單詞 |
| 採集環境 | 英國、美國實地商店牌匾、海報、路標、提示語、警示語、包裝說明、菜單、建築物標誌等 |
| 採集多樣性 | 多種場景、多種拍攝角度、多種光照條件 |
| 採集設備 | 手機、相機、平板電腦 |
| 拍攝角度 | 仰視、俯視、平視 |
| 數據格式 | 圖像為jpg;標註文檔為json |
| 標註內容 | 行級、單詞級、字符級矩形框或四邊形框標註、文本轉寫 |
| 準確率 | 檢測框標註、文本轉寫準確率>95% |

3

105941張12種語言自然場景OCR數據

該數據集為多國語言自然場景OCR數據。在數據採集方面,採集設備為手機及相機;文字載體為常見的商店牌匾、站牌、海報、車票、路標、漫畫、井蓋畫、提示語、警示語、包裝說明、菜單、建築物標誌等;場景分佈方面,該數據採集於多種室內室外場景。在數據標註方面,對圖片中字符進行了行級四邊形框+文字轉寫標註。

| 數據規模 | 105941張圖像,包含日語、韓語、印尼語、馬來語、越南語、泰語、法語、德語、意大利語、葡萄牙語、俄語、西班牙語 |
| 採集環境 | 商店牌匾、站牌、海報、車票、路標、漫畫、井蓋畫、提示語、警示語、包裝說明、菜單、建築物標誌等 |
| 採集多樣性 | 12種語言、多種場景、多種拍攝角度(仰視、俯視、平視) |
| 採集設備 | 手機、相機 |
| 數據格式 | 圖像為jpg;標註文檔為json |
| 標註內容 | 行級矩形框標註、行級內容轉寫 |
| 準確率 | 四邊形框頂點偏差不超過5個像素為正確檢測,檢測框精度、文本轉寫精度>97% |

4

3506張印地語OCR標註及轉寫數據

該數據集為印地語OCR數據。在數據採集方面,採集場景包括自然場景、互聯網圖像和文本圖像。採集設備為手機;文字載體為牌匾、包裝說明、小廣告、菜單、海報等、雜誌封面、漫畫封面、文本文檔等;場景分佈方面,該數據採集於多種室內室外場景。在數據標註方面,對圖片中行級字符進行行級四邊形框+文字轉寫標註,對於數列文本進行豎列四邊形框+文字轉寫標註。

| 數據規模 | 3056張圖像,包含自然場景、互聯網圖像文字、文本圖像 |
| 採集環境 | 牌匾、包裝說明、小廣告、菜單、海報、雜誌封面、漫畫封面、文本文檔等 |
| 採集多樣性 | 多種場景、多種角度、多種光照條件 |
| 採集設備 | 手機 |
| 拍攝角度 | 仰視、平視 |
| 數據格式 | 圖像為jpg;標註文檔為json |
| 標註內容 | 行級矩形框標註、行級內容轉寫;豎列四邊形標註、豎列內容轉寫 |
| 準確率 | 四邊形框頂點偏差不超過10個像素為正確檢測,檢測框精度、文本轉寫精度>97% |

5

4995張越南語OCR標註及轉寫數據

該數據集為越南語OCR數據。在數據採集方面,採集場景包括自然場景、互聯網圖像和文本圖像。採集設備為手機;文字載體為牌匾、包裝說明、小廣告、菜單、海報等、雜誌封面、漫畫封面、文本文檔等;場景分佈方面,該數據採集於多種室內室外場景。在數據標註方面,對圖片中行級字符進行行級四邊形框+文字轉寫標註,對於數列文本進行豎列四邊形框+文字轉寫標註。

| 數據規模 | 4995張,包含自然場景、互聯網圖像文字、文本圖像 |
| 採集環境 | 牌匾、包裝說明、小廣告、菜單、海報、雜誌封面、漫畫封面、文本文檔等 |
| 採集多樣性 | 多種場景、多種角度、多種光照條件 |
| 採集設備 | 手機 |
| 拍攝角度 | 仰視、平視 |
| 數據格式 | 圖像為jpg;標註文檔為json |
| 標註內容 | 行級矩形框標註、行級內容轉寫;豎列四邊形標註、豎列內容轉寫 |
| 準確率 | 四邊形框頂點偏差不超過10個像素為正確檢測,檢測框精度、文本轉寫精度>97% |

依託自身的數據優勢以及豐富的數據處理經驗,數據堂推出的自然場景多國語言系列OCR標註及轉寫數據,為自然場景OCR技術應用的廣泛落地提供助力。