世界第一!騰訊優圖刷新國際權威比賽ICDAR OCR信息提取紀錄
近日,騰訊優圖在國際權威的ICDAR 2019「Scanned Receipts OCR and Information Extraction」關鍵信息抽取任務中,通過自研智能結構化方案,以97.67%的Hmean刷新榜單紀錄。從識別到內容理解,優圖OCR正在不斷突破技術邊界,進行着核心技術的創新。
ICDAR SROIE比賽榜單
ICDAR SROIE榜單結果
ICDAR(International Conference on Document Analysis and Recognition)是全球OCR領域公認最權威的比賽之一, 有OCR領域的奧斯卡盛會之稱。ICDAR 在2019年新增了SROIE(Scanned Receipts OCR and Information Extraction)關鍵信息抽取任務,標誌着OCR從識別到理解的進化。
作為首個針對結構化文檔提出的信息抽取任務,SROIE因其技術的挑戰性和廣泛的應用性,一直是全球各大名校、科技公司競逐的焦點。此次,騰訊優圖刷新OCR信息提取紀錄,也標誌着騰訊OCR科研水平持續保持在業界前沿。
優圖OCR技術能力
作為快速數據採集的手段,OCR技術已在越來越多貼近消費端需求的真實場景中落地,例如金融、政務、醫療、財務報銷等領域,OCR技術在優化業務流程、解放生產力和降低企業成本方面,實效凸顯,得到了行業和客戶的廣泛認可。
據騰訊優圖研究人員表示,在此次SROIE任務中主要存在兩方面難點,首先是票據中的地址和公司名稱字段長短不一,位置近鄰,內容相似且干擾較多。其次是,在應付款項字段提取中,同一張票據中可能存在多個相同或相近的金額,例如單價、小計、含稅金額、優惠金額等,而不同票據之間對於該項的前綴描述也不盡相同,這些難題對於OCR算法的適應能力更具挑戰性。
方案結果對比
為了攻克這兩大難題,騰訊優圖提出了一種智能結構化模型,基於相對位置Attention的結構避免語義可讀性對模型性能的影響。融入圖像整體表徵,使得模型能夠在了解版式分佈的同時,關注局部細微差異。此外,騰訊優圖還細化了標籤層級,內聚關鍵字段內部特徵,強化字段交界處的語義變化表徵,提升模型在地址、公司字段難例上的表現效果。因此相較於TOP榜單模型,騰訊優圖的智能結構化方案結合自然語言處理能力,不僅在速度上更快,字段提取準確率也更高。
目前,騰訊優圖OCR通用文字識別涵蓋了印刷體、英文、手寫、表格、印章、速算等諸多能力,結構化識別實現了從多個垂直場景結構化到自定義模板結構化方案及智能結構化方案的全覆蓋,幫助各產品和業務提升效率、創造價值。
騰訊優圖始終積極推動研究成果在業務領域的落地。在OCR領域,騰訊優圖基於多角度文本檢測、語義增強的文字識別、公式識別、NLP後處理等基礎技術,輸出了通用文字識別、證照識別、智能票據、單據識別、車輛信息識別、教育試題識別、金融保險單據識別等多個產品及解決方案, 並在政務、金融、教育、醫療等多個應用場景落地。
未來,優圖將以更加開放的心態,深耕於技術領域,不斷擴展技術成果的落地場景和應用空間,帶給大眾更多切實便利和驚喜體驗。