谷歌AI:推進實例級別識別 (ILR)研究

2020 年 10 月 14 日
AI

英語原文：Advancing Instance-Level Recognition Research

本文由Cam Askew and André Araujo，Software Engineers， Google Research發佈。

實例級識別（ILR）是識別一個物體的特定實例而不是簡單識別出所屬類別的計算機視覺任務。例如，我們不會把一張圖像標註為「後印象派繪畫」，我們真正感興趣的就是實例級別的標籤，例如「文森特梵高的羅納河上的星空」或者「法國巴黎的凱旋門」而不是簡單的拱門。實例級識別的難題存在很多領域，例如地標，藝術品，商品，或者標誌（logo），而且實例級識別在很多領域多有很多的應用，例如視覺搜索軟件，個人相冊識別，購物和其他更多的應用。在過去的幾年中，谷歌在實例級識別的研究中做出了重大的貢獻，例如Google 地標數據集和谷歌地標數據集V2和DELF與檢測到檢索的新模型。

三種圖像識別問題，這三種問題對於來自藝術品，地標和商品域有不同的標籤粒度的層級（基本的，細粒度，實例級別）。我們主要聚焦於實例級的識別。

今天，我們強調在ECCV20的實例級識別研討會上的一些結果。這個研討會聚集了在這個領域的專家和愛好者，這學多新鮮有意思的討論中，包含了我們的ECCV20的論文「DEep Local and Global features」 (DELG)，這是一個目前最先進的實例級識別圖像特徵模型，還包含了一個DELG支持的開源代碼和其他的實例級識別技術。在這個研討會上也提出了一個基於GLDV2的兩個新的地標挑戰賽（在識別與檢索任務中）。未來ILR挑戰賽也會擴展到其他的領域：藝術品識別，商品檢索。這個研討會的長期目標是去促進這個領域的進步，並且通過整合來自不同領域的研究團隊來追求最先進的模型，在很多不同的領域中的任務到目前為止已經獲得了很好的解決。

DELG: DEep Local and Global Features（深度局部與全局特徵）

高效的圖像表達是實例級圖像識別的主要內容。通常局部與全局兩種類型的表達是必要的。一個全局圖像特徵的總結會得到一個緊湊的表達，但是會丟失關於視覺元素空間組織的信息，這些信息往往是樣本獨特的個性化特徵。另一方面，局部特徵會包含關於特定圖像區域的描述與幾何信息。他們對於匹配圖像中描繪相同的物體是非常有用的。

現在，大多數依賴於這兩種類型的特徵的系統都需要使用不同的模型單獨的應用他們中的每一個，這就會導致大量的冗餘計算與低效。為了解決這個問題，我們提出了DELG，這是一種局部與全局特徵統一的模型。

DELG模型應用了一個全卷積網絡，這個全卷積網絡包含兩個頭，一個處理全局特徵，另一個處理局部特徵。全局特徵使用深度網絡的局部池化特徵圖，高效的整合輸入圖像的顯著特徵，使得這個網絡對於輸入圖像的改變更加魯棒。在注意力機制的幫助下，局部特徵分支使用交互特徵層來檢測圖像的顯著性區域，並且以一種可區分的方式產生xainggaun位置內容的描述符。

我們提出的DELG模型（左），全局模型在基於檢索的系統中的第一個stage中使用可以高效選擇最相似的圖像（底部），局部特徵在重新排列的結果中使用（上邊，右邊），提升系統的準確性。

由於系統能夠提取全局與局部的特徵，新型的設計允許高效的推理。首先這樣一個統一的模型可以進行端到端的訓練並且在實例級識別中得到最先進的結果。當與之前的全局特徵對比時，我們的方法超出之前的模型7.5%MAP，並且對於局部特徵的重排過程，基於DELG的方法可以超出之前7%。總之，DELG在GLDV2上實現了61.2%的AP，除了2019年挑戰賽上的兩種方法外，超出了所有的其他方法。所有的頂級的結果都使用了複雜的模型融合策略，我們只採用了單一模型。

Tensorflow 2 Open-Source Codebase（tensorflow2開源代碼庫）

為了促進研究的可復現性，我們發佈了一個經過改進的開源代碼庫，其中包含了DELG和其他的實例級識別的技術，例如DELF和檢測到檢索。我們的代碼應用最新的Tensorflow2，並且出了圖像檢索與匹配功能之外我們也開發了模型的訓練與推理功能。我們邀請社區使用並且對代碼庫作出貢獻以便在實際里識別領域能夠發展出更強大的基礎。

新的實例級分割挑戰賽

聚焦於地表識別中，谷歌地標數據集v2是在實例識級別中可用的最大的shoji，其中包含500萬張圖像，包括了大概20萬類。通過使用GLDv2訓練地標檢索模型，與之前數據集上訓練模型的結果相比我們已經得到6%的MAP提升。最近，我們也已經發起了新的瀏覽器接口來可視化GLDv2數據集。

今年，在地標域上我們也發起了兩個新的挑戰賽，一個聚焦於識別另一個聚焦於檢索。這些競賽的特點是一種新收集的數據集與一種新的評估方法：參賽者不必上傳一個計算好預測值的csv文件，而是提交一個模型和代碼，這些模型和代碼可以直接在Kaggle服務器上運行。來計算預測值與競賽的排名。這種環境的計算限制強調高效性與實用性的解決方案。

這項挑戰賽吸引了超過1200支隊伍，同比去年增長3倍，並且參賽者基於我們的DELG實現了很大的提升。在識別任務中，最高的得分實現了大約43%的AP，在檢索任務中，獲勝的隊伍實習拿了59%的MAP的提升。後者的實現通過多個高效模型的混合，池化方法，訓練策略（細節問題可以參考：Kaggle競賽官網）

除了地標識別與檢索挑戰賽，我們的學術和工業界的合作者也討論他們在其他的域中的競賽與基準上的成果。在藝術品識別中的大規模研究基準尚在構建中，這個數據集使用 The Met』s Open Access image collection，並和一個由不同光度與集合變換的照片組成的新測試集。類似的一個新的商品檢索競賽將會包含個還總具有挑戰性的方面，包含大量的商品，長尾類別分佈，物體的外觀以及全局環境的變化。更多的關於ILR研討會的包括幻燈片和視頻錄像等信息可以在官網上查看。

基於這些研究，開源代碼，數據與挑戰賽，我們希望能夠促進實例級識別的成功，並且使得來自不同社區的研究者和機器學習愛好者能夠開發能夠泛化於不同域的方法。

致謝

這個項目主要的谷歌貢獻者是André Araujo, Cam Askew, Bingyi Cao, Jack Sim and Tobias Weyand。我們也要感謝ILR研討會的聯合組織者Ondrej Chum, Torsten Sattler, Giorgos Tolias (Czech Technical University), Bohyung Han (Seoul National University), Guangxing Han (Columbia University), Xu Zhang (Amazon), collaborators on the artworks dataset Nanne van Noord, Sarah Ibrahimi (University of Amsterdam), Noa Garcia (Osaka University)，也要感謝來自the Metropolitan Museum of Art的合作者Jennie Choi, Maria Kessler and Spencer Kiser。對於開源代碼庫，我們要感謝下列開發者的幫助：Dan Anghel, Barbara Fusinska, Arun Mukundan, Yuewei Na and Jaeyoun Kim。我們也要感謝Cukierski, Phil Culliton, Maggie Demkin對Kaggle競賽的支持。此外我們也要感謝 Ralph Keller and Boris Bluntschli對我們收集數據的幫助。

雷鋒字幕組是一個由AI愛好者組成的翻譯團隊，匯聚五五多位志願者的力量，分享最新的海外AI資訊，交流關於人工智能技術領域的行業轉變與技術創新的見解。

團隊成員有大數據專家，算法工程師，圖像處理工程師，產品經理，產品運營，IT諮詢人，在校師生；志願者們來自IBM，AVL，Adobe，阿里，百度等知名企業，北大，清華，港大，中科院，南卡羅萊納大學，早稻田大學等海內外高校研究所。

如果，你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起，學習新知，分享成長。