今日 Paper | 動態影像檢索;實時場景文本定位;感知場景表示;雙重網路等
- 2020 年 3 月 5 日
- 筆記
目錄
Sketch Less for More:基於細粒度草圖的動態影像檢索
ABCNet:基於自適應Bezier-Curve網路的實時場景文本定位
通過逐步增加蒙版區域來修復影像
BlockGAN:從未標記的影像中學習3D對象感知場景表示
用於行人重識別的交叉分辨對抗性雙重網路
Sketch Less for More:基於細粒度草圖的動態影像檢索
論文名稱:Sketch Less for More: On-the-Fly Fine-Grained Sketch Based Image Retrieval
作者:Bhunia Ayan Kumar /Yang Yongxin /Hospedales Timothy M. /Xiang Tao /Song Yi-Zhe
發表時間:2020/2/24
論文鏈接:https://arxiv.org/abs/2002.10310
推薦原因
這篇論文被CVPR 2020接收,考慮的是基於草圖的細粒度影像檢索,即在給定用戶查詢草圖的情況下檢索特定照片樣本的問題。
繪製草圖花費時間,且大多數人都難以繪製完整而忠實的草圖。為此這篇論文重新設計了檢索框架以應對這個挑戰,目標是以最少筆觸數檢索到目標照片。這篇論文還提出一種基於強化學習的跨模態檢索框架,一旦用戶開始繪製,便會立即開始檢索。此外,這篇論文還提出一種新的獎勵方案,該方案規避了與無關的筆畫筆觸相關的問題,從而在檢索過程中為模型提供更一致的等級列表。在兩個公開可用的細粒度草圖檢索數據集上的實驗表明,這篇論文所提方法比當前最佳方法具有更高的早期檢索效率。


ABCNet:基於自適應Bezier-Curve網路的實時場景文本定位
論文名稱:ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network
作者:Liu Yuliang /Chen Hao /Shen Chunhua /He Tong /Jin Lianwen /Wang Liangwei
發表時間:2020/2/24
論文鏈接:https://arxiv.org/abs/2002.10200
推薦原因
這篇論文被CVPR 2020接收,考慮的是場景文本檢測和識別的問題。
現有方法基於字元或基於分段,要麼在字元標註上成本很高,要麼需要維護複雜的工作流,都不適用於實時應用程式。這篇論文提出了自適應貝塞爾曲線網路(Adaptive Bezier-Curve Network ,ABCNet),包括三個方面的創新:1)首次通過參數化的貝塞爾曲線自適應擬合任意形狀文本;2)設計新的BezierAlign層,用於提取具有任意形狀的文本樣本的準確卷積特徵,與以前方法相比顯著提高精度;3)與標準圖形框檢測相比,所提貝塞爾曲線檢測引入的計算開銷可忽略不計,從而使該方法在效率和準確性上均具優勢。對任意形狀的基準數據集Total-Text和CTW1500進行的實驗表明,ABCNet達到當前最佳的準確性,同時顯著提高了速度,特別是在Total-Text上,ABCNet的實時版本比當前最佳方法快10倍以上,且在識別精度上極具競爭力。


通過逐步增加蒙版區域來修復影像
論文名稱:Learning to Inpaint by Progressively Growing the Mask Regions
作者:Hedjazi Mohamed Abbas /Genc Yakup
發表時間:2020/2/21
論文鏈接:https://arxiv.org/abs/2002.09280
推薦原因
這篇論文考慮的是影像修復問題。
生成模型可以產生視覺上合理的影像,但是隨著被遮擋區域的增大,以往的方法難以生成正確的結構和顏色。這篇論文對這個問題引入了一種新的課程樣式訓練方法,在訓練時間內逐漸增加遮罩區域的大小,而在測試時,用戶可以在任意位置給出隨機尺寸的遮罩。這種訓練方法可以使得生成對抗模型的訓練更加平穩,提供更好的顏色一致性並且捕捉對象的連續性。


BlockGAN:從未標記的影像中學習3D對象感知場景表示
論文名稱:BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images
作者:Nguyen-Phuoc Thu /Richardt Christian /Mai Long /Yang Yong-Liang /Mitra Niloy
發表時間:2020/2/20
論文鏈接:https://arxiv.org/abs/2002.08988
推薦原因
這篇論文提出了一個名為BlockGAN的影像生成模型,可以直接從未標註的2D影像中學習對象感知的3D場景表示。BlockGAN首先生成背景和前景對象的3D特徵,然後將它們組合為整個場景的3D特徵,最後將它們渲染為逼真的影像。BlockGAN可以推理出對象的外觀(例如陰影和照明)之間的遮擋和交互作用,並提供對每個對象的3D姿勢和身份的控制,同時保持影像的逼真度。BlockGAN的效果可以在項目主頁中查看。


用於行人重識別的交叉分辨對抗性雙重網路
論文名稱:Cross-Resolution Adversarial Dual Network for Person Re-Identification and Beyond
作者:Li Yu-Jhe /Chen Yun-Chun /Lin Yen-Yu /Wang Yu-Chiang Frank
發表時間:2020/2/19
論文鏈接:https://arxiv.org/abs/2002.09274
推薦原因
這篇論文要解決的是行人重識別問題。
考慮到真實場景中攝像機和目標人之間距離不同可能會帶來解析度不匹配的情況,會降低行人重識別演算法的表現。這篇論文提出了一種的新的生成對抗網路來解決跨解析度的行人重識別,可以學習解析度不變的影像表示,同時能恢復低解析度輸入影像丟失的細節,共同用於改善重識別的性能。在五個標準行人重識別基準上的實驗結果證實了該方法的有效性,尤其是在訓練過程中不知道輸入解析度的情況下。此外,兩個車輛重識別基準測試的實驗結果也證實了該模型在交叉解析度視覺任務上的通用性。


論文作者團隊招募
為了更好地服務廣大 AI 青年,AI 研習社正式推出全新「論文」版塊,希望以論文作為聚合 AI 學生青年的「興趣點」,通過論文整理推薦、點評解讀、程式碼復現。致力成為中國外前沿研究成果學習討論和發表的聚集地,也讓優秀科研得到更為廣泛的傳播和認可。
我們希望熱愛學術的你,可以加入我們的論文作者團隊。
加入論文作者團隊你可以獲得
1.署著你名字的文章,將你打造成最耀眼的學術明星
2.豐厚的稿酬
3.AI 名企內推、大會門票福利、獨家周邊紀念品等等等。
加入論文作者團隊你需要:
1.將你喜歡的論文推薦給廣大的研習社社友
2.撰寫論文解讀
如果你已經準備好加入 AI 研習社的論文兼職作者團隊,可以添加運營小姐姐的微信(ID:julylihuaijiang),備註「論文兼職作者」