用戶介面開發自動化,新研究根據設計圖自動生成用戶介面屬性|一周AI最火論文

  • 2020 年 2 月 12 日
  • 筆記

大數據文摘專欄作品

作者:Christopher Dossman

編譯:Junefish、Olivia、雲舟

嗚啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly欄目又和大家見面啦!

AI ScholarWeekly是AI領域的學術專欄,致力於為你帶來最新潮、最全面、最深度的AI學術概覽,一網打盡每周AI學術的前沿資訊。

每周更新,做AI科研,每周從這一篇開始就夠啦!

本周關鍵詞:偽造人臉、無監督學習、模仿學習

本周最佳學術研究

X射線檢測偽造人臉影像

北京大學和微軟亞洲研究院的研究人員最近推出了人臉X射線影像表示法,用於檢測人臉影像中的偽造,該方法大大超過了目前已有的最新方法。

他們的工作重點是檢測面部偽造問題,例如由當前的面部操縱演算法(包括DeepFakes,Face2Face,FaceSwap和NeuralTextures)產生的偽造問題。

與現有的偽造檢測器不同,面部X射線假定存在混合步驟,並且不依賴於與特定面部操縱技術相關的任何偽造影像知識。通過對輸入的面部影像進行計算,可以得到該影像面部X射線的灰度影像。該灰度影像不僅可以確定面部影像是偽造的還是真實的,而且在存在混合邊界時,還可以確定該邊界的位置

我們必須承認人臉偽造檢測正日益成為一項嚴峻的挑戰。面部X射線檢測方法在面部偽造識別方面實現了非常高的檢測精度,並且能夠可靠地預測面部X射線,因此,它是普遍面部偽造檢測器開發征程上的重要一步。

對於未預見的人臉操縱方法產生的偽造,該框架仍然有效。與之形成對比的是,大多數現有的人臉偽造檢測演算法則會有相當大的性能下降。

面部X射線的通用性涵蓋了大多數現有的面部操作演算法。此外,可以通過自我監督學習來訓練用於計算面部X射線的演算法,該訓練過程無需任何最新的面部操作方法生成偽影像,僅使用大量由真實影像合成的混合影像即可實現。

閱讀更多:

https://arxiv.org/abs/1912.13458v1

同步進行的無監督學習:條件影像生成,前景分割和細粒度聚類

Facebook AI和Tel Aviv大學的研究人員提出了一種無監督的同步學習方法,包括:

  • 條件影像生成器
  • 前景提取和細分
  • 兩級層次結構分類
  • 對象移除和後台完成

以上所有內容均無需使用注釋即可實現。該方法將生成的對抗網路和變型自動編碼器結合在一起,具有多個編碼器,生成器和鑒別器,並可以即時解決所有任務。

該訓練方案的輸入是來自同一域的未標記影像的各種集合,以及沒有前景對象的一組背景影像。另外,影像生成器可以將一個影像中的背景與第二個影像或所需聚類的索引條件下的前景相混合。

通過構建單個模型來處理多個無人監督任務,研究人員在每個任務上都展現了超越同類最佳方法的性能,並展示了協同訓練的能力。

與傳統方法相比,該方法在每個任務中均獲得了最新技術成果。

閱讀更多:

https://arxiv.org/abs/1912.13471v1

從影像推斷用戶介面屬性

為了幫助開發人員自動開發用戶介面,這一研究探索了一種新的學習領域來推斷用戶介面屬性。給定設計師創建的輸入影像後,研究人員將學習推斷其實現方式,該實現方式在呈現時的外觀和輸入影像相似。

他們採用了黑盒渲染引擎及其支援的一組屬性,包括顏色,邊界半徑,陰影或文本屬性,並使用它來生成合適的綜合訓練數據集。然後,他們訓練了專門的神經模型來預測屬性值。

為了提高像素級別的準確性,研究人員使用了模仿學習來訓練一種神經策略,該策略通過學習計算原始影像和渲染影像在其屬性空間中的相似度,而不是基於像素值的差異來改進預測的屬性值。對於合成數據集和真實數據集,該方法分別成功推斷出正確的屬性值分別為94.8%和92.5%。

與以前產生草圖或將組件放置在所需位置的綜合布局工具不同,此新工作聚焦於像素級的精確實現。

研究人員能夠將其實例化為學習Android Button組件實現的任務,並在由Google Play Store應用程式組成的數據集上達到92.5%的準確性。他們表示,這一切僅需要對合適的合成數據集進行訓練即可實現。該方法是實現用戶介面流程自動化的重要一步。

閱讀更多:

https://arxiv.org/abs/1912.13243v1

用於查詢高效主動模仿學習的新框架

這項工作提出了一種新的模仿學習(IL)演算法框架,該演算法可通過有效查詢主動交互地學慣用戶回報值模型。研究人員建立了一個對抗生成模型來生成狀態和一個後繼特徵(SR)模型,通過學習策略收集的過渡經驗來訓練這些模型。

本文提出的方法使用這些模型來選擇狀態-動作對,要求用戶對最優性或安全性進行評論,並訓練對抗神經網路來預測回報值。

以往論文幾乎全部基於不確定性抽樣,而本文則與此不同。本文的關鍵思想是通過區分查詢的(專家)和未查詢的(生成的)數據,並最大程度地提高價值函數學習的效率,來主動且高效地從on-policy和off-policy的經驗中選擇狀態-動作對。

該方法在學習回報模型時明顯優於基於不確定性的方法,從而實現了更好的查詢效率。其中對抗性判別器可以使機器人更有效地學習人的行為,而後繼特徵模型可以選擇對價值函數有更大影響的狀態。該方法還可以在訓練回報模型時學會了避免不安全狀態,評估實際遊戲時這一優勢得到了驗證。

原文:

https://arxiv.org/abs/1912.13037

用於對象抓取的大規模聚類和帶密集批註的數據集

對象抓取對工業,農業和服務貿易中的許多應用都至關重要。然而,在聚類場景中,研究面臨訓練數據不足和缺乏評估基準的挑戰。

在本文中,幾位研究人員貢獻了一個大規模的抓握姿勢檢測數據集,該數據集具有一個統一的評估系統,且包括大約87040張RGBD影像和3.7億個抓握姿勢。評估系統分析計算後可以直接報告抓握是否成功,它能夠評估任何種類的抓握姿勢,從而避免了費力標記抓握姿勢真實與否。

研究人員進行了廣泛的實驗,實驗表明該數據集和評估系統都可以很好地體現現實世界的場景。

這項工作建立了一個大型數據集,可用於聚類場景對象的抓取。數據集由現實世界的感測器拍攝的影像組成,並有豐富且密集的批註。本文提出的統一評估系統將促進這一領域的發展。這種方法極大地減輕了批註抓握姿勢這項工作。

將來,研究人員打算將數據集擴展到多指夾持器和基於真空的末端執行器。相關數據集,源程式碼和模型將很快公開提供,請留意。

原文:

https://arxiv.org/abs/1912.13470

其他爆款論文

這些最新發布的技術對於使用法醫語音比較的學生和研究人員來說很重要:

https://arxiv.org/abs/1912.13242

解決視聽嵌入式導航中的新問題,從而將其推廣到新目標和新環境,並取得顯著成效:

https://arxiv.org/abs/1912.11684

最先進的面部交換:

https://arxiv.org/abs/1912.13457v1

最近提出的這種方法在3D人形和姿勢方面超越了最先進技術:

https://arxiv.org/abs/1912.13344v1

為什麼深度卷積網路不能很好地推廣到小影像變換?

https://arxiv.org/abs/1805.12177v4

數據集

用於文本檢測和識別的數據集:

https://arxiv.org/abs/1912.11658v1

通過自然語言回饋檢索影像的新數據集:

https://arxiv.org/abs/1905.12794v2

為更易實現的機器故事理解提供重要立足點的新數據集:

https://arxiv.org/abs/1912.13082v2

AI大事件

麻省理工學院的工程師提出了一種替代常規超聲波的方法,該方法不需要接觸身體即可看見患者體內:

https://news.mit.edu/2019/first-laser-ultrasound-images-humans-1219

當機器學習帶來經濟效益:

https://news.mit.edu/2019/machine-learning-sales-ebay-translation-1220

首爾將安裝AI攝像機進行犯罪偵查:

https://www.zdnet.com/article/seoul-to-install-ai-cameras-for-crime-detection/