上街再也不能偷瞟別人家女朋友啦,新研究建立3D目光估計|一周AI最火學術
- 2019 年 11 月 1 日
- 筆記
編譯:Junefish、Olivia、雲舟
嗚啦啦啦啦啦啦啦大家好,拖更的AIScholar Weekly欄目又和大家見面啦!
AI ScholarWeekly是AI領域的學術專欄,致力於為你帶來最新潮、最全面、最深度的AI學術概覽,一網打盡每周AI學術的前沿資訊。
每周更新,做AI科研,每周從這一篇開始就夠啦!
本周關鍵詞:目光線追蹤蹤、音頻訊號分類、GPU
本周最佳學術研究
大規模目光線追蹤蹤數據集與魯棒的3D目光估計
如何收集精確且高度變化的目光數據是一項艱巨地任務。在本文中,研究人員提出了一種有助於處理任務並縮小現有性能差距的方法。首先,他們描述了一種在任意環境中有效收集帶注釋的3D目光數據的方法。然後,他們使用該方法獲得了最大的3D目光數據集並命名為Gaze360。

該數據集捕獲了室內和室外條件下238個對象的影片內容,並仔細評估誤差和特徵。在確定最終模型之前,研究人利用數據集訓練了各種3D目光估計模型,該模型獨特地採用了多幀輸入,並利用彈球損失進行誤差分位數回歸分析,以此提供目光不確定性的估計。
利用交叉數據集模型性能的比較方法,研究人員對Gaze360與常規數據集進行了評估。研究人員進一步研究證明了新模型可以應用於實際用例,包括估算顧客在超市中的關注點等等。
這項工作介紹的方法可以大規模地收集帶注釋的目光數據,並使用它來生成一個龐大且多樣化的數據集,以用於影像和影片3D注視的深度學習。通過與三個現有3D目光數據集的交叉數據集性能比較,以及通過將應用程式應用於YouTube影片中不受約束的可見影像,研究人員證明了該方法的價值。
研究人員希望這個模型和數據集在各個領域中的應用將有助於更好地利用目光線追蹤蹤技術,提高對基於視覺的人類行為理解。
數據集和模型:
http://gaze360.csail.mit.edu/
原文:
https://arxiv.org/abs/1910.10088v1
為端到端自動語音翻譯開發間接訓練數據
Facebook和約翰霍普金斯大學的研究人員通過數據增強,開發了幾種利用自動語音翻譯(ASR)和機器翻譯(MT)數據,來輔助端到端系統的技術。研究人員研究了幾種旨在彌合端到端模型和級聯模型之間差距的技術。他們證明了在不局限於僅訓練AST數據的情況下,級聯模型非常有競爭力。

通過數據增強,預訓練,微調和體系結構選擇,研究人員訓練了端到端模型,與級聯方法相比,前者競爭優勢明顯。他們的方法將端到端和強級聯模型之間的性能差距在En–Fr Librispeech AST數據上從8.2 BLEU減少到了1.4 BLEU,在En–Ro MuST-C語料上從6.7 BLEU減少到3.7 BLEU.
在日益數字化的世界中,有效的語音翻譯有了更多的應用。難怪研究人員和開發人員正在越來越多地致力於實現強大的語音技術,發展更快地文本數據翻譯。更好的語音翻譯具有巨大的潛在用途,包括幫助消除當前的全球翻譯挑戰等等。但是,實現他們的前提是擁有高品質和足夠多的數據。
通過這項工作,研究人員能夠評估AST的幾種數據增強和預訓練方法。此外,他們的工作還提供了關於如何利用此類數據的建議,增強了語音翻譯的最新水平並有助於提高效率和生產力。
原文:
https://arxiv.org/abs/1909.06515v2
音頻訊號分類的深層神經網路
這項新的研究通過使用先前提出的分層相關傳播(LRP)技術,研究了音頻域中神經網路的可解釋性。在本文中,研究人員介紹了一個新的英語口語音頻數據集並將其用於數字和說話者性別的分類任務,他們應用LRP來識別兩個用波形或頻譜圖處理數據的神經網路架構的相關特徵。
根據從LRP獲得的相關性分數,研究人員獲得了有關神經網路特徵選擇的假設,並隨後通過對輸入數據的系統操作進行檢驗。評估結果表明,網路高度依賴於LRP標記為重要的特徵。
對於許多機器學習應用程式而言,可解釋的模型決策變得越來越重要。但是,當前的研究主要集中在解釋影像分類器上。
本文提供了英語口語數字的數據集作為原始波形記錄,激發了與解釋音頻分類模型有關的研究工作。這項工作清楚地證明了分層相關傳播是一種用於解釋音頻分類神經網路的合適方法。
原文:
https://arxiv.org/abs/1807.03418v2
對抗性擾動交叉表示的可傳遞性:從頻譜圖到音頻波形
本文具體演示了基於頻譜圖的音頻分類器如何容易受到對抗性攻擊,以及此類向音頻波形的攻擊的可傳遞性。
這類攻擊會產生人類視覺不可見的擾動頻譜圖。通過評估一個西方音樂的數據集,結果顯示在合法示例中,二維卷積神經網路(2D CNN)的平均準確率高達81.87%,而在對抗示例中,這個指標下降至12.09%.此外,從對抗頻譜圖重建的音頻訊號會產生聽覺上類似合法音頻的音頻波形。

經學者證明,對音頻訊號二維表示的對抗性攻擊在頻譜圖影像上是看不見的,並且它們可以輕鬆地被轉移到音頻波形上而絲毫不被察覺。因此,沒有人類可以聽見或看見的檢測對抗示例的方法。
使用相位資訊從短時傅立葉變換(STFT)頻譜圖重建的音頻訊號有非常高的信噪比(SNR),從此類頻譜圖重建的對抗音頻的信噪比也大於20分貝。此研究得出結論,在抵抗對抗攻擊的魯棒性方面,二維表示可能不是最安全的。
原文:
https://arxiv.org/abs/1910.10106v1
用於批量在線和離線語音識別的GPU加速Viterbi精確格柵解碼器
在本文中,研究人員介紹了一種優化的加權式有限狀態感測器(WFST)解碼器,該解碼器能夠使用圖形處理單元(GPU)進行音頻的在線流處理和離線批處理。

該解碼器無需語言或聲學模型修改,可作為現有解碼器的直接替代品。特殊的設計使它具有靈活性、可同時支援多個音頻流的在線識別和格柵生成。有限的記憶體利用率可確保大型語言模型和共存聲學模型在GPU記憶體上具有足夠的空間。該演算法可以從在低功耗嵌入式GPU上運行的小型GPU擴展到在單個伺服器上運行的多個數據中心級GPU。
本文提出的解碼器有效地利用了記憶體、輸入和輸出頻寬,並且使用了一種旨在優化並行度的新Viterbi實現。在得到等價結果的同時,這種新的實現方式預計可達到單核CPU解碼的240倍速;與當前最先進的GPU解碼器相比,解碼速度可提高40倍。
該解碼器與聲學模型(AM)和語言模型(LM)無關,因此無需更改即可使用Kaldi工具包中訓練的現有模型進行推斷研究。
與基於CPU的基準線多執行緒演算法和當前最先進的GPU實現相比,研究人員運行這個解碼器並行處理多種話語、優化記憶體管理和進行額外計算以減少同步,能夠始終如一地獲得更高數量級的加速。這些工作可以直接用於嵌入式平台,無需任何模型更改。
原文:
https://arxiv.org/abs/1910.10032v1
其他爆款論文
一種用於語音處理的深度特徵提取器:
https://arxiv.org/abs/1910.09909v1
人員再識別,新的雙重部分對齊表示方案解決非人部分的錯位問題:
https://arxiv.org/abs/1910.10111v1
可解釋的人工智慧(XAI):概念、分類法、機遇和挑戰:
https://arxiv.org/abs/1910.10045v1
Pytorch中用於人員再識別的深度學習庫:
https://arxiv.org/abs/1910.10093v1
更快更安全的規則插入學習框架,用於整合高級規則和深度Q學習:
https://arxiv.org/abs/1910.09986v1
數據集
用於訓練和評估模型的大規模、高實用性數據集:
https://arxiv.org/abs/1903.03096v2
用於聯合學習的真實世界影像數據集:
https://dataset.fedai.org/#/
用於分類和增稠路面問題的新基準數據集:
https://arxiv.org/abs/1910.11123
最大的公共美國手語(ASL)數據集,用於促進單詞級符號識別研究:
https://arxiv.org/pdf/1910.11006.pdf
AI大事件
Netflix最近開放了Polynote的資源,Polynote是一個很酷的機器學習和數據科學工作流程工具:
Netflix just open-sourced Polynote, a cool Machine Learning, and Data Science workflow tool
電腦嗅覺?Google研究員正在訓練機器如何去感知味道:
https://ai.googleblog.com/2019/10/learning-to-smell-using-deep-learning.html
在Facebook支援的Deepfake檢測競賽中,AWS為研究員提供了計算能力。亞馬遜以100萬美元的雲信用額度支援微軟和Facebook:
https://www.zdnet.com/article/war-on-deepfakes-amazon-backs-microsoft-and-facebook-with-1m-in-cloud-credits/
AI現在可以在癱瘓患者在想像中寫字時閱讀他們的想法:
https://www.zdnet.com/article/with-ai-paralysed-patients-can-communicate-simply-by-imagining-they-are-writing/

專欄作者介紹
Christopher Dossman是Wonder Technologies的首席數據科學家,在北京生活5年。他是深度學習系統部署方面的專家,在開發新的AI產品方面擁有豐富的經驗。除了卓越的工程經驗,他還教授了1000名學生了解深度學習基礎。
LinkedIn:
https://www.linkedin.com/in/christopherdossman/