MIT黑科技:無需視覺輸入,立體聲音頻+攝像機元數據即可實現移動車輛定位

  • 2019 年 11 月 11 日
  • 筆記

選自 arXiv

作者:Chuang Gan、Hang Zhao、Peihao Chen、David Cox、Antonio Torralba

機器之心編譯

聲音在物體定位中會起到非常重要的作用,人們甚至可以利用自身對聲音的感知來定位視線範圍內的物體。在本文中,來自 MIT 計算機科學與人工智能實驗室、MIT-IBM 沃森人工智能實驗室團隊的研究者提出了一套利用無標記的視聽數據來自監督學習的算法,僅依靠立體音頻和攝像機元數據就可以在視覺參考坐標系中定位移動的車輛。

  • 論文:https://arxiv.org/pdf/1910.11760.pdf
  • 項目鏈接:http://sound-track.csail.mit.edu/

聲音能夠傳達我們周圍現實世界的豐富信息,人類非常善於辨別身邊物體產生的聲音。我們經常可以根據物體發出的聲音(例如狗叫聲)來判斷物體是什麼,並且可以根據它們與其他物體相互作用時發出的聲音來判斷材料的屬性(例如它們的軟硬程度)。

此外,我們對聲音的感知使我們能夠定位不在視線範圍內的物體(例如在我們身後或被遮擋的物體),並且在光線不足的條件下,聲音在定位物體方面起着重要作用。重要的是,我們的視覺和聽覺在根本上是一體的,例如,我們可以通過看或者閉眼聽來定位目標並準確指出其所在方向。這種將聽覺和視覺信息融合到共同參考坐標系中的本領使我們能夠將聽覺信息和視覺信息整合在一起(如果兩者都存在),或者在另一個不存在時僅依賴其中一個。

本文介紹了一種系統,該系統可以利用未標記的視聽數據來學習在視覺參考坐標系中定位物體(移動的車輛),而在推斷時僅使用立體聲即可。由於兩個空間分離的麥克風之間有時延和聲級差異,立體音頻可提供有關物體位置的豐富信息。下圖 1 給出了示例來說明該問題的解決方案。

圖 1:以立體聲為輸入,本文提出的跨模態聽覺定位系統可以完全從立體聲和攝像機元數據中恢復參考坐標系中移動車輛的坐標,而不需任何視覺輸入。

由於手動注釋音頻和目標邊界框之間的關係需要大量人力成本,因此研究者通過將未標記視頻中的視頻和音頻流的同時出現作為一種自監督的方式來解決這一問題,而無需通過真實標註。

具體來說,他們提出了一個由視覺「教師」網絡和立體聲「學生」網絡組成的框架。在訓練過程中,使用未標記的視頻作為橋樑,將完善的視頻車輛檢測模型中的知識遷移到音頻域。在測試時,立體聲「學生」網絡可以獨立工作,僅使用立體聲音頻和攝像機元數據就可以進行目標定位,而無需任何視覺輸入。

在新收集的聽覺車輛跟蹤數據集中的實驗結果證明,本文提出的方法優於幾種基線方法。研究者還證明了他們的跨模態聽覺定位方法可以在光線不足的情況下幫助移動車輛的視覺定位。

本研究的目標是在沒有任何視頻輸入的情況下,完全從立體聲中恢復行駛中車輛的坐標。這類系統的實際應用場景十分廣泛。例如,可以僅使用麥克風來部署交通監控系統,因為麥克風比攝像頭便宜且功耗低,可以保護隱私,帶寬佔用少(僅在前期訓練階段才需要攝像頭)。同樣,可以使用融合的視聽定位來增強機械人的視覺跟蹤能力,即使在光線不足條件下也可以表現良好。

方法

本方法的核心是觀察到未標記視頻中視覺和聲音之間的自然同步可以作為自監督的學習形式。因此,機器可以通過查看和聽到許多產生聲音的移動車輛示例來學習預測物體的位置。研究者使用師生框架(student-teacher framework)對學習問題進行建模。他們的系統使用視頻幀和聲音同時進行訓練,這使得音頻「學生」網絡可以從視頻「教師」網絡中學習如何定位車輛邊界框。

研究者首先介紹了跨模態聽覺定位系統的基本組成部件,然後介紹了如何通過使用目標檢測損失和特徵對齊約束訓練音頻子網絡,將視覺車輛檢測模型中的知識轉換為給定攝像機元數據的聲音信號。最後,他們提出了一種時間平滑方法(temporal smoothing approach)來跟蹤車輛時間。。

下圖 2 概述了研究者提出的方法框架。

圖 2:跨模態聽覺定位「教師-學生」網絡框架。

「教師」視覺子網絡

本文中的聽覺目標定位系統包含兩個關鍵組件:「教師」視覺子網絡和「學生」音頻子網絡。

如上圖 2 所示,研究者將 YOLOv2 [31] 作為基於視覺的「教師」網絡,因為它能同時保證目標檢測的速度和準確性。

YOLOv2 的主幹是 Darknet,它由 19 個卷積層和 5 個最大池化層組成。為了使其更適合於目標檢測,最後的卷積層被具有 1024 個濾波器的三個 3×3 卷積層替換,隨後是一個需要檢測輸出數量的 1×1 卷積層。類似於 ResNet 中使用的恆等映射(identity mapping),從最後的 3×3×512 層到倒數第二層的卷積層間還有一個轉移層(passthrough layer),以聚合細粒度級別的特徵。此外,為了使模型更穩定且更易於學習,網絡經過訓練以預測錨框位置的定位坐標。

為了準備數據,研究者首先將每個視頻片段分解為多個 T = 1s 的視頻片段,然後選擇每個片段的中間幀作為「教師」網絡的輸入。在訓練期間,每個中間視頻幀被輸入到 YOLOv2 模型中,並利用 Pascal VOC 2007 和 VOC 2012 數據集來進行預處理,從而得到車輛檢測結果。為了使檢測結果更平滑,他們還應用了非極大值抑制(non-maximum suppression,NMS)作為後處理。

「學生」音頻子網絡

研究者將目標檢測從立體聲轉換為回歸問題。他們將「教師」視覺子網絡產生的目標檢測結果作為偽標籤,然後訓練「學生」音頻子網絡以直接從音頻信號中回歸偽邊界框坐標。考慮到不同的攝像頭角度對視覺內容的影響可能會比音頻更大,因此在訓練音頻子網絡時,通過將攝像頭的元數據作為輸入來解決此問題。這裡的元數據包括攝像機高度、俯仰角以及攝像機在街道的方位。

研究者首先通過短時間傅立葉變換(Short-Time Fourier Transform,STFT)將每個 1 秒的音頻片段轉換成聲譜圖。由於立體聲中有兩個通道,因此他們分別計算了它們的聲譜圖,然後將它們疊加作為音頻子網的輸入。

要將輸入音頻頻譜圖的 FT(頻率-時間)表徵轉換為視覺視圖,他們首先使用了 10 個跨步卷積層,其中每個卷積層後邊都跟着批歸一化層和 ReLU 激活函數,作為編碼器將立體聲音信號壓縮為 1×1×1024 特徵圖,從而消除了空間分辨率。然後,他們使用多層感知器將元數據編碼為 1×1×128 特徵圖。在將壓縮的聲音信息和已編碼的元數據進行通道連接之後,由 2 個全連接層和 3 個反卷積層組成的解碼器將用於重建空間分辨率,並將音頻信息映射到視覺視圖。最終輸出結果與 YOLOv2 類似,並且研究者採用 YOLOv2 中使用的目標檢測損失來訓練音頻子網。

實驗

下表 1 是本文方法與基線方法的結果對比。

表 1:跨模態聽覺定位在平均精度(Average Precision,AP)和中心距離(Center Distance,CD)的結果對比。

從上表中可以看出,當研究者用目標檢測損失和特徵對齊約束來訓練跨模態聽覺定位時,它的性能優於所有純音頻基線方法。使用跟蹤後處理(tracking post-processing)可以進一步提昇平均精度,還可以使跟蹤更加一致和平滑。

研究者還分別測試了單個車輛和多個車輛的檢測情況。結果如下表 2 所示:

表 2:根據平均精度(AP)和中心距離(CD)得出的單個車輛和多個車輛的聽覺車輛定位結果。

在下圖 4 中,研究者可視化了輸入聲譜圖和相應的立體聲定位結果。

圖 4:一個視頻片段的跨模態聽覺定位結果及對應輸入聲譜圖的可視化。

如上圖所示,在視頻的開頭,圖像的右側有一輛汽車,並且可以清楚地看到,右聲道的頻譜圖振幅高於左聲道。

對於無跟蹤後處理的基線,研究者將 ID 隨機分配給每個框,因為此類基線無法預測 ID。結果如下表 3 所示:

表 3:跟蹤指標方面的結果對比。

研究者直接將經過白天數據訓練的音頻子網絡應用於夜間場景,沒有進行任何微調。結果如下表 4 所示:

表 4:在惡劣照明條件下的聽覺車輛定位平均精度(AP)。

研究者還可視化了一些有趣示例,如下圖 5 所示:

圖 5:(a)不同場景下跨模態聽覺定位的可視化以及由於卡車、火車和雜物發出的嘈雜聲音而檢測失敗的案例;(b)使用視覺目標定位系統的常見失效示例。

在下表 5 中,我們通過比較新場景的性能來探索聽覺目標檢測系統的泛化能力。

表 5:聽覺車輛檢測系統的泛化結果。