BERT模型進軍影片領域,看你和面就知會做蛋糕
- 2019 年 10 月 6 日
- 筆記
選自 googleblog
作者:Maël Fabie
機器之心編譯
參與:Panda
為自然語言處理領域創造了突破性進展的 BERT 模型開始進軍影片分析和預測領域了!近日,Google的 AI 部落格介紹了他們在這方面的兩項研究成果 VideoBERT 和 CBT。其中 VideoBERT 可以很好地學習影片和 ASR 輸出文本之間的語義對應關係,還能根據這種關係預測影片內容的後續發展。而 CBT 在長序列表徵學習上表現更好,在影片預測與影片描述上顯著優於 LSTM 和平均池化方法。另外,這兩種方法都採用了自監督的訓練方式。
- VideoBERT:https://arxiv.org/abs/1904.01766
- CBT:https://arxiv.org/abs/1906.05743
儘管人類可以輕鬆地識別影片中發生的活動以及預測接下來可能發生的事件,但對機器而言這樣的任務卻要困難得多。然而,對於時間定位、動作檢測和自動駕駛汽車導航等應用,理解影片的內容和動態對機器來說也越來越重要。為了訓練神經網路執行這樣的任務,使用監督式訓練是常用的方法,其中訓練數據由人逐幀精心標註的影片組成。這樣的標註難以大規模地獲取。因此,人們對自監督學習有非常濃厚的興趣。使用這類方法,模型可以在各種代理任務上訓練,而且這些任務的監督自然地存在於數據本身之中。
Google的研究者提出了使用無標註影片學習時間表徵的方法,他們的研究成果發布在論文《VideoBERT:一種用於影片和語言表徵學習的聯合模型(VideoBERT)》與《用於時間表示學習的對比雙向 Transformer(CBT)》中。據介紹,他們的目標是發現對應於更長時間尺度上的動作和事件的高層面語義特徵。為了實現這一目標,他們借用了人類語言使用高級辭彙來描述高層面的事物和事件的思路。在影片中,語音往往與視覺訊號存在時間上的對應,而且可以通過現成的自動語音識別(ASR)系統提取出來,由此可作為自監督的一個自然來源。所以,Google這些研究者設計的模型的學習是跨模態的,因為其在訓練過程中會聯合使用視覺和音頻(語音)模態的訊號。

來自同一影片位置的影像幀和人類語音往往是語義對齊的。這種對齊並不是徹底詳盡的,有時會充滿雜訊,在更大的數據集上進行預訓練有望緩解這一問題。在左邊的示例中,ASR 的輸出是「這樣一直壓緊地卷,將空氣從旁邊擠出去,你也可以把它拉長一點點。」這裡語音描述了動作,但沒有描述目標事物是什麼。在右邊的示例中,ASR 的輸出是「這裡你必須耐心耐心耐心」,與視覺內容完全無關。
用於影片的 BERT 模型
表徵學習的第一步是定義一個代理任務(proxy task),讓模型可以通過長的無標註影片學習時間動態以及跨模態的語義對應。為此,研究者將 BERT 模型擴展到了影片領域。BERT 模型使用了 transformer 架構來編碼長序列,並在包含大量文本的語料庫上進行了預訓練,已經在多種不同的自然語言處理任務上取得了當前最佳的表現。BERT 使用完形填空測試(cloze test)作為其代理任務。在該任務中,BERT 的目標是根據雙向的上下文預測缺失的詞,而不僅僅是預測某個序列的下一個詞。
為了將 BERT 用於影片任務,研究者擴展了 BERT 的訓練目標,組合使用同一位置的影像幀與 ASR 句子輸出來組建跨模態的「句子」。其中影像幀根據視覺特徵相似度被轉換成了持續時間為 1.5 秒的視覺 token,然後再與 ASR 詞 token 相連接。基於這些數據,研究者訓練了 VideoBERT 模型來基於視覺-文本句子填補缺失的 token。研究者假設,通過在這種代理任務上進行預訓練,模型可以學習推理更長程的時間動態(視覺完形填空)和高層面的語義(視覺-文本完形填空)。他們的實驗結果支援這一假設。

影片和文本被遮蔽 token 預測(完形填空)任務中的 ViderBERT 示意圖。底部:來自影片同一位置的視覺和文本(ASR)token 被連接起來組成 VideoBERT 的輸入。其中某些視覺和文本 token 被遮擋了。中部:VideoBERT 使用 Transformer 架構來聯合編碼雙向的視覺-文本上下文。黃色框和粉色框分別對應於輸入嵌入和輸出嵌入。頂部:訓練目標是恢復被掩蓋位置的正確 token。
檢查 VideoBERT 模型
訓練 VideoBERT 的數據是超過 100 萬條教學影片,比如烹飪、園藝和車輛維修。訓練完成後,可以在一些任務上檢查 VideoBERT 學到了什麼,以驗證其輸出能否準確地反映影片內容。舉個例子,文本到影片預測可用於根據影片自動生成一組指令(比如食譜),得到反映每一步所描述內容的影片片段(token)。此外,影片到影片預測可用於基於初始影片 token 可視化未來的可能內容。

在烹飪影片上預訓練的 VideoBERT 的定性結果。上:給定一些食譜文本,生成一系列視覺 token。下:給定一個視覺 token,展示了 VideoBERT 在不同的時間尺度上排名前三的未來 token。在這個案例中,該模型預測一碗麵粉和可可粉可能進入烤箱烘烤,也可能變成布朗尼或紙杯蛋糕。視覺 token 的可視化使用了離特徵空間中 token 最近的訓練集的影像。
為了驗證 VideoBERT 能否學習到影片和文本之間的語義對應關係,研究者在一個烹飪影片數據集上測試了其「zero-shot」分類準確度——這個數據集中的影片和標註都沒有在預訓練過程中使用過。為了執行分類,影片 token 與模板句子「now let me show you how to [MASK] the [MASK]」連接起來,預測的動詞和名字被提取了出來。VideoBERT 模型的結果可媲美全監督基準方法的 top-5 準確度,這說明該模型有能力在「zero-shot」設置中取得有競爭力的表現。
使用對比雙向 Transformer 進行遷移學習
儘管 VideoBERT 在學習如何自動標註和預測影片內容方面表現出色,但研究者也注意到 VideoBERT 所使用的視覺 token 可能丟失細粒度的視覺資訊,比如更小的目標和細微的動作。為了探究這一問題,研究者又提出了對比雙向 Transformer(CBT)模型。該模型移除了 token 化步驟。然後研究者進一步通過在下游任務上的遷移學習評估了所學習到的表徵的品質。CBT 應用了一種不同的損失函數——對比損失(contrastive loss),可用於最大化被掩蓋位置與跨模態句子其餘部分之間的互資訊。研究者在不同的任務(比如動作分割、動作預測和影片描述)以及多個影片數據集上評估了學習到的表徵。結果表明,CBT 方法在大多數基準上都顯著優於之前最佳。可以觀察到:(1)跨模態目標對遷移學習的表現很重要;(2)更大更多樣化的預訓練集能得到更好的表徵;(3)與平均池化或 LSTM 等基準方法相比,CBT 模型在利用長時間上下文方面要好得多。

使用 CBT 方法在包含 200 個活動類別的未調整影片上的動作預測準確度。另外還報告了平均池化與 LSTM 的結果以作比較。所報告結果的觀察時間為 15、30、45、72 秒。
總結和未來研究
通過這兩項研究,BERT 模型在基於無標註影片學習視覺-語言和視覺表徵方面的能力得到了證明。研究發現,新提出的模型 VideoBERT 和 CBT 不僅可用於 zero-shot 動作分類和食譜生成,而且所學習到的時間表徵也能很好地遷移到多種下游任務,比如動作預測。未來的研究方向包括與長期的時間表徵一起聯合學習低層面的視覺特徵,這能實現對影片上下文的更好的適應性。此外,研究者還計劃對預訓練影片集進行擴展,使其更大更多樣化。
原文鏈接:https://ai.googleblog.com/2019/09/learning-cross-modal-temporal.html
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
✄————————————————
加入機器之心(全職記者 / 實習生):[email protected]
投稿或尋求報道:[email protected]
廣告 & 商務合作:[email protected]