SIGIR是一個展示資訊檢索領域中各種新技術和新成果的重要國際論壇,若非疫情影響,今年本定於中國西安市舉行。7月25日-7月30日,第43屆SIGIR2020在線上舉行。7月27日,2018年圖靈獎得主Geoffrey Hinton帶來了主題為《The Next Generation of Neural Networks》的講座。講座由約克大學資訊技術學院正教授Jimmy Huang主持,ACM傑出科學家、 吉林大學人工智慧學院常毅教授擔任嘉賓。在講座中,Hinton指出:人工神經網路最重要的未解難題之一,是如何像大腦一樣有效地進行無監督學習。當前有兩種主要的無監督學習方法:第一種方法,以BERT和變分自編碼器為例,使用了深度神經網路來重建其輸入。這種方法對於影像來說是有問題的,因為網路的最深層需要對影像的精細細節進行編碼。
1、自上而下與自下而上在過去的幾年中,我一直非常渴望找到一種新的實現監督學習和深層網路的方法,這種方法不需要多層反向傳播,因為我不相信大腦的工作機制是這樣的。接下來,我們大部分時間都將探討新的修復方法,它如何不起作用以及如何改進以使其起作用。解決方法是學習每個層的特徵,從而可以重建前一層的內容。而且,它們對於後一層也能很容易進行重構。這意味著我們將必須同時學習所有的層。我們將嘗試學習足夠好的特徵並重建前面的層,這是堆疊自編碼器的目標函數,但也很容易對後面的層進行重建。也就是說,它們與後面層預測的內容相符。這裡有一個非常令人有趣但饒舌的解釋,即後面的層將進行自上而下的預測,自上而下的預測將監督自下而上的連接的學習,自下而上的連接將產生表徵,該表徵將作為自上而下的預測的目標,自上而下的預測實際上也是自下而上學習的目標,自下而上和自上而下的學習過程是相互監督的。也就是說,好的特徵可以局部地、自下而上地提取,同時也可以從更大的上下文中自上而下地預測。我們來展示一個使用上下文協議的例子。考慮一個句子,「she scromed him with the frying pan」,希望你以前從未聽過scrom這個單詞。我們懷疑它是動詞,基於它在句子中的位置以及單詞末尾的「ed」。我們不知道它最初的含義,但是在剛看到這句話時,大多數人對其含義已經有了一個很好的了解,認為這大致表示「她用平底鍋打了他的頭」。人類不需要成千上萬的例子也能從一句話中很好地理解一個詞的意思。這就是自上而下預測的,魅力所在。在視覺識別上也相似,全局的背景幫助你自上而下地預測應該在影像的局部看到什麼,例如在草地背景中猜測黑白斑塊皮膚的四腳獸是奶牛。2、以新方法訓練堆疊淺層的自編碼器,會發生什麼?我們的目標是在自下而上和自上而下對某個特徵的預測之間取得一致。這很容易通過縮小所有隱藏激活向量來實現。這被稱為所謂的「塌縮問題」(collapse problem)。不過,我們可以通過使用更好的協議定義來避免這個問題:兩個變數在每個訓練樣例中的值是否一致,以及它們在不同訓練樣例中是否遵循同樣的變化。我們先討論一種完全不同的無監督學習方法,之後我再回到這種方法。之前,我和我的學生想出了一個方法,用一個更好的定義來解釋兩者的一致性。與其說它們應該相等,不如說它們應該是相似的,即它們在不同的訓練案例上有什麼樣的變化趨勢。所以在一個特定的訓練案例中,我們希望神經網路的一部分中的自下而上的預測與自上而下的預測相一致。不要嘗試解釋輸入的每一個細節,只需關注於提取在空間或時間上一致的屬性。和自動編碼器不同,這裡允許我們忽略雜訊。3、提取空間一致性屬性Becker 和我在1992年引入了一種提取空間一致屬性的方法:最大化兩個輸入非重疊影像塊的表徵的互資訊。
如果a 和b是標量,則通過最小化 來最大化互資訊。
如果a和b是向量,則通過最小化 來最大化互資訊。
相關論文:Maximizing the Mutual Infomation between two Gaussian distributed variables(Becker 和Hinton,1992)接下來看一個提取空間一致性屬性的簡單樣例:首先用隨機點填充一張圖片使它沒有明顯的結構。然後再取另一張圖片,這張圖片是第一張圖片經過水平移動後的版本。所以影像對中唯一的結構就是它們之間的相對平移。很久以前我們用的是非常小的電腦。所以我們只從左邊的影像中取了一個一維的條帶,從右邊的影像中取了一個一維的條帶。我們在左圖上散落了一些隨機點。然後我們看了右圖,這是左圖的翻譯版。你可以看到,如果你看兩個相鄰的影像塊,那麼它們的視差是一樣的。左右條帶之間的偏移相同。所以,如果你訓練一個神經網路,看看左手邊的patch塊來提取一個屬性, 訓練一個神經網路的副本來觀察右手邊的patch塊,吸引一個屬性。可以看出僅有的一致性屬性分離了,這就是我們想要提取的,它也確實起到了作用。4、對比學習但是,Becker和我提出的的最大化互資訊方法也存在著很大的問題:一旦開始優化非線性映射,變數是高斯分布的假設就會造成可怕的問題。而如果只學習線性映射,或者在優化一個線性函數,這個假設並沒有引起太大的問題。但是一旦優化了一個非線性函數,它就會導致糟糕的事發生。這些問題容易通過一種嵌入的方法來可視化,首先是局部線性嵌入 ,它具有以下特點: