論文《ReduNet: A White-box Deep Network from the Principle of Maximizing Rate Reduction》閱讀筆記摘錄

  • 2021 年 7 月 30 日
  • AI

好久沒有更新了 甚至堆積了很多沒有更新
一下子就月底了 整個七月 實在太快了 (真感覺什麼都沒有做時間就886了)

這次這篇論文比較特別 也是之前堆積的其中一篇
它是UC伯克利教授馬毅投稿ICML ,四個評審一致接收卻遭AC一票否決的一篇文章。
網上引起了很多爭議,當然很多都是在「first Principle」上。但文章總體還是有很多可以學習、記錄的東西 。對於其他的爭議這邊不做太多分析(畢竟太菜哈哈哈)
這邊就貼一些PPT的筆記記錄(可能會有點亂)。
具體的可以看閱讀參考的影片。

論文名稱:《ReduNet: A White-box Deep Network from the Principle of Maximizing Rate Reduction》
論文地址://arxiv.org/abs/2105.10446
論文閱讀參考://baijiahao.baidu.com/s?id=1700706684537603123&wfr=spider&for=pc
//www.bilibili.com/video/BV1Cy4y1g7wZ

深度網路體系結構基於多年的反覆試驗進行設計,然後通過反向傳播(BP)進行隨機初始化訓練,然後作為「黑箱」部署。許多設計和訓練深度網路的流行技術(將在下面的相關工作中進行調查)都是通過啟發式和經驗方法開發出來的,而不是嚴格的數學原理、建模和分析。
我們常常使用許多經驗性的方法,例如選擇不同的非線性層,樣本的歸一化,殘差鏈接,卷積操作等等。這樣的方法為網路帶來了優秀的效果,經驗性的理解也為深度學習發展提供了指導。
但似乎我們對其理解僅限於此,由於網路的黑盒性質,這些方法究竟從理論上如何工作,為何需要加入網路,我們似乎難以回答。
除了經驗評估之外,通常還不可能為所獲得的網路的某些特性提供任何嚴格的保證,如不變性和魯棒性。
如何開發一個有原則的數學框架來更好地理解和設計深度網路?

我們應該學習什麼數據的內在結構,我們應該如何表示這些結構?而不是選擇啟發式的或任意的,學習這種結構的良好表示,有原則的目標函數是什麼?我們可以從這樣一個原理來證明現代深度網路的結構嗎?

馬毅介紹了近期的工作:通過優化 MCR^2 目標,能夠直接構造出一種與常用神經網路架構相似的白盒深度模型,其中包括矩陣參數、非線性層、歸一化與殘差連接,甚至在引入「群不變性」後,可以直接推導出多通道卷積的結構。該網路的計算具有精確直觀的解釋,受到廣泛關注。這個框架不僅為理解和解釋現代深度網路提供了新的視角,還提供了新的見解,有可能地改變和改進深度網路的實踐所得到的網路將完全是一個「白盒」,而隨機初始化的反向傳播不再是訓練網路的唯一選擇。
用於優化速率降低目標的基本迭代梯度上升方案自然會導致多層深度網路——ReduNet,該網路具有現代深度網路的共同特徵。

雖然第1.3節中列出的線性判別表示(LDRs)的三個屬性對於潛在表示z都是非常理想的,但它們並不容易做到這些屬性是否兼容,以便我們可以期望同時實現所有這些屬性?如果是這樣,是否有一個簡單但有原則的目標可以用所有這些屬性來衡量結果表示的優點?
有上圖的度量後,我們就能描述聚類或劃分的現象,即劃分前的數據所須的編碼長度,大於劃分後的編碼長度。這樣的劃分不需要標籤,而是可以通過一些貪心演算法,比較不同劃分之間的編碼長度,獲得使劃分後編碼長度最小的劃分。結果展現了這樣的方法有非常好的聚類效果,能夠找到全局最優的劃分,並對離群點非常魯棒。比較傳統方法,MICL能夠找到更加緊的邊界,並且與分類不同的是,其決策邊界更接近於數據本身的結構特徵。

為了使不同範圍的樣本進行比較,針對每個樣本需要進行歸一化操作。這與歸一化的通常理解相符,使模型能夠比較不同範圍的樣本。

通過對 MCR^2 目標進行梯度下降優化,我們甚至可以利用這一原理構造一個新的深層網路ReduNet。對該目標求梯度後,獲得了兩個操作矩陣E、C,所求梯度就是其分別與樣本乘積的和。
而觀察E、C兩個操作矩陣,會發現其與樣本乘積的結果天然帶有幾何的解釋,即樣本Z對於其餘樣本,和各劃分類別樣本的殘差。
因此,若需要擴展樣本空間的大小,只需加上E與樣本相乘獲得的殘差,若要壓縮各類別子空間的大小,僅需減去與C進行相同操作的結果。

對比常用的神經網路結構,可以發現其與ReduNet有許多相似之處,例如殘差鏈接,C的多通道性質,非線性層等。同時,ReduNet所有參數均能夠在前向傳播中計算得到,因此網路無需BP優化。


算是一個簡單的記錄吧
具體的理論可以看影片更清楚
八月順利!!乾巴爹