论文《ReduNet: A White-box Deep Network from the Principle of Maximizing Rate Reduction》阅读笔记摘录

  • 2021 年 7 月 30 日
  • AI

好久没有更新了 甚至堆积了很多没有更新
一下子就月底了 整个七月 实在太快了 (真感觉什么都没有做时间就886了)

这次这篇论文比较特别 也是之前堆积的其中一篇
它是UC伯克利教授马毅投稿ICML ,四个评审一致接收却遭AC一票否决的一篇文章。
网上引起了很多争议,当然很多都是在“first Principle”上。但文章总体还是有很多可以学习、记录的东西 。对于其他的争议这边不做太多分析(毕竟太菜哈哈哈)
这边就贴一些PPT的笔记记录(可能会有点乱)。
具体的可以看阅读参考的视频。

论文名称:《ReduNet: A White-box Deep Network from the Principle of Maximizing Rate Reduction》
论文地址://arxiv.org/abs/2105.10446
论文阅读参考://baijiahao.baidu.com/s?id=1700706684537603123&wfr=spider&for=pc
//www.bilibili.com/video/BV1Cy4y1g7wZ

深度网络体系结构基于多年的反复试验进行设计,然后通过反向传播(BP)进行随机初始化训练,然后作为“黑箱”部署。许多设计和训练深度网络的流行技术(将在下面的相关工作中进行调查)都是通过启发式和经验方法开发出来的,而不是严格的数学原理、建模和分析。
我们常常使用许多经验性的方法,例如选择不同的非线性层,样本的归一化,残差链接,卷积操作等等。这样的方法为网络带来了优秀的效果,经验性的理解也为深度学习发展提供了指导。
但似乎我们对其理解仅限于此,由于网络的黑盒性质,这些方法究竟从理论上如何工作,为何需要加入网络,我们似乎难以回答。
除了经验评估之外,通常还不可能为所获得的网络的某些特性提供任何严格的保证,如不变性和鲁棒性。
如何开发一个有原则的数学框架来更好地理解和设计深度网络?

我们应该学习什么数据的内在结构,我们应该如何表示这些结构?而不是选择启发式的或任意的,学习这种结构的良好表示,有原则的目标函数是什么?我们可以从这样一个原理来证明现代深度网络的结构吗?

马毅介绍了近期的工作:通过优化 MCR^2 目标,能够直接构造出一种与常用神经网络架构相似的白盒深度模型,其中包括矩阵参数、非线性层、归一化与残差连接,甚至在引入「群不变性」后,可以直接推导出多通道卷积的结构。该网络的计算具有精确直观的解释,受到广泛关注。这个框架不仅为理解和解释现代深度网络提供了新的视角,还提供了新的见解,有可能地改变和改进深度网络的实践所得到的网络将完全是一个“白盒”,而随机初始化的反向传播不再是训练网络的唯一选择。
用于优化速率降低目标的基本迭代梯度上升方案自然会导致多层深度网络——ReduNet,该网络具有现代深度网络的共同特征。

虽然第1.3节中列出的线性判别表示(LDRs)的三个属性对于潜在表示z都是非常理想的,但它们并不容易做到这些属性是否兼容,以便我们可以期望同时实现所有这些属性?如果是这样,是否有一个简单但有原则的目标可以用所有这些属性来衡量结果表示的优点?
有上图的度量后,我们就能描述聚类或划分的现象,即划分前的数据所须的编码长度,大于划分后的编码长度。这样的划分不需要标签,而是可以通过一些贪心算法,比较不同划分之间的编码长度,获得使划分后编码长度最小的划分。结果展现了这样的方法有非常好的聚类效果,能够找到全局最优的划分,并对离群点非常鲁棒。比较传统方法,MICL能够找到更加紧的边界,并且与分类不同的是,其决策边界更接近于数据本身的结构特征。

为了使不同范围的样本进行比较,针对每个样本需要进行归一化操作。这与归一化的通常理解相符,使模型能够比较不同范围的样本。

通过对 MCR^2 目标进行梯度下降优化,我们甚至可以利用这一原理构造一个新的深层网络ReduNet。对该目标求梯度后,获得了两个操作矩阵E、C,所求梯度就是其分别与样本乘积的和。
而观察E、C两个操作矩阵,会发现其与样本乘积的结果天然带有几何的解释,即样本Z对于其余样本,和各划分类别样本的残差。
因此,若需要扩展样本空间的大小,只需加上E与样本相乘获得的残差,若要压缩各类别子空间的大小,仅需减去与C进行相同操作的结果。

对比常用的神经网络结构,可以发现其与ReduNet有许多相似之处,例如残差链接,C的多通道性质,非线性层等。同时,ReduNet所有参数均能够在前向传播中计算得到,因此网络无需BP优化。


算是一个简单的记录吧
具体的理论可以看视频更清楚
八月顺利!!干巴爹