SIGIR是一个展示信息检索领域中各种新技术和新成果的重要国际论坛,若非疫情影响,今年本定于中国西安市举行。7月25日-7月30日,第43届SIGIR2020在线上举行。7月27日,2018年图灵奖得主Geoffrey Hinton带来了主题为《The Next Generation of Neural Networks》的讲座。讲座由约克大学信息技术学院正教授Jimmy Huang主持,ACM杰出科学家、 吉林大学人工智能学院常毅教授担任嘉宾。在讲座中,Hinton指出:人工神经网络最重要的未解难题之一,是如何像大脑一样有效地进行无监督学习。当前有两种主要的无监督学习方法:第一种方法,以BERT和变分自编码器为例,使用了深度神经网络来重建其输入。这种方法对于图像来说是有问题的,因为网络的最深层需要对图像的精细细节进行编码。
1、自上而下与自下而上在过去的几年中,我一直非常渴望找到一种新的实现监督学习和深层网络的方法,这种方法不需要多层反向传播,因为我不相信大脑的工作机制是这样的。接下来,我们大部分时间都将探讨新的修复方法,它如何不起作用以及如何改进以使其起作用。解决方法是学习每个层的特征,从而可以重建前一层的内容。而且,它们对于后一层也能很容易进行重构。这意味着我们将必须同时学习所有的层。我们将尝试学习足够好的特征并重建前面的层,这是堆叠自编码器的目标函数,但也很容易对后面的层进行重建。也就是说,它们与后面层预测的内容相符。这里有一个非常令人有趣但饶舌的解释,即后面的层将进行自上而下的预测,自上而下的预测将监督自下而上的连接的学习,自下而上的连接将产生表征,该表征将作为自上而下的预测的目标,自上而下的预测实际上也是自下而上学习的目标,自下而上和自上而下的学习过程是相互监督的。也就是说,好的特征可以局部地、自下而上地提取,同时也可以从更大的上下文中自上而下地预测。我们来展示一个使用上下文协议的例子。考虑一个句子,“she scromed him with the frying pan”,希望你以前从未听过scrom这个单词。我们怀疑它是动词,基于它在句子中的位置以及单词末尾的“ed”。我们不知道它最初的含义,但是在刚看到这句话时,大多数人对其含义已经有了一个很好的了解,认为这大致表示“她用平底锅打了他的头”。人类不需要成千上万的例子也能从一句话中很好地理解一个词的意思。这就是自上而下预测的,魅力所在。在视觉识别上也相似,全局的背景帮助你自上而下地预测应该在图像的局部看到什么,例如在草地背景中猜测黑白斑块皮肤的四脚兽是奶牛。2、以新方法训练堆叠浅层的自编码器,会发生什么?我们的目标是在自下而上和自上而下对某个特征的预测之间取得一致。这很容易通过缩小所有隐藏激活向量来实现。这被称为所谓的“塌缩问题”(collapse problem)。不过,我们可以通过使用更好的协议定义来避免这个问题:两个变量在每个训练样例中的值是否一致,以及它们在不同训练样例中是否遵循同样的变化。我们先讨论一种完全不同的无监督学习方法,之后我再回到这种方法。之前,我和我的学生想出了一个方法,用一个更好的定义来解释两者的一致性。与其说它们应该相等,不如说它们应该是相似的,即它们在不同的训练案例上有什么样的变化趋势。所以在一个特定的训练案例中,我们希望神经网络的一部分中的自下而上的预测与自上而下的预测相一致。不要尝试解释输入的每一个细节,只需关注于提取在空间或时间上一致的属性。和自动编码器不同,这里允许我们忽略噪声。3、提取空间一致性属性Becker 和我在1992年引入了一种提取空间一致属性的方法:最大化两个输入非重叠图像块的表征的互信息。
如果a 和b是标量,则通过最小化 来最大化互信息。
如果a和b是向量,则通过最小化 来最大化互信息。
相关论文:Maximizing the Mutual Infomation between two Gaussian distributed variables(Becker 和Hinton,1992)接下来看一个提取空间一致性属性的简单样例:首先用随机点填充一张图片使它没有明显的结构。然后再取另一张图片,这张图片是第一张图片经过水平移动后的版本。所以图像对中唯一的结构就是它们之间的相对平移。很久以前我们用的是非常小的电脑。所以我们只从左边的图像中取了一个一维的条带,从右边的图像中取了一个一维的条带。我们在左图上散落了一些随机点。然后我们看了右图,这是左图的翻译版。你可以看到,如果你看两个相邻的图像块,那么它们的视差是一样的。左右条带之间的偏移相同。所以,如果你训练一个神经网络,看看左手边的patch块来提取一个属性, 训练一个神经网络的副本来观察右手边的patch块,吸引一个属性。可以看出仅有的一致性属性分离了,这就是我们想要提取的,它也确实起到了作用。4、对比学习但是,Becker和我提出的的最大化互信息方法也存在着很大的问题:一旦开始优化非线性映射,变量是高斯分布的假设就会造成可怕的问题。而如果只学习线性映射,或者在优化一个线性函数,这个假设并没有引起太大的问题。但是一旦优化了一个非线性函数,它就会导致糟糕的事发生。这些问题容易通过一种嵌入的方法来可视化,首先是局部线性嵌入 ,它具有以下特点: