科研中该如何应用深度学习 | 翻译征文 | 雷锋字幕组

 本文为雷锋字幕组“触摸世界前沿科技 | 翻译征文 ”活动收录稿件


01

image.png

图片来源:DepositPhotos

本文是我们对人工智能研究论文评论的一部分,这是一系列探索人工智能最新发现的文章。

无论我们是否想当然,深度学习算法已经成为我们日常生活中不可分割的一部分。个性化订阅、人脸和语音识别、网络搜索、智能扬声器、数字助手、电子邮件和许多其他应用程序都在后台都需要依赖深度学习算法的支持。

在科学研究中,深度学习的效果究竟如何?在科学研究中,所面临的问题往往比对图像进行分类要复杂得多,所面临的需求往往比推荐下一步去买什么要更敏锐。

为了回答这个问题,谷歌前首席执行官埃里克·施密特和谷歌 AI 研究员迈斯拉·拉胡整理了一份关于不同深度学习技术及其在科学研究中的应用的全面指南。

作者写道:”在广泛的科学领域收集的数据数量在规模和复杂性上都急剧增加。”他还补充道,随着机器学习的进步,这一丰富的数据库可以为”科学环境中的深层学习应用提供许多令人兴奋的机会”。

他们的这份指南名为”科学研究中的深度学习综述”,为不那么精通人工智能算法复杂语言的科学家提供了深度学习和神经网络的简明概述。

我强烈建议阅读整个 48 页的文档及其参考文献。在这里对一些关键的内容进行提要。

02 你不一定必须做深度学习

随着深度学习风靡一时,人们倾向于将它们应用于任何领域。毕竟,基本深度学习理论的观点非常吸引人:作为一个基于大量数据的端到端人工智能模型,深度学习可以执行复杂的分类和实现预测。

深度神经网络可以解决以前由其他类型的机器学习算法来解决的问题,例如内容推荐或欺诈检测。不仅如此,它们还能处理其他机器学习技术曾经难以处理的的问题,包括复杂的计算机视觉和自然语言处理 (NLP) 任务。

然而,施密特和拉胡却警告说,在拟定方案时,必须考虑深度学习方案是否适用于解决当前问题。他们写道:”在许多环境中,深度学习技术可能不适合作为上手方案或并非是最适合解决该问题的方案。

对于许多问题而言,其他简单的机器学习算法常常提供更高效的解决方案。例如,如果你想找到不同物质中最相关的一组化学特性,最好使用”降维算法”。这种技术可以帮助我们找到对结果贡献最大的特征。

另一方面,如果数据有限,或者数据以表格格式整齐地排列,则可能需要在使用神经网络之前考虑尝试回归模型。通常情况下(也不尽然),神经网络需要大量的数据,并且其模型难以解释。相比较来看,尤其在问题本质上是线性时,线性回归和逻辑回归算法可以在数据稀少时获取更准确的结果。回归模型还能提供一个清晰的数学方程,其系数可以直观解释数据集中每列特征的相关性。

03 深入学习图像相关科学任务

image.png

如上图,科学家通过深度学习算法来检测患者胸部 X 光片,确定病患是否存在 COVID-19 感染的迹象(图片来源:COVID-Net)

深度学习算法在可视化数据的处理领域非常行之有效。作者将卷积神经网络描述为”最知名的神经网络系列”,”在处理任何类型的图像数据时都非常有用”。

除了商业和工业应用之外,卷积神经网络在许多科学领域也很有用处。医学影像分析是卷积神经网络最著名的应用之一。到目前为止,科学家们设计了许多用于检测 CT 和 X 光影像的深度学习算法来诊断诸如癌症等疾病。最近,科学家们一直在使用卷积神经网络在胸部 X 光影像中探查新型冠状病毒的症状。

此外,某些深度学习在视觉领域的应用还不太为大众所知。例如,为了跟踪动物的运动并分析它们的行为,神经科学家正在试验可以检测姿态的神经网络。

04 NLP 技术可以扩展到其他领域

从深度学习算法的进步中获益匪浅的另一个领域是自然语言处理。循环神经网络(RNN)、长期短期记忆(LSTM) 网络和 Transformer 特别擅于执行翻译和问答等语言相关的任务。

需要说明的是,当前的人工智能算法处理语言的方式与人脑截然不同且效果不及于人类。即使是最庞大的神经网络都可能会在一些最简单的任务中失败,其表现甚至不及于仅具备基本语言知识的孩子。

发生上述现象的原因是:如同所有其他类型的神经网络一样,RNN 和 Transformer 的设计核心仍然是模式识别。无论是文本还是其他类型的信息,他们都在数据序列中查找重复模式。据施密特和拉胡的所说,这些结构比较适用于数据具有顺序性质(不同序列不同长度)的问题,或者诸如确定下一个序列、将一个序列转换为另一个序列或确定序列相似性之类的预测问题。

虽然这个方案在处理语言的抽象和隐含含义方面存在局限性,但在基因组学和蛋白质组学等领域的科学研究中由于顺序结构在其中起着重要的作用,因此这类方案有着一些非常有趣的应用。

Transformer 是非常高效的模型。在最近的一个项目中,研究人员利用无监督学习,在跨越进化多样性的 2.5 亿个序列中,利用 860 亿氨基酸数据进行双向 Transformer 模型的训练。研究人员写道:“在没有标签或先验的域知识的前提下,所得模型将原始序列映射到生物特性的表示。这是了解蛋白质序列和从原始序列中提取有关蛋白质的可转移信息的重要一步。”

05 如果您没有大量数据,该怎么办?

image.png

对深度学习的主要批评之一便是其需要大量的训练数据。在许多科学领域,没有足够的带标签的数据。比如在医药领域,数据收集费用昂贵,还由于涉及个人敏感信息的数据采集受到法律约束。

同时,许多人和组织也无法满足深度神经网络在训练过程中所需要的大量计算资源和电力。

不过,并不是每个深度学习模型都需要大量训练数据。在过去几年中,迁移学习的发展使许多开发人员无需大量数据和计算资源便能够创建深度学习模型。迁移学习的思想是为新任务微调一个预先训练的人工智能模型。目前,迁移学习在计算机视觉方面取得了显著成功,有许多经过数百万个样本训练的 AI 模型都免费开源,易于获取。

只要新问题接近于基础模型所涉及的领域,并且有一组不错的样本,就有机会为新任务微调一个 AI 模型。

“通常来说,应用迁移学习是开始解决新问题的绝佳方式。除了预训练权重提供的知识重用、稳定性和收敛提升之外,使用经过良好测试的标准神经网络架构也能带来好处。”作者写道。

同时,他们也警告说:”不过,迁移学习的确切效果尚未被完全理解,仍是一个活跃的研究领域。”

在未来几个月里,另一个值得关注的领域是自监督学习。这也是人工智能的一个分支,自监督学习无需人工标记的样本直接从原始数据中进行学习。不过,自监督学习研究还处于起步阶段,目前也是研究热点。

此外,例如生成对抗网络(GAN)等生成模型研究是一个已经取得一些研究进展的领域。GAN 可以生成类似于其真实对应数据的虚假数据。也许,GAN 最出名成果就是他们可以创造自然但不存在的人脸。艺术家们现在使用 GAN 来制作能高价出售的画作。

不仅如此,GAN 在科学研究中也有实际应用,包括在医学成像和蛋白质生成中的数据增强。在最近的一个项目中,研究人员训练 GAN 模型来生成功能蛋白序列。研究人员写道,该模型证明了人工智能快速产生高度多样化的新型功能蛋白的潜力。

强化学习是另一个在科学研究中前景很好但是稀缺数据的领域。在强化学习中,AI 智能体会自行探索问题空间,并通过奖励函数优化动作从而提升智能体的行为。

然而,生成式 AI 和强化学习也有一些需要注意的地方。施密特和拉胡指出:“我们将这些方法称为高级方法,因为它们通常更复杂,且可能需要问题具有特定属性才能有用,例如一个用于强化学习的优秀环境模型或模拟器。”

06 科学研究与深度学习的可解释性问题

深度学习经常提出的另一个挑战是可解释性。深度神经网络是复杂的函数,参数可能跨越数百万甚至数十亿,并且了解它们如何解决问题和做出预测通常令人困惑。

这可能对科学研究的许多领域构成挑战,在这些领域,重点是理解而不是预测,研究人员试图确定数据中观察到的模式背后的基本机制。施密特和拉古写道:“在科学环境中应用深度学习时,我们可以将这些观测到的现象用作预测目标,但最终目标仍然是了解产生这些观测结果的属性。”

所幸,可解释的人工智能的进步在某种程度上帮助克服了这些障碍。虽然充分理解和控制神经网络的决策机制仍然是一个挑战,但过去几年开发的技术帮助我们解释该过程。

施密特和拉胡将 AI 可解释性技术分为两大类:特征归因和模型检测。

功能归因有助于我们更好地了解特定示例中哪些功能有助于神经网络的输出。这些技术可生成显著性地图,突出显示这些要素。例如,如果您要检查图像分类器,则显著性地图将突出显示 AI 在确定其类别时所居于的图像部分。

GradCAM、LIME 和 RISE 等都是用不同技术产生的显著性地图。这些方法能帮助我们检查神经网络输出是基于正确或错误的特征。

image.png

RISE 制作的显著地图示例

另一方面,模型检测试图探测网络隐藏层中的神经元,并找到激活神经元的输入类型。这些技术提供了对 AI 模型通用机理更好的解释。GANPaint 是这个领域比较有趣的工作,它可以让你检查操作单个神经元的效果。 Activation Atlassses 是一款能够可视化神经网络神经元之间相互作用的工具。

事实上,将深度学习应用于科学研究的机会很多。施密特和拉胡撰写的论文为有抱负的科学家提供了很好的起步指南。

作者写道:“随着许多不同科学领域数据在数量和复杂性上的不断增加,深度学习方法在预测领域以及揭示数据生成过程中的微小特性上值得期待。”

原文链接://www.yanxishe.com/TextTranslation/2525

 本文为雷锋字幕组“触摸世界前沿科技 | 翻译征文 ”活动收录稿件

Tags: