多模态从2010年后开始进入Deep Learning阶段。在此期间,业界和学术界推出的多模态预训练模型不在少数,且多出自国内外顶级科研机构。现阶段,主流的多模态NLP模型,除了DALL·E和CLIP外,还有阿里与清华联合研发的M6、百度研发的ERNIE-ViL等等。众多高性能模型中,后来居上的文澜为何成了世界级“领跑者”?文澜模型结构负责人卢志武教授对此介绍了三点,第一,文澜是首创双塔结构(Bridging Vision and Language ,BriVL-2)进行预训练的模型,与传统单塔相比,BriVL-2在图像和文本之间建立了一种“弱相关”假设。如上,给定一张“生日蛋糕”的图片,强相关模型可能会输出——生日蛋糕的蜡烛在燃烧,本文内容基本与图片保持一致,而弱相关则可能输出——今天的减肥计划又泡汤了,它尝试从更高的内涵层次上理解图像信息。换言之,弱相关使文澜模型对文本/图像信息的理解不仅局限于“等价”关联,而是进一步扩展到了“场景”关联、“因果”关联等。事实上,多模态之间的语义融合问题一直是人工智能领域一项极具挑战性的工作。2005年,《Nature》期刊曾发表一篇文章,表明人类对同一实体的图像和文字两种模态的认知是在同一神经元上激活的,二者会被映射到同一个空间。类似地,为了模仿人脑的建模过程,AI模型在预训练过程中,通常会事先把数据集中的图像编码成一个高维向量,当用户输入文字时,再将文字向量映射到同一个空间,最后通过向量检索,获取相应的图片。该过程的关键在于,文本和图像的语义信息是否实现对齐、融合。文继荣教授介绍称,这项任务看似简单,实则难度极高。而文澜成功将两种模态的语义映射到了同一空间,并获得相同的表达。这项突破性进展,攻克了计算机视觉研究长期以来无法解决的难题。第二,文澜2.0所使用的训练图文数据集从3000万升级到了6.5亿,且数据全部抓取自互联网。据悉,DALL·E采用的是Image数据集,其文本数据多为一些名词概念,相对固化,而文澜的6.5亿图文数据来自现实世界,自然而真实。更重要是,文澜的弱相关性假设,使数据无需标注成为可能。第三、文澜支持整个句子的理解,而非关键词。这是它与浏览器搜索最显著的区别。比如,在《布灵的想象世界》中输入“忧郁的蛋糕”,它会呈现一个以黑色调为背景的蛋糕图片。宋睿华教授介绍称,文澜能够通过抽象性文字呈现出一种氛围,而不是仅focus一个关键词。基于以上核心能力,文澜已经具备文检索图、文生成图、图检索文、图生成文四种功能。目前研发团队利用图检索文、文检索图两项核心功能开发了应用小程序《AI心情电台》和《布灵的想象世界》,首次实现了高效的跨模态检索。此外,中科院计算所团队还在文澜多模态的基础上开发了应用《只言片语》,考察文澜模型的语言理解能力与人类玩家的相似度。这个应用包括“默契大考验”和“看看谁懂我”两种模式,是首个AI加持的在线桌游,也是一种新模式的图灵测试。在游戏的过程中,一名玩家随机挑选一张图片,并给出与之相关的文字描述。另一位玩家根据出题人玩家的描述从文澜给出的干扰项中挑选出正确的图片。如果两位玩家的图片不一致,说明文澜对文本的精准理解对人类产生了干扰,即通过了图灵测试。以往的图灵测试都是以数据标注的形式进行,过程通常枯燥乏味;“只言片语“采用小游戏的形式,在给玩家带来乐趣的同时,通过测试模型检索到的图片是否能够迷惑人类,从而评估了图文匹配模型的能力。