多模態從2010年後開始進入Deep Learning階段。在此期間,業界和學術界推出的多模態預訓練模型不在少數,且多出自國內外頂級科研機構。現階段,主流的多模態NLP模型,除了DALL·E和CLIP外,還有阿里與清華聯合研發的M6、百度研發的ERNIE-ViL等等。眾多高性能模型中,後來居上的文瀾為何成了世界級「領跑者」?文瀾模型結構負責人盧志武教授對此介紹了三點,第一,文瀾是首創雙塔結構(Bridging Vision and Language ,BriVL-2)進行預訓練的模型,與傳統單塔相比,BriVL-2在圖像和文本之間建立了一種「弱相關」假設。如上,給定一張「生日蛋糕」的圖片,強相關模型可能會輸出——生日蛋糕的蠟燭在燃燒,本文內容基本與圖片保持一致,而弱相關則可能輸出——今天的減肥計劃又泡湯了,它嘗試從更高的內涵層次上理解圖像信息。換言之,弱相關使文瀾模型對文本/圖像信息的理解不僅局限於「等價」關聯,而是進一步擴展到了「場景」關聯、「因果」關聯等。事實上,多模態之間的語義融合問題一直是人工智能領域一項極具挑戰性的工作。2005年,《Nature》期刊曾發表一篇文章,表明人類對同一實體的圖像和文字兩種模態的認知是在同一神經元上激活的,二者會被映射到同一個空間。類似地,為了模仿人腦的建模過程,AI模型在預訓練過程中,通常會事先把數據集中的圖像編碼成一個高維向量,當用戶輸入文字時,再將文字向量映射到同一個空間,最後通過向量檢索,獲取相應的圖片。該過程的關鍵在於,文本和圖像的語義信息是否實現對齊、融合。文繼榮教授介紹稱,這項任務看似簡單,實則難度極高。而文瀾成功將兩種模態的語義映射到了同一空間,並獲得相同的表達。這項突破性進展,攻克了計算機視覺研究長期以來無法解決的難題。第二,文瀾2.0所使用的訓練圖文數據集從3000萬升級到了6.5億,且數據全部抓取自互聯網。據悉,DALL·E採用的是Image數據集,其文本數據多為一些名詞概念,相對固化,而文瀾的6.5億圖文數據來自現實世界,自然而真實。更重要是,文瀾的弱相關性假設,使數據無需標註成為可能。第三、文瀾支持整個句子的理解,而非關鍵詞。這是它與瀏覽器搜索最顯著的區別。比如,在《布靈的想像世界》中輸入「憂鬱的蛋糕」,它會呈現一個以黑色調為背景的蛋糕圖片。宋睿華教授介紹稱,文瀾能夠通過抽象性文字呈現出一種氛圍,而不是僅focus一個關鍵詞。基於以上核心能力,文瀾已經具備文檢索圖、文生成圖、圖檢索文、圖生成文四種功能。目前研發團隊利用圖檢索文、文檢索圖兩項核心功能開發了應用小程序《AI心情電台》和《布靈的想像世界》,首次實現了高效的跨模態檢索。此外,中科院計算所團隊還在文瀾多模態的基礎上開發了應用《隻言片語》,考察文瀾模型的語言理解能力與人類玩家的相似度。這個應用包括「默契大考驗」和「看看誰懂我」兩種模式,是首個AI加持的在線桌游,也是一種新模式的圖靈測試。在遊戲的過程中,一名玩家隨機挑選一張圖片,並給出與之相關的文字描述。另一位玩家根據出題人玩家的描述從文瀾給出的干擾項中挑選出正確的圖片。如果兩位玩家的圖片不一致,說明文瀾對文本的精準理解對人類產生了干擾,即通過了圖靈測試。以往的圖靈測試都是以數據標註的形式進行,過程通常枯燥乏味;「隻言片語「採用小遊戲的形式,在給玩家帶來樂趣的同時,通過測試模型檢索到的圖片是否能夠迷惑人類,從而評估了圖文匹配模型的能力。