騰訊AI又創新紀錄:ACL 2020入選27篇論文

近日,國際計算語言學協會年會(ACL,The Association for Computational Linguistics)在官網公布了ACL 2020的論文收錄名單,共計收錄779篇論文。據不完全統計,此次騰訊共有27篇論文入選,投中論文總數刷新中國記錄,領跑中國業界AI研究第一梯隊。

 

本年度騰訊ACL入選論文中,有20篇來自騰訊AI Lab團隊,7篇來自微信AI團隊,研究方向涵蓋對話及文本生成、機器翻譯及文本理解、資訊抽取、無監督文本等多個NLP重點領域。

 

在過去一年,通過開源協同,騰訊梳理拉通了各個事業群最底層和共性的技術能力,加強了基礎研發投入,進一步提升了研發效能和技術資源的利用效率,為AI技術的研發創新提供了更有生命力的土壤。

 

ACL是自然語言處理領域的國際頂級學術會議,也是自然語言處理領域影響力最大、最具活力的國際學術組織之一,論文被錄用代表著研究成果獲得了國際學術界的認可。此次ACL 2020的審稿周期相比以往幾乎增加了一倍的時間,據最新公布數據顯示,本屆大會最終收到投稿論文3088篇,投稿數量創下新高。 

無標題.png


技術實力強勁,AI基礎研究優勢突出

近年來,騰訊在AI基礎研究方面持續投入,致力於打造面向未來的技術引擎。騰訊AI團隊在ACL 2019入選中國首篇最佳長論文,在ICML、CVPR、NeurIPS、ACL等多個頂級學術會議或期刊累計入選論文超過285篇,並在DSTC 8等多項競賽奪冠,展現了業界領先的研究能力與技術實力。

 

自然語言處理是騰訊 AI Lab 的重要研究方向之一,研究內容囊括了從自然語言理解到生成的整個鏈條。2019年,騰訊AI Lab在人機對話與文本生成方面,提出多種對話生成新框架,發布了多個對話數據集,同時還改進了開放域對話系統。在機器翻譯研究方面,騰訊AI Lab探索了主流翻譯模型中的自注意力模型改進和篇章翻譯,並嘗試打開神經網路翻譯模型的黑盒子,解釋其中核心問題的運行機制。

 

微信AI團隊也長期深耕對自然語言處理領域人工智慧技術的研發,擁有微信智言與微信智聆等領先的NLP技術產品,其入選ACL 2020 的7篇論文,涉及了機器翻譯、對話系統、資訊抽取、無監督文本生成等領域。2019年,微信AI團隊憑藉NumNet+模型,超越Google獲得DROP閱讀理解榜單第一名。

 

應用場景豐富,面向行業開放技術能力

頂尖的產品背後離不開頂尖的技術。騰訊豐富的業務場景、龐大的用戶基數,都為前沿的AI研究成果提供了最佳的「訓練場」。在此基礎上,騰訊也將充分打磨的技術能力通過騰訊雲以產品和服務的形式面向金融、政務、醫療、交通、教育等各行業開放,為眾多客戶和合作夥伴提供底層技術支撐,助力產業互聯網進入快車道。

 

目前,微信 AI 團隊推出了「微信智聆」和「微信智言」兩大技術能力品牌,分別關注語音和語義。微信智聆每天處理超過 4 億條語音,識別準確率為 97%,服務於騰訊內外超過 100 項業務。微信智言專註於智慧對話和自然語言處理,目前已經支援家居硬體、PaaS、行業雲和AI Bot等應用領域。

 

微信AI團隊還將技術的精進不斷用於產品功能,研發了語音輸入轉文字、掃一掃的掃碼 / 封面和翻譯、聊天機器人、搖一搖 – 音樂 / 電視、聲紋鎖等功能,並為王者榮耀、QQ 音樂等產品提供技術支援。

 

在2020年初的微信公開課PRO版上,微信AI宣布開放以硬體合作為核心的騰訊小微硬體開放平台、以對話開放能力為核心的微信對話開放平台和NLP基礎技術平台,全面開放各層次 NLP 能力,面向行業用戶及開發者,開放微信前沿的NLP研究成果。

 

騰訊 AI Lab則在2018年11月推出了TranSmart產品,採用業內領先的人機互動式機器翻譯技術,幫助用戶更好更快地完成翻譯任務。

 

今年4月,騰訊AI Lab研發的自然語言理解系統TexSmart也對外開放,提供細粒度命名實體識別、語義聯想、深度語義表達等特色功能。TexSmart是騰訊公司級文本處理工具的功能加強版,為自然語言處理相關的騰訊業務及產品提供廣泛支援,日調用量達數千億次。

 

除了產品和技術能力的開放,騰訊還致力於通過開源與開發者共享程式碼,目前開源項目總數已破百。

 

僅在AI領域,騰訊已開源Angel、NCNN等數十個優質項目。針對業界現有的中文詞向量公開數據的稀缺和不足,騰訊AI Lab開源了大規模、高品質的中文詞向量數據,包含了800多萬中文辭彙,相比現有的公開數據,在覆蓋率、新鮮度及準確性上均有大幅提高,為對話回復品質預測和醫療實體識別等自然語言處理方向的業務應用帶來顯著的效能提升。

Tags: