超30億中文數據首發!首個專為中文NLP打造的GLUE基準發佈

  • 2019 年 11 月 1 日
  • 筆記

AI WORLD 2019 世界人工智能峰會精彩重放!

10 月 18 日,2019 中關村論壇平行論壇 ——AI WORLD 2019 世界人工智能峰會在北京啟幕。新智元楊靜、科大訊飛胡郁、微軟王永東、華為王成錄、英特爾宋繼強、曠視及智源學者孫劍、滴滴葉傑平、AWS 張崢、依圖顏水成、地平線黃暢、autowise.ai 黃超等重磅嘉賓中關村論劍,重啟充滿創新活力的 AI 未來。峰會現場,新智元揭曉 AI Era 創新大獎,並重磅發佈 AI 開放創新平台和獻禮新書《智周萬物:人工智能改變中國》。回放鏈接:

【騰訊科技】

客戶端:https://view.inews.qq.com/a/TEC2019101600718500

PC 端:http://v.qq.com/live/p/topic/74606/preview.html

【海淀融媒】

https://m.toutiaoimg.cn/i6748195040323062540

【新浪科技】

http://video.sina.com.cn/l/p/1728577.html 新智元報道

來源:新智元

編輯:鵬飛

【新智元導讀】首個專為中文量身打造的ChineseGLUE來襲!目前擁有八個數據集的整體測評及其基線模型,20多位來自各個頂尖機構的自願者加入並成為了創始會員。還發佈了已經處理好的大規模中文語料,可用於語言理解、預訓練、文本生等任務,包含14G左右數據,含30億中文字,已在新智元小程序宣布首發!歡迎來新智元 AI 朋友圈與大咖一起討論~

GLUE終於有中文版了!

如果要評選NLP領域基準TOP 3,GLUE必須擁有姓名。GLUE是一個自然語言任務集合,包含了以下任務:

但一直以來GLUE只針對英文,沒有專門針對全世界使用人數最多的語言漢語的GLUE基準。

為什麼會有ChineseGLUE?

和英文這種基於字母的語言不同,中文是象形文字,字與字之間沒有分隔符,不同的分詞(分字或詞)會影響下游任務。顯然當前的GLUE無法滿足中文NLP。

相對於英文的數據集,中文的公開可用的數據集還比較少。很多數據集是非公開的或缺失基準測評的;多數的論文描述的模型是在英文數據集上做的測試和評估,那麼對於中文效果如何?不得而知。

如今,預訓練模型極大的促進了自然語言理解。不同的預訓練模型相繼產生,但不少最先進(state of the art)的模型,並沒有官方的中文的版本,也沒有對這些預訓練模型在不同任務上的公開測試,導致技術的發展和應用還有不少距離,或者說技術應用上的滯後。

是時候推出針對中文的GLUE基準了!

現在,由算法專家、AlBERT第一作者等20餘位頂尖專業人才成立「開源協助組織」,共同推出了針對中文的GLUE基準:ChineseGLUE。

【中文任務基準測評ChineseGLUE】地址:

https://github.com/chineseGLUE/chineseGLUE

專為中文量身打造的ChineseGLUE,還發佈了已經處理好的大規模中文語料,可用於語言理解、預訓練、文本生等任務,包含14G左右數據,含30億中文字,已在新智元小程序宣布首發!

地址:

http://106.13.187.75:8003/index

針對中文的GLUE基準:ChineseGLUE誕生!

ChineseGLUE即中文語言理解測評基準,包括代表性的數據集、基準(預訓練)模型、語料庫、排行榜。

新智元獲悉,團隊的「目標」是跑遍主流的中文數據集。解決當前中文任務公開可用數據集匱乏、沒有基準測評、最先進的預訓練模型不足等中文任務基礎設施問題。

為更好的服務中文語言理解、任務和產業界,做為通用語音模型測評的補充,通過完善中文語言理解基礎設施的方式來促進中文語言模型的發展。

該基準會選擇一系列有一定代表性的任務對應的數據集,作為測試基準的數據集。這些數據集會覆蓋不同的任務、數據量、任務難度。中文任務的基準測試也會覆蓋多個不同程度的語言任務。

除此之前,ChineseGLUE也包括了:

  • 公開的排行榜
  • 基線模型,包含開始的代碼、預訓練模型
  • 語料庫,用於語言建模、預訓練或生成型任務

可用於語言建模、預訓練或生成型任務等,數據量超過14G,主要部分來自於nlp_chinese_corpus項目。

當前語料庫按照【預訓練格式】處理,內含有多個文件夾;每個文件夾有許多不超過4M大小的小文件,文件格式符合預訓練格式:每句話一行,文檔間空行隔開。

包含如下子語料庫(總共14G語料):

  1. 新聞語料: 8G語料,分成兩個上下兩部分,總共有2000個小文件。
  2. 社區互動語料:3G語料,包含3G文本,總共有900多個小文件。
  3. 維基百科:1.1G左右文本,包含300左右小文件。
  4. 評論數據:2.3G左右文本,含有811個小文件,合併ChineseNLPCorpus的多個評論數據,清洗、格式轉換、拆分成小文件。

這些語料,可以通過這兩個項目,清洗數據並做格式轉換獲得;也可以通過郵件申請(chineseGLUE#163.com)獲得單個項目的語料,告知單位或學校、姓名、語料用途;如需獲得ChineseGLUE項目下的所有語料,需成為ChineseGLUE組織成員,並完成一個(小)任務。

ChineseGLUE vs GLUE,區別僅僅在於語言不同嗎?

我們知道,本土化意味着不僅僅只是將界面語言翻譯成中文,其實還連帶着思維轉換、認知差異等更深層的改變,NLP基準也不例外。

新智元獲悉,ChineseGLUE並不僅僅是名字里加了個Chinese,其實背後做了非常大的改動。

最大的不同,首先就是數據集。GLUE和ChineseGLUE的數據集完全不同,很多非常好的英文的數據集是沒辦法直接用的。

其次是開源問題。英文很多數據集、預訓練模型都是開源的,而中文這方面非常稀缺,該項目發起者徐亮說這是目前ChineseGLUE面臨最大的障礙了。

由於開源意願不強,雖然很多大廠最先進的技術都用上了,但沒有開源數據集和預訓練模型,那麼多數人就用不上;同時由於是針對企業內部定製的,缺乏普適性。而ChineseGLUE的目標之一,也是希望能夠實現整個中文基礎任務測評。

ChineseGLUE路線圖

新智元獲悉,ChineseGLUE是一個非常大的工程,目前還處在剛剛起步階段。接下來的規劃,大概就是首先呼籲大家一起努力來敦促大廠開源開放,其次希望能有企業贊助,然後激勵志願者來做一些整理工作。

他還透露了該工程的大致路線圖,共分成三個階段:

第一階段,也就是beta版,從10月24號到12月30號。首先整理搜集8到10個數據集,然後對這些數據集進行最先進的模型測評。提交鏈接:

http://106.13.187.75:8003/submit

第二階段,也就是正式版,大概會在明年推出。這個階段的重心是開始建立一些私有數據集,或者說數據集是公開的但是測試集是私有的,以便吸引更多人參與測評。這樣ChineseGLUE就會成為一個更權威、客觀的基準測試。

第三階段,大概在2021年,準備好迎接更大的挑戰、更高難度的任務和數據集。

中文任務基準測評(chineseGLUE)-排行榜-各任務對比

ChineseGLUE的發展,離不開社區的土壤

任何開源項目的發展,都需要大量的貢獻者為這個社區添磚加瓦。如果你也認可ChineseGLUE,希望能夠參與其中,成為未來可能改變中文NLP基準測試的一份子,那麼你可能會獲得以下好處:

  • 成為中國第一個中文任務基準測評的創始會員
  • 能與其他專業人士共同貢獻力量,促進中文自然語言處理事業的發展
  • 參與部分工作後,獲得已經清洗並預訓練的後的、與英文wiki & bookCorpus同等量級、大規模的預訓練語料,用於研究目的
  • 優先使用state of the art的中文預訓練模型,包括各種體驗版或未公開版本

參與方式

  1. Hard模式:發送郵件 chineseGLUE#163.com,簡要介紹你自己、背景、工作或研究方向、你的組織、在哪方面可以為社區貢獻力量,評估後會與你取得聯繫
  2. Easy模式:ChineseGLUE發起人徐亮已入駐新智元小程序。你可以在新智元小程序里,近距離和徐亮溝通、第一時間獲取「內幕消息」,並且與社區中來自華為、阿里、英特爾等大咖0距離交流!

ChineseGLUE中文基準團隊主要成員

排名不分先後:

顧問

張俊林:中國中文信息學會理事,中科院軟件所博士,新浪微博機器學習團隊AI Lab負責人。技術書籍《這就是搜索引擎:核心技術詳解》(該書榮獲全國第十二屆優秀圖書獎)、《大數據日知錄:架構與算法》的作者。

創始會員

徐亮:中文任務基準測評chineseGLUE發起人。杭州實在智能算法專家,多個預訓練模型中文版開源項目作者(github.com/brightmart)

Danny Lan:CMU博士、google研究員,SOTA語言理解模型AlBERT第一作者。

徐國強:MIT博士,平安集團上海Gammalab負責人。

張軒瑋:畢業於北京大學,目前在愛奇藝從事nlp有關的工作,之前做過熱點聚合,文本分類,標籤生成,機器翻譯方面的工作。

謝煒堅:百度大數據部的算法工程師,NLP工業界經驗三年,包括NLU、檢索式問答、語義匹配、文本分類相關的工作。類相關的工作,先前對BERT/BERT-wwm-ext/Roberta/XLNet等預訓練模型均有fine-tune經驗。

曹辰捷:平安金融壹賬通,算法工程師,做閱讀理解和預訓練相關的,CRMC2019閱讀理解冠軍團隊成員。

各個模型的總排行榜、多個數據集介紹、相關的基線模型、大規模中文語料、更多組織的信息