全國知識圖譜與語義計算大會競賽冠軍DeepBlueAI團隊技術分享!
- 2020 年 11 月 19 日
- AI

全國知識圖譜與語義計算大會(CCKS 2020) 11月12日至15日在江西南昌舉行,CCKS是(China Conference on Knowledge Graph and Semantic Computing)由中國中文資訊學會語言與知識計算專委會定期舉辦的全國年度學術會議。
CCKS已經成為中國知識圖譜、語義技術、語言理解和知識計算等領域的核心會議。CCKS 2020舉辦的各項挑戰賽公布了最終結果,來自深蘭科技北京AI研發中心的DeepBlueAI團隊斬獲了3項冠軍和1項亞軍,並獲得了一項技術創新獎。

我們可以通過這篇文章了解下DeepBlueAI 團隊在『新冠知識圖譜構建與問答評測(一)新冠百科知識圖譜類型推斷』賽題中的解決方案。
賽題介紹
比賽任務
-
entity.txt:需要進行類型預測的所有實體,其中包含相關實體和噪音實體。 -
entity_pages_1.xml,entity_pages_2.xml,entity_pages_3.xml,entity_pages_4.xml:分別來自百度百科,互動百科,中文維基百科,醫學百科的實體頁面內容。保證 entity.txt 中的任意實體至少被一個頁面文件所涵蓋。實體頁面文件中包含類型推斷可能會用到的名稱、標籤、簡介等資訊。此處還可以使用其他公開數據集。 -
type.txt:包含 7 個目標類型,分別是病毒、細菌、疾病、藥物、醫學專科、檢查科目、癥狀(非目標類型輸出為 NoneType)。

團隊成績

比賽難點
-
實體文本較短。給定實體平均長度為7;實體文本較短導致缺乏足夠的資訊,很多實體類型難以確定,其中真菌細菌名稱近似,十分難以區分。 -
同一實體可能屬於多個類型。同一實體在不同的百科數據中屬於不同的類別,但最終只需要一個類別,訓練集中如何確定其類別會影響測試集中的偏向。 -
類別不平衡。7個類別中,癥狀、疾病、藥物佔了大多數,其餘類別對應的實體極少。
競賽方案
數據處理
模型
圖1-
描述文本融入。測試集中很多實體沒有對應的文本,為了解決這個問題,在訓練時,同時使用了僅實體和實體+描述兩種輸入,這樣一來,對每一個實體,我們構造了兩個樣本。只使用實體作為輸入時,可以訓練模型有效的提取關鍵字資訊;使用描述文本時,可以引入額外資訊;通過這樣的樣本構建方式,也相當於做了數據增強,增加了訓練集數據量。 -
對抗學習。它在訓練中構造了一些對抗樣本加入到原數據集中,希望增強模型對對抗樣本的魯棒性。我們在模型訓練的時候加入了對抗學習,所使用的對抗學習方法是 Fast Gradient Method(FGM)。 -
多模型融合。針對數據集的特點,我們設計了3個模型,一個多分類模型,一個NoneType分類模型,一個細菌真菌分類模型。每個模型使用5折交叉驗證,最終結果取平均。再對三個模型做人工規則融合。
補充資訊引入
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
類別不均衡解決
|
|
|
|
|
|
|
|
|
|---|---|---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
後處理
比賽結果
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
總結與討論
參考文獻:


點擊閱讀原文,直達ICLR小組!


