綜述 | 知識圖譜技術綜述(上)

  • 2019 年 12 月 27 日
  • 筆記

來自:程式媛驛站

題目:知識圖譜技術綜述

作者:徐增林,盛泳潘,賀麗榮,王雅芳

摘 要

知識圖譜技術是人工智慧技術的重要組成部分,其建立的具有語義處理能力與開放互聯能力的知識庫,可在智慧搜索、智慧問答、個性化推薦等智慧資訊服務中產生應用價值。

該文在全面闡述知識圖譜定義、架構的基礎上,綜述知識圖譜中的知識抽取、知識表示、知識融合、知識推理四大核心技術的研究進展以及一些典型應用。該文還將評論當前研究存在的挑戰。

關 鍵 詞:知識融合; 知識圖譜技術; 知識表示; 開放互聯; 語義處理

目錄

0 導讀

1 知識圖譜的定義與架構

1.1 知識圖譜的定義

1.2 知識圖譜的架構

2 大規模知識庫

2.1 開放鏈接知識庫

2.2 垂直行業知識庫

3 知識圖譜的關鍵技術

3.1 知識抽取

3.2 知識表示

3.3 知識融合

3.4 知識推理

4 知識圖譜的典型應用

4.1 智慧搜索

4.2 深度問答

4.3 社交網路

4.4 垂直行業應用

5 知識圖譜的挑戰

5.1 知識獲取

5.2 知識表示

5.3 知識融合

5.4 知識應用

6 結束語

7 參考文獻

0.導讀

人類先後經歷了以文檔互聯為主要特徵的「Web 1.0」時代與數據互聯為特徵的「Web 2.0」時代,正在邁向基於知識互聯的嶄新「Web 3.0」時代[1]。知識圖譜(knowledge graph)以其強大的語義處理能力與開放互聯能力,可為萬維網上的知識互聯奠定紮實的基礎,使Web 3.0提出的「知識之網」願景成為了可能。

早在2006年, 文獻[5]就提出了語義網的概念,呼籲推廣、完善使用本體模型來形式化表達數據中的隱含語義,RDF (resource description framework)模式和萬維網本體語言(Web ontology language,OWL)的形式化模型就是基於上述目的產生的。隨後掀起了一場語義網研究的熱潮,知識圖譜技術的出現正是基於以上相關研究,是對語義網標準與技術的一次揚棄與升華。

知識圖譜於2012年5月17日被Google正式提出[6],其初衷是為了提高搜索引擎的能力,增強用戶的搜索品質以及搜索體驗。目前,隨著智慧資訊服務應用的不斷發展,知識圖譜已被廣泛應用於智慧搜索、 智慧問答、個性化推薦等領域。

例如,用戶搜索的關鍵詞為梵高,引擎就會以知識卡片的形式給出梵高的詳細生平、藝術生涯資訊、不同時期的代表作品,並配合以圖片等描述資訊。與此同時,通過知識圖譜能夠將Web上的資訊、數據以及鏈接關係聚集為知識,使資訊資源更易於計算、理解以及評價,並且形成一套Web語義知識庫

本文的第一部分將沿著前面敘述,進一步剖析知識圖譜的定義與架構;

第二部分將以開放鏈接知識庫、垂直行業知識這兩類主要的知識庫類型為代表,簡要介紹其中的幾個知名度較高的大規模知識庫;

第三部分將以知識圖譜中的關鍵技術為重點,詳細闡述知識獲取、知識表示、知識融合、知識推理技術中的相關研究以及若干技術細節;

第四部分將介紹知識圖譜在智慧搜索、深度問答、社交網路以及垂直行業中的典型應用;

第五部分將介紹知識圖譜所面臨的一些困難與挑戰;

第六部分將對全文的內容進行總結

1.知識圖譜的定義與架構

1.1 知識圖譜的定義

在維基百科中:知識圖譜是Google用於增強其搜索引擎功能的知識庫[8]。本質上,知識圖譜是一種揭示實體之間關係的語義網路,可以對現實世界的事物及其相互關係進行形式化地描述。現在的知識圖譜已被用來泛指各種大規模的知識庫。

三元組是知識圖譜的一種通用表示方式,即G=(E,R,S)。其中:

  • E={e1,e2,…,e|E|}是知識庫中的實體集合,共包含|E|種不同實體;
  • R={r1,r2,…,r|E|} 是知識庫中的關係集合,共包含 | R | 種不同關係;
  • S 屬於 E X R X E 代表知識庫中的三元組集合。

三元組的基本形式主要包括實體1、關係、實體2和概念、屬性、屬性值等:

  • 實體是知識圖譜中的最基本元素,不同的實體間存在不同的關係。
  • 關係用來連接兩個實體,刻畫它們之間的關聯。
  • 概念主要指集合、 類別、對象類型、事物的種類,例如人物、地理等;
  • 屬性主要指對象可能具有的屬性、特徵、特點以及參數,例如國籍、生日等;
  • 屬性值主要指對象指定屬性的值,例如中國、1988-09-08等。
  • 每個實體(概念的外延)可用一個全局唯一確定的ID來標識,每個屬性-屬性值對(attribute-value pair,AVP)可用來刻畫實體的內在特性。

就覆蓋範圍而言,知識圖譜也可分為通用知識圖譜行業知識圖譜

  • 通用知識圖譜注重廣度,強調融合更多的實體,較行業知識圖譜而言,其準確度不夠高,並且受概念範圍的影響,很難藉助本體庫對公理、規則以及約束條件的支援能力規範其實體、屬性、實體間的關係等。主要應用於智慧搜索等領域。
  • 行業知識圖譜通常需要依靠特定行業的數據來構建,具有特定的行業意義,實體的屬性與數據模式往往比較豐富,需要考慮到不同的業務場景與使用人員。

1.2 知識圖譜的架構

知識圖譜的架構主要包括自身的邏輯結構以及體系架構,分別說明如下。

1) 知識圖譜的邏輯結構

知識圖譜在邏輯上可分為模式層與數據層兩個層次,數據層主要是由一系列的事實組成,而知識將以事實為單位進行存儲。若用(實體1,關係, 實體2)、(實體、屬性,屬性值)這樣的三元組來表達事實,可選擇圖資料庫作為存儲介質,例如開源的Neo4j[9]、Twitter的FlockDB[10]、sones的GraphDB[11]等。模式層構建在數據層之上,主要是通過本體庫來規範數據層的一系列事實表達。本體是結構化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結構較強,並且冗餘程度較小。

2) 知識圖譜的體系架構

知識圖譜的體系架構是其指構建模式結構,如圖1所示。其中虛線框內的部分為知識圖譜的構建過程,該過程需要隨人的認知能力不斷更新迭代。

知識圖譜主要有自頂向下(top-down)與自底向上(bottom-up)兩種構建方式。自頂向下指的是先為知識圖譜定義好本體與數據模式,再將實體加入到知識庫。該構建方式需要利用一些現有的結構化知識庫作為其基礎知識庫,例如Freebase項目就是採用這種方式,它的絕大部分數據是從維基百科中得到的。自底向上指的是從一些開放鏈接數據中提取出實體,選擇其中置信度較高的加入到知識庫,再構建頂層的本體模式[12]。目前,大多數知識圖譜都採用自底向上的方式進行構建,其中最典型就是Google的Knowledge Vault[13]。

2.大規模知識庫

隨著語義Web資源數量激增、大量的RDF數據被發布和共享、LOD(linked open data)等項目的全面展開[14],學術界與工業界的研究人員花費了大量的精力構建各種結構化的知識庫。下面將以開放鏈接知識庫、行業知識庫這兩類主要的知識庫類型為代表,詳細說明其中的幾個知名度較高的大規模知識庫。

2.1 開放鏈接知識庫

在LOD項目的雲圖中,Freebase、Wikidata、DBpedia、YAGO這4個大規模知識庫處於絕對核心的地位,它們中不僅包含大量的半結構化、非結構化數據,是知識圖譜數據的重要來源。而且具有較高的領域覆蓋面,與領域知識庫存在大量的鏈接關係。

1) Freebase

Freebase知識庫[15]早期由Metaweb公司創建,後來被Google收購,成為Google知識圖譜的重要組成部分。Freebase中的數據主要是由人工構建,另外一 部分數據則主要來源於維基百科、IMDB、Flickr等 網站或語料庫。截止到2014年年底,Freebase已經包 含了6 800萬個實體,10億條關係資訊,超過24億條事實三元組資訊,在2015年6月,Freebase整體移入 至WikiData。

2) Wikidata

Wikidata[16]是維基媒體基金會主持的一個自由的協作式多語言輔助知識庫,旨在為維基百科、維基共享資源以及其他的維基媒體項目提供支援。它是Wikipedia、Wikivoyage、Wikisource中結構化數據的中央存儲器,並支援免費使用[17]。Wikidata中的數據主要以文檔的形式進行存儲,目前已包含了超過1 700萬個文檔。其中的每個文檔都有一個主題或一個管理頁面,且被唯一的數字標識。

3) DBpedia

DBpedia[18]是由德國萊比錫大學和曼海姆大學的科研人員創建的多語言綜合型知識庫,在LOD項目中處於最核心的地位。DBpedia是從多種語言的維基百科中抽取結構化資訊,並且將其以關聯數據的形式發布到互聯網上,提供給在線網路應用、社交 網站以及其他在線知識庫。由於DBpedia的直接數據 來源覆蓋範圍廣闊,所以它包含了眾多領域的實體 資訊。截止至2014年年底,DBpedia中的事實三元組 數量已經超過了30億條。除上述優點外,DBpedia還能夠自動與維基百科保持同步,覆蓋多種語言。

4) YAGO

YAGO[19]是由德國馬普所(max planck institute,MPI)的科研人員構建的綜合型知識庫。YAGO整合了維基百科、WordNet[20]以及GeoNames等數據源,特別是將維基百科中的分類體系與WordNet的分類體系進行了融合,構建了一個複雜的類別層次結構體系。第一個版本包含了超過100萬的實體以及超過500萬的事實。2012年,發布了第二個版本,在YAGO的基礎上進行了大規模的擴展,引入了一個新的數據源GeoNames[21],被稱為YAG02s。包含了超過1000萬的實體以及超過1.2億的事實。

2.2 垂直行業知識庫

行業知識庫也可稱為垂直型知識庫,其的描述目標是特定的行業領域,通常需要依靠特定行業的數據才能構建,因此其描述範圍極為有限。下面將以MusicBrainz、IMDB、豆瓣等為代表進行說明。

1) IMDB

IMDB(internet movie database)[22]是一個關於電影演員、電影、電視節目、電視明星以及電影製作的資料庫。截止到2012年2月,IMDB共收集了2 132 383部作品資料和4 530 159名人物資料。IMDB中的資料是按類型進行組織的。對於一個具體的條目,又包含了詳細的元資訊[23]。

2) MusicBrainz

MusicBrainz[24]是一個結構化的音樂維基百科,致力於收藏所有的音樂元數據,並向大眾用戶開放。任何註冊用戶都可以向網站中添加資訊或投稿。由於Last.fm、GrooveShark、Pandora、Echonest等音樂服務網站的數據均來自於MusicBrainz,故MusicBrainz可通過資料庫或Web服務兩種方式將數據提供給社區。

3) ConceptNet

ConceptNet[26]是一個語義知識網路,主要由一系列的代表概念的結點構成,這些概念將主要採用自然語言單詞或短語的表達形式,通過相互連接建立語義聯繫。ConceptNet包含了大量電腦可了解的世界的資訊,這些資訊將有助於電腦更好地實現搜索、問答以及理解人類的意圖。ConceptNet 5[27]是基於ConceptNet的一個開源項目,主要通過GPLv3協議進行開源。

3.知識圖譜的關鍵技術

大規模知識庫的構建與應用需要多種智慧資訊處理技術的支援。通過知識抽取技術,可以從一些公開的半結構化、非結構化的數據中提取出實體、關係、屬性等知識要素。通過知識融合,可消除實體、關係、屬性等指稱項與事實對象之間的歧義,形成高品質的知識庫。知識推理則是在已有的知識庫基礎上進一步挖掘隱含的知識,從而豐富、擴展 知識庫。分散式的知識表示形成的綜合向量對知識庫的構建、推理、融合以及應用均具有重要的意義。

3.1 知識抽取

知識抽取主要是面向開放的鏈接數據,通過自動化的技術抽取出可用的知識單元,知識單元主要包括實體(概念的外延)、關係以及屬性3個知識要素,並以此為基礎,形成一系列高品質的事實表達,為上層模式層的構建奠定基礎。

3.1.1 實體抽取

早期的實體抽取也稱為命名實體學習(named entity learning)或命名實體識別(named entity recognition),是從原始語料中自動識別出命名實體。由於實體是知識圖譜中的最基本元素,其抽取的完整性、準確率、召回率等將直接影響到知識庫的品質。因此,實體抽取是知識抽取中最為基礎與關鍵的一步

文獻[28]將實體抽取的方法分為3種:基於規則與詞典的方法、基於統計機器學習的方法以及面向開放域的抽取方法。

  • 基於規則的方法通常需要為目標實體編寫模板,然後在原始語料中進行匹配;
  • 基於統計機器學習的方法主要是通過機器學習的方法對原始語料進行模型訓練;
  • 面向開放域的抽取將是面向海量的Web語料[12,29]。

1) 基於規則與詞典的實體抽取方法

早期的實體抽取是在限定文本領域、限定語義單元類型的條件下進行的,主要採用的是基於規則與詞典的方法,例如使用已定義的規則,抽取出文本中的人名、地名、特定時間等實體[30]。文獻[31]首次實現了一套能夠抽取公司名稱的實體抽取系統,其中主要用到了啟發式演算法與規則模板相結合的方法。然而,基於規則模板的方法 不僅需要依靠大量的專家來編寫規則或模板,覆蓋的領域範圍也有限,而且很難適應數據變化的新需求。

2) 基於統計機器學習的實體抽取方法

隨後,研究者嘗試將機器學習中的監督學習演算法用於命名實體的抽取問題上。例如文獻[32]利用KNN演算法與條件隨機場模型,實現了對Twitter文本數據中實體的識別。單純的監督學習演算法在性能上不僅受到訓練集的限制,並且演算法的準確率與召回率都不夠理想。相關研究者認識到監督學習演算法的制約性後,嘗試將監督學習演算法與規則相互結合,取得了一定的成果。例如文獻[33]基於字典,使用最大熵演算法在Medline論文摘要的GENIA數據集上進行了實體抽取實驗,實驗的準確率與召回率都在70%以上。

3) 面向開放域的實體抽取方法

針對如何從少量實體實例中自動發現具有區分力的模式,進而擴展到海量文本去給實體做分類與聚類的問題,文獻[34]提出了一種通過迭代方式擴展實體語料庫的解決方案,其基本思想是通過少量的實體實例建立特徵模型,再通過該模型應用於新的數據集得到新的命名實體。文獻[35]提出了一種基於無監督學習的開放域聚類演算法,其基本思想是基於已知實體的語義特徵去搜索日誌中識別出命名的實體,然後進行聚類。

3.1.2 關係抽取

關係抽取的目標是解決實體間語義鏈接的問題,早期的關係抽取主要是通過人工構造語義規則以及模板的方法識別實體關係。隨後,實體間的關係模型逐漸替代了人工預定義的語法與規則。但是仍需要提前定義實體間的關係類型。

文獻[36]提出了面向開放域的資訊抽取框架(open information extraction,OIE),這是抽取模式上的一個巨大進步。但其在對實體的隱含關係抽取方面性能低下,因此部分研究者提出了基於馬爾可夫邏輯網、基於本體推理的深層隱含關係抽取方法[37]。

1) 開放式實體關係抽取

開放式實體關係抽取可分為二元開放式關係抽取和n元開放式關係抽取。在二元開放式關係抽取中,早期的研究有KnowItAll[38]與TextRunner[37]系統,在準確率與召回率上表現一般。文獻[39]提出了一種基於Wikipedia的OIE方法WOE,經自監督學習得到抽取器,準確率較TextRunner有明顯的提高。針對WOE的缺點,文獻[40]提出了第二代OIE ReVerb系統,以動詞關係抽取為主。文獻[41]提出了第三代OIE系統OLLIE(open language learning for information extraction),嘗試彌補並擴展OIE的模型及相應的系統,抽取結果的準確度得到了增強。然而,基於語義角色標註的OIE分析顯示:英文語句中40%的實體關係是n元的[42],如處理不當,可能會影響整體抽取的完整性。文獻[43]提出了一種可抽取任意英文語句中n元實體關係的方法KPAKEN,彌補了ReVerb的不足。但是由於演算法對語句深層語法特徵的提取導致其效率顯著下降,並不適用於大規模開放域語料的情況。

2) 基於聯合推理的實體關係抽取

聯合推理的關係抽取中的典型方法是馬爾可夫邏輯網MLN(Markov logic network)[44],它是一種將馬爾可夫網路與一階邏輯相結合的統計關係學習框架,同時也是在OIE中融入推理的一種重要實體關係抽取模型。基於該模型,文獻[45]提出了一種無監督學習模型StatSnowball,不同於傳統的OIE,該方法可自動產生或選擇模板生成抽取器。在StatSnowball的基礎上,文獻[37,46]提出了一種實體識別與關係抽取相結合的模型EntSum,主要由擴展的CRF命名實體識別模組與基於StatSnowball的關係抽取模組組成,在保證準確率的同時也提高了召回率。文獻[37,47]提出了一種簡易的Markov邏輯TML(tractable Markov logic),TML將領域知識分解為若干部分,各部分主要來源於事物類的層次化結構,並依據此結構,將各大部分進一步分解為若干個子部分,以此類推。TML具有較強的表示能力,能夠較為簡潔表示概念以及關係的本體結構。

3.1.3 屬性抽取

屬性抽取主要是針對實體而言的,通過屬性形成對實體的完整勾畫。實體的屬性抽取可以轉化為關係抽取問題。將實體屬性的抽取問題轉換為關係抽取問題。文獻[37,48]提出的基於規則與啟發式演算法的屬性抽取方法能夠從Wikipedia及WordNet的半結構化網頁中自動抽取相應的屬性名稱與屬性值,還可擴展為一套本體知識庫。實驗表明:該演算法的抽取準確率可達到95%。大量的屬性數據主要存在於半結構化、非結構化的大規模開放域數據集中。抽取這些屬性的方法:

  • 一種是將上述從百科網站上抽取的結構化數據作為可用於屬性抽取的訓練集,然後再將該模型應用於開放域中的實體屬性抽取[49],
  • 另一種是根據實體屬性與屬性值之間的關係模式,直接從開放域數據集上抽取屬性。但是由於屬性值附近普遍存在一些限定屬性值含義的屬性名等,所以該抽取方法的準確率並不高[50]。

3.2 知識表示

雖然,基於三元組的知識表示形式受到了人們廣泛的認可,但是其在計算效率、數據稀疏性等方面卻面臨著諸多問題。以深度學習為代表的表示學習技術可以將實體的語義資訊表示為稠密低維實值向量,進而在低維空間中高效計算實體、關係及其之間的複雜語義關聯,對知識庫的構建、推理、融合以及應用均具有重要的意義[51-53]。本文將重點介紹知識表示學習的代表模型、複雜關係翻譯模型、多源異質資訊融合模型方面的研究成果。

3.2.1 應用場景

分散式表示旨在用一個綜合的向量來表示實體對象的語義資訊,是一種模仿人腦工作的表示機制[53],通過知識表示而得到的分散式表示形式在知識圖譜的計算、補全、推理等方面將起到重要的作用:

1) 語義相似度計算

由於實體通過分散式表示而形成的是一個個低維的實值向量,所以,可使用熵權係數法[54]、餘弦相似性[55]等方法計算它們間的相似性。這種相似性刻畫了實體之間的語義關聯程度,為自然語言處理等提供了極大的便利。

2) 鏈接預測

通過分散式表示模型,可以預測圖譜中任意兩個實體之間的關係,以及實體間已存在的關係的正確性。尤其是在大規模知識圖譜的上下文中,需要不斷補充其中的實體關係,所以鏈接預測又被稱為知識圖譜的補全[53]。

3.2.2 代表模型

知識表示學習的代表模型主要包括距離模型、雙線性模型、神經張量模型、矩陣分解模型、翻譯模型等。

1) 距離模型

文獻[56]提出了知識庫中實體以及關係的結構化表示方法(structured embedding,SE),其基本思想是:首先將實體用向量進行表示,然後通過關係矩陣將實體投影到與實體向量同一維度的向量空間中,最後通過計算投影向量之間的距離來判斷實體間已存在的關係的置信度。由於距離模型中的關係矩陣是兩個不同的矩陣,故實體間的協同性較差, 這也是該模型本身的主要缺陷。

2) 單層神經網路模型

文獻[57]針對上述提到的距離模型中的缺陷,提出了採用單層神經網路的非線性模型,模型為知識庫中每個三元組(h,r,t)定 義了以下形式的評價函數:

3) 雙線性模型

雙線性模型又叫隱變數模型(latent factor model,LFM),由文獻[58-59]首先提出。模型為知識庫中每個三元組(h,r,t)定義的評價函數具有如下 形式:

式中,Mr 屬於

dxd 是通過關係r定義的雙線性變換矩陣; l 屬於

d 是三元組中頭實體與尾實體的向量化表示。 雙線性模型主要是通過基於實體間關係的雙線性變換來刻畫實體在關係下的語義相關性。模型不僅形式簡單、易於計算,而且還能夠有效刻畫實體間的協同性[53]。基於上述工作,文獻[60]嘗試將雙線性變換矩陣 Mr 變換為對角矩陣,提出了DISTMULT模型,不僅簡化了計算的複雜度,並且實驗效果得到了顯著提升。

4) 神經張量模型

文獻[61]提出的神經張量模型,其基本思想是: 在不同的維度下,將實體聯繫起來,表示實體間複雜的語義聯繫。模型為知識庫中的每個三元組(h,r,t)定義了以下形式的評價函數:

神經張量模型在構建實體的向量表示時,是將該實體中的所有單詞的向量取平均值,這樣一方面可以重複使用單詞向量構建實體,另一方面將有利於增強低維向量的稠密程度以及實體與關係的語義計算[53]。

5) 矩陣分解模型

通過矩陣分解的方式可得到低維的向量表示, 故不少研究者提出可採用該方式進行知識表示學 習,其中的典型代表是文獻[62]提出的RESACL模型。在RESCAL模型中,知識庫中的三元組(h,r,t)集合被表示為一個三階張量,如果該三元組存在,張量中對應位置的元素被置1,否則置為0。通過張量分解演算法,可將張量中每個三元組(h,r,t)對應的張量值 X hrt 分解為雙線性模型中的知識表示形式lhTMrlt,並使|Xhrt -lhTMrlt | 盡量小。

6) 翻譯模型

文獻[63]受到平移不變現象的啟發,提出了TransE模型,即將知識庫中實體之間的關係看成是從實體間的某種平移,並用向量表示。關係lr 可以看作是從頭實體向量 lh 到尾實體向量 lt 的翻譯。對於知識庫中的每個三元組(h,r,t),TransE都希望滿足以下關係:

其損失函數為: fr (h,t) =| lh + lr lt |L1 / L2 ,即向量 lh + lr lt L1 或 L2 距離。該模型的參數較少,計算的複雜度顯著降低。與此同時,TransE模型在大規模稀疏知識庫上也同樣具有較好的性能與可擴展性。

3.2.3 複雜關係模型

知識庫中的實體關係類型也可分為1-to-1、1-to-NN-to-1、N-to-N4種類型[63],而複雜關係主要指的是1-to-NN-to-1、N-to-N的3種關係類型。由於TransE模型不能用在處理複雜關係上[53], 一系列基於它的擴展模型紛紛被提出:

1) TransH模型

文獻[64]提出的TransH模型嘗試通過不同的形式表示不同關係中的實體結構,對於同一個實體而言,它在不同的關係下也扮演著不同的角色。模型首先通過關係向量 lr 與其正交的法向量 wr 選取某一個超平面 F ,然後將頭實體向量 lh 和尾實體向量l 沿法向量 w 的方向投影到 F ,最後計算損失函數。TransH使不同的實體在不同的關係下擁有了不 同的表示形式,但由於實體向量被投影到了關係的語義空間中,故它們具有相同的維度。

2) TransR模型

由於實體、關係是不同的對象,不同的關係所關注的實體的屬性也不盡相同,將它們映射到同一個語義空間,在一定程度上就限制了模型的表達能力。所以,文獻[65]提出了TransR模型。模型首先將知識庫中的每個三元組(h,r,t)的頭實體與尾實體向關係空間中投影,然後希望滿足 lhr lr 約等於 ltr 的關係,最後計算損失函數。文獻[65]提出的CTransR模型認為關係還可做更細緻的劃分,這將有利於提高實體與關係的語義聯繫。在CTransR模型中,通過對關係 r 對應的頭實體、尾實體向量的差值lh lt進行聚類,可將r劃分為若干個子關係rc

3) TransD模型

考慮到在知識庫的三元組中,頭實體和尾實體表示的含義、類型以及屬性可能有較大差異,之前的TransR模型使它們被同一個投影矩陣進行映射, 在一定程度上就限制了模型的表達能力。除此之外,將實體映射到關係空間體現的是從實體到關係的語 義聯繫,而TransR模型中提出的投影矩陣僅考慮不同的關係類型,而忽視了實體與關係之間的交互。 因此,文獻[66]提出了TransD模型,模型分別定義了頭實體與尾實體在關係空間上的投影矩陣。

4) TransG模型

文獻[67]提出的TransG模型認為一種關係可能 會對應多種語義,而每一種語義都可以用一個高斯分布表示。TransG模型考慮到了關係 r 的不同語義, 使用高斯混合模型來描述知識庫中每個三元組(h,r,t)的頭實體與尾實體之間的關係,具有較高的實體區分度。

5) KG2E模型

考慮到知識庫中的實體以及關係的不確定性, 文獻[68]提出了KG2E模型,其中同樣是用高斯分布 來刻畫實體與關係。模型使用高斯分布的均值表示 實體或關係在語義空間中的中心位置,協方差則表 示實體或關係的不確定度。知識庫中,每個三元組(h,r,t)的頭實體向量lh與尾實體向量 lt 之間的關係可表示為:

關係 r 可表示為:

由此,可以通過 PePr 兩個相似度的評價給三元組打分。用於對分布相似度進行評價的方法主要是KL散度與期望概率。

3.2.4 多源資訊融合

三元組作為知識庫的一種通用表示形式,通過表示學習,能夠以較為直接的方式表示實體、關係及其之間的複雜語義關聯。然而,互聯網中仍蘊含著大量與知識庫實體、關係有關的資訊未被考慮或有效利用,如充分融合、利用這些多源異質的相關資訊,將有利於進一步提升現有知識表示模型的區 分能力以及性能[53]。

目前,多源異質資訊融合模型方面的研究尚處於起步階段,涉及的資訊來源也極為有限,具有較為廣闊的研究前景。下面將主要介紹其中通過融合本文資訊進行知識表示的代表性工作。

文 獻 [69] 提 出 的 DKRL(description-embodied knowledge representation learning),模型將Freebase知識庫中的實體描述文本數據作為其主要數據來源,通過CBOW模型[70],將文本中多個詞對應的詞向量加起來表示文本;其中的另一個CNN模型[71]則利用模型DKRL模型在新實體的表示能力方面較強,它能根據新實體的簡短描述產生對應的表示形式,這對於知識融合以及知識圖譜補全等具有重要的意義。

文獻[64]選擇維基百科知識庫,並通過word2vec將知識庫中的正文詞語表示為向量,同時使用TransE模型[63]對該知識庫進行表示學習。目標是使通過word2vec表示的實體與知識庫中學習到的實體儘可能接近,從而使文本能夠與知識庫相互融合。

作者:徐增林,盛泳潘,賀麗榮,王雅芳

編輯:西柚媛