干货 | 初学者入门必看的“知识图谱”解读(中)

  • 2019 年 10 月 4 日
  • 笔记

本文为 AI 研习社社区用户 @邹佳敏 的博客文章,其知乎专栏为:AI的怎怎,歪歪不喜欢。欢迎扫描底部社区名片访问 @邹佳敏 的主页,查看更多内容。

回看上篇内容,可点击:“知识图谱”解读(上)

本系列参考了市面上已知的,几乎全部“知识图谱”相关文章,并总结提炼出一套适合初学者入门的“知识图谱”的知识体系,希望大家能有所收获。

五,不同范畴的概念梳理

1,语义网 vs. 知识图谱

(1),语义网:1998年提出的"科学"概念,科学家指定各种规范,表达方式,不断增加并扩充互联网数据的表达和推理等语义能力,基于RDF三元组模型。

(2),知识图谱:2012年提出的"工程"概念,当它使用语义网技术栈实现时,和语义网等价。当它使用其他方法实现时,内涵更广,也可以基于属性图模型。

2,RDF模型 vs. 属性图模型

(1),RDF模型:语义网的基础,所有数据都由三元组组成,W3C标准,支持语义表达和推理,数据易发布和共享。比如,开源的通用知识图谱(FreeBase),开放发布基于N-Triples的RDF数据。代表框架:Jena Framework:操作RDF的数据API,推理RDF的数据引擎,存储RDF的数据库。

(2),属性图模型:现实生活中,实体和关系都拥有属性,属性图用实体表示"节点",关系表示"边",分别对应RDF模型的"实体"和"对象属性"。但是,属性图中所有的值属性可以全部存储在节点和边的成员变量中,与RDF的数据属性不同,不用显示地以节点和边的形式表示。代表数据库:Neo4J。

3,举例说明:

(1),刘庆峰,性别男,1973年出生,在1999年创办科大讯飞,并担任董事长。同时,讯飞知行是它的全资子公司。

形式上,属性图模型更符合人的常规理解,设计上更适合图的遍历搜索,适合工程实践。

但是:如果我要查询,讯飞知行的董事长是谁?怎么办? 方案:RDF模型因为披着OWL的外衣,且有RIF/SWRL的加持,天然支持基于本地和自定义规则的推理,但属性图模型通常不具备推理功能,只能业务代码通过实现,比如if-else。

不过,在某些场景下,比如,带时序关系的舆情事件监控,RDF模型也可以通过构造业务实体进行中转表达,理解上达成和属性图一致。但,属性图模型的弹性更大,可以根据业务需求以及效率的要求,采用不同的数据存储schema。比如:

(2),2018年1月,优品财富完成近2亿元A轮融资,金证股份领投。202X年,完成Y亿B轮融资,C公司领投。

(2).1:RDF_1,普通的RDF三元组数据模型,扁平直接,但不方便理解;

(2).2:RDF_2和属性图_1类似,构建融资事件实体,将属性与事件实体关联。但在属性图上会产生大量入度只有1的小节点;

(2).3:属性图_2,构建”融资事件“的通用类型实体,将不同的融资事件,以边属性的形式指向通用实体。但会产生海量入度的大节点,影响查询效率;

(2).4:属性图3,本质上和属性图_2类似,但让事件边回指向自己,折中考虑小节点和大节点在设计上和效率上的优劣。

4,举例总结:

(1),市面上已知支持RDF推理功能的实现框架,比如,Jena,打开推理引擎后,查询速度极慢,同时由于推理引擎需要将数据全量载入内存,因此,只支持小数据集上图谱推理,性能有瓶颈,并且还需要做一整套的工具链,成本较高。

(2),出于各方面成本的考虑,虽然RDF模型语义完备,支持推理,解放了思想,但随之带来的高度复杂性却增加了成本,这也是大家常说学术界使用RDF模型,工业界都在讲属性图模型的原因。