干货 | 初学者入门必看的“知识图谱”解读（中）

2019 年 10 月 4 日
笔记

本文为 AI 研习社社区用户 @邹佳敏 的博客文章，其知乎专栏为：AI的怎怎，歪歪不喜欢。欢迎扫描底部社区名片访问 @邹佳敏 的主页，查看更多内容。

回看上篇内容，可点击：“知识图谱”解读（上）

本系列参考了市面上已知的，几乎全部“知识图谱”相关文章，并总结提炼出一套适合初学者入门的“知识图谱”的知识体系，希望大家能有所收获。

五，不同范畴的概念梳理

1，语义网 vs. 知识图谱

(1)，语义网：1998年提出的"科学"概念，科学家指定各种规范，表达方式，不断增加并扩充互联网数据的表达和推理等语义能力，基于RDF三元组模型。

(2)，知识图谱：2012年提出的"工程"概念，当它使用语义网技术栈实现时，和语义网等价。当它使用其他方法实现时，内涵更广，也可以基于属性图模型。

2，RDF模型 vs. 属性图模型

(1)，RDF模型：语义网的基础，所有数据都由三元组组成，W3C标准，支持语义表达和推理，数据易发布和共享。比如，开源的通用知识图谱(FreeBase)，开放发布基于N-Triples的RDF数据。代表框架：Jena Framework：操作RDF的数据API，推理RDF的数据引擎，存储RDF的数据库。

(2)，属性图模型：现实生活中，实体和关系都拥有属性，属性图用实体表示"节点"，关系表示"边"，分别对应RDF模型的"实体"和"对象属性"。但是，属性图中所有的值属性可以全部存储在节点和边的成员变量中，与RDF的数据属性不同，不用显示地以节点和边的形式表示。代表数据库：Neo4J。

3，举例说明：

（1），刘庆峰，性别男，1973年出生，在1999年创办科大讯飞，并担任董事长。同时，讯飞知行是它的全资子公司。

形式上，属性图模型更符合人的常规理解，设计上更适合图的遍历搜索，适合工程实践。

但是：如果我要查询，讯飞知行的董事长是谁？怎么办？方案：RDF模型因为披着OWL的外衣，且有RIF/SWRL的加持，天然支持基于本地和自定义规则的推理，但属性图模型通常不具备推理功能，只能业务代码通过实现，比如if-else。

不过，在某些场景下，比如，带时序关系的舆情事件监控，RDF模型也可以通过构造业务实体进行中转表达，理解上达成和属性图一致。但，属性图模型的弹性更大，可以根据业务需求以及效率的要求，采用不同的数据存储schema。比如：

（2），2018年1月，优品财富完成近2亿元A轮融资，金证股份领投。202X年，完成Y亿B轮融资，C公司领投。

（2）.1：RDF_1，普通的RDF三元组数据模型，扁平直接，但不方便理解；

（2）.2：RDF_2和属性图_1类似，构建融资事件实体，将属性与事件实体关联。但在属性图上会产生大量入度只有1的小节点；

（2）.3：属性图_2，构建”融资事件“的通用类型实体，将不同的融资事件，以边属性的形式指向通用实体。但会产生海量入度的大节点，影响查询效率；

（2）.4：属性图3，本质上和属性图_2类似，但让事件边回指向自己，折中考虑小节点和大节点在设计上和效率上的优劣。

4，举例总结：

（1），市面上已知支持RDF推理功能的实现框架，比如，Jena，打开推理引擎后，查询速度极慢，同时由于推理引擎需要将数据全量载入内存，因此，只支持小数据集上图谱推理，性能有瓶颈，并且还需要做一整套的工具链，成本较高。

（2），出于各方面成本的考虑，虽然RDF模型语义完备，支持推理，解放了思想，但随之带来的高度复杂性却增加了成本，这也是大家常说学术界使用RDF模型，工业界都在讲属性图模型的原因。