对DBpedia各子数据集特点分析
- 2020 年 2 月 18 日
- 筆記
对DBpedia各子数据集特点分析
数据地址见DBPedia官网。
Mainly From DataSet 3.0 ,一般同样的数据集,版本越新,size越大。
article_categories 2.0GB 关系只有一种类型,二分图,主语和谓语没有交集,形如:
主 谓 宾

Image 1.3GB ,每5行描述一个Image,为一个单元,单元与单元之间没有关联,sample如下:
<<images_1.3G_sample_and_Chinese_description.nt>>
Links to Wikipedia Article ( preview ) 300M
单一谓语,主语和宾语间没有交集。
Labels 1.0G ,PageId 1.6G, Revision 1.7G, short_abstract 10+G 形如:
主1 – 谓 – 属性1
主2 – 谓 – 属性2
….
只有一种谓语。
以下数据集同样猜测为单一谓语:
From <https://wiki.dbpedia.org/data-set-30>
Extended Abstracts ( preview )
From <https://wiki.dbpedia.org/data-set-30>
From <https://wiki.dbpedia.org/data-set-30>
From <https://wiki.dbpedia.org/data-set-30>
Infoboxproperties
每两行为一个单元,单元与单元之间没有连接。
Geographic Coordinates ( preview )
主语宾语没有交集
From <https://wiki.dbpedia.org/data-set-30>
Properties 8.4M
specific_mappingbased_properties 82M
谓语有多种。
宾语全部都是属性,形如"777000.0"^^<http://dbpedia.org/datatype/kilogram>
Pagelinks
3.3GB 每三行描述一个Page为一个单元,单元与单元之间没有关联,sample如下:
<<wikipedia_links_en_sample_and_chineseDescription.nt>>
Persondata
7M 每三行描述一个Person,为一个单元,单元与单元之间没有关联。
Cleanded Wikipedia Category Class (CWCC) Hierarchy ( preview ) (experimental/buggy)
From <https://wiki.dbpedia.org/data-set-30> 主语和谓语间没有交集
CWCC Hierarchy Instances ( preview ) 150M
From <https://wiki.dbpedia.org/data-set-30>
主语和谓语间没有交集。 主语和宾语间没有交集。 谓语有三种。 CSV文件。 不是以Url形式存在。