對DBpedia各子數據集特點分析
- 2020 年 2 月 18 日
- 筆記
對DBpedia各子數據集特點分析
數據地址見DBPedia官網。
Mainly From DataSet 3.0 ,一般同樣的數據集,版本越新,size越大。
article_categories 2.0GB 關係只有一種類型,二分圖,主語和謂語沒有交集,形如:
主 謂 賓

Image 1.3GB ,每5行描述一個Image,為一個單元,單元與單元之間沒有關聯,sample如下:
<<images_1.3G_sample_and_Chinese_description.nt>>
Links to Wikipedia Article ( preview ) 300M
單一謂語,主語和賓語間沒有交集。
Labels 1.0G ,PageId 1.6G, Revision 1.7G, short_abstract 10+G 形如:
主1 – 謂 – 屬性1
主2 – 謂 – 屬性2
….
只有一種謂語。
以下數據集同樣猜測為單一謂語:
From <https://wiki.dbpedia.org/data-set-30>
Extended Abstracts ( preview )
From <https://wiki.dbpedia.org/data-set-30>
From <https://wiki.dbpedia.org/data-set-30>
From <https://wiki.dbpedia.org/data-set-30>
Infoboxproperties
每兩行為一個單元,單元與單元之間沒有連接。
Geographic Coordinates ( preview )
主語賓語沒有交集
From <https://wiki.dbpedia.org/data-set-30>
Properties 8.4M
specific_mappingbased_properties 82M
謂語有多種。
賓語全部都是屬性,形如"777000.0"^^<http://dbpedia.org/datatype/kilogram>
Pagelinks
3.3GB 每三行描述一個Page為一個單元,單元與單元之間沒有關聯,sample如下:
<<wikipedia_links_en_sample_and_chineseDescription.nt>>
Persondata
7M 每三行描述一個Person,為一個單元,單元與單元之間沒有關聯。
Cleanded Wikipedia Category Class (CWCC) Hierarchy ( preview ) (experimental/buggy)
From <https://wiki.dbpedia.org/data-set-30> 主語和謂語間沒有交集
CWCC Hierarchy Instances ( preview ) 150M
From <https://wiki.dbpedia.org/data-set-30>
主語和謂語間沒有交集。 主語和賓語間沒有交集。 謂語有三種。 CSV文件。 不是以Url形式存在。