對DBpedia各子數據集特點分析

  • 2020 年 2 月 18 日
  • 筆記

對DBpedia各子數據集特點分析

數據地址見DBPedia官網。

Mainly From DataSet 3.0 ,一般同樣的數據集,版本越新,size越大。

article_categories 2.0GB 關係只有一種類型,二分圖,主語和謂語沒有交集,形如:

主 謂 賓

Image 1.3GB ,每5行描述一個Image,為一個單元,單元與單元之間沒有關聯,sample如下:

<<images_1.3G_sample_and_Chinese_description.nt>>

Links to Wikipedia Article ( preview ) 300M

單一謂語,主語和賓語間沒有交集。

Labels 1.0G ,PageId 1.6G, Revision 1.7G, short_abstract 10+G 形如:

主1 – 謂 – 屬性1

主2 – 謂 – 屬性2

….

只有一種謂語。

以下數據集同樣猜測為單一謂語:

Titles ( preview )

From <https://wiki.dbpedia.org/data-set-30>

Extended Abstracts ( preview )

From <https://wiki.dbpedia.org/data-set-30>

External Links ( preview )

From <https://wiki.dbpedia.org/data-set-30>

Homepages ( preview )

From <https://wiki.dbpedia.org/data-set-30>

Infoboxproperties

每兩行為一個單元,單元與單元之間沒有連接。

Geographic Coordinates ( preview )

主語賓語沒有交集

From <https://wiki.dbpedia.org/data-set-30>

Properties 8.4M

specific_mappingbased_properties 82M

謂語有多種。

賓語全部都是屬性,形如"777000.0"^^<http://dbpedia.org/datatype/kilogram>

Pagelinks

3.3GB 每三行描述一個Page為一個單元,單元與單元之間沒有關聯,sample如下:

<<wikipedia_links_en_sample_and_chineseDescription.nt>>

Persondata

7M 每三行描述一個Person,為一個單元,單元與單元之間沒有關聯。

Cleanded Wikipedia Category Class (CWCC) Hierarchy ( preview ) (experimental/buggy)

From <https://wiki.dbpedia.org/data-set-30> 主語和謂語間沒有交集

CWCC Hierarchy Instances ( preview ) 150M

From <https://wiki.dbpedia.org/data-set-30>

主語和謂語間沒有交集。 主語和賓語間沒有交集。 謂語有三種。 CSV文件。 不是以Url形式存在。