OpenKG數據逐一截圖說明

  • 2020 年 2 月 17 日
  • 筆記

數據格式總覽

OpenKG共有86個數據集。

首先,我們看一下其格式的標籤列表。

可能與三元組相關的標籤(一個數據集可能有多個標籤)的總計數為 51,不算特別多,所以我打算把每個數集看一下,看看有沒有 滿足大小在 1G-10G

所有數據集共有5頁。

下面圖片中紅框為可能符合要求的,其餘 綠框內為格式或大小肯定不符合要求的。

第一頁

下面我們一一來看第一頁有可能可用的數據集

OMAHA術語集樣例

下載後發現大小只有15k。

webdatacommons數據集

沒有rdf格式的數據。

中文癥狀庫 熱門

進行下載後總大小只有10M

快雨-證券數據api

基於limes的中文知識圖譜融合實戰演練教程

是一個教程,測試數據大小28M。

國內主要中文百科知識圖譜之間的鏈接數據集 熱門

上圖中可以看到四個文件的大小。

中文百科知識圖譜Zhishi.me-提供Dump 熱門

大小2.64G

下載解壓後打開發現有非常多的壓縮文件,數據都壓扁了:

打開看文件內容

Zhishi.me 熱門

對裏面的所有可獲取文件進行下載,發現和上一個數據集是一樣的。

清華大學-科技知識圖譜 熱門

北京大學中文百科知識圖譜-PKU-PIE 知識庫 熱門

分別點擊三個瀏覽

嘗試右擊,沒有反應

中文百科知識圖譜-zhOnto-提供Dump 熱門

基於CNSchema的城市知識圖譜(交通數據) 熱門

數據是按月份歸檔的,瀏覽第一個:

嘗試下載或另存為這個文件,發現是禁止的:

空氣質量語義描述

除了本體描述都是JSON-LD

第二頁

http://www.openkg.cn/dataset?_res_format_limit=10&page=2

OpenStreetMap和Wikidata的實體鏈接數據集(部分國外區域)

瀏覽數據集:

發現 subject一直是主語,沒有作為object,往下繼續瀏覽這個文件也是。 下面檢查一個ttl中的subject是否會是另一個文件的object:

包含的主語有 <http://openstreetmap.org/node/41231232> , 賓語均為屬性。

包含的主語有: 包含的主語有 <http://openstreetmap.org/node/41231232>, 實體賓語有 <http://www.wikidata.org/wiki/Q355827>

沒有實體賓語。

至此所有ttl文件,檢查完畢,只有sameas 關係連接了兩個實體,但是只有一跳。

百科人物概念與實例 熱門

三個文件加起來不到100M。

KG-Buddhism

只有API,沒有下載,且triple總數為 324,911,非常小。

音樂知識圖譜 熱門

網頁數據無法下載或複製,且數據加載很快,估計不超過10M。

日本餐廳數據 熱門

天氣語義數據 熱門

瀏覽第一個,下載下來是owl,且瞬間就下載下來了。

XLORE雙語百科知識圖譜 熱門

影視雙語知識圖譜 熱門

只有樣例數據,嘗試進入門戶(查詢系統),看是否開放源數據:

結果無法訪問。

中醫醫案知識圖譜 熱門

該網站不提供下載。

第三頁

http://www.openkg.cn/dataset?_res_format_limit=10&page=3

YAGO多語言知識庫(包含中文) 熱門

最後鏈接到yago官網,yago源數據集都是壓扁的,且非常大。

Microsoft Concept Graph

對數據進行下載:

大小為300M

謂語都是數字

城市內澇語義數據 熱門

BabelNet-多語言百科字典和語義網絡 熱門

搜索網站,沒有下載。

中國旅遊景點知識圖譜 熱門

人物類RDF知識 熱門

文件瞬間打開,且subject不出現在object中。

疾病術語集 熱門

Linked Open Schema

MulType

賓語全部都是屬性

觀測指標標識符邏輯命名與編碼系統

乳腺癌臨床試驗語義標註

第四頁

http://www.openkg.cn/dataset?_res_format_limit=10&page=4

Music 熱門

11.4M

新三板企業數據

點擊進去後是API文檔:

突發事件知識圖譜 熱門

300kb不到

Clinga 熱門

詳細閱讀文件後,找不到多跳關係。

Zhishi.lemon

跟之前的zhime差不多

herbnet

門戶無法打開:

第五頁