揭秘知乎大V [Python數據分析]

  • 2019 年 11 月 22 日
  • 筆記

知乎,可以說是中國目前最大的問答類社區。與微博、貼吧等產品不同,知乎上面的內容更多是用戶針對特定的問題分享知識、經驗和見解。咱們編程教室就有不少讀者是從知乎上了解到我們的。

那麼,知乎上都有哪些「大V」用戶?普通用戶喜歡關注哪方面內容?我們利用 Python 對知乎上的部分資訊進行了個採集,做了一份簡單的統計。

這個統計也是我們用 Python 做網站數據分析系列的一部分,是 Python 爬蟲和數據可視化的典型案例。程式碼、詳細說明文檔、數據均已上傳,獲取方式見文末,對這方面感興趣的朋友可下載查閱。

另外要說明的是,這個項目的程式碼由實訓生 清風小築 完成於今年7月,所以並非最新數據,主要是思路的學習討論,結果僅供參考。

大V的關聯

首先給大家看的是知乎上粉絲數前50用戶的關係圖:

圖中的線是用戶之間的相互關注的關係。這三張圖的差別只在圓圈的大小上,依次分別代表:粉絲數連入度(被圖中其他人關注的數量)、連出度(關注圖中其他人的數量)

比較明顯的是,像知乎日報、劉看山、丁香醫生這類普通用戶關注較多的「機構號」,在大V中的受關注度並不高。

這張圖是通過一個叫做 Gephi 的軟體,基於 Python 採集下來的數據做出來的。其中圈的顏色是 Gephi 根據關聯關係自動聚合的結果。(參考之前漫威角色關係分析文章)

在知乎這個案例中,「陣營」的劃分並不像漫威那麼明顯,但可以發現機構號基本都被歸在了一類,說明關注行為有一定的相似性(張佳瑋躺槍)。

誰是大V

知乎的四大指標:關注、贊同、感謝、收藏。我們分別看下以不同指標排行的「頭部用戶」:

(點擊可查看大圖。截圖僅取前20,完整見交互版本)

其中,張佳瑋可以說是非常突出了。(這個名字好熟悉……還記得之前的虎撲分析嗎?)

官方收錄回答數,張佳瑋還是遙遙領先,收錄文章數也榜上有名。

如果不論品質,僅看數量的話:

知乎於2010年12月20日上線,到今年7月31日共3145天,輪子哥vzch平均每天要回答7個問題以上(懷疑給他發工資的是微軟還是知乎……),而太平洋電腦網則平均每天發表12.8篇文章,真是有夠努力!

把這幾組數據合成了兩張三維散點圖:

圖中選取的數據為關注數大於1萬的用戶。在項目里有可以交互的網頁版本,可以更直觀的查看這個分布圖。

大V的熱情在消退?

上面幾張圖是對目前關注數超10萬的用戶的歷史發布數據進行的統計。從圖上來看,2015年大V們更熱衷於回答,後來則大都改去寫專欄文章了。從趨勢來看,似乎大V們發文的頻率已不再增長。不過這並不能直接推斷知乎的整體熱度,也可能內容的產出更分散於不同用戶了呢?這就只有知乎官方才有權威數據了。

用戶愛看什麼?

這些關注度最高專欄和收藏夾,裡面有你關注的嗎?

最後,這是一個以關注數超1萬的用戶的個人簡介做出來的詞云:

不過有點尷尬,似乎大家更喜歡在簡介里發自己的公眾號、微信和微博呢。

以上就是我們對於知乎公開數據做的一些分析。