上萬條數據撕開微博熱搜的真相!

  • 2019 年 10 月 8 日
  • 筆記

作者:徐麟,某互聯網公司數據分析獅,個人公眾號數據森麟(id:shujusenlin)

吃瓜前言

關於新浪微博,向來都是各路吃瓜群眾聚集之地,大家在微博中可以盡情吃瓜,各種類型的瓜應有盡有,只有你想不到的,沒有你吃不到的。微博熱搜榜更是各路明星的「必爭之地」,能夠上熱搜也是代表了其知名度,「包月熱搜套餐」,「買熱搜」是否存在迄今也是一個未解之謎

除了吃瓜群眾,新浪微博也聚集著一群被整個互聯網圈所同情的一群苦逼程式設計師,每當有明星放出新聞,特別是結婚、離婚、分手、戀愛這類婚戀題材,新浪微博程式設計師都會嚴陣以待,此時的伺服器會因為吃瓜群眾的大量湧入而變得脆弱起來,隨時有崩潰的風險,下圖就是一張此前廣為流傳的程式設計師在自己婚禮處理伺服器崩潰的經典圖片:

我們此次通過爬取2019年2W+條熱搜數據,包括內容以及搜索指數,為大家揭開微博熱搜2019的諸多秘密,一起利用數據「硬核吃瓜」,包括:2019微博熱搜最大的瓜,微博程式設計師集體加班的日子,微博熱搜的常客,熱搜里的2019互聯網……

瓜源獲取

我們此次並沒有直接去爬取微博的原始數據,而是從一個專門記錄微博熱搜歷史數據的網站獲取,網站介面如下:

通過網站的數據介面,我們獲取到了今天1月1日至今的2W多條數據,爬取程式碼如下:

resou = pd.DataFrame(columns=['date','title','searchCount','rank'])  resou_date = getBetweenDay('2019/01/01','2019/07/12')  for i in resou_date:       print(i)       url= 'https://www.enlightent.cn/research/top/getWeiboHotSearchDayAggs.do?date={}'.format(str(i))       html = requests.get(url=url, cookies=cookie, headers=header).content       data = json.loads(html.decode('utf-8'))       for j in range(100):           resou = resou.append({'date':i,'title':data[j]['keyword'],          'searchCount':data[j]['searchCount'],'rank':j+1},ignore_index=True)

最終獲取到的吃瓜數據如下:

硬核吃瓜

有了前面的瓜源獲取過程,我們獲取到了2W+吃瓜數據,下面就可以開始利用這些數據愉快地開始我們的吃瓜之旅

第一瓜:2019微博熱搜最火事件

說到吃瓜,大家首先關注的一定是那些最大的瓜,要吃就吃最大的瓜也是廣大吃瓜群眾所遵從的基本原則,我們通過對比熱搜數據的搜索指數,選取出了15個最大的瓜,數據如下:

看來最大的瓜都是婚戀題材,排名前四的瓜涵蓋了結婚、離婚、分手這些廣大吃瓜群眾所最為關心的內容,並且有了明星加成,結出這些巨型瓜也就不足為奇,大家可以看到排名第14的熱搜「今天到底是什麼日子」可能會好奇,為何這種標題也會有那麼高的搜索量,想要知道這個問題的答案,就請繼續去品嘗下面的瓜

第二瓜:2019最讓微博程式設計師抓狂的日子

剛才的瓜中,我們留下了一個懸念,為何「今天到底是什麼日子」這種看似沒有任何營養的內容,都會有那麼高的搜索指數。為了回答這個問題,我們統計了2019年每天的TOP100熱搜話題平均指數,並繪製了日曆熱度圖:

可以看到6月27日的指數遠高於其他天數,而且基本上是其他時間的兩到三倍,這一天就是「今天到底是什麼日子」這個話題的誕生之日,並且這一天微博伺服器毫無疑問地「應聲倒地」,我想這一定是讓微博程式設計師懷疑人生的日子

下面我們就來具體看看,這一天到底發生了些什麼:

看到這份榜單,我們彷彿看到了程式設計師們6月27日的絕望。宋慧喬&宋仲基離婚這個巨型瓜的出現,程式設計師們還可以用自己的信念支撐著伺服器不要崩潰,然而正當程式設計師們以為穩操勝券的時候,范冰冰&李晨分手這個更加巨大的瓜出現了,我想程式設計師們內心一定是這樣的:

因為有了這兩個巨型瓜的存在,使得「張若昀&唐藝昕」,「馬思純當司儀」,「杜江否認出軌」這種平時能夠輕鬆hold住的瓜也產生了威力加成,進一步壓垮程式設計師,就連平時低調的B站也請來了五月天,真可謂是「瓜團錦簇」的一天。我想「今天到底是什麼日子」這條熱搜的創造者很有可能就是新浪微博的程式設計師

第三瓜:2019最勤勞的瓜生產商

前面提到了6月27日是微博程式設計師最為抓狂的日子,那麼又有那些生產商為廣大吃瓜群眾源源不斷地創造吃瓜素材呢,我們也統計了相關數據,想必這些生產商也是廣大程式設計師們最怕的人:

榜單中易烊千璽以80次的出現次數榮登榜首,也就是說平均每兩天他就會為廣大群眾生產一次「吃瓜素材」,也是非常地勤勞,想到作者一個月一篇原創的節奏,默默留下了悔恨的淚水。周董也在榜單中以78次的數據位居次席,畢竟周董是一代人的青春記憶,大家也都在時刻關注著周董。

或許大家會認為榜單都被娛樂圈所霸佔,沒啥新意之時,東哥站了出來,成為榮登本榜單的唯一互聯網人士,不過個人還是希望今後不要在榜單中再看到東哥的身影,畢竟老話說得好「no news is good news」。

第四瓜:那些專屬熱搜的詞語

如同「****,是怎樣的體驗」這樣的知乎體,「震驚!***」這樣的uc體,熱搜也有一些比較常出現,能代表熱搜獨特氣質的詞語,我們從中選取了一些比較有代表的詞語並統計其出現次數

華為在榜單中出現了86次,也印證了大家在上半年對於華為的關注度,未來也希望有更多類似於「華為**系統上線」這樣振奮人心的消息出現在熱搜中。

同時在小編看來否認,道歉,心疼這三個詞是非常有特色的熱搜詞語,畢竟很難在其他的地方會時不時就看「心疼**」這種標題,我們針對於這三個詞語製作了相應的詞云:

否認版

208次否認相關話題出現在了熱搜榜單,足以說明在這個資訊爆炸的時代有太多的事情難以去分辨真假,其中一些內容確實是虛造的,當事人也及時站出來進行否認。不過對於其他的一些事情,想必是「真亦假來假亦真」,需要大家自己去判斷

道歉版

強烈建議廣大讀者收藏上圖,特別是在被老闆罵或者因為生產BUG而被同事懟的時候拿出來看一下,調節一下自己的心情。想到連菲利普親王都要道歉,及時認個慫好像也沒啥,畢竟你的工資卡里也沒剩幾個錢

心疼版

最後這個可以說是極具微博特色了,廣大吃瓜群眾可謂憂國憂民,心疼的對象從韓庚到吳謹言,張雨綺,就連梅西都心疼名單中,這體現出了吃瓜群眾樂於助人的正確價值觀

不過小編表示還是要先心疼一下自己,上面那些被心疼的人收入都是小編的上百倍甚至更多,還是先心疼一下自己的花唄比較現實

除此之外,微博熱搜也十分熱衷於關心明星是不是哭了以及是不是胖了這種話題,可謂「先天下之憂而憂,後天下之樂而樂」,滿滿的責任感

第五瓜:明星婚戀話題到底有多火

此前提到,排名靠前的內容大多都是明星婚戀題材的內容,比如**和**離婚,**和**結婚又離婚,或者**和**結婚又離婚又復婚……,我們就來看一下這些話題出現的次數

不出所料,廣大吃瓜群眾對於這類題材都有著非常高的好奇心,為別人的婚戀情況操碎了心,可以說是很努力了,想必未來的**婚戀上市公司的老總一定會在吃瓜群眾中誕生,我們也來具體看看那些相關的話題。

結婚 VS 離婚

戀情VS分手

最後我們以一句話來結束這部分的吃瓜內容:「貴圈真亂」

第六瓜:2019熱搜中的互聯網專屬瓜

前面說的那些大多都是娛樂圈的內容,作為互聯網從業(banzhuan)人員,對於互聯網的專屬瓜品也有著強烈興趣,我們從中選取了互聯網圈為2019熱搜所生產的瓜品:

出人意料的是TOP2居然都和B站有關,經過查證,這兩條都發生在最讓微博程式設計師抓狂,瓜團錦簇的6月27日(比較奇怪的是B站十周年應該是6月26日,但上榜時間確是27日),平時八成熟的瓜立刻熟透。相信互聯網人看到這份榜單,也會回憶起很多上半年發生的事情,2019上半年的互聯網也是熱鬧非凡。

吃瓜結語

今天的吃瓜之旅就到這裡結束了,看來吃瓜也是門學問,微博熱搜數據也是一個大的分析寶庫,裡面還有很多可以繼續分析的點,等待大家去挖掘

公眾號後台回復「熱搜」可以獲取本文相關程式碼