數據解讀—B站火過蔡徐坤的「鬼畜「區巨頭們

  • 2019 年 10 月 6 日
  • 筆記

前言

前幾日,蔡徐坤一紙律師函發往B站,律師函內容顯示,「B站上存在著大量侵害委託人的內容,且點擊率高,傳播範圍廣,影響十分惡劣。這些內容的製作、上傳、散布、轉載都已侵害了委託人的名譽權、肖像權、表演權等權利。要求對方立即刪除侵權內容,確保不再出現任何侵犯內容。」

然而B站也毫不示弱,在其官微正面回復蔡徐坤,並給蔡徐坤「友情推薦「了名譽權的相關文章,可謂有理有據

我們今天在這裡不去評判究竟孰是孰非,更多的是要用數據帶大家一起走進B站鬼畜影片的神秘世界,看看那些活躍在B站的「鬼畜「屆巨頭們

初識「鬼畜」

何為「鬼畜「?我們截取了百度百科上對於鬼畜影片的定義,讓大家能夠對鬼畜影片有個初步的認知:

我們此次的數據來源就是B站的鬼畜影片專區的資訊,可以看到影片資訊是以列表形式進行給出:

通過審查元素,我們找到了對應的介面,並進行列表資訊的爬取,獲得了從2018年發布至今的30000多條鬼畜影片的資訊,包括了彈幕數,發布時間,作者,標籤等:

部分程式碼如下:

def get_list(j,start,end):      attempts = 0      success = False      while attempts < 500 and not success:          try:              url = 'https://s.search.bilibili.com/cate/search?callback=jqueryCallback_bili_06768280565043483&search_type=video&view_type=hot_rank&order=click&cate_id=22&page={}&pagesize=20&time_from={}&time_to={}'.format(str(j),str(start),str(end))              header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win32; x32; rv:54.0) Gecko/20100101 Firefox/54.0',              'Connection': 'keep-alive'}              cookies ='v=3; iuuid=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; webp=true; ci=1%2C%E5%8C%97%E4%BA%AC; __guid=26581345.3954606544145667000.1530879049181.8303; _lxsdk_cuid=1646f808301c8-0a4e19f5421593-5d4e211f-100200-1646f808302c8; _lxsdk=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; monitor_count=1; _lxsdk_s=16472ee89ec-de2-f91-ed0%7C%7C5; __mta=189118996.1530879050545.1530936763555.1530937843742.18'              cookie = {}              for line in cookies.split(';'):                   name, value = cookies.strip().split('=', 1)                   cookie[name] = value              html = requests.get(url,cookies=cookie, headers=header).content              info = json.loads(html.decode('utf-8'))['result']              return info          except:              attempts = attempts+1      return []    period = pd.read_excel('起止日期.xlsx')  guichu_all = []  for i in range(period.shape[0]):  for j in range(100):  this_guichu = get_list(j,period['start'][i],period['end'][i])  guichu_all = guichu_all+this_guichu  print('{} {}'.format(str(i),str(j)))

最後得到的數據如下:

萬物皆可鬼畜

綜述

在鬼畜界中,有一句被大家所熟知的話:萬物皆可鬼畜。它的意思是,沒有什麼是不能成為鬼畜素材的。鬼畜的題材之廣泛,往往會超出大家的想像,從動漫到電視劇,網遊,甚至連《貓和老鼠》《小豬佩奇》這種動畫片都常常出現在了鬼畜豪華套餐之中。

首先我們來看一下鬼畜影片的「用戶畫像」,提到對鬼畜影片的理解和認知,阿婆主們說第二,沒有人敢說第一,那麼我們就看看阿婆主眼中的鬼畜影片:

阿婆主們為了讓自己的影片能夠得到更多關注,都會給自己的影片打上非常全面、精準的標籤,其中包括了對影片的描述以及素材的資訊,我們將這部分資訊進行提取,為鬼畜影片刻畫其「用戶畫像」,通過詞雲進行展現:

除了鬼畜調教本書,有許多其他的非常有意思的描述,比如洗腦循環、惡搞、蜜汁帶感、有毒、魔性、新人都是怪物,這基本上是對鬼畜影片非常精確的描述了。這些描述也很好的解釋了鬼畜影片能夠「病毒式「」的傳播的原因了

下面就進入「萬物皆可鬼畜」的正題,主要分為兩個部分:人物和素材,人物主要是指的現實生活中的人物,包括了傳統意義上的明星和鬼畜全明星兩部門,素材就指的是那些可以用來進行鬼畜創作的原始內容,包括了歌曲,電視劇,電影等等

人物篇

首先看一下人物篇,我們先來看下2018,2019兩年影片彈幕量最多的人物:

可以看到麵筋哥在18,19年的榜單上都排名第一,麵筋哥以其渾厚的嗓音,洒脫的風格,不羈的穿搭走入了b站,成為了鬼畜區的王者,未來期待麵筋哥更多的作品。同時看到2019年蔡徐坤進入了榜單,吳亦凡的排名也得到了明顯的提高,依然引起了越來越多的阿婆主的關注。

我們用詞雲圖將這些鬼畜屆的巨頭們放在一起,看看是否有你熟悉的:

涉及到的領域相當廣泛,不僅有麵筋哥這些常年活躍於鬼畜屆的巨頭,也有吳亦凡、蔡徐坤這樣的明星,就連朱廣權這種央視的主播都出現在了榜單,互聯網界的四位巨頭也在榜單之中,未來也期待更多的互聯網巨頭們精彩的作品。看完了人物,我們看下鬼畜素材的情況:

素材篇

可以看到18年和19年素材產生了比較大的變化,但是改革春風吹滿地和貓和老鼠已成為了鬼畜區的鎮區質保,在排名中名列前茅,這份榜單也很好的詮釋了「萬物皆可鬼畜」這一真理。小品、動漫、影視人物、熱門歌曲,只有你想不到的,沒有鬼畜區做不到的。。。

同樣也把這些常見素材通過詞雲圖放在一起,進一步看一下鬼畜區阿婆主們令人驚嘆的腦洞:

部分程式碼如下:

tag_stat = Counter(guichu_tag['tag'])  back_color = imread('D:/爬蟲/鬼畜/bilibili.jpg')  # 解析該圖片    wc = WordCloud(background_color='white',  # 背景顏色  max_words=100,  # 最大詞數  mask=back_color,  # 以該參數值作圖繪製詞雲,這個參數不為空時,width和height會被忽略  max_font_size=200,  # 顯示字體的最大值  font_path="C:/Windows/Fonts/STFANGSO.ttf",  # 解決顯示口字型亂碼問題,可進入C:/Windows/Fonts/目錄更換字體  random_state=42,  # 為每個詞返回一個PIL顏色  # width=1000, # 圖片的寬  # height=860 #圖片的長  )  # WordCloud各含義參數請點擊 wordcloud參數  image_colors = ImageColorGenerator(back_color)  wc.generate_from_frequencies(tag_stat)    plt.figure(figsize=(8,8),dpi=80)  plt.imshow(wc.recolor(color_func=image_colors))  plt.axis('off')    ## 繪製圖片  renwu_stat_year_18 = tag_count_year[(tag_count_year['year']=='2018') & (tag_count_year['type']=='人物')]  renwu_stat_year_18.sort_values('danmu',ascending=False,inplace=True)  attr = renwu_stat_year_18['tag'][0:10]  v1 = renwu_stat_year_18['danmu'][0:10]  bar = Bar("2018人物彈幕數量TOP10")  bar.add("彈幕數量", attr, v1, is_stack=True, xaxis_rotate=30,xaxis_label_textsize=18,  xaxis_interval =0,is_splitline_show=False,label_text_size=12,is_label_show=True)  bar.render('2018人物彈幕數量TOP10.html')

火鉗留名

「火鉗留名「是鬼畜區影片彈幕常見用語,表示對某一影片未來的看好,我們也來看看那些在鬼畜區最火的影片:

最後我們放個彩蛋,那就是為大家精選的集合了鬼畜區全明星(波瀾哥,麵筋哥,兩位馬爸爸等人)的《火力種田王2》,看過之後,想必大家都會神清氣爽(sanguanjinhui):