「黃暴」影片看出心理陰影,內容審核師能被AI拯救嗎?
- 2020 年 2 月 12 日
- 筆記

大數據文摘出品
作者:劉俊寰
影片時代正在到來。
本周發布的《2019抖音數據報告》指出,抖音日活躍用戶數已突破4億;而在全球範圍內,根據YouTube在2019年公布的數據,其日活躍用戶數已經突破了19億。
大量影片內容湧現的同時,暴力、色情內容也隨之進入互聯網,成為用戶影片瀏覽中的「定時炸彈」。

在這個AI賦能一切的時代,人工智慧似乎正在影片內容的審核中大展拳腳。
2018年,Facebook推出DeepText,利用深層神經網路架構理解內容;而YouTube早就推出了Content ID,監測並刪除涉及色情和暴力等違規影片,多年來在該技術上花費了超過1億美元。甚至不少媒體都預言,AI將憑藉著其對海量數據的組織能力,不久後會取代人工審核。

但事實真的如此嗎?
近日,知名海外科技媒體TheVerge到訪Google位於美國奧斯汀的人工內容審核師團隊,報道了團隊成員因為大量審核暴力內容遭受的可怕精神創傷。
Youtube的影片審核決不是一項簡單的工作。
目前,全球共有約5000萬YouTube獨立創作者,每分鐘上傳的影片時長高達500小時,這給影片審核師們帶來了極大的工作壓力。
Google位於奧斯丁的審核師總數目前超過百人,他們主要負責審核具有暴力色情等極端影片,同時,審核團隊還配備有數十名來自中東的低薪移民進行工作上的協助。
為了保證效率,奧斯汀的內容審核團隊每人每天必須觀看5小時以上的暴力色情影片,審核人員時薪為18.50美元,年薪約37,000美元,但近兩年沒有加薪。YouTube首席執行官蘇珊·沃西基(Susan Wojcicki)向媒體透露,Google去年曾承諾將內容審核師每人每天的工作量減少到4個小時,但至今仍未被執行。
由於長時間暴露在極端影片之下,Google團隊的審核師們被曝遭受著嚴重的心理創傷。儘管Google為審核師們提供了一流的醫療服務和福利,但是不少審核師還是會被檢測出罹患PTSD、長期焦慮等精神問題。
註:PTSD,全稱為創傷後應激障礙,是指個體經歷、目睹或遭遇到一個或多個涉及自身或他人的實際死亡,或受到死亡的威脅,或嚴重的受傷,或軀體完整性受到威脅後,所導致的個體延遲出現和持續存在的精神障礙。
影片審核師每天都在看什麼?
在文摘菌的印象中,審核師的工作就是看看用戶上傳到網站的影片,大概就像是…每天刷刷抖音就能輕鬆掙錢一樣,可以說是夢寐以求的工作了。

但不管是YouTube還是中國,影片審核都沒有文摘菌想像的這麼美好。
在知乎上,相關話題的瀏覽量已經達到了167951次,其中網友@white舉例說道,「ISIS殺戮人質的影片讓我狼狽不堪,非洲人民兇殘的一面讓我感到害怕,美國黑人區發生的讓我感到惶恐,美國天黑時散發出恐怖的色彩!可能人類的本質就是殺戮,被割喉的人瘋狂的掙扎,暗紅色的血液緩緩慢流動出來,日本自殺深林中令人作嘔的屍體……」
知乎話題鏈接:
https://www.zhihu.com/question/24738486

同樣,作為YouTube的內容審核師,他們的工作並沒有輕鬆到哪去。
YouTube的內容審核師Peter告訴TheVerge,他每天負責的就是極端暴力(violent extremism)的影片審核,這可以說是整個審核工作中最致郁的一個板塊,正如上文提到Google為審核團隊制定了嚴格的工作計劃,他必須看足夠量的暴力色情影片。
「每天你都會看到有人砍人,或者射殺親友,」Peter說,「你會覺得,這個世界很瘋狂,這會讓你感到不舒服,甚至不想繼續活下去。我們到底為什麼要這樣對待彼此呢?」
在過去一年裡,Peter和同事們的生活都受到了極大的影響。一位同事患上了神經衰弱,還有一位同事因工作中的焦慮和抑鬱而痛苦不堪,飲食和作息逐漸紊亂,最後患上了急性維生素缺乏症,不得不住院接受治療。

不止是Peter和同事們,另一位影片審核師Daisy曾負責Google影片中的恐怖主義和兒童虐待內容的審核,從事這項工作後,她曾一度難以和孩子交流互動。在接受精神科專家診斷後,她被確診患有PTSD,至今仍在接受治療。
根據報道,審核師在申請工作的時候通常並不了解極端影片會對身心造成怎樣的傷害,而就YouTube的審核師所透露的內容來看,Google嚮應聘者所說明的審核數量和工作要求往往是過低的。
雖然Google為全職審核師制定了相關的醫療保健標準,他們可以休假數月,以解決嚴重影響工作與生活的心理問題,但這只是Google內部被報道的情況,全球範圍內還有更多未被報道的內容審核師遭受了心理創傷後被公司無情忽視。
AI能拯救影片審核師嗎?
AI參與影片審核並非近幾年才有,最早2000年左右,就有公司在做這方面的嘗試。但那時,影片審核需要人為設定特徵和規則,比如黃顏色皮膚面積分布情況。一直到深度學習得到發展後,影片審核才終於變得「靈活」了。
但是,在影片審核上,目前業內普遍採用的仍然是「人機結合」的方式,並且人工在其中佔據著重要比例。
YouTube的演算法工程師向文摘菌透露,目前YouTube上大部分影片仍需要經過人工審核,被審核影片一部分是AI檢測出來,一部分是用戶舉報的,但最終都需要專業的審核師把關決定是否違規。
根據愛奇藝演算法工程師Leo的介紹,目前業內有以下兩種比較常見的「人機配合」審核方式:
- 一種AI將相對確定的影片進行分類,然後對部分用戶做出推薦,觀察用戶反應,其中高熱影片會人工率先審核;
- 另一種是AI將影片標記為「good」或「bad」,當審核師遇到標註有「bad」影片時再細緻地審核,這也提高了審核效率。
愛奇藝目前採取的是第二種模式。影片會先經過機審預判,然後再進行人工一審和複審,其中機審結果主要作為參考輔助人工,另外還有影片清查機制。

針對AI取代人工審核的說法,Leo認為還為時過早,雖然AI在客觀影片的審核上做得足夠好,但一旦涉及與語境語義相關的主觀內容,就捉襟見肘了。
AI審核存在兩個技術難點,一個是演算法準確率問題。在業內有句話,「脫離數據集來談準確率都是耍流氓」,這就是說,用數據集訓練出來的AI模型並不都能匹配實際行為,還存在用戶行為偏差等諸多影響因素,即使AI審核的準確率達到了99%,考慮到用戶上傳的影片量,剩下1%的累計量也是驚人的。
而一旦出現疏漏,影片網站將承受巨大的風險。
另一個難關就是對內容的主觀判斷。簡單來說,不是所有露骨的內容都是色情,也不是所有色情影片都有裸露,再加上影片內容中涉及到的文字、語音等多方面情景混雜,對人來說較容易判斷,但對機器而言需要多個演算法疊加。
Leo告訴我們,比如在處理音頻內容時,一方面需要利用ASR轉化成文本,另一方面需要對聲音分類,這就包括一些無意義的音頻,比如嬌喘聲。如果畫面中還出現了文字,需要藉助OCR把文字從影片中摳出來,但最終都要利用NLP,也就是文本理解。
因此,人工審核在整個審核領域仍然是至關重要的一環。愛奇藝配置的專業審核團隊主要負責甄別用戶上傳影片的內容,將不符合國家法律法規、平台標準的內容篩除。
定義敏感內容?AI:臣妾做不到啊
對AI審核而言,除去上述的準確率和內容主觀判定對AI而言仍然無解之外,對敏感內容的界定本身尚未清晰也是一個不可忽視的重要原因。
在中國,違規內容一般統一由廣電總局統一規範,影片網站在規則界定上顯得被動,他們需要根據廣電總局指定的標準進行嚴格的自審,甚至有些公司會成立專門的法務諮詢崗位,專門研究廣電總局的政策。
而在全球範圍內,更多的影片網站承擔著自行定義敏感內容的職責。但也正因為有更大的主動性,他們就承擔更大的責任。想要全球範圍內統一的審核標準無疑是一項非常棘手的工作,如果沒有考慮到當地文化因素,嚴重情況下影片網站會陷入與政府和民眾的苦戰中。

比如,2018年7月,印尼政府禁止了流行的短音樂影片製作應用TikTok,也就是抖音國際版。不久前,美國軍隊出於安全考慮,也明確規定了禁用TikTok。
根據印尼媒體的報道,印尼政府禁止TikTok是因為該應用程式包含了太多負面影片,印亞公眾情緒也普遍反對青少年使用TikTok,因為有些影片會對青少年造成不良影響。其中一個影片是這樣的:開始是一段舞蹈,隨後鏡頭猛然切到一具屍體,有關部門調查後發現這具屍體是拍攝者的親戚。
除了上述涉及死亡的影片,世界範圍內對以下內容的影片都格外謹慎:
- 煽動暴力的宗教仇恨言論
- 假新聞和為政治目的而傳播
- 針對個人/組織的誹謗性語言
除了涉及到「影片暴力」的內容外,對「影片色情」的界定同樣具有高度的主觀性和任意性。之前Instagram曾因允許「男性裸露乳頭」但禁止「女性裸露乳頭」,引起不少女性在該軟體上進行抗議。

和Instagram相比,某些社交網站的規則顯得「寬鬆」了許多,他們允許在某些特殊情況下的裸體行為。
以不久前更新了內容規則的Tumblr為例,從中可以看到一些有趣的說明:「被禁止的內容包括人類生殖器的照片和影片、女性展示乳頭,以及任何涉及性行為的媒介,包括插圖。例外情況包括裸體古典雕像和以裸體為特徵的政治抗議行為。新的指導方針排除了文本,色情仍然是允許的。只要性行為沒有被明顯描繪 出來,以裸體為特徵的插圖和藝術仍然是允許的,母乳餵養和產後照片同理。」
在這裡也可以對比看一下Facebook、Reddit等在內的全球流量較大的四家社交平台關於「色情」和「裸露」的相關規則:

可以看出,基於不同的價值觀、服務的用戶群體和他們的文化敏感性,就必須為他們提供專屬的規則和例外。也就是說,由於內容具有的主觀性,想要一勞永逸地創建全球性的內容標準是非常困難是難以實現的。
在內容審核工作中,AI能幹啥?
儘管有諸多限制和不足,但仍不妨礙AI審核已是大勢所趨。
目前AI在內容審核方面除了能評估和檢測垃圾郵件、辱罵留言等極端文本內容外,在某些社交平台上,AI還能攔截違規影像,甚至可以針對以情境理解為基礎的騷擾和欺凌進行排查。
但是,在利用AI進行內容審核還要注意以下三個方面:
- 對內容的審核需要文化意識和對相關社區「標準」的語境理解。儘管AI可以執行預調節,幫助減少人工審核的工作量,但人工參與仍是不可缺少的環節。
- AI面臨著公眾不信任,特別是可能存在無意識的人類或技術偏見。此外,演算法可能對違規內容起不到檢測作用。針對此,一方面要定期分析並調整演算法,另一方面,利益相關者應保證AI的透明度。
- 由於格式多樣性和內容複雜度,用戶生成的影片內容越來越難以分析,它們需要被解釋為一個整體,以此來鑒定是否違規。為了更好地了解用戶行為,及時更新違規有害內容的定義,平台和服務提供商之間最好能夠共享數據集,這有利於利益相關者獲得更好的文化意識和語境理解。

在理想情況下,如果AI能完全做到上述幾點,就行了嗎?
讓我們再次回到內容審核上,當AI審核實現了最大程度地優化,更大幅度地提升了審核師的工作效率,審核師團隊的心理問題似乎仍然懸而未決。
在採訪過程中文摘菌也了解到,除了影片審核團隊,為了設計出更加精確可用的審核演算法,演算法工程師們日常也需要觀看大量的暴力色情影片,也因此不可避免的受到同樣的影響。技術的進步儘管無人可擋,但被媒體和大眾寄予厚望的AI,其成長也註定承載著個人犧牲。
作為技術洪流中的觀看者,我們沒有權利也沒有能力去改變審核師或者演算法工程師的工作,但至少我們可以給予這個群體更多的關注。就像Daisy所說:「我們需要更多的人參與到這項工作中,但我們更需要改變整個系統和工作結構,去支援這些人,為他們提供處理問題的工具和資源,否則問題只會變得更糟。」
相關報道:
https://www.theverge.com/2019/12/16/21021005/google-youtube-moderators-ptsd-accenture-violent-disturbing-content-interviews-video