新冠疫情消息紛雜,AI明辨是非真假| 翻譯徵文 | 雷鋒字幕組
本文為雷鋒字幕組「觸摸世界前沿科技 | 翻譯徵文 」活動收錄稿件
COVID-19 大流行是一場異常複雜、變幻莫測的全球性公共衛生危機。Facebook 致力於阻止虛假、誤導性資訊在我們的平台上傳播。有關疫情的假消息可能會像頭條新聞一樣飛快地傳播擴散,而且很難將它們與合法的新聞報道區分開來。同一條假消息,可能同時有幾種稍微不同的版本,比如其中的影像,或者被裁掉了一小部分,或者經過了濾鏡的增強。這些改變既可能是無意而為之,也可能是某些人故意通過這種做法來避免被發現。此外另一個非常重要的任務是,避免將合法內容誤判為假消息,否則可能導致人們無法在我們的平台上表達自己的觀點。
人工智慧是解決上述挑戰、阻止假消息傳播的一大利器;如果沒有它,我們只能靠審核員來逐條核查內容的真假,而有了它,我們能夠大規模擴展這種核查工作。我們與全世界超過 60 家事實審核機構建立了合作,它們對五十多種語言的內容進行審核。疫情爆發以後,我們利用已有的和新建的人工智慧系統,獲取與 COVID-19 相關、且被審核標記為「虛假」的消息;當有人試圖分享這些假消息時,我們的系統就能夠檢測出來。
除了檢測假消息,我們的人工智慧系統也在幫助我們應對疫情之下的其它一些挑戰。我們新建了基於電腦視覺的分類器,以幫助執行關於醫用口罩和其他產品的廣告和商業清單的臨時禁令。因為人們有時候會通過修改關於這些產品的廣告來逃避系統檢測,所以我們也使用基於局部特徵的實例匹配方法,來找到在社交媒體上大規模發布的此類消息。在大多數情況下,我們能做到先發制人——在其他人標記出這類資訊並且發給我們之前,我們就已經將它們檢測出來了。
在四月份,根據與我們有合作的事實審核機構發送的大約 7,500 篇文章,我們給 Facebook 上與 COVID-19 相關的大約 5000 萬條內容打上了「警告」的。自 3 月 1 日以來,我們移除了 250 多萬條在平台上售賣口罩、洗手液、消毒紙巾和病毒測試包的內容。儘管小有成就,依舊困難重重,我們的工具遠遠未臻至善。此外,這些挑戰的對抗性也註定了我們鬥爭的長期性。在這篇博文中,我們主要談談我們在電腦視覺方面的一些工作,但解決這些問題需要多種人工智慧技術共同發力,例如多模態內容理解。雖然任重而道遠,但我們有信心在現有工作的基礎上,進一步改善我們的系統,使人們免受與疫情相關的有害消息的侵擾。
用人工智慧拓展審核,阻止假消息傳播
任何人都能輕易看出,這些影像極度相似。乍看之下,我們甚至難以分辨其中的差異。然而,電腦視覺系統卻難以準確檢測到這類相似匹配,因為雖然它們的實質內容相同,但是對應位置的像素卻不同。至關重要的是,這類相似性檢測系統必須儘可能精準,因為一個誤判就可能導致對實際上並沒有違反政策的內容的誤動作。下面的例子展示了另一個非常相似的版本,但這個版本就不應該被判定為假消息。
當一條內容被我們的獨立事實審核夥伴判定為「假」時,我們就會減少它的傳播,並在更多文本上顯示「警告」標記。(更多細節參加此處。)正如前文所述,這些「警告」標記是對抗假消息的一大利器。當人們被警告說,在某條內容里包含假消息時,他們就會有 95% 的概率不去看那條內容。
SimSearchNet 是一個專為檢測極相似副本而構建的、基於卷積神經網路的模型,它如今正幫助我們以更有效的方式工作。一旦審核機構判定某張圖片包含關於冠狀病毒的誤導性或不實消息,SimSearchNet 作為我們的端到端圖片索引和匹配系統的一部分,就能識別出與該圖片極其相似的一些圖片,這樣我們就能在這些圖片上也顯示「警告」標記。
這一點尤為關鍵,因為每一條被審核員判定為「假」的內容,都可能有成千上萬的副本。用人工智慧來檢測出這些相似的副本,也讓我們的審核夥伴能全神貫注於捕捉新的假消息,而不必反覆標註舊的假消息的各種相似版本。
SimSearchNet 是 Facebook 人工智慧研究員、工程師和其他員工多年來共同努力的成果。它誕生的基礎是 Facebook 多年的電腦視覺研究——具體地說,是構建能幫助我們對大規模照片進行索引和快速查找的稠密表示的研究。
它也使用了一個類似於檢測其他有害內容時用到的大規模匹配架構。對每張被上傳到 Instagram 和 Facebook 的圖片,系統都會運行一次,對其進行檢查,與特定任務下的人工數據集進行比對。這樣一來,每天可以檢測數十億張圖片,每張都與 COVID-19 假消息資料庫進行了比對。
阻止有關 COVID-19 的產品銷售,即使人們故意逃避審核
自疫情危機爆發以來,我們就在努力保護人們免受黑心商家的欺騙。為了更好地檢測並移除有關醫用口罩、洗手液、消毒紙巾、 COVID-19 測試包等產品的廣告,我們使用了一個系統,根據影像級別的局部特徵來檢測被竄改過的廣告。這讓我們能夠主動出擊,阻止企圖繞過智慧檢測系統來躲避監管的廣告發布者。
我們提取與 COVID-19 相關且違反政策的廣告,建立並維護一個對象級別的資料庫然後應用實例匹配方法,對新發布廣告中的影像進行檢查。這種基於局部特徵的匹配方法,讓我們能更好地檢測出由拼接產生的廣告,從而更能抵禦以躲避監管為目標的常用竄改策略,如裁剪、旋轉、遮擋和加噪。這個基於實例匹配結果的系統,目前已經可以自動移除廣告。
我們也在其他下游的廣告集成系統中,使用實例匹配進行了數據增強,以輔助執行與 COVID-19 相關的政策。例如,我們把從廣告中檢測出的口罩影像進行裁剪,然後應用實例匹配方法,來檢測其他各種醫用口罩的影像。有了這個增強數據集,就可以重新訓練我們的廣告分類器,讓它對竄改過的影像有更好的鑒別能力。相比於單純使用匹配方法,通過利用廣告分類器檢測到的樣例(進行數據增強),我們能移除的違法口罩廣告數量增加了 10 倍以上。
快速訓練銷售場景下的視覺模型
當人們通過市場售賣商品時,他們用的圖片在背景、角度、細節和整體品質上往往各不相同。相比於專業攝影師在樸素背景下拍攝並分類的照片,這種參差不齊的照片導致視覺模型更難從中識別出核心商品。
近年來,我們使用了多個特定領域下的改善措施,在富有挑戰性的真實場景中,構建出數百個表現優秀的分類和目標檢測模型。從這個過程得到的經驗教訓,促使我們在 PyTorch 基礎上開發了一個平台,在平台上能夠根據影像、影片中新的類別需求,快速地訓練和部署分類器/檢測器。這個平台融合了 Facebook AI 通過上億條帶標籤照片來訓練模型骨架的開創性工作。平台也使用數據增強技術,對模型進行引導,在數據量有限的情況下也能應對市場商品多樣性的挑戰。
在新冠病毒危機爆發以後,我們用這個平台訓練並部署了針對醫用口罩、洗手液、消毒紙巾的分類器。我們首先收集關於這些商品的公開圖片,然後對數據集進行調整和增強。為提高精度,我們也加入了數千張「負樣本」圖片——比如並非口罩、但可能導致模型誤判為口罩的一些圖片。經過訓練和離線評估以後,我們在商品推斷平台上實現了這個構想,並回過頭將它應用在市場的商品圖片上。如今,這些模型已經在銷售平台上全局運行。
我們打算繼續推進對平台的研發、對上述模型的改進,尤其是在回饋環路能夠為我們提供更多數據的情況下。在這一步得到的分類訊號,也可以被下游的多模態分類器利用,其目標是從市場的角度進行整體分析。
檢測假消息和有害內容,不止步於此
假消息和售賣違禁物品的問題,在 COVID-19 疫情之前就已存在。為應對諸如此類的挑戰,Facebook 長期投入於研究視覺推理系統和多模態理解、開發新的自監督學習技術、並構建能快速將研究成果落地並規模化生產的深度學習平台。
如我們所見,幾年前還在象牙塔里的尖端技術,如今已經能給我們的生產帶來實實在在的提升。我們相信,通過應用新的研究技術和工具,我們能為平台的用戶提供更好的保護。
原文鏈接
註:選題來自雷鋒字幕組提供的選題。
本文為雷鋒字幕組「觸摸世界前沿科技 | 翻譯徵文 」活動收錄稿件