千萬別讓AI自動生成字幕：滿屏「髒話」不忍直視 - ⎝⎛CodingNote.cc ⎞⎠

千萬別讓AI自動生成字幕：滿屏「髒話」不忍直視

2022 年 2 月 27 日
資訊
字幕

AI自動生成的字幕，能離譜到什麼程度？

不僅把「螃蟹」（crab）誤聽成「廢話」（crap），當場爆粗：

甚至還能把「玉米」（corn）給翻譯成p*rn……

關鍵在於，這些是AI給兒童節目自動生成的字幕。

被AAAI 2022收錄的一篇新研究發現，在7013個兒童視頻中，接近40%的節目出現了少兒不宜或髒話等詞彙。

甚至在一個113集的兒童機械人學習欄目中，AI就「爆粗」了103次，平均接近一集一次！

對此，油管（YouTube）在接受《連線》採訪時回應：我們為13歲以下的兒童開發了YouTube Kids，這個APP會關閉字幕生成功能。

但如果真有字幕需求的話，如何才能想辦法減少這種AI生成錯誤？

一起來看看。

亞馬遜谷歌都很「祖安」

先來看看這篇論文的調查結果。

研究人員一共從油管上選出了24個兒童頻道，分別記錄了這些頻道的播放量和訂閱量。

可以看出，這些篩選出來的視頻播放量基本都達到了百萬級，訂閱人數也同樣不少。

然後，研究人員分別試了一下谷歌和AWS（亞馬遜網頁服務）的字幕生成效果。

結果顯示，AI字幕的「少兒不宜」率可謂離譜：

在7013個視頻中，谷歌AI出現錯誤字幕的次數達到2768次，接近40%。

亞馬遜的AI字幕錯誤率還要更高，達到了3672次，超過52%。

具體來說，兩個AI分別容易在這些「不太恰當」的字詞上出錯：

△圖左亞馬遜，圖右谷歌

在這些數據集中，有一些詞語又尤為「少兒不宜」，例如一些罵人的髒詞：

經過作者們人工檢查（例如確認原視頻是否真的說了髒話），發現AI主要容易在以下幾種情況中出錯：

背景音樂嘈雜

說話者為嬰兒

說話者為兒童

說話者以英語為第二語言

說話者在唱歌

△包括但不限於這些情況

那麼，有沒有什麼辦法減少這種情況發生呢？

語序連貫的錯誤更容易修復

研究人員提出了一個新的數據集，利用近音字詞來構建禁忌詞的「替換」備選。

例如，對於crap這一可能出現的「粗口」，研究人員就給它設置了crab、craft等讀音相似的字詞，便於AI在搞錯時進行替換。

具體來說，他們在BERT、XLM、XLNet等NLP模型上，針對「完形填空」任務進行了重新訓練，也就是用[MASK]遮住部分單詞，讓AI來填寫對應的內容。

結果顯示，在語序正常、前後文案有邏輯的視頻中，AI替換的準確率更高（藍色為正確替換詞）：

然而在一些邏輯不強的文案中，成功替換的效果就沒有那麼好了：

最終，Megatron和Levenshtein等模型展現出了最好的修復效果，分別給亞馬遜AI帶來了超過25%的正確修復率，給谷歌AI帶來了超過28%的修復率。

看來AI在字幕生成能力上還是任重道遠啊。

論文地址：//github.com/sumeetkr/UnsafeTranscriptionofKidsContent/blob/main/YouTube_Transcription_Final.pdf

參考鏈接：//www.dailymail.co.uk/sciencetech/article-10553233/YouTube-AI-putting-explicit-language-captions-videos-aimed-children.html

Tags: 字幕

Previous post

或名ID.2 X 大眾全新純電小型SUV曝光：15萬賣爆？

Next post

痞子衡嵌入式：揭秘i.MXRT1170上串行NOR Flash雙程序可交替啟動設計