ImageNet訓練的AI竟然人妖不分,網友炸了!
- 2019 年 10 月 5 日
- 筆記
新智元報道
來源:theverge等
編輯:小芹、鵬飛
【新智元導讀】基於ImageNet 「人物」類別訓練的AI工具「ImageNet Roulette」近日引起熱議,上傳人臉照片,AI馬上返回描述這個人的標籤。但這些標籤充滿了怪異、刻薄和種族主義,揭露了數據集的缺陷和暗藏的偏見。
你有沒有想過,當你使用人臉識別檢測自己的臉時,AI是怎麼看你的?
一個最近出現的網站「ImageNet Roulette」可以告訴你,但事先警告:現實並不美好,AI對你的評價有時甚至很殘酷。

「ImageNet Roulette」是一個由程式設計師Leif Ryge,紐約大學教授、AI Now研究所共同創始人Kate Crawford,以及藝術家Trevor Paglen最近為一個名為「訓練人類」(Training Humans)的藝術展創建的網站。只需上傳一張人像照片,該工具會運行一些常見的機器學習軟體,然後返回決定適用於你的標籤。
許多人在使用這個工具時發現,AI返回的標籤經常很怪異、刻薄,充滿著種族主義和對女性的嫌惡。發布一段時間以來,這個AI已經在Twitter上引發大量聲討。

比如這位網友,明明只是抱著狗窩在沙發上,卻被AI識別成一個「啤酒愛好者」

這位女性只因一頭紅髮和自拍的角度,就被認為是一名:女王、狐狸精、女妖、讓男人沉迷的魔女。

而這位明顯不是黑人的男性,被打上「Black Person, Negro」等標籤……
它叫我「書獃子、笨蛋」!這個AI是想打架嗎?
「ImageNet Roulette」是在ImageNet數據集的「人物」類別上訓練的。ImageNet 是電腦視覺領域最著名的數據集,由超過 1400 萬個標記影像組成,分為20000多個類別,每個類別平均有 1,000 張影像。ImageNet也是世界上被引用次數最多的對象識別數據集,在研究論文中被引用了超過 12000 次。

ImageNet 的「人物」 類別下包含 2833 個子類別。具有最多相關圖片的子類別是 「gal(女孩)」(1664 個影像),其次是 「祖父」(1662),「爸爸」(1643),和 「首席執行官」(1614)。
ImageNet 還將人們分為多種類型,包括種族,國籍,職業,經濟地位,行為,品格,甚至道德。
ImageNet Roulette 使用開源 Caffe 深度學習框架,當用戶上傳圖片時,應用程式首先運行人臉檢測器以定位人臉。如果發現了人臉,則將它們發送到 Caffe 模型進行分類。然後,應用程式返回原始影像,邊界框顯示檢測到的人臉,以及分類器為影像指定的標籤。
「AI如何給人分類」這件事,「被分類」的人很少能知道。ImageNet Roulette提供了這個過程的一瞥,並顯示了AI可能出現的問題。
三位研究人員用他們自己的照片進行了測試:

Crawford和Paglen
藝術家Paglen的形象被歸類為 「Klansman」(註:3K 黨,美國最臭名昭著的極端種族主義團體之一,製造了很多血腥恐怖事件);
紐約大學教授 Crawford 的大頭照被歸類為 「女性領袖」。

開發人員 Leif Ryge 得到的標籤是「心理語言學家」,但換其他照片後,標籤變成了 「變態」、「流浪漢」 和 「無政府主義者」。
Paglen 說:「我認為這種給人分類的事兒,最好再謹慎一些。」
更殘酷的是,有人上傳了一張他16歲時參加佛羅里達馬林魚隊(一支棒球隊)的照片,被AI無端端地分類為「強姦嫌疑犯」。

一名女孩被打了數個「書獃子」(swot, grind, nerd, wonk)的標籤,甚至還有「笨蛋」(dweeb)標籤:

她憤怒地表示:
我完全被某種「機器學習」拖到了地獄。它叫我「笨蛋」。「書獃子」!「笨蛋」!這個演算法是想打架嗎?
揭露ImageNet缺陷,AI偏見問題不容忽視
該項目也部分地突出了 ImageNet 以 「有問題」 和 「冒犯」 的方式對人們進行分類的缺陷,也就是人為的偏見。(一些上傳照片的男人似乎被隨機標記為 「強姦嫌疑人」,原因無法解釋。)Paglen 表示,AI 的錯誤系統和機器學習偏見的普遍存在是由於其受到人類創造者的影響:
ImageNet 的基礎結構基於 Wordnet 的語義結構,這是 20 世紀 80 年代普林斯頓大學開發的一個辭彙分類資料庫。令人反感和奇怪的標籤全部來自 WordNet,因為這個資料庫中包含有性別歧視或種族主義的術語。因此,ImageNet Roulette 返回的結果也依據這些類別。
Paglen 指出在過去幾個世紀將人們分類的黑暗歷史。如南非種族隔離期間:一本名為 「生命之書」 的書根據黑人的種族背景對其進行了分類,並被用來確定人們可以在哪裡生活、獲得什麼工作,孩子可以去哪裡上學等等。
他還比較了機器學習的興起和人們的認知。19 世紀末 20 世紀初,拍照是中立的。但隨著社會達爾文主義的興起,攝影有助於創造新的偽科學領域,這種觀念促進了某些文化和民族,在進化上優於其他文化和民族的觀念。
顱相學實際上缺乏任何基礎並且具有深刻的種族主義色彩,理論是通過測量不同種族個體之間的身體差異,將人們的外表與他們的行為聯繫起來。Paglen 說,有那麼一群偽科學家通過測量人們的面孔,以確定他們是否是罪犯。
Paglen 和 Crawford 希望揭露今天人工智慧系統的真相,破壞了人們普遍認為 AI 在某種程度上是中立的,是構建在數學之上的的觀點。
值得慶幸的是,ImageNet Roulette揭示了常見機器學習方法的內部工作原理,而不是模糊它們。隨著人工智慧的發展,無論好壞,我們都需要更多類似的工具。
想知道AI怎麼評價你嗎?傳送門:
https://imagenet-roulette.paglen.com/