Yann LeCun 大戰「鍵盤俠」,除了數據,「AI偏見」到底來自哪裡?

  • 2020 年 7 月 30 日
  • AI

作者 | 青 暮

編輯 | 叢 末

近期一篇關於影像超解析度的論文引起了不小的爭論,一切都起源於以下這張圖片: 

針對這張圖,Yann LeCun在推特上發表了這麼一句話:「當數據有偏見時,機器學習系統就變得有偏見。這個人臉上取樣系統讓每個人看起來都像白人,因為網路是在FlickFaceHQ數據集上預訓練的,而這個數據集主要包含白人影像。」

              

這為LeCun招來了不少的批評,很多網友認為LeCun在提出狹隘甚至錯誤的觀點誤導人們,並紛紛提出了自己的質疑。LeCun對這些質疑一一回應,但仍得不到理解。最後LeCun不得不一條一條地解釋自己的觀點,才緩和了這場爭論的氣氛。

爭論的焦點在於:AI產生偏見的原因是否只是數據集導致?演算法本身的缺陷能不能成為原因?

網友們的論點主要包括以下幾點: 

1、只要是在有偏見數據上進行基準測試,那麼這樣的偏見也會反映在機器學習系統的歸納偏置上。

用有偏見的基準推進機器學習並要求工程師簡單地「使用無偏見的數據重新訓練模型」是沒有用的。

2、我們不都知道機器學習演算法帶有數據偏見以外的歸納偏置嗎?

3、當數據帶有偏見時,機器學習系統就是有偏見的。但某些機器學習系統的偏見不是由於數據,並且構建100%無偏見的數據集在實際上是不可能的。並且我們發現很多時候,假如數據帶有少量的偏見,系統會將其放大,並變得更加有偏見。

4、在完整的美國人數據集上訓練:當你使用L2損失,大多數人都像白人;當你使用L1損失,大多數人都像黑人。別再覺得偏見和演算法無關了。

5、承認這個結論要求極大地縮小演算法的定義範圍。你忽略了表徵的選擇、損失函數的選擇、訓練方法的選擇以及超參數等等。

6、確實,這是個需要證明的大膽斷言。AI學習過程應該是架構、數據、訓練演算法、損失函數等等的相互作用。

對於這些評論,LeCun澄清道,他只是認為,在大多數現代機器學習系統中,數據是主要的偏見來源。   

           

LeCun 表示:

在7年前,大多數機器學習系統使用手工特徵,這是偏見的主要來源。但是現在,人們開始使用深度學習架構,很大程度上減少了源於特徵選擇和架構設計的偏見。所以我才認為現在數據是主要的偏見來源。我不是在討論機器學習理論性質上的歸納偏置(這是獨立於數據的)。我所討論的是現在在機器學習系統中經常見到的偏見,這些偏見可能源於特徵或數據。但如果特徵是用深度學習學到的,那麼偏見不應該主要存在於數據嗎?」 

另外,相比損失函數的選擇,通過在訓練過程中均衡樣本的類別頻率來修正這種偏見會遠遠更加高效。

但是也有學者認為演算法和數據之間並沒有清晰的分界線,均衡樣本的類別頻率也是一種演算法的選擇。偏見並非單純來源於數據,也可能取決於研究人員本身。 

對於也可能取決於「研究人員」本身這一觀點,LeCun回應道:

當然。但是在logistic 回歸、全連接網路或卷積網路之間進行選擇,並不會導致系統固有地偏向某些類型的人。當手動設計特徵時,就會引入偏見。而且,數據顯然是可以有偏見的。        

到了這一步,爭論各方似乎都不太清楚對方在表達什麼了。於是最後,LeCun在一系列的推文中清楚地表達了自己的觀點:

我沒有說「僅當數據有偏見時機器學習系統才有偏見」。

我只是表達了對PULSE這篇論文的看法。 

機器學習系統中導致社會偏見的原因很多(這裡不談論更一般的歸納偏置):

1.如何收集數據和格式化 

2.特徵設計

3.模型的架構

4.目標函數

5.部署方式 

當使用沒有手工特徵的原始輸入時(如現代深度學習系統中常見的那樣),特徵設計引起的偏差的重要性要小得多。

如果使用別人的預訓練模型作為特徵提取器,特徵將包含該系統的偏見。 

也就是說,LeCun並非不同意質疑他的專家們的觀點,只是他當時發表的觀點建立在特定的條件下,而沒有表述清楚。

爭論的來源:PULSE模型訓練的結果 

最開始那張引起爭議的圖片來源於提出PULSE這一模型的論文。具體而言是有人用作者在論文中開源的程式碼進行了模型推理:用奧巴馬的打碼影像進行了試驗,結果發現奧巴馬被還原成了白人。   

    

論文地址://arxiv.org/pdf/2003.03808.pdf

還原成白人這個結果實際上並不奇怪,因為PULSE就是建立在StyleGAN的基礎上實現的,而StyleGAN所用的數據集是FFHQ,這個數據集里包含了90%以上的白人人臉。 

PULSE的特點在於,可以將多個不同但相似的人臉影像聚合為同一個低解析度影像。 

             

論文作者之一、北卡羅來納州達勒姆市杜克大學電腦科學教授Cynthia Rudin說:「我們已經證明人們無法從模糊的影像中進行人臉識別,因為可能性非常多。因此,縮放和增強不可能超過某個閾值水平。」

Rudin說:「過去,許多演算法都試圖從低解析度恢復高解析度影像。」 這可能是錯誤的方法,原始影像實際上是資訊稀疏的。因此,奧巴馬的打碼影像還原後也不一定是奧巴馬,我們會堅持認為那張影像的原型必然是奧巴馬,也是由於記憶先驗導致的偏見。 

當然這也不能否認該模型確實存在偏見,當把模型在其他非白人面孔上進行實驗時,也會出現相似的結果:        

      

        

也就是說,PULSE提供的不是錯誤的答案,也不是故意的,但提供了有偏見的答案。

斯坦福大學研究生:社區研究者應理性爭論,發言需謹慎

來自斯坦福大學的一名研究生深度關注了這次事件,並在Gradient上寫下了他對此次事件的感悟。他思考的不僅僅是關於「AI偏見來源」的學術性問題,還有關於社區研究者該如何發表言論以及爭論的問題。他表達的思考和觀點有以下六點:

第一,除了簡單的源程式碼之外,互動式演示很有用,因為這可以使人們輕鬆地與模型進行交互並指出模型存在的問題。

簡單直觀的演示可以引發高效的傳播效應,就像成為這次事件的那張圖片,基本一看就知道發生了什麼事。 

第二,發現了用於解決應用AI研究中的潛在偏見的最佳實踐,「model card」的想法很有意義。

作為對質疑的回應,PULSE這篇論文的作者就在原文的第6節加入了對模型偏見的討論,並在附錄中加入了一張「model card」,其中寫道,相比於 CelebA HQ(基於公眾人物(名人)的人臉數據集),FairFace或許是評估模型時的更好選擇。   

 

第三,數據可能是機器學習系統中偏見的來源,但不是唯一的來源,此類系統可能造成的危害可能不僅僅源於有缺陷的數據集。

這是眾多專家在質疑LeCun論點時提出的,同時也是LeCun在最後澄清的觀點,LeCun大概也想不到自己表述不嚴謹的幾句話會引起這麼大的反響。

第四,重要的是,能夠對複雜的主題進行理性的討論。在這樣的討論中,回應專家對有關話題的批評時,注意不要情緒化。 

第五,人工智慧研究人員的行動有助於為學術界以外的人們設定AI使用的規範。因此,他們應該注意應該使用哪些數據集來測試其模型。並且當使用有缺陷的數據集時,他們仍可以在研究中採取具體措施以最大程度地減少這樣做造成的危害。

第六,解決一個複雜的主題時,請謹記自己的措辭和資訊,尤其是該領域的領導者,其聲明會被很多人閱讀。模稜兩可的陳述可能導致人們錯誤地得出結論,而不是加深了解。

LeCun作為深度學習的領軍者,發表的言論有很大的影響力,必須嚴謹自己的措辭。

參考文章:雷鋒網雷鋒網雷鋒網

//thegradient.pub/pulse-lessons/

//spectrum.ieee.org/tech-talk/computing/software/making-blurry-faces-photorealistic-goes-only-so-far