獨家 | 改善AI性別偏見的4種方法

  • 2019 年 12 月 12 日
  • 筆記

作者:Josh Feast

翻譯:王子龍

校對:王琦

本文闡述導致AI偏見的原因並提出應用的解決方案。

圖片來源:哈佛商業評論工作人員 / UNSPLASH

任何對AI偏見的審查都需要意識到一個事實:這些偏見主要源於人類固有的偏見。我們創建、訓練的模型和系統就是我們人類自己的真實寫照。

因此AI從人類那裡學習到了性別偏見也就不足為奇了。例如,亞馬遜的Alexa和蘋果的Siri等常見AI系統的核心—自然語言處理(natural language processing, NLP)就存在性別偏見,而這並不是孤例。此前還發生了幾起明顯帶有性別偏見色彩的案例,包括能夠識別性別的計算機視覺系統,其在識別女性時報告的錯誤率更高,尤其是對於那些膚色較深的女性。

為了開發出更公平的技術,整個行業的研究人員和機器學習團隊必須共同努力來糾正這種不平衡。幸運的是,我們開始看到有新的研究致力於解決這些問題。

其中需要特別提到的是目前正在進行的關於詞嵌入(Word-embeddings)的偏見研究,詞嵌入將詞轉換為數字表示,然後在自然語言處理模型中用作輸入。詞嵌入將詞表示為序列或數字向量,如果兩個詞意思相近,它們的映射(associated embedding)在數學意義上也是相近的。詞嵌入通過評估單詞出現的上下文來編碼信息。例如,AI能夠客觀地把「女王」一詞填充到「男人是國王,女人是X」這句話中的X處。但當AI填寫「父親是醫生,母親是護士」這樣的句子時,就會引起潛在的問題。這句話中固有的性別偏見反映了我們社會中對婦女的過時看法,這種看法既沒有事實根據,也不平等。

很少有研究對情感相關的演講中的性別偏見進行評估,而情感AI在未來的工作、營銷以及幾乎所有你能想到的行業中開始扮演更重要的角色。在人類社會中,當一個人對某一類人情感的誤解多於另一類時,偏見就會產生。例如,錯誤地認為某一類人比另一類人更容易生氣。目前的機器也有同樣的偏見,它們將與情感相關的信息錯誤地分類。要理解為什麼會這樣,以及我們如何解決這個問題,先去了解造成AI偏見的原因就顯得重要了。

什麼導致了AI偏見?

在機器學習的背景下,偏見可能意味着某些人口統計類別的誤差更大。因為找不到這種偏見的根源,所以在開發和訓練機器學習模型時,研究人員必須考慮許多變量,包括以下因素:

  • 不完整的或偏斜的訓練數據集:當訓練數據中缺少某種人口統計類別時,就會出現這種情況。在那些有缺失人口統計類別的新數據上使用這些數據訓練的模型時,則不能正確地衡量。例如,如果女性演講者只佔你訓練數據的10%,那麼當你將一個訓練過的機器學習模型應用於女性時,很可能會產生更高程度的誤差;
  • 訓練模型所用的標籤:絕大多數商業AI系統使用有監督機器學習,這意味着訓練數據是被打上標籤的,標籤用來訓練模型如何作出反應。通常情況下,這些標籤是人類想出的,考慮到人們經常表現出偏見(既有有意識的,也有無意識的),這些偏見會無意地編碼到由此產生的機器學習模型中。考慮到機器學習模型被訓練出來用於估計這些標籤,這種對特定性別不公平的分類將被編碼到模型,這會導致偏見;
  • 特徵和建模技術:機器學習模型的輸入值或者實際的模型訓練過程中都可能因為測量而產生偏見。例如,幾十年來,語音合成,即把文本轉換為語音的技術(例如:斯蒂芬·霍金的聲音)和自動語音識別,即把語音轉換為文本的技術(例如:CC字幕)都有該情況發生。與男性相比,女性演講者的表現不佳,這是由於對演講者的分析和建模對於聲帶較長、音調較低、個子較高的人來說更準確。因此,語音技術對於具有這些特徵的演講者(通常是男性)來說是最準確的,而對於那些音調較高的演講者(通常是女性)來說就不那麼準確了。

機器學習團隊避免性別偏見的四個最佳解決方案

和生活中的許多事情一樣,AI偏見的原因和解決方案並不是非黑即白的。「公平」本身甚至也必須通過量化來減輕偏見所帶來的不必要影響。對於那些想要利用AI的力量,但又擔心產生偏見的管理者來說,落實下面的方法對於你的機器學習團隊很重要。

  • 確保訓練樣本的多樣性(例如,在訓練數據中使用與男性差不多數量的女性音頻樣本)。
  • 確保給音頻打標籤的人們有着多元化的背景。
  • 針對不同人口統計類別,鼓勵機器學習團隊分別評估模型的準確程度。並且當某個類別被不公平地對待時要能識別得出來。
  • 通過收集更多與敏感群體相關的訓練數據來解決不公平的問題。在此基礎上,可以應用新的機器學習去除偏見技術,該技術不僅懲罰主要變量的識別錯誤,還額外懲罰造成不公平的錯誤。

雖然研究這些原因和解決辦法是非常重要的第一步,但仍有許多懸而未決的問題需要回答。除了訓練機器學習模型之外,業界還需要開發更全面的方法以解答造成上述三個主要偏見的原因。此外,為了應對日益增加的多樣性,未來的研究應該考慮性別變量的更廣泛表示,如跨性別者、非二元性別等,以此來增強我們對此的理解。

我們有義務創造對每個人都有效和公平的技術。我相信,如果我們能夠共同解決這些問題,AI的收益將超過風險。這取決於該領域的所有從業者和領袖合作、研究和開發解決方案,以減少AI對任何人的偏見。

原文標題:

4 Ways to Address Gender Bias in AI

原文鏈接:

https://hbr.org/2019/11/4-ways-to-address-gender-bias-in-ai

編輯:黃繼彥

譯者簡介

王子龍,新加坡國立大學智能系統碩士在讀。關注數據科學如何更好地創造出商業價值,感興趣的方向有自然語言處理和智能流程自動化。希望自己能廣泛地閱讀好的文章並從中獲得啟發,也非常高興能和大家一起學習、分享知識。