當談論機器學習中的公平公正時,我們該談論些什麼?

  • 2020 年 2 月 26 日
  • 筆記

機器之心分析師網路

分析師:仵冀潁

編輯: Joni Zhong

本文討論的是機器學習中的公平公正問題(Bias and Fairness in Machine Learning),那麼,究竟什麼是機器學習中的公平公正呢?

隨著人工智慧系統和應用程式在我們日常生活中的廣泛應用,人工智慧已經成為了輔助人們決策的重要工具,例如,使用推薦系統演算法做齣電影推薦、購買產品推薦等,使用預測和分析系統用於貸款申請、約會和僱傭等高風險決策。美國法院使用了一款人工智慧軟體—「選擇性制裁罪犯管理檔案」(Correctional Offender Management Profiling for Alternative Sanctions,COMPAS),用於預測一個人再次犯罪的風險,輔助法官決定是釋放罪犯,還是把罪犯關進監獄。對該軟體的一項調查發現了對非洲裔美國人的一種偏見:相較於白人罪犯,COMPAS 更有可能給非洲裔美國人罪犯打出較高的潛在風險分數,從而不予以釋放 [1]。

有偏的訓練數據集一般被認為是影響機器學習公平公正的重要因素之一。大多數機器學習模型都是通過在大型有標記數據集上訓練得到的。例如,在自然語言處理中,標準的演算法是在包含數十億單詞的語料庫上訓練的。研究人員通常通過抓取網站 (如Google影像和Google新聞)、使用特定的查詢術語,或通過聚合來自維基百科 (Wikipedia) 等來源的易於訪問的資訊來構建此類數據集。然後,由研究生或通過 Amazon Mechanical Turk 等眾包平台對這些數據集進行注釋和標記。

在醫學領域,由於醫療數據的生成和標記成本非常高,機器學習特別容易受到有偏見訓練數據集的影響。去年,研究人員利用深度學習從照片中識別皮膚癌。他們對 129,450 張影像的數據集進行訓練,其中 60% 是從Google影像中提取的。在這個數據集中只有不到 5% 的影像是深膚色的個體,而且該演算法沒有在深膚色的人身上進行測試。因此,將該深度學習分類器應用在不同的種群中可能會存在巨大的差異。

用於影像分類的深度神經網路通常是在 ImageNet 上訓練的,ImageNet 是一套包含 1400 多萬張標記影像的集合。ImageNet 中 45% 以上的數據來自美國,而美國人口僅佔世界人口的 4%。與此形成對比的是,儘管中國和印度的人口佔世界人口的 36%,但兩國在 ImageNet 的數據中只佔 3%。在這樣的數據集中訓練得到的電腦視覺模型,把傳統的美國新娘穿著白色衣服的照片標記為「新娘」、「服裝」、「女人」、「婚禮」,而把印度北部新娘的照片標記為「行為藝術」和「服裝」。圖 1 是 Nature 上一篇報道中給出的一幅圖片,在有偏數據集上訓練的演算法通常只將左側的圖片識別為新娘 [2]。

圖 1. 在有偏數據集上訓練的演算法通常只將左手影像識別為新娘 [2]

影響機器學習公平公正的另外一個重要因素是機器學習演算法本身。一個經典機器學習的演算法總是試圖最大限度地提高在訓練數據集中的總體預測精度。如果一組特定的個體在訓練數據集中出現的頻率高於其他個體,那麼演算法將會針對這些個體進行優化,從而提高演算法整體準確度。在實驗環境下,研究人員使用測試數據集進行評估以驗證演算法的有效性,但是測試集通常是原始訓練數據集的隨機子樣本,因此可能包含相同的偏見。

為了確保機器學習的公平公正,研究人員認為主要有三種途徑:一是提高用於訓練機器學習演算法的數據品質,公平、廣泛的收集不同來源的數據,使用標準化的元數據系統地標註訓練數據集的內容。二是改進機器學習演算法本身。整合約束條件,從本質上使得機器學習演算法在不同的子群體和相似的個體之間實現公平的性能;改變學習演算法,減少對敏感屬性的依賴,比如種族、性別、收入——以及任何與這些屬性相關的資訊。三是使用機器學習本身來識別和量化演算法和數據中的偏見,即開展人工智慧審計,其中審計人員是一個系統地探測原始機器學習模型的演算法,以識別模型和訓練數據中的偏見。

本文重點談論機器學習中演算法的公平公正問題,我們選擇了 ICML 2019 的三篇文章,分別針對機器學習領域中的圖嵌入問題、回歸問題,以及自然語言處理領域中的語言模型問題展開了討論。

1、Compositional Fairness Constraints for Graph Embeddings

https://arxiv.org/pdf/1905.10674v1.pdf

本文是 Facebook 發表在 ICML 2019 中的一篇文章,針對現有的圖嵌入(Graph Embedding)演算法無法處理公平約束的問題,例如確保所學習的表示與某些屬性 (如年齡或性別) 不相關,通過引入一個對抗框架來對圖嵌入實施公平性約束。本文的研究內容屬於 (社會) 圖嵌入和演算法公平性研究的交叉領域。

學習圖中節點的低維嵌入是目前最先進的應用於預測和推薦系統的方法。在實際應用中,特別是涉及到社交圖的應用中,需要有效控制學習到的節點嵌入中所包含的資訊。以推薦系統為例,人們希望能夠保證推薦是公平的而不依賴於用戶的種族或性別,此外,也希望能夠在不暴露自身屬性的前提下學習節點嵌入表示以保證隱私。本文的工作聚焦於對社會圖(Social Graph)加入不變性約束的可行性,即生成對特定敏感資訊 (例如,年齡或性別) 不變的圖嵌入。首先訓練得到一組「過濾器」,以防止對抗式的甄別者將敏感資訊與過濾後的嵌入資訊進行分類。然後,將過濾器以不同的方式組合在一起,靈活生成對任何敏感屬性子集不變的嵌入。方法的整體結構見圖 2。

圖 2. 方法整體結構

早期關於在社會類應用中增加強制不變性約束 (或「公平性」) 的工作通常只涉及一個敏感屬性的情況,但是實際應用中通常社會圖嵌入會涉及到多個屬性。在極端情況下,可能希望不只是節點,甚至是圖中的邊(edge)也具備公平性,例如,一個社交網路平台上的用戶可能希望該平台的推薦系統忽略他們與某個其他用戶是朋友,或者他們參與了某個特定內容的事實。本文提出的方法通過學習得到一組對抗性過濾器,從而刪除關於特定敏感屬性的資訊。

首先,考慮嵌入一個異質或多關係 (社會) 圖 G = (V, e),G 包含有向邊三元組 e= < u,r, v >,其中 u, v∈V 為節點,r∈R 表示節點間的關係。假定每個節點都屬於一個特定的類別,節點間的關係受到節點類型的約束。基於圖的關係預測任務描述如下:ξ_train 表示訓練邊集合,定義負邊集合如下:

負邊集合表示未在真實圖 G 中出現的邊的集合。給定ξ_train,目標是學習得到評分函數 s 以滿足:

換句話說,學習得到的評分函數在理想情況下應該對任何真邊緣評分高於任何假邊緣。

圖嵌入(Graph Embedding)的任務目標是通過學習一個映射函數 ENC 來完成關係預測任務,即將節點 v 映射為節點嵌入 z_v=ENC(v)。此時評分函數為:

評分函數的含義為:給定兩個節點嵌入 z_u ∈ R.^d 和 z_v∈ R.^d,以及它們之間的關係 r ∈ R,評分函數 s 表示邊 e=<u,r,v> 在圖中存在的概率 ( s∈ R)。通常來講,基於圖嵌入模型的方法主要是認為兩個節點嵌入間的距離能夠表徵兩個節點間存在邊的可能性。本文利用雜訊對比估計等破壞分布的對比學習方法來優化評分函數,目的是最大化真實邊(正樣本)與虛假邊(負樣本)對比的概率。其中,邊(e_batch ⊆ e_train)的損失函數計算為:

以及

表示負樣本,例如,不存在於圖中的隨機樣本邊。

考慮公平性的處理,對一個節點類型,假設屬於該類型的全部節點都包含有 K 組敏感屬性,那麼對圖嵌入模型進行公平性處理的任務就是確保所學習的節點嵌入 (z_u) 在這些敏感屬性方面不存在偏見或不公平。

不變的實用公平性

本文給出了一個簡單的以用戶為中心的社會圖嵌入場景。以性別為敏感屬性、電影推薦為關係預測任務的例子,具體任務場景如下:如果給用戶一個按鈕,上面寫著「推薦電影時請忽略我的性別」,那麼按下這個按鈕後,用戶希望從系統中得到什麼?很顯然,用戶 u 的目的是系統能夠不考慮他們的性別公平地向他(她)推薦電影,即如下式:

其中 s(e) = s(<z_u, r, z_v>),a_u 為敏感屬性。如果直接處理上式,我們能夠發現一個明顯的問題,即對於每一個節點都需要對它的全部邊(可能是數以百萬計)進行評分。假設認為 s(e) 僅由 u 決定(忽略掉節點 v 的影響),則可以通過實施表徵不變性來保證上式對於所有邊緣預測的獨立性:

此時滿足互資訊(mutual Information):I(z_u,a_u)=0。推廣到多個敏感屬性 S⊆ {1,…,K}:

上式相當於對 S 個不同敏感屬性的 S 獨立不變性約束的假設。針對本文所討論的應用場景,S 不是固定不變的。對於不同的用戶來說,他們所認為的敏感屬性可能不同(年齡,職業,性別等等)。基於上述分析,本文在上式中引入一種對抗性損失和一種「過濾」嵌入,從而對節點嵌入施加表徵不變性約束。

複合編碼器

首先,將 ENC 嵌入函數泛化,以選擇性地「過濾」掉有關某些敏感屬性的資訊。對每一個敏感屬性 k∈{1,…,K},定義一個過濾函數 f_k,通過訓練 f_k 能夠去除掉與敏感屬性 k 有關係的資訊。為了保證節點嵌入的不變性,本文使用複合編碼器組合過濾後的嵌入:

在組合映射函數(C-ENC)的訓練迭代過程中,每輪迭代都通過取樣二進位掩碼來確定集合 S。本文將二進位掩碼取樣為一個固定概率 p=0.5 的伯努利序列。在訓練過程中,隨機取樣得到的二進位掩碼能夠使得模型產生不同敏感性屬性組合的不變嵌入,從而實現在推理過程中推廣到未知的組合。

對抗損失

本文引入對抗正則項訓練複合編碼器 Dk。為每個敏感屬性 k 定義一個分類器 D_k,目的是通過節點嵌入預測第 k 個敏感屬性 D_k : R^d × A_k → [0, 1],其中,D_k 的概率區間為 [0,1]。給定邊預測損失函數 L_edge,對抗正則化損失函數為:

其中,λ控制對抗正則項的強度。為了在小批量設置的情況下優化該損失,本文定義兩種交替執行的隨機梯度下降更新方法:(1)T 小批量更新:基於 C-ENC(Dk 恆定不變)優化 L(e);(2)T』小批量更新:基於 Dk(C-ENC 恆定不變)優化 L(e)。

本文在三個資料庫中進行實驗,Freebase15k-237、MovieLens-1M,以及從 Reddit 中整理得到的邊緣預測資料庫。三個庫的統計資訊如表 1 所示(具體包括全部節點數量(|v|),帶有敏感屬性的節點數量(|T*|),敏感屬性的數目及其類型和圖中邊緣的總數):

表 1. 資料庫詳細情況

(1)FREEBASE15K-237

FREEBASE15K-237 是一個標準的知識基準庫 [9],本文使用該庫評估對抗正規化的影響,在完成標準的知識庫任務的同時,保持實體嵌入與「敏感」屬性標籤的不變性。在本庫中,確定三個常見的屬性標籤:/award/award_nominee,作為敏感屬性。

在實驗過程中,本文採用聯合訓練主模型和對抗框架的方式,但在測試不變性時,本文訓練一個新分類器 (與鑒別器具有相同的能力) 從所學習的嵌入中預測敏感屬性。此外,在這些實驗中,本文依賴於兩個基準線:首先,對比不包含任何不變性約束的基準線方法,即λ= 0。其次,與一種非複合對抗的基準線方法進行對比,即分別訓練 K 個不同的編碼器和 K 個不同的對抗框架。使用 Relu 激活函數的多層感知機(Multi-layer perceptrons,MLP)作為分類器 Dk 和過濾器 f_k[7]。使用 TransD 方法計算編碼器和邊緣預測損失函數 [8]。在這個模型中,一個節點/實體的編碼取決於預先決定的邊緣關係,以及該實體是一個關係中的頭還是尾。頭節點的嵌入 (即邊關係中的源節點) 由下式計算:

其中,u、u_p、r_p 為可訓練的嵌入參數,I 為 d 維單位矩陣。編碼函數對尾部節點進行了類比定義。評分函數定義為:

其中,r 為另外一個可訓練的嵌入參數(每個關係)。最後,使用標準的最大邊際損失函數如下:

(2)MOVIELENS-1M

MOVIELENS-1M 是一個標準的推薦系統資料庫,其目標是預測用戶對電影的評分,將用戶年齡、性別和職業作為敏感屬性。在本庫中的任務可以做如下描述:將電影推薦任務視為用戶和電影之間的邊緣預測問題,將不同的可能評級視為不同的邊緣關係。

在本庫中的實驗採用簡單的「嵌入-查找(Embedding-Lookup)」編碼器,將每個用戶和電影與一個唯一的嵌入向量關聯起來。評分階段,使用對數似然法計算如下:

其中,關係矩陣 Qr 為:

其中,a_r,1、P1、P2 均為可訓練的參數。損失函數使用簡單的負對數似然法。

(3)REDDIT

本文最後使用的資料庫是基於 REDDIT 獲取的,REDDIT 是一個廣受歡迎的、以討論為基礎的網站,用戶可以在這裡對不同話題社區的內容進行發布和評論。對於這個數據集,考慮一個傳統的邊緣預測任務,其目標是預測用戶和網站社區之間的交互情況。通過檢查 2017 年 11 月以來的所有情況,如果用戶在這段時間內至少在某社區出現過一次,就會在該用戶和該社區之間設置一個邊。然後,將圖中的低分數節點去掉,最終得到一個包含 366K 個用戶、18K 個社區、7M 邊緣的圖。基於該圖,實驗的主要任務是構建邊緣預測模型,基於 90% 的用戶-社區邊緣情況預測剩餘的缺失邊緣。

將某些社區節點看作是「敏感」節點,將是否與這些敏感社區有邊緣連接看作是用戶的敏感屬性。所謂的公平性目標是指模型的預測結果不受用戶是否訪問過某特定社區的情況影響。

在本資料庫中的實驗採用的是簡單的「嵌入-查找(Embedding-Lookup)」編碼器,使用簡單點積評分函數:

以及最大邊際損失函數:

最後,本文給出了三類公平性實驗,

Q1:不變性的成本

為了量化學習到的嵌入對敏感屬性的不變性程度,凍結編碼器 C-ENC、訓練一個新的 MLP 分類器預測每個過濾後嵌入的敏感屬性。此外,評估使用這些過濾嵌入對原始預測任務的性能。理想情況下,訓練得到的新 MLP 應當能夠在預測敏感屬性時具有隨機準確性,此外,這些嵌入能夠較好地完成原有的邊緣預測任務。

總的來說,本文實驗結果表明,在社會推薦數據集上,包括 MovieLens-1M 和 REDDIT,本文的方法能夠實現一個合理的折衷,即幾乎完全刪除敏感資訊,同時保證邊緣預測任務的相對誤差只增加約 10%。表 2 給出在使用各種嵌入方法時,預測 MovieLens 數據上的敏感屬性的情況。由表 2 結果可知,敏感屬性的分類準確度與多數投票分類器的分類準確度相當,使用組合對抗框架的 RMSE 從 0.865 下降到 1.01。表 3 給出了使用不同方法完成 Freebase15k-237 庫中預測敏感屬性能力的實驗結果。所有的敏感屬性都是二進位的,表 3 給出了 AUC 分數以及完成主要邊緣預測任務的平均秩。Freebase15k-237 庫中的實驗結果顯示,如果想要消除敏感資訊,必須以增加原始邊緣預測任務成本為代價。這個結果是可接受的,因為對於這個數據集,「敏感」屬性是由實體類型注釋合成得到的,這些屬性與邊緣/關係預測主任務高度相關。這一實驗結果也表明,基於圖嵌入的方法進行去偏處理是存在潛在局限性的。

表 2. 預測 MovieLens 數據上的敏感屬性的情況

表 3.Freebase15k-237 庫中預測敏感屬性的能力

Q2:複合框架的影響

由表 2 中的實驗結果可以看出,本文提出的複合框架效果優於單獨對每一種屬性進行去偏處理的效果。與單獨基於每種敏感屬性進行對抗正則化嵌入模型訓練相比,使用複合框架能夠去除掉更多的敏感資訊,這是由於在資料庫中不同的敏感屬性,例如年齡、性別和職業,是相互關聯的。圖 3 給出預測 REDDIT 數據集中敏感屬性的能力,其中條形圖對應於 10 個二進位敏感屬性的平均 AUC。與表 2 實驗給出的結論不同,在 REDDIT 庫中,複合框架的效果並不如單獨處理每個敏感屬性的好。這說明,本文提出的複合對抗性框架效果受到不同的資料庫特性影響

圖 3. 使用不同嵌入方法時,預測 Reddit 數據集中敏感屬性的能力

Q3:對未知敏感屬性組合的不變性

使用複合編碼器的一個優勢在於能夠生成對不同敏感屬性組合不變的嵌入。對於一個單獨的節點,能夠生成 2^K 個獨立的嵌入。本文在 REDDIT 庫中進行實驗,這是由於與另外兩個庫相比 REDDIT 庫的敏感屬性數量最多。由圖 3 中的實驗可知,本文提出的方法對於未知組合的實驗效果下降很小(0.025),表明該方法具有對未知敏感屬性組合的不變性。

小結

基於圖節點嵌入的圖表示學習是大規模推薦系統中廣泛應用的一種重要方法,本文重點討論的是基於圖嵌入演算法的去偏處理。該方法目前還存在很多局限性,一是,本文使用的對抗損失函數僅停留在理論分析層面,近期的研究中陸續提出了其他損失函數,包括非對抗的損失函數,這些損失函數是否更適合於本文所討論的問題,還缺少進一步的分析;二是,本文討論的是針對屬性層面集合的公平性問題,對於一些子集合(由多個屬性組成的集合)層面的公平性問題,並未涉及;三是,本文是在理想實驗條件下對不同屬性進行的組合,這種理想條件假定的是不同屬性具有公平的組合機會。然而在實際應用場景中,用戶本身就是有偏見的,例如與男性用戶相比,女性用戶搜索時會著重考慮搜索結果是否是性別公平的,這種用戶介面的偏見是否會對本文提出的框架有所影響,本文並未做討論。

2、Fair Regression: Quantitative Definitions and Reduction-Based Algorithms

https://arxiv.org/pdf/1905.12843.pdf

隨著機器學習涉及到我們生活中越來越重要的方面,包括教育、醫療、刑事司法和貸款等,越來越多的人開始關注如何確保演算法公平地對待不同的亞群體用戶。這一問題,在「分類」這一機器學習應用領域中的研究和討論最為廣泛,近年來已經提出了一些衡量公平度的定量指標,由此產生了一系列旨在滿足這些要求的演算法。然而,這些演算法主要適用於離線以及小的決策問題,例如招聘、學校錄取、貸款接收/拒絕決策問題。在實際問題中,更多的分類演算法是要求評估一個連續的問題,比如工作是否成功、大學一年級的平均績點成績,以及放貸的違約風險。因此,已有的關於公平分類的演算法適用範圍相當有限。

本文的研究目的是提出一種與原有演算法相比適用範圍更廣泛的、回歸任務和模型類的演算法。本文將分類問題考慮為一個實值目標預測問題(Predicting a Real-Valued Target),同時使用一個任意 Lipschitz 連續損失函數來度量預測品質。每個樣本中都包含有一個受保護的屬性,例如種族、性別,演算法的目標是保證這些屬性的公平性。本文主要研究兩類公平問題:統計奇偶性 (Statistical Parity,SP),預測結果在統計上依賴於受保護的屬性;有界群體損失 (Bounded Group Loss,BGL),任何受保護群體的預測誤差都低於某個預先指定的水平。本文將公平回歸(Fair Regression)定義為在這些約束條件下最小化實值預測的預期損失任務。針對兩類公平問題,本文提出了不同的演算法:對於 BGL,本文提出在每個子種群中,受損失約束的損失最小化問題可以通過演算法簡化為一個加權損失最小化問題。對於 SP,如果我們將實值預測空間離散化,那麼在一定的約束條件下,公平回歸的任務可以簡化為代價敏感的分類問題。

假定我們要解決的是一般的數據預測問題,模型輸出值是實數。我們首先定義損失函數。假定訓練樣本為 (X,A,Y),其中,X 為特徵向量,A 為受保護的屬性(有限值),Y 為標記,X 為連續高維向量。A 可屬於 X 也可不屬於,Y 可為連續值也可為離散值。給定一個預測函數 f:X→[0,1],演算法目標是給定 X,找到滿足公平性原則(SP/BGL)的能夠準確預測 Y 的預測函數 f。與之前演算法討論的問題不同,Y 和 f(X)都為實值函數。f(X) 預測 Y 的準確度由損失函數 l(Y,f(X)) 衡量。一般性地,損失函數要求滿足 l1 範數的 1-Lipschitz 約束:

公平性定義

本文中進行公平性分類和回歸過程,使用了兩個基本的定量統計定義:

SP (Statistical parity):預測函數 f 如果獨立於某個受保護的屬性 A,即預測函數 f 滿足 (X,A,Y) 上分布的統計奇偶性,與受保護屬性無關,我們就說該函數滿足 SP 要求。當 f(X)∈[0,1] 時,我們有:P[f(X)≥z|A=a]=P[f(x)≥z]。

BGL(Bounded group lost):如果對於每個受保護的屬性 A 來說,預測損失都低於某一預先確定的值,這個函數 f 滿足於 BGL。以語音或人臉識別任務為例,這一公平性要求表示所有的組別都能獲得較好的識別效果。當 E[l(Y,f(X))|A=a]≤ζ,我們得到預測水平為ζ的預測函數 f。

公平回歸(Fair Regression)

公平回歸的過程就是在滿足 SP 或 BGL 的前提下最小化損失函數 E[l(Y),f(X)]。我們需要在該前提的約束下進行優化。

SP:本文設置一個可調值用於控制公平性的準確度,例如針對每個屬性的鬆弛參數ε_a,此時公平回歸任務為:

(1)

BGL:針對每個屬性,設定一個約束參數ζ_a,此時公平回歸問題為:

(2)

與第一篇論文提到的公平分類相似,為了實現更好的公平性-準確性權衡,這篇論文的作者在公平回歸問題中引入一個隨機預測因子(Randomized predictors):首先根據分布 Q 選取 f,然後基於 f 進行預測。基於公式(1)和(2)給出下述符號:

由此得到 SP 的目標函數:

(3)

以及 BGL 的目標函數:

(4)

監督學習示例

本文作者展示了如何將公平回歸問題轉化為三個標準的學習問題:加權最小二乘回歸、在不公平約束下的加權風險最小化(無公平性約束)、成本敏感分類問題。加權最小二乘回歸的風險優化問題:給定數據集 {(Wi,Xi,Yi)},Wi 為非負權重,f 最優化權重經驗風險:

在不公平約束下的加權風險最小化:使用 l 衡量準確度,能夠得到針對相同類別 F 的加權最小二乘學習者。損失函數為:

成本敏感分類:給定數據集 {(X^i,,Ci)},其中 X『i,, 為特徵向量,Ci 為表徵成本(例如損失函數)區別。正值 Ci 表示 0 為最佳,負值 Ci 則表示 1 為最佳。成本敏感分類的最終目標為找到能夠最優化經驗成本的分類器 h。給定數據集 {(Wi,X^i,Yi)},當 Yi=1{Ci≤0},以及 Wi=|Ci|,目標函數為:

根據以上,作者就可以做出有 SP 或者 BGL 約束的公平回歸演算法。

實驗結果

本文使用如下資料庫進行實驗比對:成人庫(Adult)、法學院(Law School)、社區和犯罪(Communities&Crime)。由於前兩個庫較大,本文也在其子庫上進行了實驗。對比基準線演算法包括不受任何公平約束的回歸,以及來自公平分類和公平回歸領域的兩個基準線演算法。兩個基準線演算法具體為:在任務為最小二乘回歸的三個數據集上,本文使用完全實質性機會均等(full Substantive Equality of Opportunity, SEO)[10] 演算法作為基準線;在兩個任務為 logistic 回歸的數據集上,本文運行公平分類(Fair Classification,FC)[11] 演算法作為基準線。

圖 4 給出了 SP 約束下的相對測試損失與最壞約束衝突對比實驗結果,該實驗通過從實際損失中減去最小基準線損失來計算相對損失。圖 4 給出了 95% 的置信區間來表示本文方法和公平分類(FC)的相對損失,也給出了 95% 的置信區間來表示約束違反(對所有方法都一樣)。除了 Adult 庫中公平分類(FC)效果更好,在其他資料庫中本文提出的方法效果都為最優。此外,本文所提出的方法在減小差距(不公平)的同時,並不會對總體損失造成嚴重影響。本文所提出的方法在全部最小二乘任務中效果都為最優,但在 logistic 回歸任務中,效果低於公平分類(FC)。

圖 4. SP 約束下的相對測試損失與最壞約束衝突對比

小結

本文所提的演算法能夠有效處理一系列損失和回歸問題,同時在保持總體準確度的同時減小了偏見(差異)。在本文給出的實驗中,公平分類 (FC) 作為 logistic 回歸的一個強大基準線演算法展現出了良好的性能,在一些實驗條件下效果甚至優於本文提出的演算法。這表明本文所提出的基於回歸的歸約啟發式方法還存在一些缺陷,這也為以後的研究留下了改進空間。

3、Identifying and Reducing Gender Bias in Word-Level Language Models

https://arxiv.org/pdf/1904.03035.pdf

語言建模(Language Model)是一項非常容易受到性別偏見(Gender Bias)影響的自然語言處理任務,同時也非常具有實際應用價值,例如螢幕鍵盤中的單詞預測。本文的研究目的是識別用於語言建模的訓練數據集中的性別偏見,以及減少其對模型行為的影響。具體來講,本文的工作是評估性別偏見對於在文本語料庫中訓練的單詞級別的語言模型的性能影響。

本文首先通過對訓練得到的嵌入特徵和共現模式進行定性和定量分析,從而檢查數據集中存在的偏見。然後,在數據集上訓練 LSTM 單詞級別的語言模型,並測量生成輸出的偏見(如圖 5 所示)。第三,應用一個正則化過程,目的是使得模型學習到的嵌入特徵最小程度依賴於性別,同時進行獨立的對輸入和輸出嵌入特徵的去偏處理。

圖 5. 三層 LSTM 模型

分析用於建立最新語言模型的公開數據集所顯示的性別偏見

本文選擇了三個公開數據集進行驗證,包括:Penn Treebank (PTB)、WikiText-2 和 CNN/Daily Mail。PTB 由科學摘要、電腦手冊、新聞文章等不同類型的文章組成,其中男性單詞的計數高於女性單詞。WikiText-2 由維基百科的文章組成,它比 PTB 更加多樣化,因此男女性別詞的比例更加平衡。CNN/Daily Mail 是從體育、健康、商業、生活方式、旅遊等主題的各種新聞文章中整理出來的。這個數據集的男女性別比例更加平衡,相較於前兩個數據集來說,存在的性別偏見最小。

本文使用包含 1150 個隱藏單元的三層 LSTM 單詞級語言模型 (AWD-LSTM) 測量生成輸出的偏見程度[3],使用複雜度(Perplexity)作為衡量標準。在對三個公開數據集的驗證過程中都得到了合理的複雜度,分別為 PTB 62.56、Wikitext-2 67.67、CNN/Daily Mail 118.01。

複雜度(Perplexity)是一種常用的語言模型評價標準,可以理解為,如果每個時間步長內都根據語言模型計算的概率分布隨機挑詞,那麼平均情況下,挑多少個詞才能挑到正確的那個。即複雜度(Perplexity)刻畫的是語言模型預測一個語言樣本的能力,通過語言模型得到一條語言樣本的概率越高,語言模型對數據集的擬合程度越好,建模效果越好。

分析性別偏見對基於遞歸神經網路 (RNNs) 的單詞級語言模型的影響

使用能夠表徵性別的單詞來表示一個單詞在上下文中出現的概率:

其中 c(w,g) 是上下文窗口,g 是一組性別辭彙,例如,當 g=f,這樣的詞包括 he,her,woman 等,w 是語料庫中的任何單詞,不包括停止辭彙和性別相關辭彙。關於 c(w,g) 的選擇,本文採用了固定長度和權重以指數方式遞減(0.95)的有限長度窗口大小兩種方式進行實驗。

定義特定詞的偏見分數為:

要對從訓練語料庫和語言模型生成的文本語料庫中取樣得到的文本中的每個單詞測量這個偏見分數,其中,正偏分數意味著該詞與女性辭彙的搭配頻率高於與男性辭彙的搭配頻率。在假設無限的語境中,偏見分數應當接近於 0,例如,「doctor」和「nurse」在對話過程中與男性和女性單詞搭配出現的頻率應當一樣多。

為了評估每個模型的去偏性,測量生成的語料庫的偏見分數計算如下:

此外,為了估計偏見放大或縮小的改變程度,本文擬合了一個單變數線性回歸模型,該模型對上下文單詞的偏見評分如下:

其中,β為與訓練數據集相關的比例放大測量值,減小β意味著對模型去偏,c 為上文定義的 context。本文利用評估語料庫中每個上下文單詞的絕對平均值μ和標準偏差σ來量化偏見的分布:

最終,取絕對偏見分數的平均值作為評估依據。

減少在這些模型中獲得的偏見的方法

前期的研究表明,機器學習技術通過捕捉數據模式來做出連貫的預測,可能能夠捕獲甚至放大數據中的偏見 [4]。本文分別對輸入嵌入、輸出嵌入和同時兩種嵌入這三種情況進行了去偏處理。本文使用的方法為:使用 [5] 中的方法從學習到的輸出嵌入中提取一個性別子空間。然後,根據 [6] 中的方法在單詞級別(word level)的語言模型上訓練這些嵌入,而不是使用無偏預訓練的嵌入 [6]。

使用 w∈Sw 表示單詞嵌入,Di,…,Dn⊂Sw 表示定義集,包括性別辭彙對,例如男人和女人。定義集是為每個語料庫單獨設計的,因為某些詞並不會出現在所有語料庫中。對於一個訓練語料庫,同時出現的與性別相關的相反的辭彙,則將它們認定為一個定義集,{ui,vi}=Di。矩陣 C 是定義集中辭彙對之間的差異向量的集合,辭彙對的差異情況表徵了性別資訊。對 C 進行奇異值分解處理:

將 V 的前 k 列定義為性別子空間 B=V_1:k。矩陣 N 由無偏嵌入組成。如果想讓嵌入的偏見最小,那麼將其映射到 B 中時,令其 Frobenius 範數的平方值也是最小。為了減少模型中嵌入層學習到的偏見,在訓練損失中加入以下正則化項:

其中,λ控制最小化嵌入矩陣 W(N 和 B 推導得到的矩陣)的權重,N 和 C 在模型訓練期間迭代更新。

在語言模型中隨機輸入 2000 個種子作為開始生成單詞的起點。使用前面的單詞作為語言模型的輸入,並執行多項選擇以生成下一個單詞,重複該步驟 500 次,最終得到三個數據集對應每個λ的 10^6 個 token。

結果分析

本文使用 RNN 進行模型訓練。結果見表 4。數據集的整體偏見可由μ表徵,較大的μ表示語料庫存在較大的性別偏見。由表 4 中的實驗結果可知,隨著λ值增大,μ逐漸減小直至穩定,因此λ的優化存在一個區間。本文還對單個單詞的偏差分數進行了對比以評估去偏的效果。β的傾斜程度表示了模型相對於訓練語料庫的放大或減弱效果,β值的大幅下降表示減弱偏差,反之亦然。β的負值則假定損失項沒有產生其它影響。本文給出的實驗結果中,λ較大時β也會增大,作者認為這可能是因為模型不穩定所造成的。此外,對於去偏處理參數μ和σ的影響很小,作者認為它們無法捕獲單次級別的改進。基於上述實驗結果,作者推薦使用單詞級別的評估項,例如β,來評估語料庫級別的去偏處理效果的魯棒性。

表 4. PTB、WikiText-2、CNN/Daily Mail 中的實驗結果

表 5 為從 CNN/Daily Mail 的生成語料中選擇的目標辭彙。特彆強調與女性相關的詞 crying 和 fragile,而一般認為與男性相關的辭彙 Leadership 和 prisoners。當λ=0 時,這些偏見非常明顯。對於 fragile,當λ=1.0 時,生成文本中幾乎沒有對女性的辭彙提及,從而得到大量的中立文本。對於 prisoners,λ=0.5 時情況也類似。

表 5. 不同λ值時 CNN/Daily Mail 中的生成文本比較

小結

本文使用了兩個不同的指標量化語料級別的性別偏見:絕對平均值μ和標準偏差σ。此外,提出了一個用於評估去偏效果的相關矩陣β,作者通過對訓練語料庫生成的文本語料庫中的單詞級別的性別偏見進行回歸分析來計算β。

本文提出的方法可以處理語言模型中單詞級別的詞分布問題。該方法的目標是測量性別偏差,但並不能檢測在去偏模型和數據中仍然存在的顯著的偏見。此外,作者也提出,本文的方法在傳統的語言模型中增加了一個去偏正則化項,這可能會帶來複雜度與偏見處理權衡的問題,例如,在一個無偏的模型中,男性和女性的語言被預測的概率幾乎相等,減小性別偏見會導致語言模型的複雜度增高。

4、本文總結

隨著經合組織的《經合組織人工智慧原則》、歐盟《人工智慧倫理指南》和《人工智慧政策與投資建議》、20 國集團《人工智慧原則》以及《北京人工智慧原則》等一系列文件的發布,人工智慧治理成為了 2020 年廣泛關注的議題,本文所探討的「機器學習中的公平公正」,就是人工智慧治理中最關鍵的問題。

本文對機器學習中的公平公正問題進行了簡要回顧,包括數據偏見和演算法偏見兩類。在此基礎上,本文結合 ICML 2019 中的三篇文章,針對演算法偏見分別對機器學習領域中的圖嵌入問題、回歸問題,以及自然語言處理領域中的語言模型問題進行了詳細分析。目前,關於演算法去偏的處理還停留在理論分析和實驗的階段,主要通過引入不同的損失函數、約束矩陣等約束項弱化模型結果中的偏見,包括第一篇文章中的對抗損失函數、第二篇文章中的統計奇偶性和有界群體損失函數,以及第三篇文章中的去偏正則化項等。演算法優化的最終目的是希望加入這些約束項去除偏見的同時,不會嚴重影響原有機器學習模型的主要任務性能。

由本文的分析可知,通過使用去偏演算法或模型,能夠在一定的實驗環境下去除偏見,但並不能保證對所有數據有效。此外,本文(包括現在已經發表的其他文獻)探討的去偏主要還是集中於性別偏見、種族偏見這一類常見的、容易區分的偏見屬性,對於真實應用場景下的複雜去偏問題,研究之路還很漫長,需要更多的挖掘與探索。

分析師介紹:仵冀穎,工學博士,畢業於北京交通大學,曾分別於香港中文大學和香港科技大學擔任助理研究員和研究助理,現從事電子政務領域資訊化新技術研究工作。主要研究方向為模式識別、電腦視覺,愛好科研,希望能保持學習、不斷進步。

本文中引用的參考文獻:

[1] Saxena, Nripsuta, Huang, Karen, DeFilippis, Evan,et al. How Do Fairness Definitions Fare? Examining Public Attitudes Towards Algorithmic Definitions of Fairness. https://arxiv.org/pdf/1908.09635.pdf.

[2] James Zou, Londa Schiebinger, AI can be sexist and racist—it』s time to make it fair. https://www.nature.com/articles/d41586-018-05707-8.

[3] Stephen Merity, Nitish Shirish Keskar, and Richard Socher. 2018. Regularizing and optimizing LSTM language models. In International Conference on Learning Representations.

[4] Jieyu Zhao, Tianlu Wang, Mark Yatskar, Vicente Or-donez, and Kai-Wei Chang. 2017. Men also likeshopping: Reducing gender bias amplification usingcorpus-level constraints. InEMNLP, pages 2979–2989. Association for Computational Linguistics.

[5] Tolga Bolukbasi, Kai-Wei Chang, James Y Zou,Venkatesh Saligrama, and Adam T Kalai. 2016.Man is to computer programmer as woman is tohomemaker? Debiasing word embeddings. In D. D.Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, andR. Garnett, editors,Advances in Neural InformationProcessing Systems 29, pages 4349–4357. CurranAssociates, Inc.

[6] Joel Escud ́e Font and Marta R. Costa-Juss`a. 2019.Equalizing gender biases in neural machine trans-lation with word embeddings techniques.CoRR,abs/1901.03116.

[7] Xu, B., Wang, N., Chen, T., and Li, M. Empirical evaluationof rectified activations in convolutional network.DeepLearning Workshop, ICML 2015, 2015.

[8] Ji, G., He, S., Xu, L., Liu, K., and Zhao, J. Knowledgegraph embedding via dynamic mapping matrix. InACL,2015.

[9] Toutanova, K., Chen, D., Pantel, P., Poon, H., Choudhury,P., and Gamon, M. Representing text for joint embeddingof text and knowledge bases. InEMNLP, 2015.

[10] Johnson, K. D., Foster, D. P., and Stine, R. A. Impartial predictive modeling: Ensuring fairness in arbitrary models. arXiv:1608.00528, 2016.

[11] Agarwal, A., Beygelzimer, A., Dud´ık, M., Langford, J., and Wallach, H. A reductions approach to fair classification. In ICML , 2018.

關於機器之心全球分析師網路 Synced Global Analyst Network

機器之心全球分析師網路是由機器之心發起的全球性人工智慧專業知識共享網路。在過去的四年里,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之餘的閑暇時間,通過線上分享、專欄解讀、知識庫構建、報告發布、評測及項目諮詢等形式與全球 AI 社區共享自己的研究思路、工程經驗及行業洞察等專業知識,並從中獲得了自身的能力成長、經驗積累及職業發展。