推薦系統公平性論文閱讀(一)
公平性(fariness)-新的突破點
推薦系統的公平性(fairness)正在成為推薦系統領域的一個新的突破點,目前對於推薦系統這種需要落地的應用,單純的在模型領域取得準確率等指標的突破已經不是唯一的追求。雖然fancy的模型依然重要,但是越來越多的學者關注於模型在應用中的可解釋性以及機器學習算法中性別偏見、種族歧視等不公平問題,而這也與社會學、人口學、經濟學等不同學科產生了交叉。
我決定先選幾篇前沿論文進行復現,然後再總結一下自己閱讀該領域論文的初步心得和想法。
領域縱覽
我首先通過Google Scholar查詢了推薦系統公平性領域相關的綜述論文,大致對該領域的發展現狀和技術脈絡有了初步的了解。
我其中最讓我印象深刻的一篇論文綜述是《A Survey on Bias and Fairness in Machine Learning》[1],這篇綜述高屋建瓴地總結了在推薦系統乃至整個機器學習領域中可能存在的偏差和不公平現象。這篇論文將機器學習系統中的公平性問題劃為數據偏差(bias in data), 算法公平性(algorithmic fairness)兩部分。針對這兩個問題學術界分別提出了不同的解決方案。
而對於相關的算法,作者將其劃分為了3個類別,包括Pre-processing,In-processing,Post-processing。Pre-processing用於在正式推薦系統算法之前,對數據進行轉換,從而移除潛在的差別和不公平。In-processing主要用於改進目前的最先(state-of-art)的學習算法,目的為在模型的訓練階段移除差別。Post-processing將學習模型做為黑盒,不能修改訓練數據和學習算法,而在現有的推薦算法的預測結果上進行調整。
然後,我又閱讀了人大AIBox實驗室趙鑫老師寫的一些關於推薦系統公平性的綜述,對這個領域有了更加宏觀的認識。同時我通過了SIGIR、WSDM、KDD等相關頂會論文,對目前該領域的研究的前沿算法好最新認識有了更深的理解。我對我所讀過的論文中提出的保證推薦系統公平性的解決方案按照3個類別進行分類。
Pre-processing 目前在該領域已經提出了方法包括但不限於:使用對抗學習(adversarial learning)方式訓練濾波器(filter),然後對用戶及物品嵌入向量(embeddings)中的敏感信息進行過濾[2];添加校正數據(antidote)以改變原始優化目標函數[3];用對抗學習移除嵌入向量中的偏差部分,並通過正交性正則化(orthogonality)使有偏差用戶向量盡量正交於無偏差用戶向量,從而更好地區分二者[4]。
In-processing 目前在該領域已經提出的方法包括但不限於:在訓練時,將不同組之間點擊情況的差異做為目標函數的正則項[5];引入受限馬爾科夫決策過程(CMDP)解決長期公平性問題[6];從系統的多組分中選擇最優的組分進行公平性改善[7]。
Post-processing
目前在該領域已經提出的方法包括但不限於: 使用基於0-1整數規劃的再排序(re-ranking)方法,以保證組間均衡[8];使用貪心算法(greedy algorithm)解決多組的全局平衡問題[9];將啟發式再排序策略用於基於知識圖譜(knowledge graph)的可解釋性推薦系統[10],通過再排序策略解決偏差分化(bias disparity)問題[11]。
我的分析
在對該領域的頂會論文進行縱覽後,我對目前的推薦系統公平性模型和算法的主要思想進行了歸納。
首先,對於Pre-processing類算法而言,重點是改變用戶和物品的表示(representation),使之符合公平性推薦算法的要求。而目前除了共現矩陣之外,越來越強調基於知識圖譜學習用戶和物品的表示,以學習到實體之間的關係並提高推薦系統可解釋性。如何針對這種基於圖結構的表示進行去除偏差是領域內的研究熱點。
對於In-processing類算法,重點在於改進推薦算法的目標函數,同時考慮到推薦平衡性、多方利益、推薦算法的動態調整性等,重點在於使算法考慮的因素更為全面,而這往往需要從整個推薦系統層面進行分析和考量。
對於Post-processing類算法,因為處於通用性考量,多將原始推薦算法做為黑盒模型處理,專註於調整推薦後的結果。而這最終多將原始問題轉化為一個最優化問題進行處理。因為而這種優化問題多為整數規劃問題,是NP-complete的,多採用啟發式算法進行求解。
接下來的時間我將着重對[2],[6],[8]這三篇論文進行復現。我認為通過復現論文可以更好地把握算法細節,對論文的思想也會有更加深刻的理解。
參考文獻
- [1] Mehrabi N, Morstatter F, Saxena N, et al. A survey on bias and fairness in machine learning[J]. ACM Computing Surveys (CSUR), 2021, 54(6): 1-35.
- [2] Wu L, Chen L, Shao P, et al. Learning Fair Representations for Recommendation: A Graph-based Perspective[C]//Proceedings of the Web Conference 2021. 2021: 2198-2208.
- [3] Rastegarpanah B, Gummadi K P, Crovella M. Fighting fire with fire: Using antidote data to improve polarization and fairness of recommender systems[C]//Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. 2019: 231-239.
- [4] Wu C, Wu F, Wang X, et al. Fairness-aware News Recommendation with Decomposed Adversarial Learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(5): 4462-4469.
- [5] Beutel A, Chen J, Doshi T, et al. Fairness in recommendation ranking through pairwise comparisons[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery
& Data Mining. 2019: 2212-2220. - [6] Ge Y, Liu S, Gao R, et al. Towards Long-term Fairness in Recommendation[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 2021: 445-453.
- [7] Wang X, Thain N, Sinha A, et al. Practical Compositional Fairness: Understanding Fairness in Multi-Component Recommender Systems[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 2021: 436-444.
- [8] Li Y, Chen H, Fu Z, et al. User-oriented Fairness in Recommendation[C]//Proceedings of the Web Conference 2021. 2021: 624-632.
- [9] Kaya M, Bridge D, Tintarev N. Ensuring fairness in group recommendations by rank-sensitive balancing of relevance[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 101-110.
- [10] Fu Z, Xian Y, Gao R, et al. Fairness-aware explainable recommendation over knowledge graphs[C]//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2020: 69-78.
\bibitem{bias_disparity}
Tsintzou V, Pitoura E, Tsaparas P. Bias disparity in recommendation systems[J]. arXiv preprint arXiv:1811.01461, 2018.