中國首次!清華劉奕群團隊獲得WSDM 2022唯一最佳論文獎,港中文獲得「時間檢驗獎」

  • 2022 年 2 月 23 日
  • AI

作者 | 西西
編輯 | 陳彩嫻
2月21日至25日,第15屆國際互聯網搜索與數據挖掘大會(WSDM 2022)在線上召開,來自清華大學電腦系的研究團隊獲得了大會唯一的最佳論文獎!
這也是自大會創辦以來,由來自中國的科研團隊首次獲得該獎項。
WSDM(讀音為「Wisdom」)由國際電腦學會(ACM)旗下的資訊檢索(SIGIR)、數據挖掘(SIGKDD)、資料庫(SIGMOD)與網路資訊處理(SIGWEB)等四個專委會共同舉辦,在數據挖掘領域享受崇高的學術聲譽。
此外,除了最佳論文獎,WSDM大會還公布了「時間檢驗獎」的獲獎工作——香港中文大學團隊的「Recommender systems with social regularization」(WSDM 2011)。


1

WSDM最佳論文獎
據大會官網資訊,清華大學獲得今年WSDM唯一最佳論文獎的工作是「Learning Discrete Representations via Constrained Clustering for Effective and Efficient Dense Retrieval」(基於有約束聚類的離散表示學習提升稠密向量檢索性能)。
論文鏈接://arxiv.org/pdf/2110.05789.pdf
論文作者為:詹靖濤,毛佳昕,劉奕群,郭嘉豐,張敏,馬少平。第一作者為清華大學電腦系博士生詹靖濤,通訊作者為清華大學電腦系劉奕群教授,相關成果由清華大學、中國人民大學、中科院計算所等單位共同完成。
圖註:劉奕群教授
隨著深度學習和預訓練語言模型等的廣泛應用,稠密向量檢索已經成為互聯網搜索過程中最重要和頻繁的數據操作之一,但已有的稠密向量檢索模型與傳統索引檢索模型相比大幅增加了存儲開銷與時間複雜度,造成了性能提升的重要瓶頸。
針對上述問題,這篇論文提出了一種通過有約束聚類(Constrained Clustering)改進稠密向量檢索過程的檢索模型RepCONC。
圖註:論文提出的檢索模型訓練流程圖
該模型基於有約束聚類方法端到端地聯合優化文本編碼器和向量量化過程,RepCONC約束稠密向量被均勻地分配到不同的量化中心,從而大幅提升了稠密向量表示的可辨別性,改善了檢索性能。
論文從理論上證明了該約束的重要性,並使用最優傳輸理論推導了有約束聚類過程的近似解以提升演算法效率。RepCONC可以在業界通用的向量倒排文件系統(IVF)上運行,即使脫離GPU僅使用CPU也能取得較好的索引壓縮與檢索效果,比傳統稠密向量檢索方法在壓縮比、檢索性能、時間效率等方面均有顯著提升。
圖註:約束聚類過程的示意圖
除了每年選出的唯一最佳論文,大會還分別選出了3篇最佳論文提名(Best Paper Award Runner-Ups):
  • Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model(東京工業大學)
  • Evaluating Mixed-initiative Conversational Search Systems via User Simulation(提契諾大學)
  • The Datasets Dilemma: How Much Do We Really Know About Recommendation Datasets?(南洋理工大學)



2

時間檢驗獎
獲得WSDM 2022「時間檢驗獎」的工作是來自香港中文大學的「Recommender Systems with Social Regularization」。
大會給出的頒獎理由是:
推薦系統已成為學術界與工業界經久不衰的研究課題。委員會選中這篇論文,是因為它的重要性和對領域的影響力。該論文深入探討了信任和推薦之間的關係,認識到用戶不一定與他們信任的人有相似的品味,但同時又肯定了信任對推薦的重要性。論文作者通過為多個不同的推薦任務建立最合適的社交聯繫,從而幫助確立了將社交訊號納入推薦系統的價值。因此,這篇論文不但產生了強大的影響力(在 WSDM 時間檢驗獎的所有提名中被引用次數最多),還提前預見了信任和透明度在推薦系統中的重要性,在近日已成為一個重要的話題。
該論文在2011年WSDM 2011接收。
論文地址://dennyzhou.github.io/papers/RSR.pdf
在這篇工作中,香港中文大學電腦系的研究團隊開創性地研究了當時少人問津、現下火熱的「社交推薦」問題。目前,社交推薦已成為各個互聯網產品的必備技能,微博、抖音、淘寶、微信「看一看」等等都有該功能。
他們基於用戶的社交好友資訊(從豆瓣等平台挖掘數據),提出了兩種社交推薦演算法,採用社交正則化項約束矩陣分解目標函數,來幫助提高推薦系統的預測準確性。實驗結果表明,他們的方法非常通用,適用於解決多種類型的信任感知推薦問題。
不僅如此,該論文還會反向思考,意識到:社交關係的存在可能會降低推薦品質。從單一信任出發亦可能產生準確率較低的推薦,比如擅長研究球鞋的朋友不一定擅長電影推薦。因此,作者們又很早就用相似度函數,設計了基於不同推薦任務來識別目標朋友群的演算法,以對社交系統進行更真實的建模。
在論文中,他們提出:他們相信,隨著在線社交網站的快速發展,基於社交的研究會越來越流行。事實證明,確實如此。
參考鏈接:
1.//www.wsdm-conference.org/2022/
2.//mp.weixin.qq.com/s/FLtWupAxoqAthXYQOa3YrQ?v_p=89&WBAPIAnalysisOriUICodes=10000001&launchid=10000365–x&wm=3333_2001&aid=01A3NNUgUONWBBii_bsE-e7BIuQxBjrg6ihZ9c4RkfEruJoPI.&from=10C2093010

雷峰網