IJCAI 2020 | 推薦中的深度回饋網路

  • 2020 年 5 月 20 日
  • AI
本文介紹的是IJCAI-2020論文《Deep Feedback Network for Recommendation》,作者論文作者是來自騰訊微信的謝若冰、凌程、王亞龍、王瑞、夏鋒和林樂宇研究員。
者 | 謝若冰
1
導語
在推薦系統中,用戶的顯式回饋、隱式回饋、正回饋和負回饋都能夠反映用戶對於被推薦物品的偏好。這些回饋資訊在推薦系統中十分有用。然而,現在的大規模深度推薦模型往往以點擊為目標,只看重以用戶點擊行為為代表的隱式正回饋,而忽略了其它有效的用戶回饋資訊。
作者在本文中關注用戶多種顯式/隱式和正/負回饋資訊,學慣用戶的無偏興趣偏好。具體地,作者提出了一個Deep Feedback Network (DFN)模型,綜合使用了用戶的隱式正回饋(點擊行為)、隱式負回饋(曝光但未點擊的行為)以及顯式負回饋(點擊不感興趣按鈕行為)等資訊。DFN模型使用了internal feedback interaction component抓住用戶行為序列中的細粒度的行為級別的交互,然後通過external feedback interaction component,使用精確但稀少的隱式正回饋和顯式負回饋作為監督,從噪音較多的隱式負回饋中進一步抽取用戶的正負回饋資訊。
在實驗中,作者基於微信看一看的數據,進行了豐富的離線和在線實驗,模型與baseline相比均取得顯著提升。
 
2
模型背景與簡介
推薦系統在日常生活中被廣泛使用,為用戶獲取資訊與娛樂提供便利。推薦系統演算法往往基於用戶與系統的交互,這些交互行為可以大致分為以下兩類:顯式回饋與隱式回饋。
顯式回饋從用戶對於物品的直接態度中獲取,例如評論中的一星到五星,或者微信看一看系統中的「不感興趣」按鈕。這類回饋能夠直接表達用戶的正向以及負向偏好,但是這類回饋的數量往往不多。
隱式回饋從用戶的行為中間接獲得,例如用戶的點擊/不點擊行為。這些資訊在推薦系統中往往是海量的,但是這些資訊有著較多雜訊(用戶點擊的並不一定是他真正喜歡的)。另外,隱式回饋通常是以正回饋的形式出現,推薦中的隱式負回饋存在巨大雜訊(未展現資訊或者未點擊資訊並不一定意味著用戶不喜歡這些內容)。
在近期的深度推薦系統中,CTR導向的目標受到極大關注。因此,模型不可避免地只關注和目標緊密相關的用戶點擊行為,忽略了其它用戶行為中蘊含的豐富資訊。僅考慮CTR導向目標的推薦模型往往會遇到以下兩個問題:
(1)CTR導向目標只關注用戶喜歡什麼,沒有關注用戶不喜歡什麼。這樣,模型的推薦結果容易同質化和趨熱化,損害用戶體驗。因此,負回饋資訊是必要的。
(2)用戶除了被動地接受系統推薦的物品,有時也需要能夠主動和即時的回饋機制。用戶希望能夠高效和準確地告知系統自己喜歡或者不喜歡什麼。
另外,用戶的顯式和隱式回饋之間也會存在割裂(用戶點擊的並不一定是他真正喜歡的)。因此,顯式回饋也是必要的。顯式資訊和隱式資訊能夠作為彼此的補充,相輔相成。已有工作通過使用用戶的未點擊/未曝光行為作為用戶的隱式負回饋,這樣會引入極大的雜訊。另外一些工作嘗試使用用戶的顯式負回饋資訊。這些資訊固然精確,但是也往往比較稀疏。

圖1:微信看一看系統中的三種回饋,從左到右分別為隱式正回饋(點擊行為)、隱式負回饋(曝光但未點擊的行為)以及顯式負回饋(點擊不感興趣按鈕行為)
為了解決這些問題,綜合使用用戶多種顯式/隱式和正/負回饋資訊學習更好的無偏用戶表示,作者提出了一個Deep Feedback Network (DFN)模型。圖1中給出了在微信看一看場景中的三種用戶回饋。
DFN通過internal feedback interaction component抓住用戶行為序列中的細粒度行為級別的交互,然後通過external feedback interaction component,使用精確但稀少的隱式正回饋和顯式負回饋作為監督,從噪音較多的隱式負回饋中進一步抽取用戶的正負回饋資訊。這些回饋特徵會和其他用戶/物品特徵混合,並行使用FM、Deep和Wide層進行特徵交互,最後進行CTR預估。作者基於微信看一看推薦系統,設計了離線和線上實驗,在多個指標上具有顯著提升。這篇工作的主要貢獻如下:
1、作者第一次融合隱式正回饋(點擊行為)、隱式負回饋(曝光但未點擊的行為)、顯式負回饋(點擊不感興趣按鈕行為)和它們之間的交互資訊進行用戶行為建模;
2、作者提出了一個全新的Deep Feedback Network (DFN)模型,能夠學習到用戶無偏的興趣偏好;
3、模型在離線和在線任務上都得到了顯著提升,具有工業級實用價值。論文中也提出了一個feed流中的顯式負回饋預測任務。
 
3
模型結構
DFN模型主要分為三個階段:首先,deep feedback interaction module以用戶的多種回饋行為作為輸入,輸出用戶的回饋特徵。然後,Feature Interaction Module進一步考慮用戶的其它特徵和物品特徵,使用FM、Deep和Wide層進行特徵交互。最後,輸出層使用CTR作為訓練目標。圖2給出了DFN的整體結構。

圖2:DFN的整體結構
deep feedback interaction module是模型的主要創新點。它包括了兩個組成部分:Internal Feedback Interaction Component和ExternalFeedback Interaction Component。圖3給出了deep feedback interaction module的結構。

圖3:deep feedback interaction module
首先,在Internal Feedback Interaction Component中,用戶的隱式正回饋、隱式負回饋和顯式負回饋序列和target item一起,通過一個transformer層,得到了在各個序列內部細粒度的item-level的交互資訊,然後經過average層得到三種回饋的特徵表示,其中隱式正回饋特徵中蘊含高品質的用戶正向偏好,顯式負回饋特徵中蘊含高品質的用戶負向偏好。
第二步,在External Feedback Interaction Component中,隱式負回饋序列往往是三種行為中最多的行為,但也是雜訊最大的行為。作者把高品質的和target item交互後的隱式正回饋特徵和顯式負回饋特徵看作一種高品質指導,從用戶未點擊序列中挖掘用戶或許喜歡/不喜歡的物品,補充用戶的正向負向偏好。作者使用了一個attention層得到了兩種用戶弱正向/負向回饋特徵。這兩種弱回饋特徵和第一步的三種回饋特徵拼接後成為最終的用戶回饋特徵。
第三步,在Feature Interaction Module中,作者使用了FM、Wide和Deep層,對用戶其它特徵、物品特徵和用戶回饋特徵等進行低階/高階特徵交互。這一個模組是為了充分利用各種特徵輔助推薦,使得模型在真實工業級任務上達到最好的效果。使用Wide層主要是為了給潛在的特徵工程留下介面。
最後,作者基於CTR loss進行訓練。除去傳統的正例和未點擊負例,作者還增加了一項預測用戶負回饋點擊的loss。由於在實際推薦系統中,用戶給出主動顯式負回饋的次數極少,顯式負回饋中的負向資訊也極其強烈,所以作者單獨在loss中強調了這一項,並且給予了較大的訓練權值。

4
實驗結果
離線和線上實驗均在微信看一看上進行,離線數據集包含千萬級用戶在百萬級物品上的億級行為。模型離線CTR預估結果如圖4:

圖4:CTR預估結果
DFN模型取得了SOTA結果。作者還在圖5給出一個新的不感興趣預估實驗。由於用戶點擊不感興趣按鈕說明了用戶對於推薦結果很失望,這類推薦結果會極大損害用戶體驗,模型應該能夠對這類回饋及時捕捉並且響應,理想狀態下應該通過用戶實時行為避免用戶產生顯式負回饋的結果。

圖5:dislike預估結果
作者還進行了消融實驗證明了回饋模組的每一個組成部分都是有效的。

圖6:消融實驗結果 
最後,作者還給出了參數實驗,探索不感興趣的loss的權重影響。

圖7:參數實驗結果

5
總結
在本文中,作者初步研究了推薦系統中的多種顯式/隱式和正/負回饋之間的協同合作機制。DFN模型能夠基於多種回饋資訊即時學習到用戶的無偏的正負向興趣,在點擊預估和不感興趣預估等多個任務上均有提升效果。直觀而有效的模型也使得DFN能成功在工業級推薦系統中得到部署和驗證。
我們預測用戶的顯式回饋,特別是顯式負回饋的資訊將會未來推薦系統中起到更加重要的作用,在發掘推薦系統可解釋性同時提升用戶體驗。