優惠券推薦中的機器學習丨翻譯徵文丨雷鋒字幕組

2020 年 6 月 17 日
AI
深度學習

multi-armed bandits問題解決演算法是如何幫助星巴克向消費者發送個性化推送的。

丨為了買一款商品，你會等待多久一次的商品優惠券？在完成幾筆無趣的交易後，你是否有想要放棄使用優惠券推送服務的衝動？

在數字平台內，優惠券系統已經普遍用於提高消費者的參與性。通過給用戶提供挑戰和對應的獎勵，商家的服務不但更加有吸引力，還能增加消費者粘性，從而增強品牌影響力。然而，由於每個消費者對每個優惠資訊推送的反應不同，頻繁推送糟糕的優惠價可能會導致消費者對商家脫粉。因此，了解要提供哪種優惠券是一項相當複雜的任務。

為了克服這個問題，可以使用機器學習技術，建立數據驅動的消費者資料並開發更好的優惠券推薦。因此，本文說明了為了建立優惠券推薦器系統，星巴克移動獎勵APP使用K-means演算法結合multi-armed bandits問題解決演算法。

本文是提供給優達學城的機器學習工程師納米學位的一個頂點項目的成果，其源程式碼可以在該存儲庫中找到。請參閱存儲庫上的詳盡報告，以獲取更多技術資訊，例如參數掃描和數據集處理。

事不宜遲，讓我們開始吧！

星巴克獎勵移動端APP

星巴克每隔一天就會向消費者發送不同挑戰難度和有效期的優惠券推送。每個推送都可以通過多種營銷渠道（電子郵件，移動，社交媒體和網頁）發送，並且一旦推送挑戰完成，他們將獲得最高難度級別的獎勵。
用戶查看優惠券時，他們可以決定：

完成挑戰 🙂
忽略挑戰，不使用優惠券購買 😐
忽略所有:(

這是App幾周的營銷渠道中的流量概覽：

星巴克獎勵APP中的消費者流的桑基圖（作者提供的影像）。

推送發出後，我們根據每個營銷渠道進行分析：

哪些推送沒有被點擊；
哪些變成了購買；
哪些引發未來的購買
哪些被忽視，但用戶仍從APP下單

在抽樣的數據集中，100％的推送都被查閱–最可能是因為優惠券是通過多個渠道發送的。查看優惠推送的比例很高，帶來一個好處，使消費者解該品牌及其提供的優惠。當這些優惠導致購買行為時，可以推斷出，消費者不僅意識到品牌的服務，而且也被品牌吸引。

然而，存在著大量的未使用優惠券的購買行為。這表明，即使使用了合適的營銷渠道，獎勵優惠也對用戶沒有吸引力，與產品營銷策略本身相比，這些用戶更關注商品的特性。也許通過相同的渠道更改推送的優惠資訊（這將是我們的推薦系統），這些顧客會更願意接受優惠並獲得獎勵。

在營銷渠道結束時，優惠券可以實現的最重要任務之一就是說服顧客進行未來的購買。這可以成為促使消費者成為品牌擁護者的代理人[2]。

丨當消費者傾向於在同一商家進行重複購買時，他/她可能會說服同伴嘗試商品，從而形成更高的知名度和品牌在市場上的吸引力。

請注意，這是移動獎勵APP的一個重大失誤，因為111k優惠推送中只有22.9k導致了未來的購買。

要知道，優惠發送後，消費者參與渠道的各個步驟所花費的時間與潛在客戶的狀態高度相關。潛在客戶，其狀態可以是冷，熱或合格[3]。用戶查看優惠後，考慮到他是對優惠感興趣的，就可以將其視為潛在客戶。

例如，當客戶打開電子郵件推送時，標題可能會吸引他-因此我們認為他的狀態為熱身中。但是，如果他/她不繼續參與推送內容，他的狀態將開始變得越來越冷，這意味著他對接受該優惠的興趣逐漸減少。

理想情況下，用戶應該花很短的時間查看優惠並完成它。這是我們的數據集經過時間的分布：

從（a）推送和邀請查看和（b）查看優惠並完成它的延時攝影分布（圖片由作者提供）。

注意從查看推送到完成優惠的時間分布（以小時為單位）大致遵循長尾分布。這意味著大多數購買都來自即時完成的推送。為了分析分布的尾部有多長，我們可以將數據擬合到冪律分布，其冪分布函數根據

其中參數α越低，尾部越長。對於我們的數據集，第一個遊戲中時差為α= 10.57，第二個時差為α= 7.01。當然，這些經過的時間會受到商品屬性（例如難度和持續時間）的高度影響，這些屬性僅會在消費者查看推送後影響時間間隔，從而解釋了為什麼我們的時間間隔尾巴較長（b）。

營銷方面的概述有助於我們創建一個自定義函數，該函數指示對給定顧客的優惠價是否合適：我們將其稱為MAB獎勵函數，其演算法描述如下。

（圖片由作者提供）

Multi-Armed Bandits （MAB）多臂老虎機問題

MAB演算法已經在統計學中進行了廣泛的研究以解決老虎機問題。假設一個賭徒，可以反覆從k台老虎機中拉動搖桿，並可能從中獲得報酬。

當賭徒與老虎機互動時，他注意到其中一台老虎機似乎在提供更多的獎勵，因此他會好好利用這台老虎機的臂桿。但是，其他的老虎機可能會提供更多獎勵。在這種情況下，他需要決定是否：

利用迄今獲得最佳累積獎勵的一台老虎機，或

探索其他老虎機，從長遠來看這可能會帶來更好的累積獎勵。

丨從理論上講，代理正在嘗試著估計每台機器的獎勵概率分布函數，而不會在期望獎勵較低的機器上進行過多嘗試。

用最簡單的數學公式表示，MAB由k個機器組成，這些機器具有自己的概率分布p，預期收益μ和方差σ-最初這些都是未知的。在每個時期t∈[1，T]上拉動機器臂桿a_i並獲得獎勵。然後，賭徒選擇下一個要拉的臂桿，遵循政策：選擇到目前為止獲得最高收益的那個臂桿，或選擇可能帶來更高收益的另一臂桿。在T輪中最高的收益為

其中，μ*是來自最佳臂桿的預期回報。換句話說，他需要在探索與守成之間做出權衡。

已經採用了多種技術來解決此問題，其中一種是ϵ-greedy 方法[1]。在這種經典方法中，賭徒每輪選擇目前平均收益最高的臂桿，概率為1 — ϵ，或者選擇隨機臂桿，概率為ϵ。

可以推斷出，ϵ參數對探索-守成的權衡有關鍵影響。對於較高的ϵ，貪婪行為（the greedy action ）–選擇目前平均收益最高的臂桿，被選中的可能性較低，從而使賭徒們去探索更多的選擇。相反，ϵ較低時，該演算法傾向於選擇貪婪行為。

ϵ-greedy 是眾多演算法的基礎。為了在最初的幾輪中有更多的探索，而在後面的幾輪中有更多的守成，則可以使用 Decay ϵ-greedy方法應用多樣化的β。在這種情況下，第n輪中的ϵ定義為

其中β控制ϵ減小的速度，n是當前輪次。此外，可以定義閾值λ以限制在隨後的輪次中的最小探索次數。

MAB演算法已用於許多需要順序決策的應用程式中，例如推薦系統。在這種情況下，考慮到向用戶（代理）提供了幾項商品（老虎機），並且用戶可以根據獎勵概率分布函數來消費，因此MAB用於對消費概況進行建模。

對於當前的星巴克獎勵項目，將其應用於模擬顧客資料，將每條臂桿視為一個優惠價，並定義一個訂製的獎勵功能，以同時掌握獲得的優惠券獎勵和營銷成果，這將在之後會看到。

在星巴克獎勵應用中應用MAB
將MAB應用於問題上時，關鍵的一步是定義其獎勵功能。如我們所見，消費者進入營銷渠道的深度極大地表明了優惠報價策略的優劣。意味著，可以使用以下獎勵功能：

其中除了offerReward.，所有變數都是二進位。該方程式的下界為0，這在未查看推送時發生（使offerCompleted= 0和 futurePurchase = 0）。當給出高優惠報價獎勵，且所有二進位變數均為1（包括未來購買）時，最好的獎勵就出現了，這是營銷策略的聖杯。

建立此功能後，可以考慮以下變數來創建數據驅動的消費者資料：

年齡，收入
已訂閱的年數
每個產品的平均mabReward

在對用戶進行聚類之後，當臂桿被拉動，每個用戶組被建模為具有優惠價推送的MAB。下圖描繪了20種實現MAB訓練的平均獎勵演變（此處的項目報告中討論了所有參數制定）：

ϵ-greedy decay方法的20個實現的平均獎勵（作者提供的影像）。

注意在合併區域之前，平均獎勵是如何增長的。這是探索與守成權衡變化的結果：一開始，我們正在儘力進行探索，以便找到更佳的臂桿。隨著一次次的探索，最佳臂桿的利用變得更加頻繁，直到不再發現平均獎勵的顯著提高。

最後，可以通過從對應的MAB中拉動臂桿來預測用戶群，並提供他們優惠報價建議。由於每次迭代只能拉動一次臂桿，自然會擔心商品的多樣性。那麼在訓練階段，優惠推送多長時間被選擇一次呢？讓我們看一下下圖：

臂桿選擇數量的簇狀圖（作者提供的影像）

可以看出，在大多數集群中，十分之三的優惠推送是高度被選擇的，這意味著，通常選集的30％是被推薦的。 MAB合併後，這個數字受探索率影響很大。當探索程度較低時，模型傾向於僅推薦提供已出現的最高獎勵的優惠價。更高的探索程度可以為這次推薦帶來更佳的多樣性，但是這可能會影響使用預測方面的模型性能。

總結

我們已經看到，優惠券可以作為一款強大的互動工具，讓消費者更近距離地享受到商家的服務。瞄準合適的潛在客戶和客戶，不僅可以提高客戶轉化率，而且最重要的是，可以建立長期的客戶粘性。然而，要建立成功的目標戰略，就需要建立數據驅動的消費者資料。在這裡就依靠著機器學習的能力，商家才能實現了向消費者發送個性化的推送。

在無數的推薦演算法中，multi-armed bandits因其靈活使用手動獎勵功能而得到了廣泛的探討，如我們曾用之於graps市場前景。如果你想深入研究更強大的MAB方法，我強烈建議你閱讀Spotify研究人員開發的關於BaRT（Bandits for recsplantations as Treatments）的文章[4]。

[1] Sutton, Richard S. and Barto, Andrew G. Reinforcement Learning: An Introduction (2018), The MIT Press.

[2] P. Kotler, H. Kartajaya and I. Setiawan, Marketing 4.0: Moving from Traditional to Digital (2016)

[3] The Difference Between Cold, Warm and Qualified Leads

[4] J. McInerney, B. Lacker, S. Hansen, K. Higley, H. Bouchard, A. Gruson, R. Mehrotra. Explore, Exploit, and Explain: Personalizing Explainable Recommendations with Bandits (2018), ACM Conference on Recommender Systems (RecSys).

原文鏈接：//www.yanxishe.com/TextTranslation/2588，來自雷鋒字幕組提供的選題

Tags: 深度學習

優惠券推薦中的機器學習丨翻譯徵文丨雷鋒字幕組

Multi-Armed Bandits （MAB）多臂老虎機問題

總結

VirMach 便宜 VPS

QNews

優惠券推薦中的機器學習丨 翻譯徵文丨雷鋒字幕組

Multi-Armed Bandits （MAB）多臂老虎機問題

總結

分享此文：

Related Posts

有道技術沙龍 | JAVA下午茶

騰訊聯合三大機構發起公益創新挑戰賽，打造科技公益新模式

京東香港上市面向散戶部分獲178.9倍認購：劉強東最新股權曝光

1899元 小米顯示器27英寸開箱圖賞：165Hz、支援豎屏

VirMach 便宜 VPS

QNews

熱門搜尋

優惠券推薦中的機器學習丨翻譯徵文丨雷鋒字幕組

1899元小米顯示器27英寸開箱圖賞：165Hz、支援豎屏