优惠券推荐中的机器学习丨翻译征文丨雷锋字幕组

2020 年 6 月 17 日
AI
深度学习

multi-armed bandits问题解决算法是如何帮助星巴克向消费者发送个性化推送的。

丨为了买一款商品，你会等待多久一次的商品优惠券？在完成几笔无趣的交易后，你是否有想要放弃使用优惠券推送服务的冲动？

在数字平台内，优惠券系统已经普遍用于提高消费者的参与性。通过给用户提供挑战和对应的奖励，商家的服务不但更加有吸引力，还能增加消费者粘性，从而增强品牌影响力。然而，由于每个消费者对每个优惠信息推送的反应不同，频繁推送糟糕的优惠价可能会导致消费者对商家脱粉。因此，了解要提供哪种优惠券是一项相当复杂的任务。

为了克服这个问题，可以使用机器学习技术，建立数据驱动的消费者资料并开发更好的优惠券推荐。因此，本文说明了为了建立优惠券推荐器系统，星巴克移动奖励APP使用K-means算法结合multi-armed bandits问题解决算法。

本文是提供给优达学城的机器学习工程师纳米学位的一个顶点项目的成果，其源代码可以在该存储库中找到。请参阅存储库上的详尽报告，以获取更多技术信息，例如参数扫描和数据集处理。

事不宜迟，让我们开始吧！

星巴克奖励移动端APP

星巴克每隔一天就会向消费者发送不同挑战难度和有效期的优惠券推送。每个推送都可以通过多种营销渠道（电子邮件，移动，社交媒体和网页）发送，并且一旦推送挑战完成，他们将获得最高难度级别的奖励。
用户查看优惠券时，他们可以决定：

完成挑战 🙂
忽略挑战，不使用优惠券购买 😐
忽略所有:(

这是App几周的营销渠道中的流量概览：

星巴克奖励APP中的消费者流的桑基图（作者提供的图像）。

推送发出后，我们根据每个营销渠道进行分析：

哪些推送没有被点击；
哪些变成了购买；
哪些引发未来的购买
哪些被忽视，但用户仍从APP下单

在抽样的数据集中，100％的推送都被查阅–最可能是因为优惠券是通过多个渠道发送的。查看优惠推送的比例很高，带来一个好处，使消费者解该品牌及其提供的优惠。当这些优惠导致购买行为时，可以推断出，消费者不仅意识到品牌的服务，而且也被品牌吸引。

然而，存在着大量的未使用优惠券的购买行为。这表明，即使使用了合适的营销渠道，奖励优惠也对用户没有吸引力，与产品营销策略本身相比，这些用户更关注商品的特性。也许通过相同的渠道更改推送的优惠信息（这将是我们的推荐系统），这些顾客会更愿意接受优惠并获得奖励。

在营销渠道结束时，优惠券可以实现的最重要任务之一就是说服顾客进行未来的购买。这可以成为促使消费者成为品牌拥护者的代理人[2]。

丨当消费者倾向于在同一商家进行重复购买时，他/她可能会说服同伴尝试商品，从而形成更高的知名度和品牌在市场上的吸引力。

请注意，这是移动奖励APP的一个重大失误，因为111k优惠推送中只有22.9k导致了未来的购买。

要知道，优惠发送后，消费者参与渠道的各个步骤所花费的时间与潜在客户的状态高度相关。潜在客户，其状态可以是冷，热或合格[3]。用户查看优惠后，考虑到他是对优惠感兴趣的，就可以将其视为潜在客户。

例如，当客户打开电子邮件推送时，标题可能会吸引他-因此我们认为他的状态为热身中。但是，如果他/她不继续参与推送内容，他的状态将开始变得越来越冷，这意味着他对接受该优惠的兴趣逐渐减少。

理想情况下，用户应该花很短的时间查看优惠并完成它。这是我们的数据集经过时间的分布：

从（a）推送和邀请查看和（b）查看优惠并完成它的延时摄影分布（图片由作者提供）。

注意从查看推送到完成优惠的时间分布（以小时为单位）大致遵循长尾分布。这意味着大多数购买都来自即时完成的推送。为了分析分布的尾部有多长，我们可以将数据拟合到幂律分布，其幂分布函数根据

其中参数α越低，尾部越长。对于我们的数据集，第一个游戏中时差为α= 10.57，第二个时差为α= 7.01。当然，这些经过的时间会受到商品属性（例如难度和持续时间）的高度影响，这些属性仅会在消费者查看推送后影响时间间隔，从而解释了为什么我们的时间间隔尾巴较长（b）。

营销方面的概述有助于我们创建一个自定义函数，该函数指示对给定顾客的优惠价是否合适：我们将其称为MAB奖励函数，其算法描述如下。

（图片由作者提供）

Multi-Armed Bandits （MAB）多臂老虎机问题

MAB算法已经在统计学中进行了广泛的研究以解决老虎机问题。假设一个赌徒，可以反复从k台老虎机中拉动摇杆，并可能从中获得报酬。

当赌徒与老虎机互动时，他注意到其中一台老虎机似乎在提供更多的奖励，因此他会好好利用这台老虎机的臂杆。但是，其他的老虎机可能会提供更多奖励。在这种情况下，他需要决定是否：

利用迄今获得最佳累积奖励的一台老虎机，或

探索其他老虎机，从长远来看这可能会带来更好的累积奖励。

丨从理论上讲，代理正在尝试着估计每台机器的奖励概率分布函数，而不会在期望奖励较低的机器上进行过多尝试。

用最简单的数学公式表示，MAB由k个机器组成，这些机器具有自己的概率分布p，预期收益μ和方差σ-最初这些都是未知的。在每个时期t∈[1，T]上拉动机器臂杆a_i并获得奖励。然后，赌徒选择下一个要拉的臂杆，遵循政策：选择到目前为止获得最高收益的那个臂杆，或选择可能带来更高收益的另一臂杆。在T轮中最高的收益为

其中，μ*是来自最佳臂杆的预期回报。换句话说，他需要在探索与守成之间做出权衡。

已经采用了多种技术来解决此问题，其中一种是ϵ-greedy 方法[1]。在这种经典方法中，赌徒每轮选择目前平均收益最高的臂杆，概率为1 — ϵ，或者选择随机臂杆，概率为ϵ。

可以推断出，ϵ参数对探索-守成的权衡有关键影响。对于较高的ϵ，贪婪行为（the greedy action ）–选择目前平均收益最高的臂杆，被选中的可能性较低，从而使赌徒们去探索更多的选择。相反，ϵ较低时，该算法倾向于选择贪婪行为。

ϵ-greedy 是众多算法的基础。为了在最初的几轮中有更多的探索，而在后面的几轮中有更多的守成，则可以使用 Decay ϵ-greedy方法应用多样化的β。在这种情况下，第n轮中的ϵ定义为

其中β控制ϵ减小的速度，n是当前轮次。此外，可以定义阈值λ以限制在随后的轮次中的最小探索次数。

MAB算法已用于许多需要顺序决策的应用程序中，例如推荐系统。在这种情况下，考虑到向用户（代理）提供了几项商品（老虎机），并且用户可以根据奖励概率分布函数来消费，因此MAB用于对消费概况进行建模。

对于当前的星巴克奖励项目，将其应用于模拟顾客资料，将每条臂杆视为一个优惠价，并定义一个定制的奖励功能，以同时掌握获得的优惠券奖励和营销成果，这将在之后会看到。

在星巴克奖励应用中应用MAB
将MAB应用于问题上时，关键的一步是定义其奖励功能。如我们所见，消费者进入营销渠道的深度极大地表明了优惠报价策略的优劣。意味着，可以使用以下奖励功能：

其中除了offerReward.，所有变量都是二进制。该方程式的下界为0，这在未查看推送时发生（使offerCompleted= 0和 futurePurchase = 0）。当给出高优惠报价奖励，且所有二进制变量均为1（包括未来购买）时，最好的奖励就出现了，这是营销策略的圣杯。

建立此功能后，可以考虑以下变量来创建数据驱动的消费者资料：

年龄，收入
已订阅的年数
每个产品的平均mabReward

在对用户进行聚类之后，当臂杆被拉动，每个用户组被建模为具有优惠价推送的MAB。下图描绘了20种实现MAB训练的平均奖励演变（此处的项目报告中讨论了所有参数制定）：

ϵ-greedy decay方法的20个实现的平均奖励（作者提供的图像）。

注意在合并区域之前，平均奖励是如何增长的。这是探索与守成权衡变化的结果：一开始，我们正在尽力进行探索，以便找到更佳的臂杆。随着一次次的探索，最佳臂杆的利用变得更加频繁，直到不再发现平均奖励的显着提高。

最后，可以通过从对应的MAB中拉动臂杆来预测用户群，并提供他们优惠报价建议。由于每次迭代只能拉动一次臂杆，自然会担心商品的多样性。那么在训练阶段，优惠推送多长时间被选择一次呢？让我们看一下下图：

臂杆选择数量的簇状图（作者提供的图像）

可以看出，在大多数集群中，十分之三的优惠推送是高度被选择的，这意味着，通常选集的30％是被推荐的。 MAB合并后，这个数字受探索率影响很大。当探索程度较低时，模型倾向于仅推荐提供已出现的最高奖励的优惠价。更高的探索程度可以为这次推荐带来更佳的多样性，但是这可能会影响使用预测方面的模型性能。

总结

我们已经看到，优惠券可以作为一款强大的互动工具，让消费者更近距离地享受到商家的服务。瞄准合适的潜在客户和客户，不仅可以提高客户转化率，而且最重要的是，可以建立长期的客户粘性。然而，要建立成功的目标战略，就需要建立数据驱动的消费者资料。在这里就依靠着机器学习的能力，商家才能实现了向消费者发送个性化的推送。

在无数的推荐算法中，multi-armed bandits因其灵活使用手动奖励功能而得到了广泛的探讨，如我们曾用之于graps市场前景。如果你想深入研究更强大的MAB方法，我强烈建议你阅读Spotify研究人员开发的关于BaRT（Bandits for recsplantations as Treatments）的文章[4]。

[1] Sutton, Richard S. and Barto, Andrew G. Reinforcement Learning: An Introduction (2018), The MIT Press.

[2] P. Kotler, H. Kartajaya and I. Setiawan, Marketing 4.0: Moving from Traditional to Digital (2016)

[3] The Difference Between Cold, Warm and Qualified Leads

[4] J. McInerney, B. Lacker, S. Hansen, K. Higley, H. Bouchard, A. Gruson, R. Mehrotra. Explore, Exploit, and Explain: Personalizing Explainable Recommendations with Bandits (2018), ACM Conference on Recommender Systems (RecSys).

原文链接：//www.yanxishe.com/TextTranslation/2588，来自雷锋字幕组提供的选题

Tags: 深度学习

优惠券推荐中的机器学习丨翻译征文丨雷锋字幕组

Multi-Armed Bandits （MAB）多臂老虎机问题

总结

VirMach 便宜 VPS

QNews

优惠券推荐中的机器学习丨 翻译征文丨雷锋字幕组

Multi-Armed Bandits （MAB）多臂老虎机问题

总结

分享此文：

Related Posts

Unity的C#编程教程_21_用 if 条件语句设计计分程序

适合初学者的CNN的数字图像识别项目：Digit Recognizer with CNN for beginner

京东香港上市面向散户部分获178.9倍认购：刘强东最新股权曝光

1899元 小米显示器27英寸开箱图赏：165Hz、支持竖屏

VirMach 便宜 VPS

QNews

熱門搜尋

优惠券推荐中的机器学习丨翻译征文丨雷锋字幕组

1899元小米显示器27英寸开箱图赏：165Hz、支持竖屏