指标的设计与评价 | 翻译征文 | 雷锋字幕组
本文为雷锋字幕组“触摸世界前沿科技 | 翻译征文 ”活动收录稿件
我们从来没有比现在更需要搞明白我们必须用什么样的度量方法去理解我们的世界、我们产品以及我们自身。一个度量的指标同时会是:1)一个精心设计的制品,2)一枚用来观察现象的镜头,3)我们设置和监测目标的方法。本文的目的是详细阐述我对指标的看法(在花费数年时间做了几十个数据科学项目之后)。对于指标,除了阐明其生命周期外,我还总结出五个主要的属性,这些属性体现了设计阶段的关键的折衷和取舍。
我花了很多精力研究指标,因为我相信测量方法不仅是提升政策与商业效果的关键技术,它还奠定了科学基础。我们有无数的例子:更精确的计时技术使人类走得更远并且绘制整个大陆的地图,系统地收集天文观测的成果导致了天文学大革命,绘制霍乱病例地图使 John Snow 得以判定是否是水源导致疾病。对提升取得数据和测量结果的能力方面投入力量,接踵而至的往往是我们对世界的认知以及解决问题的能力产生阶跃函数般的变化。
当我们把注意力集中在特定规模的特定类型事件的特定属性上时,我们在测量方法上的共同努力和付出,产生了分布式认知系统。指标变成了我们用来讨论问题的语言的一部分,它通过命名目标、问题和约束来形成我们的决策框架。
也许最重要的是,目的指标变成了机构内部协作过程的优化(其实更多是为达到及格线)目标。正如我们应该对我们所期待的要小心谨慎一样,对于我们所优化的也要小心谨慎。我们的指标与爬山算法相吻合,我们应该投入大量精力到选择山的拓扑和 Y 轴上来,并确保把风险和负面效应编码成“反指标”,使之和目标一起,都能被我们监测到。
指标的五个属性
本节我将讨论在设计指标时所要留意的五个主要属性。当你在为实实在在的改进产品和用户体验而设计一个测量策略时,提升这些属性自然会让你面临权衡取舍。但是这些属性远超商业数据科学范畴,而跨入了许多其它科学领域。你会发现我很强调统计和因果属性,因为我的经验大部分来自于用试验的方法改进产品。
成本
我从成本开始讲,是因为它是测量中最被忽视的方面。你可以(基本上)测量任何东西,只要你愿意付出任意高的成本。成本可能包含金钱、日历上的时间、员工的时间、用户的时间(打扰用户向他们询问问题)、计算,或者技术债。指标成本通常隐含有重要的取舍。我注意到现在有一种趋势,倾向于把人力标签、调查反馈,或者外部数据集作为指标策略,这些都会把巨大的复杂性、延迟以及错误带入测量中。
尽管我们经常把成本当成固定值或者绑定约束,但是特别值得指出的是,在很多情况下,我们可以付出时间、金钱,或者心血,以换取更好的测量。这种交换很难管理,因为我们还必须要估算获得更好指标所需的开销,以及它如何传播到下游产品或决策质量上。
简单性
指标是精心设计的作品,而人们喜欢简单的东西。有可能的最糟糕的指标是那种人们不信任、猜忌或者忽视的。我发现指标通常可以通过规范化(这种方法倾向于集中指标)来改善,可以通过混合(这种方法倾向于分散指标)来劣化。比如,在体育分析学中,我们发现如果把胜利的局数除以获胜的机率(例如击球率)或者扣除附加因素(比如主场之利),这样调整之后的结果就要准确得多。但是我们并不试图计算击球率或者收集击球手本垒打的次数。
需要强调的是,在做指标的规范化时,寻找分母也许会极其困难。
在以往的项目中,我曾试过扩展指标简单性的极限,所用方法我称作“模型化指标”,它是输出统计模型,用来平滑和改善预估值精度。我还从来没有见过这些方法中有哪个是完全成功的。简单性可以被牺牲掉,但是其它属性必须有相应的提升。
可信度
在测量过程中,你会犯错误导致测量无法准确体现你所关注的概念,而这种出错的机会多得吓人。在实践中我观察到的两个最主要的错误是指标没有建构效度(construct validity)以及存在某种抽样偏差(sampling bias)。没有建构效度导致测量了错误的对象。存在抽样偏差使得单位集合(例如人、项目、事件等等)出现错误。
我们经常牺牲建构效度来增加简单性或降低成本,但我也常看到有团队一步步增加复杂性或投入时间和精力来提升建构效度。建构效度的一个普遍的难点是使用人工标记的数据——大家对标记规范的理解各不相同,生成的标签也就因人而异了。
产品会越来越多地接纳用户反馈或者指标中的标记数据(调查、缺陷报告、众包标签),这也会引入令人头疼的抽样偏差。我们怎会知道那些提供反馈的人正好代表了我们所感兴趣的人群?如果我们不能随机抽样(在调查和内容评价中就是如此),我们就永远不能完全解决这个问题,只能听任存在于指标中的这个无法消除的错误源。值得指出的是,即使简单的类似统计社交 app 中的点赞次数这样的指标,也可能因参与率的原因而出现巨大的偏差,并且可能反映出部分非正常用户的行为。
两个有趣的例子,体现了指标的可信度是怎样失去的:
1、有证据表明屏幕广告的点击并不能用来预测销量。如果你用点击数作为广告营销的指标,你会优化出一个不相关的结果;点击者与购买者并不相同。
2、用社交媒体上发表的文本进行的情绪测量与通过调查统计的自我情绪评价,两者相关性极低。如果你通过推特或 Facebook 去测量人们的幸福感,你很有可能得到错误的结论。
精度
精度是我们所考虑的五个方面中最简单的一个——精度越高越好,而噪音指标意味着我们无法从噪音中提取信号。也就是说我们无法断定一个“改变”是因为我们施加了影响(做实验)而产生的,而且我们无法弄明白一个“改变”是否会随时间而变化(趋势及异常)。以下三点有助力于理解精度:
1、通过改变指标你可以极大提高精度,要么通过记录日志,缩尾处理,或者更花哨的技术。
2、规范化可以极大改善指标的精度。如果分子和分母都很不准确,那么得出来的比例将是一个低得多的方差指标。
3、把若干指标进行累加或平均,有助于提高精度。如果你对同一个东西有几个不那么相关的测量方法,那么进行累加会减少噪声。代价是减低简单性,并且近因性(下一节)也受影响。
通常,精度和可信度之间存在天然的矛盾。虽然我们真正的关注是财务结果(销售额、收入或利润),但是通过指标生成的财务结果也许会有很多水分,因为营销数据就不准确。计算那些离散的结果,比如交易数、客户数(就是把连续的结果二值化),将会得到有界方差。
近因性
一个好的指标可能会受到你控制下的原因的影响。Deng和Shi(2016)定义了一个叫敏感度的属性,它是由精度(上一节)和典型效应值构成的。我觉得把这两个属性区分开应该很有趣,于是我使用“接近度”来表达在因果空间中(例如一条沿因果 DAG 的路径)指标对于你所能改变的策略的接近程度。
当近因性低的时候,你不会经常通过产品调整来移动指标,因为如果你想取得效果,必须实现一系列先决条件。低近因性导致大多数的产品使用利润或营收来作为调整的指标时,效果极差。我们必须选择一个更高接近度的指标,并且依靠关于如何对某种终极目标——准确度的牺牲——产生作用的理论。
我们有时把这种策略叫作代理指标,我们承认它并不完全是我们关注的,但在某种程度上能够确定效果。对于长期关注的结果,在代用指数方面有最近的令人兴奋的成果——从短期指标来估计(更准确的)长期结果。
并非总是需要非常高的近因性。太完善的指标常常失于琐碎,最好当作监控指标(例如探明引入 bug 的负作用)或用来确认一个实验是否符合预期(即操作检查)。
尊严
(开个玩笑。)
指标的生命周期
根据我的经验,指标设计需要不断迭代,需要各参与方通力合作,过程也很漫长,其中的许多步骤也会不断重复。这张图体现了理想化后的整个过程。你会发现它不过是一堆嵌套的没有终点的循环。这是因为指标设计永远不会真正完成,就像代码,是一个不断演化的作品,它需要测试、重新评估、修改,直到因不能满足用户要求而最终被取代。
各阶段的一些要点:
-
讨论:好的做法是把选择指标的过程进行规范化并且通过收集需求来规范化其验收。也许听起来会觉得我唠叨,我们是在设计一件会被很多人使用的作品,我们需要仔细理解他们不同的需求并做折衷和取舍。许多指标之所以被选中,是因为 1)方便或 2)成本低,但是贪图便宜会严重限制你以后学习的能力。
-
验证:我总是被人们选择新指标的原因雷到:区区几个样例,符合了他们的直觉他们就心动了。当进行了好的或坏的产品调整后,它们就朝预期的方向前进,把这种现象展示出来是一个很好的讲故事的方法,它会帮助人们建立信任。Deng和Shi提出,有些已知的好/坏实验方法,是用来评估指标是否朝预期方向前进的,应该把这些实验的资料汇编起来。我觉得如果你积累了很多历史实验的话,这是一种很奢侈的做法。
-
实验:我很早就注意到很多团队没有在他们最关注的指标方面取得令人信服的实验结果。我曾经做一个 Facebook 的产品,我们几个月来做了许多实验,一直成效甚微,因为我们的指标噪声太多,并且近因性低。如果你的指标不能产生(统计意义上的和实用意义上的)显著效果,那么它就没什么用。你也许需要为近因性或精确度牺牲一些可信度,或者你愿意付出更高成本也行。坏的指标本就不该包含在你的实验分析中或者作为实验平台的一部分——它们会降低实验结果的信噪比!
-
优化:我们优化指标后会发生什么?我们总会幻想着我们还能做得更好,但是对于很多指标来说,存在一个饱和点,或者在某一点,它开始损害我们所关注的其它方面。对于很多业务来讲,核心的问题是理解各关键指标之间的折衷取舍,以及建立一套决策规则来有效管理这些折衷取舍。如果做了优化之后,指标的指示能力下降,这种优化就变得毫无意义,这个现象叫作Goodhart定律。
致谢
朋友和前同事们的讨论和合作对本文启发颇多:Tom Cunningham, Eytan Bakshy, Annie Franco, Amaç Herdağdelen, 以及George Berry.
英文原文:Designing and evaluating metrics
本文为雷锋字幕组“触摸世界前沿科技 | 翻译征文 ”活动收录稿件