指標的設計與評價 | 翻譯徵文 | 雷鋒字幕組
本文為雷鋒字幕組「觸摸世界前沿科技 | 翻譯徵文 」活動收錄稿件
我們從來沒有比現在更需要搞明白我們必須用什麼樣的度量方法去理解我們的世界、我們產品以及我們自身。一個度量的指標同時會是:1)一個精心設計的製品,2)一枚用來觀察現象的鏡頭,3)我們設置和監測目標的方法。本文的目的是詳細闡述我對指標的看法(在花費數年時間做了幾十個數據科學項目之後)。對於指標,除了闡明其生命周期外,我還總結出五個主要的屬性,這些屬性體現了設計階段的關鍵的折衷和取捨。
我花了很多精力研究指標,因為我相信測量方法不僅是提升政策與商業效果的關鍵技術,它還奠定了科學基礎。我們有無數的例子:更精確的計時技術使人類走得更遠並且繪製整個大陸的地圖,系統地收集天文觀測的成果導致了天文學大革命,繪製霍亂病例地圖使 John Snow 得以判定是否是水源導致疾病。對提升取得數據和測量結果的能力方面投入力量,接踵而至的往往是我們對世界的認知以及解決問題的能力產生階躍函數般的變化。
當我們把注意力集中在特定規模的特定類型事件的特定屬性上時,我們在測量方法上的共同努力和付出,產生了分散式認知系統。指標變成了我們用來討論問題的語言的一部分,它通過命名目標、問題和約束來形成我們的決策框架。
也許最重要的是,目的指標變成了機構內部協作過程的優化(其實更多是為達到及格線)目標。正如我們應該對我們所期待的要小心謹慎一樣,對於我們所優化的也要小心謹慎。我們的指標與爬山演算法相吻合,我們應該投入大量精力到選擇山的拓撲和 Y 軸上來,並確保把風險和負面效應編碼成「反指標」,使之和目標一起,都能被我們監測到。
指標的五個屬性
本節我將討論在設計指標時所要留意的五個主要屬性。當你在為實實在在的改進產品和用戶體驗而設計一個測量策略時,提升這些屬性自然會讓你面臨權衡取捨。但是這些屬性遠超商業數據科學範疇,而跨入了許多其它科學領域。你會發現我很強調統計和因果屬性,因為我的經驗大部分來自於用試驗的方法改進產品。
成本
我從成本開始講,是因為它是測量中最被忽視的方面。你可以(基本上)測量任何東西,只要你願意付出任意高的成本。成本可能包含金錢、日曆上的時間、員工的時間、用戶的時間(打擾用戶向他們詢問問題)、計算,或者技術債。指標成本通常隱含有重要的取捨。我注意到現在有一種趨勢,傾向於把人力標籤、調查回饋,或者外部數據集作為指標策略,這些都會把巨大的複雜性、延遲以及錯誤帶入測量中。
儘管我們經常把成本當成固定值或者綁定約束,但是特別值得指出的是,在很多情況下,我們可以付出時間、金錢,或者心血,以換取更好的測量。這種交換很難管理,因為我們還必須要估算獲得更好指標所需的開銷,以及它如何傳播到下游產品或決策品質上。
簡單性
指標是精心設計的作品,而人們喜歡簡單的東西。有可能的最糟糕的指標是那種人們不信任、猜忌或者忽視的。我發現指標通常可以通過規範化(這種方法傾向於集中指標)來改善,可以通過混合(這種方法傾向於分散指標)來劣化。比如,在體育分析學中,我們發現如果把勝利的局數除以獲勝的機率(例如擊球率)或者扣除附加因素(比如主場之利),這樣調整之後的結果就要準確得多。但是我們並不試圖計算擊球率或者收集擊球手本壘打的次數。
需要強調的是,在做指標的規範化時,尋找分母也許會極其困難。
在以往的項目中,我曾試過擴展指標簡單性的極限,所用方法我稱作「模型化指標」,它是輸出統計模型,用來平滑和改善預估值精度。我還從來沒有見過這些方法中有哪個是完全成功的。簡單性可以被犧牲掉,但是其它屬性必須有相應的提升。
可信度
在測量過程中,你會犯錯誤導致測量無法準確體現你所關注的概念,而這種出錯的機會多得嚇人。在實踐中我觀察到的兩個最主要的錯誤是指標沒有建構效度(construct validity)以及存在某種抽樣偏差(sampling bias)。沒有建構效度導致測量了錯誤的對象。存在抽樣偏差使得單位集合(例如人、項目、事件等等)出現錯誤。
我們經常犧牲建構效度來增加簡單性或降低成本,但我也常看到有團隊一步步增加複雜性或投入時間和精力來提升建構效度。建構效度的一個普遍的難點是使用人工標記的數據——大家對標記規範的理解各不相同,生成的標籤也就因人而異了。
產品會越來越多地接納用戶回饋或者指標中的標記數據(調查、缺陷報告、眾包標籤),這也會引入令人頭疼的抽樣偏差。我們怎會知道那些提供回饋的人正好代表了我們所感興趣的人群?如果我們不能隨機抽樣(在調查和內容評價中就是如此),我們就永遠不能完全解決這個問題,只能聽任存在於指標中的這個無法消除的錯誤源。值得指出的是,即使簡單的類似統計社交 app 中的點贊次數這樣的指標,也可能因參與率的原因而出現巨大的偏差,並且可能反映出部分非正常用戶的行為。
兩個有趣的例子,體現了指標的可信度是怎樣失去的:
1、有證據表明螢幕廣告的點擊並不能用來預測銷量。如果你用點擊數作為廣告營銷的指標,你會優化出一個不相關的結果;點擊者與購買者並不相同。
2、用社交媒體上發表的文本進行的情緒測量與通過調查統計的自我情緒評價,兩者相關性極低。如果你通過推特或 Facebook 去測量人們的幸福感,你很有可能得到錯誤的結論。
精度
精度是我們所考慮的五個方面中最簡單的一個——精度越高越好,而噪音指標意味著我們無法從噪音中提取訊號。也就是說我們無法斷定一個「改變」是因為我們施加了影響(做實驗)而產生的,而且我們無法弄明白一個「改變」是否會隨時間而變化(趨勢及異常)。以下三點有助力於理解精度:
1、通過改變指標你可以極大提高精度,要麼通過記錄日誌,縮尾處理,或者更花哨的技術。
2、規範化可以極大改善指標的精度。如果分子和分母都很不準確,那麼得出來的比例將是一個低得多的方差指標。
3、把若干指標進行累加或平均,有助於提高精度。如果你對同一個東西有幾個不那麼相關的測量方法,那麼進行累加會減少雜訊。代價是減低簡單性,並且近因性(下一節)也受影響。
通常,精度和可信度之間存在天然的矛盾。雖然我們真正的關注是財務結果(銷售額、收入或利潤),但是通過指標生成的財務結果也許會有很多水分,因為營銷數據就不準確。計算那些離散的結果,比如交易數、客戶數(就是把連續的結果二值化),將會得到有界方差。
近因性
一個好的指標可能會受到你控制下的原因的影響。Deng和Shi(2016)定義了一個叫敏感度的屬性,它是由精度(上一節)和典型效應值構成的。我覺得把這兩個屬性區分開應該很有趣,於是我使用「接近度」來表達在因果空間中(例如一條沿因果 DAG 的路徑)指標對於你所能改變的策略的接近程度。
當近因性低的時候,你不會經常通過產品調整來移動指標,因為如果你想取得效果,必須實現一系列先決條件。低近因性導致大多數的產品使用利潤或營收來作為調整的指標時,效果極差。我們必須選擇一個更高接近度的指標,並且依靠關於如何對某種終極目標——準確度的犧牲——產生作用的理論。
我們有時把這種策略叫作代理指標,我們承認它並不完全是我們關注的,但在某種程度上能夠確定效果。對於長期關注的結果,在代用指數方面有最近的令人興奮的成果——從短期指標來估計(更準確的)長期結果。
並非總是需要非常高的近因性。太完善的指標常常失於瑣碎,最好當作監控指標(例如探明引入 bug 的負作用)或用來確認一個實驗是否符合預期(即操作檢查)。
尊嚴
(開個玩笑。)
指標的生命周期
根據我的經驗,指標設計需要不斷迭代,需要各參與方通力合作,過程也很漫長,其中的許多步驟也會不斷重複。這張圖體現了理想化後的整個過程。你會發現它不過是一堆嵌套的沒有終點的循環。這是因為指標設計永遠不會真正完成,就像程式碼,是一個不斷演化的作品,它需要測試、重新評估、修改,直到因不能滿足用戶要求而最終被取代。
各階段的一些要點:
-
討論:好的做法是把選擇指標的過程進行規範化並且通過收集需求來規範化其驗收。也許聽起來會覺得我嘮叨,我們是在設計一件會被很多人使用的作品,我們需要仔細理解他們不同的需求並做折衷和取捨。許多指標之所以被選中,是因為 1)方便或 2)成本低,但是貪圖便宜會嚴重限制你以後學習的能力。
-
驗證:我總是被人們選擇新指標的原因雷到:區區幾個樣例,符合了他們的直覺他們就心動了。當進行了好的或壞的產品調整後,它們就朝預期的方向前進,把這種現象展示出來是一個很好的講故事的方法,它會幫助人們建立信任。Deng和Shi提出,有些已知的好/壞實驗方法,是用來評估指標是否朝預期方向前進的,應該把這些實驗的資料彙編起來。我覺得如果你積累了很多歷史實驗的話,這是一種很奢侈的做法。
-
實驗:我很早就注意到很多團隊沒有在他們最關注的指標方面取得令人信服的實驗結果。我曾經做一個 Facebook 的產品,我們幾個月來做了許多實驗,一直成效甚微,因為我們的指標雜訊太多,並且近因性低。如果你的指標不能產生(統計意義上的和實用意義上的)顯著效果,那麼它就沒什麼用。你也許需要為近因性或精確度犧牲一些可信度,或者你願意付出更高成本也行。壞的指標本就不該包含在你的實驗分析中或者作為實驗平台的一部分——它們會降低實驗結果的信噪比!
-
優化:我們優化指標後會發生什麼?我們總會幻想著我們還能做得更好,但是對於很多指標來說,存在一個飽和點,或者在某一點,它開始損害我們所關注的其它方面。對於很多業務來講,核心的問題是理解各關鍵指標之間的折衷取捨,以及建立一套決策規則來有效管理這些折衷取捨。如果做了優化之後,指標的指示能力下降,這種優化就變得毫無意義,這個現象叫作Goodhart定律。
致謝
朋友和前同事們的討論和合作對本文啟發頗多:Tom Cunningham, Eytan Bakshy, Annie Franco, Amaç Herdağdelen, 以及George Berry.
英文原文:Designing and evaluating metrics
本文為雷鋒字幕組「觸摸世界前沿科技 | 翻譯徵文 」活動收錄稿件