關於A/B測試所要了解的五個要點

  • 2019 年 12 月 11 日
  • 筆記

來源:http://www.51testing.com/

本文介紹了關於A/B測試所要了解的五個方面,從適當的樣本大小、統計置信度到A/B測試的有用性等。

  A/B測試是一種隨機試驗,其中「A」和「B」指2個變體,用於確定哪個變體更「有效」。作為網路分析中的一種常用工具,A/B測試並不被每個人所熟知,包括經常使用它的那些人。合理的A /B測試應牢牢紮根於統計假設測試,但情況並非總是如此。

  除了假設測試外,設計、執行和解釋A/B測試結果時還存在各種其他問題。不妨參閱本文中介紹的 基礎知識 。

  本文介紹了關於A/B測試的五個要點。

  圖1

1. 別基於少量樣本就做出結論。

  對於任何對統計學知識略知一二的人來說,這似乎顯而易見,但是非常重要,值得先來介紹。

  A/B測試的樣本數量很棘手,不像大多數人所想或希望的那麼簡單。但這其實只是與統計置信度有關的更大難題的一部分;只有擁有必要的樣本數量和完成實驗所必需的時間,才能獲得統計置信度。合理地試驗設計將會考慮預期的統計置信度所需的樣本數量和轉換次數,讓試驗得以全面展開,而不是因似乎有了成功的結果而提前停止試驗。

  可以在 此處 進一步了解樣本大小和計算A/B測試統計置信度的更多資訊。

 2. 別忽視A/ B測試的心理因素。

  假設你在搞電子郵件A/B測試。做好了試驗準備,以便兩個組有同樣的電子郵件內容,但標題行不一樣。這些標題行變體就是測試的對象,由於這些標題行在打開郵件之前對用戶來說是可見的(實際上用于衡量郵件的有效性),這裡要測試的度量標準顯然是郵件打開率,是不是?

  這得看情況。促銷活動的目標是什麼?你是否只對打開它(或間接地閱讀它)感興趣?更可能的是,目標是讓用戶隨後完成某種行為召喚(CTA,比如點擊),因此該CTA即點擊率可能是更準確的度量標準。

  但是打開電子郵件後,已經可見的標題行如何導致不一樣的點擊率?一切與心理因素有關。舉個例子:你的電子郵件旨在促銷數據科學會議活動,會議主角是數據科學超級明星Jane Q. Public,舉辦地在波士頓。你有2個可供選用的標題行:

  向最優秀的專家學習數據科學!

  與Jane Q. Public一起出席今年11月在波士頓舉辦的2018年數據大會

  你已對這些標題設定了期望,只有其中一個具有現實意義。用第一個吸引打開並沒有讓讀者準備好郵件可能的內容,失望或期望未得到滿足的可能性大得多,因此點擊量無疑受到影響。另一方面,第二個預期郵件含有實際的資訊,打開的那些人點擊的可能性大得多。

 3. 注意局部最小值;A/B測試並不適合一切。

  A/B測試解決不了一切,因為它並不適合一切。

  改變著陸頁可能是良好的A/B測試,改變網站或表單上的按鈕位置可能是良好的A/B測試。完整的網站重新設計是不是良好的A/B測試不好說,這取決於如何搞試驗。

  增量變化通常很適合A/B測試。但是,增量變化可能無法實現你想要實現的目標,就因為你想當然地以為自己的起點正確。局部最小值將你的產品概念化成一個數學函數,類似於已獲得的設計常規。倘若你沒有考慮到這點:如果採用一種更全面的方面來重新設計產品,可獲得全局最小值(或甚至更理想的局部最小值),調整現有產品就毫無價值。這是多此一舉。

  要點是,一頭扎入A/B測試不是好主意。先確定目標,一旦你確定A/B測試可以幫助你實現目標,然後再決定試驗。之後,設計試驗。只有這樣才能實施A/B測試。

 4. 分桶(bucket)是重點。

  先不妨考慮在不知道總體(population)中屬性分布的情況下,我們如何在分配分桶之前最有效地確保分桶之間的可比性。

  答案很簡單:隨機選擇和分桶分配。在不考慮總體任何屬性的情況下,隨機選擇和分桶分配是一種統計上合理的方法,假設可供使用的總體足夠大。

  比如說,假設你在測試針對網站功能的改變,只對來自特定地區(美國)的響應感興趣。先分成兩組(對照組和處理組),而不考慮用戶區域(假設總體足夠大),分配的美國訪客應在這兩組之間分派。從這兩個分桶中,可以檢查訪客屬性以便測試,比如說:

if (region == "US" && bucket == "treatment"):  # do something treatment-related here  else:  if (region == "US" && bucket == "control"):  # do something control-related here  else:  # catch-all for non-US (and not relevant to testing scenario)

  圖3

  第二個問題是分桶傾斜。以前曾在Etsy參與A/B測試的數據科學家Emily Robinson寫道:

  分桶傾斜(又叫樣本比率不匹配)是指人員在變體之間的分派與你計劃的不一致。比如說,也許你想在對照組和處理組之間按50/50分派人員,但幾天後,你發現40%的人在處理組,60%的人在對照組。這是個問題!

  如果你有好多用戶,即使看到對照組中有49.9%的人和處理組中有50.1%的人也可能表明你的試驗有問題。想檢查是否有問題,請使用每組中的訪客數量進行比例測試,看看p值是否小於.05。如果確實存在分桶傾斜,就有bug。遺憾的是,很難找到這個bug,但一個好辦法是查看分桶傾斜是否因Web瀏覽器、國家或另一個訪客因素而有所不同。

  Emily所寫的那篇文章的其餘部分也很精彩,建議不妨 讀一下 。

 5. 分析中只包括可能受變化影響的人員。

  Emily闡述的第11點探討了這一點:

  如果你的試驗中有用戶的體驗沒有受到變化的影響,你是在增加噪音,削弱檢測效果的能力。

  很棒的建議!Emily隨後舉了兩個直觀的例子:

  1. 如果你改變特定頁面的布局,只有在用戶實際訪問該頁面的情況下才將他們添加到試驗中。

  2. 如果你嘗試將免費發貨閾值從$ X調低到$ Y,試驗中應該只包括購物車商品金額介於$ X和$ Y之間的那些用戶;他們將是處理組與對照組當中唯一看到差異的用戶。

  Emily緊接著提出了一個相關的建議:只有在用戶訪問相關網頁後才開始跟蹤你的度量指標:

  設想你在搜索頁面上運行試驗,有人訪問你的網站,從主頁購物,然後訪問搜索頁面,這時開始試驗。

  顯而易見,A/B測試本身就是一門專業,貿然開始試驗只會帶來混亂。但願這五個簡單的要點對你有所幫助。

歡迎參加眾測:

https://wap.ztestin.com/site/register?usercode=FAAAQwMQGAAXAwQBA3QhExcDHAQDPjVaABMIQg%3D%3D