數據分析中的常用「公式」

  • 2020 年 2 月 26 日
  • 筆記

雖然文章標題中含有「公式」,但本文側重於——從公式的角度看數據分析的思維方式。

X->Y

此處用來表示自變數X和因變數Y的關係(嚴格來說,這個算不上一個公式),公眾號的老朋友們應該會發現我在很多文章中都會參考這個公式的框架。

描述、解釋、預測是數據分析常見的3種場景:

  • 描述,可以理解為用指標來對業務進行展示的過程,比如報表開發、指標體系等,這個過程好比要用一個量化的指標來衡量Y(比如KPI),然後再分析組成Y需要有哪些成分X;
  • 解釋,常見的業務場景是對指標的波動或者差異歸因,此時的邏輯則是從ΔY中發現ΔX,更多可以參考歸因的方法
  • 預測,對應業務場景是預估某個數值,即通過已知的X來計算得到未知的Y,更多可參考預測的方法

X->Y 下最常見的兩種公式則是「加權求和」和「連乘」。

加權求和

該公式表示整體和局部的關係,既可以用於對某個指標的拆解,也可以類似用AHP方法來合成一個新的綜合指標。

e.g. 某業務總體的下單率為R,假設有3個細分業務,各業務的入口流量佔比為a, b, c,各自的下單率為ra,rb,rc,那麼R = a*ra+b*rb+c*rc,經過這樣拆分後我們可能會發現不同業務的下單率可能不一樣,那麼要提升整體的下單率R,方法之一,可以參考「糖水不等式」,將入口流量更多傾斜到高下單率的細分業務。

e.g. 客單價 =

,這裡c表示商品i的數量,p表示商品i的價格,那麼要提升客單價可以參考這個公式,可以調整商品價格、提升單品銷售量、擴充商品品類等。

連乘公式

通常用於帶有「轉化率」的場景,比如電商交易是典型的「魚骨圖」或者「漏斗」模式。

連乘公式可以用於業務環節的拆分,也可以和「加權求和」公式混合使用。

e.g. GMV = 訪客數*下單轉化率*支付成功率*出倉轉化率*客單價

e.g. 活動實際參與人數 = 目標用戶數*活躍率*領取率*可用率*使用率

如果要提升等式左側的關鍵指標,那麼增大連乘公式中的係數之一即可。

糖水不等式

該公式的啟示是,可以將業務整體劃分為「高」(糖)、「低」(水)兩部分,也可將糖理解為分母,水理解成分子(主要成分),整體的指標好比糖水的濃度,提升濃度則需要增加「糖」或者減少「水」。

e.g. 前面提到了增大表現好的業務的資源佔比,可以提升總體表現;

e.g. 用戶整體品質的提升,那麼可以加更多的糖,讓高品質的用戶(糖)相對地低品質用戶(水)更多地增加;

「成本-收益」公式

利潤 = 收益-成本

e.g. 俞軍的「產品價值公式」——產品價值=(新體驗-舊體驗)-換用成本

進行決策或方案對比時,不僅要看是否能產生「利潤」,通常也會看投入產出比(ROI)。

此外,ΔROI同樣重要。舉個例子,60分的付出可能有60分的回報,但是80分的付出可能只有70分的回報——付出(cost)和回報(gain)之間常會出現邊際效用遞減現象。如果有另一件事情可以用20分的付出產出超過10分的回報(假設回報是等價、可累加的),那麼就應該做另一件事。