因果推理的春天-實用HTE(Heterogeneous Treatment Effects)論文github收藏

  • 2019 年 10 月 21 日
  • 筆記

一直以來機器學習希望解決的一個問題就是’what if’,也就是決策指導:

  • 如果我給用戶發優惠券用戶會留下來么?
  • 如果患者服了這個葯血壓會降低么?
  • 如果APP增加這個功能會增加用戶的使用時長么?
  • 如果實施這個貨幣政策對有效提振經濟么?

這類問題之所以難以解決是因為ground truth在現實中是觀測不到的,一個已經服了葯的患者血壓降低但我們無從知道在同一時刻如果他沒有服藥血壓是不是也會降低。

這個時候做分析的同學應該會說我們做AB實驗!我們估計整體差異,顯著就是有效,不顯著就是無效。但我們能做的只有這些么?

當然不是!因為每個個體都是不同的!整體無效不意味著局部群體無效!

  • 如果只有5%的用戶對發優惠券敏感,我們能只觸達這些用戶么?或者不同用戶對優惠券敏感的閾值不同,如何通過調整優惠券的閾值吸引更多的用戶?
  • 如果降壓藥只對有特殊癥狀的患者有效,我們該如何找到這些患者?
  • APP的新功能部分用戶不喜歡,部分用戶很喜歡,我能通過比較這些用戶的差異找到改進這個新功能的方向么?

以下方法從不同的角度嘗試解決這個問題,但基本思路是一致的:我們無法觀測到每個用戶的treatment effect,但我們可以找到一群相似用戶來估計實驗對他們的影響。

我會在之後的部落格中,從CasualTree的第二篇Recursive partitioning for heterogeneous causal effects開始梳理下述方法中的異同。

整個領域還在發展中,幾個開源程式碼都剛release不久,所以這個部落格也會持續更新。如果大家看到好的文章和工程實現也歡迎在下面評論~

Uplift Modelling

  1. Nicholas J Radcliffe and Patrick D Surry. Real-world uplift modelling with significance based uplift trees. White Paper TR-2011-1, Stochastic Solutions, 2011.[文章鏈接]

  2. Yan Zhao, Xiao Fang, and David Simchi-Levi. Uplift modeling with multiple treatments and general response types. Proceedings of the 2017 SIAM International Conference on Data Mining, SIAM, 2017. [文章鏈接] [Github鏈接]

Casual Tree

  1. Athey, S., and Imbens, G. W. 2015. Machine learning methods for
    estimating heterogeneous causal effects. stat 1050(5) [文章鏈接]

  2. Athey, S., and Imbens, G. 2016. Recursive partitioning for heterogeneous causal effects. Proceedings of the National Academy of
    Sciences. [文章鏈接] [Github鏈接]

  3. C. Tran and E. Zheleva, 「Learning triggers for heterogeneous treatment effects,」 in Proceedings of the AAAI Conference on Artificial Intelligence, 2019 [文章鏈接] [Github鏈接]

Meta Learning

  1. M. Oprescu, V. Syrgkanis and Z. S. Wu. Orthogonal Random Forest for Causal Inference. Proceedings of the 36th International Conference on Machine Learning (ICML), 2019 [文章鏈接] [GitHub鏈接]

  2. Sören R. Künzel, Jasjeet S. Sekhon, Peter J. Bickel, and Bin Yu. Metalearners for estimating heterogeneous treatment effects using machine learning. Proceedings of the National Academy of Sciences, 2019. [文章鏈接] [GitHub鏈接]