因果推断学习1 — Simpson's paradox
- 2021 年 1 月 27 日
- AI
这篇Intro主要介绍如下内容
- 什么是因果推断
- 为什么需要因果推断 —- Simpson’s paradox
- Simpson’s paradox原因分析介绍
什么是因果推断?
inferring effect of X on Y。简单说就是,预测一个试验 X 对结果的改变 Y 效应
为什么需要因果推断
从如下两个角度说明,本文主要从simpson’s paradox说明。
- Simpson’s paradox
Simpson’s paradox
假设现在抵抗病毒COVID-27,有两种治疗Treatment T方案A和B,根据病情Condition C分为轻微mild和严重severe;最终我们观测结果outcome Y是否死亡,收集一部分数据分析可以发现
在如下死亡率统计下

可以发现,方案A有更低的死亡率,看起来应该是比方案B好{16% vs. 19%}。
当我们考虑Condition病情时,会发现一些有趣的事情,

我们发现在每个病情C {Mild, Severe}下,都是方案B死亡率更低{(10% vs. 15%),(20% vs. 30%)}。那在每种病情下,方案B都是更好的选择!但是汇总起来 {16% vs. 19%}(忽略病情条件,不同病情下数目汇总),方案A又是更好的,这就是Simpson’s paradox.
我们可以列一下这几个数字的关系
我们把分数可以看作是权重,可以看出。方案A(第一个等式)更多考虑(1400/1500=93%)病情为Mild的死亡率15%(因为权重很大{93% vs. 7%},所以第一个等式算出来的结果更接近病情为Mild的死亡率15%;而方案B(第二个等式)更多考虑(500/550=91%)病情为Severe的死亡率20%(权重为{91% vs. 9%},所以结果更加接近病情为Severe死亡率20%。所以最终考虑整体时(加权平均),方案A的死亡率反而更低。(因为方案A更多考虑的是Mild的死亡率,这个死亡率低于方案B更多考虑的severe情况下的死亡率20%)
Simpson’s paradox大部分来源于这种不相等的权重,方案A中有很多Mild患者,方案B中有很多Severe患者,且Severe患者死亡概率更大。
治疗方案选择
解释完形成Simpson’s paradox的原因后,那我们该如何选择治疗方案呢? —- 这主要取决于这个问题的因果结构 (causal structure)
我们的数据中一共有三种信息:病情 C、方案 T、死亡率结果 Y,我们可以用节点代表他们,用边来表达他们之间的关系,得到因果图(A->B箭头代表导致)
我们考虑两种情况
- 病情 C 会影响方案 T
因果图:

这种场景例子比如,医生会根据病人的病情 C,来大概率分配治疗方案 T

可能治疗方案B比较稀缺,医生更愿意给重病患者(Severe)。所以我们发现方案A中93%都是Mild的患者;而方案B中91%都是Severe患者。
这种情况(对于因果图1),我们应该看每种情况下的方案表现,也就是使用方案B。正如刚分析的,总体显示出方案A更好只是因为方案A在汇总总体时更多考虑的时Mild患者,但是单看Mile患者还是方案B更好!
- 方案 T会影响病情 C
因果图:

这种场景例子比如,不同方案B会导致病情发生变化

分配到方案B的用户可能由于医疗资源紧缺,需要等待治疗,等待时候用户的病情会加重,从Mild转变为Severe。所以发现,方案B中很多的都是Severe患者,大多可能是由Mild的转变为Severe的;方案A则接收到Mild就及时治疗了。
这种情况(对于因果图2),我们应该看方案的最终效果好坏,也就是使用方案A。因为这种情况下,患者的病情是由方案导致的。也就是说,我们要研究是方案T对死亡结果Y的影响,不论病情C对死亡Y的影响如何,由于因果图告诉我们病情是由方案导致(T -> C -> Y),那么病情也是方案决定的(相当于方案的中间结果),所以我们只需要看方案T对最终死亡结果Y的影响即可。
所以总结来说,如何选择方案,是根据你的问题的因果结构的!
下篇从 角度来说!