【因果推断论文】中国新冠死亡率更高? – 新冠死亡率的辛普森悖论
Simpson’s paradox in Covid-19 case fatality rates: a mediation analysis of age-related causal effects
Authors: Julius von Kügelgen , Luigi Gresele , and Bernhard Schölkopf
IEEE Trans on AI 2021,德国马克斯·普朗克智能系统研究所,剑桥大学
论文链接://ieeexplore.ieee.org/abstract/document/9404149
本文链接://www.cnblogs.com/zihaojun/p/15737080.html
0. 前言
本文是第一个将因果推断方法引入新冠研究领域的论文,在获得相关数据之后,本文的方法可以被应用到更复杂的数据中去,本文也为进一步理解新冠死亡率背后的机制提供了一个方便和透明的因果框架。
读这篇文章是为了看一下定量做因果分析的方法,以及总体效应和直接、间接效应的关系。
1. 问题背景和研究目标
从2019年12月武汉疫情爆发开始,新冠病毒迅速在全球蔓延开来,造成了数亿的感染和上百万的死亡病例。在新冠相关的数据中,死亡率是一项重要指标。由于死亡率与年龄高度相关,因此通常会分年龄段来研究死亡率。但是,统计学方法可能会造成一些悖论,例如本文分析的中国和意大利新冠死亡率数据中的辛普森悖论——中国各年龄段的死亡率都高于意大利,但总体死亡率却比意大利低。
本文用因果推断的方法研究各个国家、新冠死亡率、年龄分布之间的关系,尤其是分析了感染者年龄作为中介变量对新冠死亡率的间接影响,为政策制定提供支撑,为后续更复杂数据上的研究打下基础。
2. 中国和意大利死亡率数据中的辛普森悖论
当比较中国和意大利两国的新冠死亡率数据时,会发现,在所有年龄段上,意大利的死亡率都比中国低,但意大利的整体死亡率却比中国更高。如Fig 1 左图所示,蓝色条代表中国,橙色代表意大利。
这种现象被称为辛普森悖论,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。
辛普森悖论产生的原因是:当我们关注各年龄段死亡率的比较时,忽略了两国感染人数分布的差异。如Fig 1右图所示,意大利的感染人群中,老年人占比较多,老年群体死亡率比较高;而中国的感染者大部分是中青年人,这些人群的死亡率比较低。这导致在整体上,意大利的死亡率要高得多。
类似的现象还有:
- 在比较纽约和里士满两市1910年的肺结核死亡率时,也可以观察到,纽约的整体死亡率比较低,但如果按种族来划分人群,则纽约各个种族的肺结核死亡率都比里士满要高。
3. 新冠死亡率的因果模型
统计学只能发现变量之间的相关性,但相关并不是因果关系。不仅如此,统计学还缺乏因果的语言,无法表达和证明因果关系。从另一个角度讲,同一组数据,可以被不同的因果模型解释,因此,必须引入人类的领域知识来理解数据——建立因果模型。
3.1 因果模型中的变量
在本文中,我们引入一下三个变量:
- 国家(country,C)
- 年龄组(age group,A)
- 死亡率(fatality,F)
3.2 数据生成模型和因果图
本文只建模感染者死亡率,不建模感染过程。
因果图如下:
- \(C \rightarrow A\):国家会影响感染者的年龄分布
- 不同国家的人口年龄结构和社会情况不同
- 防疫政策对不同年龄的人影响是不同的
- \(A \rightarrow F\):感染者的年龄会影响感染者的死亡率
- \(C \rightarrow F\):不同国家的感染者死亡率不同
- 医疗条件不同,例如床位和呼吸机数量和价格
- 疫苗接种率不同
- 对现代医疗的接受程度不同
4 新冠死亡率的总体、直接和间接因果效应
这部分分析理论来自Pearl 2001年发表的一篇文章,参见【因果推断经典论文】Direct and Indirect Effects – Judea Pearl,因果推断基础知识可以参考Causal-Inference-in-Statistics-A-Primer by Judea Pearl,我随后可能会写一下Rubin这本Causal Inference for Statistics, Social, and Biomedical Sciences的笔记。
【符号说明】
- T:treatment,本文指选择哪个国家。
- X:中介变量,本文指新冠感染者的年龄。
- Y:结果变量,本文指感染者因新冠而死亡。
4.1 总体因果效应(Total Causal Effect, TCE)
关于总体因果效应的问题:
- \(Q_{TCE}\):如果将国家由中国换成意大利,新冠死亡率会有什么变化?
【Definition 1】(TCE)一个二元变量T对Y的总体因果效应被定义为:
\begin{aligned}
\operatorname{TCE}_{0 \rightarrow 1}=& \mathbb{E}_ {Y |do(T=1)}[Y \mid d o(T=1)] \\
&-\mathbb{E}_ {Y |do(T=0)}[Y \mid do(T=0)]
\end{aligned}
\end{equation}
\]
- T对Y的总体因果效应被定义为两种干预结果的差值。
4.2 “为什么?” 新冠死亡率的中介效应分析
我们不满足于两个国家之间的总体差异,更感兴趣的是产生这些差异的原因。正如前面分析的,感染者年龄分布是影响死亡率的重要因素,但政府对感染者的年龄分布的控制措施很有限,因此我们希望将感染者年龄分布带来的死亡率差异和其他因素带来的差异区分开来。
从因果推断的角度,这是要将直接因果效应和间接因果效应分开。
4.3 控制直接效应(Controlled Direct Effect, CDE)
控制直接效应是指对中介变量进行干预,从而阻断中介因果路径,只保留直接效应。
一个关于控制直接效应的问题:
- \(Q_{CDE(50-59)}\):对于50-59岁的人来说,在中国和意大利感染新冠,哪个更安全?
- 相当于控制了中介变量为50-59岁
【Definition 2】(CDE)在中介变量X=x的条件下,二元变量T对Y的控制直接因果效应为:
\begin{aligned}
\operatorname{CDE}_{0 \rightarrow 1}(x)=& \mathbb{E}[Y \mid d o(T=1, X=x)] \\
&-\mathbb{E}[Y \mid d o(T=0, X=x)]
\end{aligned}
\end{equation}
\]
控制直接效应中,中介变量的取值是人为定义的,不能代表整个人群的情况。我们更感兴趣的是,在真实的感染者年龄分布下,两个国家之间的差异,即自然效应。
4.4 自然直接效应(Natural Direct Effect, NDE)
自然直接效应研究的是,保持中介变量在治疗前的状态,则接受治疗后,变量Y有什么变化。
一个关于自然直接效应的问题:
- \(Q_{NDE}\):如果意大利的感染者年龄分布像中国那样,意大利的死亡率会比中国的高还是低?(两个国家之间比)
【Definition 3】(NDE)已知中介变量为X,二元变量T对Y的控制直接因果效应为:
\begin{aligned}
\operatorname{NDE}_{0 \rightarrow 1}= \mathbb{E}[Y_{X(0)} \mid do(T=1)]
– \mathbb{E}[Y \mid do(T=0)]
\end{aligned}
\end{equation}
\]
其中\(X(0)\)表示T=0时,X的分布。
4.5 自然间接效应(Natural Indirect Effect,NIE)
自然间接效应是指,如果中介变量变为治疗后的值,但不进行治疗,此时变量Y有什么变化。
一个关于自然间接效应的问题:
- \(Q_{NIE}\):如果中国的感染者年龄分布变成意大利的分布,中国的新冠死亡率会有什么变化?(中国和中国自己比)
【Definition 4】(NIE)已知中介变量为X,二元变量T对Y的自然间接因果效应为:
\begin{aligned}
\operatorname{NIE}_{0 \rightarrow 1}= \mathbb{E}[Y_{X(1)} \mid do(T=0)]
– \mathbb{E}[Y \mid do(T=0)]
\end{aligned}
\end{equation}
\]
4.6 中介公式(Mediation Formulas)
在本文假设的因果图中,可以将(1)-(4)中的因果量转化为如下统计量:
&\operatorname{TCE}_{0\to1}^{\mathrm{obs}}=\operatorname{E}[Y|T=1] -\operatorname{E}[Y|T=0]\\
&{\operatorname{CDE}_{0\to1}^{\mathrm{obs}}(x)=\operatorname{E}[Y|T=1,X=x]-\operatorname{E}[Y|T=0,X=x]} \\
&{\operatorname{NDE}_{0\to1}^{\mathrm{obs}}=\sum_{x}P\left(X=x|T=0\right)\left(\mathrm{E}[Y|T=1,X=x]{-\mathrm{E}[Y=0,X=x]}\right)}\\
&{\operatorname{NIE}_{0\to1}^{\mathrm{obs}}=\sum_{x}(P(X=x|T=1) – P(X=x|T=0))\mathrm{E}[Y|T=0,X=x]}
\end{align}
\]
可以通过(5)-(8)中的统计量,在观测数据中计算总体、直接和间接因果效应。
4.7 总体效应、自然直接效应和自然间接效应之间的关系(TCE, NDE and NIE)
总体效应可以被分解为自然直接效应和自然间接效应吗?
- 在线性模型中,答案是肯定的
- 但包括本文的模型在内的大多数模型都是非线性模型,直接效应和间接效应不是独立的,而是互相依赖的。
- 例如,一个药物A(Treatment),其起作用需要借助于激活体内的某种蛋白质(中介),即,只有药物A,没有蛋白质,药物无效;只有这种蛋白质,没有药物A,药物也无效
- 在这种情况下,自然直接效应和自然间接效应都是0,但总体效应不是0。
- 值得一提的是,控制直接效应可以不是0,因为可以干预蛋白质的量(实际上可能没有干预的手段)。
- 例如,一个药物A(Treatment),其起作用需要借助于激活体内的某种蛋白质(中介),即,只有药物A,没有蛋白质,药物无效;只有这种蛋白质,没有药物A,药物也无效
5. 年龄分布对国别和新冠死亡率的中介效应分析
这部分对总体效应、自然直接效应和自然间接效应做定量分析。
5.1 数据集
本文收集了来自11个国家和钻石公主号上的新冠感染者数据,包括各个年龄段的感染者人数和死亡率。数据集包含756, 044个感染者和68 508个死亡病例,总体死亡率9.06%。
5.2 因果效应随时间的变化
利用第四部分得出的公式,计算:如果国别从中国变到意大利,对死亡率的因果效应在不同时间段有什么变化(以周为单位)。在研究时段内,中国的病例数和死亡率比较稳定,因此这些变化主要来自于意大利情况的变化。
- 总体效应(TCE)逐渐上升,说明意大利的总体死亡率相比中国在逐步上升。
- 自然直接效应(NDE)——如果病例年龄分布都是中国这样,意大利的死亡率会比中国高多少——一开始是负的,说明如果去除年龄分布的影响,一开始意大利的死亡率是要比中国低的。但是从三月中旬开始,NDE就变成正值,并逐步提升,与此同时,意大利的医疗系统开始超负荷运转。直到四月中旬,NDE才稳定下来。
- 自然间接效应(NIE)——如果中国的病例年龄分布变为意大利的分布,中国的新冠死亡率有什么变化——维持了一个比较大的正值,大约在3%到3.5%之间。
总的来说,NIE对TCE的贡献比较稳定,一直都比较大;而TCE随时间的变化主要是由NDE的变化导致的。
第二部分提到的中意两国新冠死亡率的辛普森悖论,是由于在三月上旬,NDE和NIE的符号不同。
值得一提的是,\(NDE+NIE \not = TCE\)。
5.3 多个国家之间的比较
计算不同国家之间的NDE和NIE,得到下图:
由于这是一个非线性模型,可以看到,\(NDE(t,t^*;Y)\not = NDE(t^*,t;Y)\),NIE同理。
- NDE方面,钻石公主号、中国、葡萄牙、南非表现较好。
- NDE可以反映各国的医疗等措施的有效性
- NIE方面,南非、哥伦比亚等国表现较好,钻石公主号最差。
- NIE主要反映感染者年龄分布对死亡率的影响。
- 国家在NDE和NIE两个指标上的排名没什么相关性,说明国家的防疫措施和感染者年龄分布关系不大。
- 国家的人口年龄分布和NIE有很强的相关性,说明各国没能出台有效的针对不同年龄人口的防疫措施。
- 在132对国家组合中,64对里面,NDE和NIE的符号是不同的,这会导致辛普森悖论。这说明,只关注每个国家总体的新冠死亡率是不全面的,不能很好地反映国家防疫措施的有效性,还应该考虑国家的人口年龄结构等因素。
6. 本文的局限性和未来工作
-
本文设计的因果图还比较粗糙,可以引入更多中介变量,例如疫苗接种量等。
-
不同国家的检测策略不同,不同年龄组由于症状严重性不同,检测比例可能也不同。因此,只分析确诊者的数据,可能会产生选择偏差。
-
本文只分析了公布了相关数据的国家,而这些国家可能是受新冠影响比较严重,政府又有能力收集并公布数据的国家。
-
感染和死亡有时间差,也会对结果的准确性造成影响。
一些想法
- 我认为5.2最后对辛普森悖论的解释,应该是因为NDE和TCE的符号不同。
- NDE是负值使得意大利各个年龄段的死亡率都比较低。
- TCE是正值导致意大利总体死亡率比较高。
- NIE是正值且比较大,这是TCE是正值的主要原因。
- 但如果NIE是正值但是比较小,无法抵消NDE的负值,则TCE可能是负值,则不构成辛普森悖论。因此我认为辛普森悖论的解释应该是NDE和TCE的符号不同。
- 这篇文章在20年5月就写完了第一版,因此收集的数据量不是很多。
参考文献
[17] D. Mackenzie, “Race, COVID mortality, and Simpson’s paradox,” Retrieved: Jul. 6, 2020. [Online]. Available: //causality.cs.ucla.edu/blog/index.php/2020/07/06/race-covid-mortality-and-simpsonsparadox-by-dana-mackenzie/
[18] J. Pearl, “Direct and indirect effects,” in Proc. 17th Conf. Uncertainty Artif. Intell., 2001, pp. 411–420
[55] J. Pearl et al. “External validity: From do-calculus to transportability across populations,” Statist. Sci., vol. 29, no. 4, pp. 579–595, 2014.
[56] E. Bareinboim and J. Pearl, “Causal inference and the data-fusion problem,” Proc. Nat. Acad. Sci. USA, vol. 113, no. 27, pp. 7345–7352, 2016.