odd ratio值在关联分析中的含义

  • 2019 年 12 月 17 日
  • 笔记

在GWAS分析中,利用卡方检验,费舍尔精确检等方法,通过判断p值是否显著,我们可以分析snp位点与疾病之间是否存在关联,然而这得到的仅仅是一个定性的结论,如果存在关联,其关联性究竟有多强呢?

很显然,我们需要一个量化指标来描述关联的强弱程度。类似于相关性检验,通过p值只能够说明两个变量是否相关。至于其相关性的大小,是正相关还是负相关,还需要结合相关系数来作出判断。在关联分析中的”相关系数”则对应两个常用的统计量, risk ratio和odd ratio。

以探究吸烟和肺癌之间的关联为例,基于的数据格式如下

肺癌

正常个体

吸烟

a

b

不吸烟

c

d

risk ratio, 也叫做relative risk, 简写为RR, 通常称之为相对风险度,是暴露组的发病率与非暴露组的发病组的比值。对于上述数据,RR的计算过程如下

吸烟组患肺癌的比例 a / (a + b)

不吸烟组患肺癌的比例 c / (c + d)

RR = (a / (a + b)) /( c / (c + d))

RR的数值大小直观的反映了暴露因素中发病率的大小,RR>1, 暴露组中发病率大于非暴露组的发病率,说明暴露因素和发病率是正相关关系,反之,RR<1, 暴露组中发病率小于非暴露组的发病率,说明暴露因素和发病率是父相关关系。如果RR = 1, 两组发病率相等,说明暴露因素和发病率没有关联。

值得一提的是,在计算过程中使用了抽样数据的频率来代表发病的概率,这个只有当抽样数目非常大才适用, 所以RR值适用于大规模的队列样本。对于常规的case/control研究,其抽样的数目都达不到这样的规模。所以不能直接用上述公式来计算RR,进一步提出了odd ratio的概念。

对于罕见疾病,患病的个体数量远小于正常组的数量,出于这样的考虑,将上述模型做一个简化处理,a + b 的值用b里表示,c + d的值有d 来表示,因为a远小于b, c远小于d, 几乎可以忽略不计,此时上述公式就变成了

(a / b) / (c / d) = (a d) /( b c)

这个公式计算出的结果就是odd ratio, 简称OR, 也叫做优势比,交叉乘积比等。从上述转换可以看出来,OR其实是RR的一个估计值,其含义和RR值相同。 通过OR值来定量描述关联性的大小, 使得我们可以直观比较不同因素和疾病之间关联性的强弱,有助于筛选强关联的因素。

·end·