一文掌握inbreeding coefficient近交系数的计算

  • 2019 年 12 月 19 日
  • 筆記

inbreeding coefficient,中文翻译为近交系数,近婚系数,近亲交配系数等等,用大写字母F表示。要理解这个概念,首先要搞清楚”近亲”的定义。

近亲指的是三代及以内的具有共同血缘关系的个体,他们之间的婚配称之为近亲结婚。由于双方包含了很多相似的遗传因子,其后代个体的纯合基因的比例会增加,患常染色体隐性遗传病的风险也会急剧增加。

从基因层面来说,近亲婚配的后果就是一个基因的allele来自共同祖先, 即血缘同源IBD。为了更加客观的描述个体间近亲婚配情况,提出了以下两个概念

  1. coffcient of relationship, 针对两个个体间,表示的是两个个体间来自共同祖先的同源基因比例, 称之为共祖系数
  2. cofficient of inbreeding, 针对一个个体,表示的是该个体任意一个基因的两个allele来自同一个祖先的概率,称之为近交系数

计算个体近交系数的方法有多种,plink计算的方式如下

plink --bfile test  --het

结果保存在后缀为het的文件中,内容如下所示

GCTA计算的方式如下

gcta64  --bfile test  --autosome  --ibc  --out test

结果保存在后缀为ibc的文件中,内容如下所示

在GCTA中,使用了三种公式来计算F值,对应Fhat开头的3列。

值得注意的是,从概念的定义可以看出,F值理论上是位于0到1范围内的正数,而软件的计算结果中会出现负数,这通常是计算过程中随机抽样的误差,说明该计算结果不是很可靠。但是如果负值非常大,比如-0.5以上,这说明这个样本可能存在了DNA的污染,其分型结果是有问题的。