一文掌握inbreeding coefficient近交系数的计算
- 2019 年 12 月 19 日
- 筆記
inbreeding coefficient,中文翻译为近交系数,近婚系数,近亲交配系数等等,用大写字母F
表示。要理解这个概念,首先要搞清楚”近亲”的定义。
近亲指的是三代及以内的具有共同血缘关系的个体,他们之间的婚配称之为近亲结婚。由于双方包含了很多相似的遗传因子,其后代个体的纯合基因的比例会增加,患常染色体隐性遗传病的风险也会急剧增加。
从基因层面来说,近亲婚配的后果就是一个基因的allele来自共同祖先, 即血缘同源IBD。为了更加客观的描述个体间近亲婚配情况,提出了以下两个概念
- coffcient of relationship, 针对两个个体间,表示的是两个个体间来自共同祖先的同源基因比例, 称之为共祖系数
- cofficient of inbreeding, 针对一个个体,表示的是该个体任意一个基因的两个allele来自同一个祖先的概率,称之为近交系数
计算个体近交系数的方法有多种,plink计算的方式如下
plink --bfile test --het
结果保存在后缀为het
的文件中,内容如下所示
GCTA计算的方式如下
gcta64 --bfile test --autosome --ibc --out test
结果保存在后缀为ibc
的文件中,内容如下所示
在GCTA中,使用了三种公式来计算F值,对应Fhat开头的3列。
值得注意的是,从概念的定义可以看出,F值理论上是位于0到1范围内的正数,而软件的计算结果中会出现负数,这通常是计算过程中随机抽样的误差,说明该计算结果不是很可靠。但是如果负值非常大,比如-0.5以上,这说明这个样本可能存在了DNA的污染,其分型结果是有问题的。