一文掌握inbreeding coefficient近交係數的計算
- 2019 年 12 月 19 日
- 筆記
inbreeding coefficient,中文翻譯為近交係數,近婚係數,近親交配係數等等,用大寫字母F
表示。要理解這個概念,首先要搞清楚」近親」的定義。
近親指的是三代及以內的具有共同血緣關係的個體,他們之間的婚配稱之為近親結婚。由於雙方包含了很多相似的遺傳因子,其後代個體的純合基因的比例會增加,患常染色體隱性遺傳病的風險也會急劇增加。
從基因層面來說,近親婚配的後果就是一個基因的allele來自共同祖先, 即血緣同源IBD。為了更加客觀的描述個體間近親婚配情況,提出了以下兩個概念
- coffcient of relationship, 針對兩個個體間,表示的是兩個個體間來自共同祖先的同源基因比例, 稱之為共祖係數
- cofficient of inbreeding, 針對一個個體,表示的是該個體任意一個基因的兩個allele來自同一個祖先的概率,稱之為近交係數
計算個體近交係數的方法有多種,plink計算的方式如下
plink --bfile test --het
結果保存在後綴為het
的文件中,內容如下所示

GCTA計算的方式如下
gcta64 --bfile test --autosome --ibc --out test
結果保存在後綴為ibc
的文件中,內容如下所示

在GCTA中,使用了三種公式來計算F值,對應Fhat開頭的3列。
值得注意的是,從概念的定義可以看出,F值理論上是位於0到1範圍內的正數,而軟體的計算結果中會出現負數,這通常是計算過程中隨機抽樣的誤差,說明該計算結果不是很可靠。但是如果負值非常大,比如-0.5以上,這說明這個樣本可能存在了DNA的污染,其分型結果是有問題的。