探索一個消費級基因檢測結果

最近生信技能樹公眾號抽獎,中了一個基因檢測試劑盒,挺開心的,給我老婆檢測了一下,恭喜她成為我們家第一個有基因檢測數據的人。感謝陝西圖靈生物的獎品。檢測是採用消費級基因檢測常用的snp芯片,60萬左右的位點,拿到的結果大概有13M左右的樣子。很友好地給了我原始數據,下面探索一下原始數據。

1.總覽

1)查看一下各個染色體上的位點分佈情況

這塊應該是aff的芯片總共的559535個位點,看下在各個染色體上的分佈情況,還是拉出我的腳本。

大概這個芯片的特色在於多了一些線粒體的位點用母系祖緣分析吧。

2)未分出的位點數

#先看看Y染色體上的點
 cat ywc.txt | grep 'Y'| wc -l
46241
#再看看所有是『-』的位點數
 cat ywc.txt | grep '-'| wc -l
71569

那麼真正未分出的位點是71569-46241=25238個。

view source

#以sg開頭的位點,應該是圖靈自己加上的。
cat ywc.txt | grep 'sg'| wc -l
33682

2.甲亢

看看中國人甲亢的易感位點,因為發現報告中沒有給出甲亢的相關內容,而中青年女性較易感。先找一下甲亢的位點有哪些。

中國人GWAS的幾個位點

新聞報道,2011年上海交通大學醫學院附屬瑞金醫院旗下的上海市內分泌研究所、上海市血液病研究所聯合國家人類基因組南方研究中心,發現了兩個新的甲亢致病易感基因。http://www.nature.com/articles/ng.898

rs3761959 1 157669278 CT

風險基因是A,CT應該測的是反向鏈,那麼CT的風險應該是1.23倍。

rs9355610 6 167383075 GG

風險基因是G,GG的風險應該是1.19*1.19=1.4161

rs1024161 2 204721752 TT 這個位點的風險基因型是G,所以應該是正常風險。

rs4947296 6 31058178 CT 這個位點的風險基因型是C,所以風險值是1.77。

rs6903608 6 32428285 TT 這個位點的風險基因型是C,所以應該是正常風險。

rs6457617 6 32663851 TT 這個位點的風險基因型是T,所以風險值是1.4*1.4=1.96。

rs2281388 6 33060118 AA 這個位點的風險基因型是T,所以風險值是1.64*1.64=2.689。

rs12101261 14 81451229 CT 這個位點的風險基因型是T,所以風險值是1.35。

rs6832151 位點沒有檢測,也沒有找到聯鎖不平衡的位點,所以暫時不看了。

綜上,應該是偏高了,甲亢易感!

3.HLA

之前有個軟件SNP2HLA可以把snp芯片的結果轉化成HLA分型的,軟件數據庫裏面還有中國人的數據集,相對準確,可以分到每個基因座兩位,準確度因基因座而不同,還有個網站,也可以實現將23andme等的結果提取出HLA型。下面我測試一下在線網站的方法:

網站的方法,簡單易行,雖然可能準確度有點問題,先試試,話說這個網頁是採用HIBAG這個R包實現的,看名字應該是個中國人或者華人寫的,點贊一個! http://hla.nicokist.com/

看它的示例數據只有A、B、C三個基因座的結果,結果準確性偏低的。今天逛wegene論壇發現一個可以將wegene等芯片的數據轉換成23andme的,試試行不行,地址地這:http://joshua.galaxy.42dna.com/wgto23/

竟然成功了,結果類似上面的,雖然只有01, 0.59和0.85的準確率,僅供娛樂娛樂。