體驗impute.me基因檢測分析結果
- 2020 年 3 月 3 日
- 筆記
本來以為這是一個小應用,試用完後給我的感受是這是一個基因組的應用商店,它涵蓋了無數的研究結果,一個大大的贊!
impute.me是個可以讓你DIY分析你的基因組的網站,我的基因檢測結果是沒有提供impute(基因型填充)的,這個網站方便地進行了基因型填充,還有各個基因特徵的預測,贊一個!我前面也介紹過,這個網站是開源的,使用R的shiny搭建。當然,這個基因型填 充是基於千人基因組計划進行的,數據結果估計不會像中國測了幾十萬人的準確。這裡還有一個小插曲,前面我的原始結果並不是標準的23andme的,上傳時並沒有識別,作者還熱心地聯繫我幫助我完成了分析,一併表示感謝。
先看一下這個基因型填充結果
這個基因型填充結果壓縮包有295兆,解壓後有幾個G之巨,仔細看了下是各個染色體分開的文件,每個染色體幾十兆的樣子。那麼就統計下一共有多少位點吧,總共有37,249,181,有3700萬之多。。。
ls ./| while read id;do wc -l $id;done2840214 id_634230d20_chr1.simple_format.txt 1779626 id_634230d20_chr10.simple_format.txt 1792749 id_634230d20_chr11.simple_format.txt 1725145 id_634230d20_chr12.simple_format.txt 1296116 id_634230d20_chr13.simple_format.txt 1184998 id_634230d20_chr14.simple_format.txt 1064439 id_634230d20_chr15.simple_format.txt 1144875 id_634230d20_chr16.simple_format.txt 983628 id_634230d20_chr17.simple_format.txt 1028291 id_634230d20_chr18.simple_format.txt 759762 id_634230d20_chr19.simple_format.txt 3132121 id_634230d20_chr2.simple_format.txt 808199 id_634230d20_chr20.simple_format.txt 485343 id_634230d20_chr21.simple_format.txt 462904 id_634230d20_chr22.simple_format.txt 2613454 id_634230d20_chr3.simple_format.txt 2581152 id_634230d20_chr4.simple_format.txt 2394303 id_634230d20_chr5.simple_format.txt 2290440 id_634230d20_chr6.simple_format.txt 2089551 id_634230d20_chr7.simple_format.txt 2072014 id_634230d20_chr8.simple_format.txt 1561593 id_634230d20_chr9.simple_format.txt 1158264 id_634230d20_chrX.simple_format.txt
2.看看各個分析項目
除了基因型填充,一共有12個類別,裡面有各個小類,那我就簡單看下結果。
2.1 複雜疾病(Complex diseases: The GWAS Calculator)
竟然有930多項,真的感覺快把GWAS的項目搬過來了,看得出工作量之巨大。 每個項目的模式是,先介紹下參考了哪篇文獻,使用了多少個SNP,然後這篇文獻的情況,研究了多少個體,然後告訴你你的評估結果,偏高還是偏低。後面以表格的形式列出你的snp位點資訊。最後介紹下方法學:
輸入數據是從幾個在線科學來源下載的,包括PubMed、GWAS中心和GWAS Catalog。然後,通過計算風險等位基因乘以效應大小(OR或Beta)來計算每個SNP的得分。以此為中心,使普通人群的平均得分為零(「人口標準化」)。這意味著,如果一個人是一個非常罕見的風險變體的純合子,這將導致一個非常高的Z評分,相反,如果SNP是常見的,Z評分將不那麼極端。這些標準化的SNP評分之和被計算為一個性狀範圍的遺傳風險評分(GRS)。此外,還對GRS進行了定標,使一般人群的標準差為1(單位方差),有效地使得分成為Z-分值。所有縮放都是使用每個SNP的次要等位基因頻率(MAF)進行的,這是從1000個基因組項目v3中提取的,使用東亞頻率分布,這給出了這個多基因風險評分的族裔特定標準偏差為0.13,當得出特徵Z評分-0.89時,考慮到了這一點。計算的更多細節可以在源程式碼中找到。 這種方法的優點是它不需要比MAF、效應大小和基因型更多的數據輸入。這使得計算相當容易實現。要對此理論分布進行雙重檢查,請打開「高級選項」部分中的「列印實際分布」選項。在大多數情況下,理論分布和實際分布是相同的,但如果不是這樣,則可能表明存在一些問題,如高度種族特有的影響。 另一個潛在的問題是,在某些情況下,術語遺傳風險評分可能不清楚。例如,就高密度脂蛋白膽固醇或維生素水平而言,目前尚不清楚較高的數值是否與風險有關。再次建議參考GWAS的原始出版物。此外,不是滾動這裡的所有條目,然後檢查精確醫學模組-基於這一資訊,但給出了一個更有針對性和範圍相關的分數視圖。
![](https://ask.qcloudimg.com/http-save/yehe-1075469/57iqgayfo9.png)
![](https://ask.qcloudimg.com/http-save/yehe-1075469/lqo7f6fcx6.jpeg)
這些項目實在是太多了,多的我只能把這些文字爬下來拖到網頁翻譯來解決,竟然一次還搞定不了,告訴我翻譯文字超過5000,不能一起翻譯完,分了四五次之多。。。一併放在最後了。
英國生物銀行
最近發表了一項針對約20萬英國居民的研究,稱為英國生物銀行。該模組允許計算任何已發表的性狀的遺傳風險評分。
再來看看第二個項目,同樣有驚人地數不清的數目,竟然有339個項目之多,同樣覆蓋了好多不同的領域,很多還是各種生活特徵,充滿了趣味性的感覺。同樣還是和GWAS計算器一樣的,是根據每一篇文章來的,後面是附上了各個位點和等位基因頻率等相關係數。 有興趣的話可以仔細搜索一下這些項目有沒有感興趣的,來分析一波。 太多了,還是附在最後的合適。。。
身體外觀
外觀特徵,如身高和頭髮顏色高度可遺傳,您的基因組可以提供線索。當然,最好的來源是鏡子。 儘管如此,對兒童進行分析以提供他們最終身高和外表的估計值可能會很有趣。將來可能會提供其他特徵,如眼睛和膚色,甚至是面部形狀。然而,事實是這些特徵更難以預測,因此遺傳分析提供了更有限的益處。因此,該模組專註於高度可遺傳的高度,以及目前更多猜測的頭髮顏色。
身體外觀 垂直條表示您的遺傳高度。彩色雲顯示了來自一大群人的真實高度和遺傳高度分數的比較。從這兩個你可以找到你估計的實際高度。
![](https://ask.qcloudimg.com/http-save/yehe-1075469/ysa2s9i6yb.jpeg)
細節:垂直條顯示您在X軸上的遺傳高度。遺傳高度計算為Z得分,其基本上是指高於或低於總體平均值的標準偏差的數量。總體平均值顯示為背景顏色塗片,並且根據當前最大高度-GWAS。如果顯示較小的點,則它們代表已自願提供其自身高度資訊的先前用戶。在可能的情況下,數據會針對性別進行更正 – 遺憾的是,一些數據提供者不包括性染色體的測量數據。 頭髮顏色估計 該圖顯示了您估計的遺傳毛髮顏色。
![](https://ask.qcloudimg.com/http-save/yehe-1075469/wrucy7j09w.png)
圓圈顯示您估計的基因頭髮顏色。請考慮提供自己的頭髮顏色 – 這些演算法可以使用更好的調整,例如我們真的需要聽到紅頭髮的人。
祖源
有幾種方法可以調查基於種族的種族,其中很多都圍繞著分配祖國的百分比。這個種族模組採用了一種不同但更簡單的方法。從大型1000基因組項目開始,它確定了大多數種族依賴的~1000個SNP。然後,模組對1000個基因組 – 項目樣本中的每一個以及您的樣本執行聚類分析(』PCA』)。
這在我們的分析方法中特別有用,因為該資訊可用於種族 – 糾正其他模組中的計算,例如複雜的疾病模組。然後,您可以調查您的基因組最相似的已知種族。
![](https://ask.qcloudimg.com/http-save/yehe-1075469/31bi99238o.png)
關於祖源,我還做過一些學習筆記,晚會放在這:
您的基因組在結果圖中顯示為略大的黑點,您可能需要放大才能看到它。
藥物反應
這是對藥物反應SNP的系統方法的測試。大多數已知的藥物反應相關遺傳學涉及肝酶(例如CYP2C19)及其藥物代謝物的分解。這些已經在其他地方很好地表徵 該模組的重點是整合肝酶以外的系統多SNP譜,並提供藥物反應的估計。
為了說明這是如何工作的,該模組顯示了對於第一和第二表對應於每個藥物水平和每個SNP水平的許多藥物反應預測的計算。第一個表格儘可能地總結了每種藥物的計算方法。如果可能,以與複雜疾病中描述的相同方式計算Z分數模組。如果不是,則表示為「未計算」。在這種情況下,有必要查看第二個表,以便從輸入研究中對各個SNP進行評論。Z-score方法從許多SNP獲取資訊,因此可以被認為是更多的,當然取決於潛在的科學研究。 有這麼幾個項目,分別對應了幾個藥物,這些應該是科學上研究比較明確的,一般測的項目全的基因檢測公司都會有的項目。 急性冠狀動脈綜合征-氯吡格雷,急性淋巴細胞白血病-門冬醯胺酶-氨甲喋呤,酒依賴-納曲酮,過敏-ige致敏,細菌感染-大環內酯類,噪鬱症-鋰,乳腺癌-他莫昔芬,慢性淋巴細胞白血病-氟達拉濱加環磷醯胺,慢性阻塞性肺疾病-bronchodilator,冠狀動脈心臟疾病-氯吡格雷-他汀類藥物,乙型肝炎病毒(HBV)-pegylated interferon,丙型肝炎病毒(HCV)-干擾素,海洛因依賴-美沙酮,HIV-阿巴卡韋,高血壓-阿替洛爾-氯沙坦-噻嗪類,麻疹、腮腺炎和風疹-疫苗,多發性骨髓瘤-雙膦酸鹽,多發性硬化症-帕松,銀屑病-抗TNF,腎細胞癌-帕唑帕尼,精神分裂症-氯氮平,2型糖尿病-胰島素-二甲雙胍,維生素E缺乏症-維他命E。
罕見疾病
該表顯示了已知賦予一系列嚴重遺傳病症的變體。它們都是相當罕見的條件。然而,稍微更常見的是成為這些條件的載體的情況。作為攜帶者意味著一個人有一份致病等位基因的副本,但不會受到影響,因為這種情況只有在兩種副本屬於引起疾病的類型時才會出現。
根據這個分析,你應該特別注意遺傳的條件:家族性地中海熱(南方人中比較常見的,攜帶這個基因的人對瘧疾的抗性比較高)。
但請注意,即使在插補後,79%的查詢SNP在您的數據中也不可用。這是因為這些引起罕見疾病的SNP難以估算,並且只有來自23andme的微陣列類型具有訂製修改以便測量它們。
![](https://ask.qcloudimg.com/http-save/yehe-1075469/ghvtmo611u.png)
基因突變
基因組中的大多數SNP實際上並未在基因中發現:它們是「基因間的」。然而,當談論基因突變時,正如在流行媒體中所做的那樣,通常意思是改變基因序列的SNP。由於整個演化過程中的選擇壓力,這些都是罕見的。此外,它們通常是使用DNA測序技術發現罕見疾病原因的科學研究的焦點。然而,有趣的是,我們中的許多人實際上擁有這些「基因破壞」SNP,但仍然是完全健康的。該站點使用的插補技術使得有機會僅基於基因分型微陣列結果來識別其中的一些。如果您將ID程式碼提供給此模組,則會顯示所有測量的錯義和無意義突變的表格。
對表格的解釋可以通過多種方式完成,與其他模組不同,這並不能給出「一個真正的答案」。一種方法是搜索SNP,其中您有一個或兩個非常見等位基因拷貝,然後使用其他資源(如dbSnp或ExAC)調查結果。但請注意,』common』的定義非常依賴於種族:在這個瀏覽器中,常見的僅僅是impute.me-users中最常見的等位基因。但是,建議檢查例如1000個基因組瀏覽器中的種族分布。提供的另一個幫助是polyphen和SIFT – 分數,可以指示結果。最終,這樣做的目的是滿足人們對功能基因狀態的好奇心。如果您碰巧發現您攜帶兩份完全有害的突變(無義突變),但在其他方面感覺健康,請隨時與我們聯繫。通過健康,儘管有一個特定的基因斷裂,你將有助於完成我們對基因及其工作方式的看法。
結果是一共有顯示8,317個,實在好多,當然,如果進行全基因組測序的話會有更多的snp,絕大部分應該是沒有意義的。
BRCA
沒錯,這就是安吉-朱莉測的那個BRCA,這可是臭名昭著的能導致乳腺和卵巢的癌症的基因突變。當然,這裡是基因型填充出來的,可能有位點存在準確性問題。當然,大部分人是不會有致病突變的。
已經記錄了BRCA1和BRCA2基因中的數千個突變。23andMe報告了三種突變的數據,這三種突變佔了遺傳性乳腺癌的大部分,但這兩種基因的其他可能突變並未包括在23andme報告中。許多只能通過測序檢測,例如來自無數的遺傳學。然而,通過插補分析可以獲得數十種額外可能的感興趣突變。以下列出了直接測量的三個23andme-SNP以及兩個基因中錯誤或無意義的所有其他推測SNP的基因型。對於解釋,我們建議您閱讀更多關於polyphen,sift-scores和clinvar的資訊。
如果clinvar被指示為致病性和在您的基因組中測量SNP 並且您的基因型不是基因型表示正常,那麼這表明存在潛在問題。默認情況下,列表根據clinvar變數排序。
政治傾向
根據以前用戶自願提供自己政治觀點的現有意見,我們可以計算出遺傳學沒有任何重大的政治意見影響。當校正年齡和性別(P = 0.18)和0.048%未校正時(P = 0.18),遺傳學解釋的政治觀點變異百分比為0.95%。Spearman等級相關性給出rho = 0.046(P = 0.0052),這是一個相當低的關聯分數。請注意,由於極端的遺傳價值(可能是種族效應),未顯示287個樣本。但它們包含在統計數據中。
![](https://ask.qcloudimg.com/http-save/yehe-1075469/xuc101y1pr.png)
方法 使用Hatemi等人的數據計算遺傳風險評分。使用的方法與針對複雜疾病模組描述的方法相同。
Kandinskyfy你的基因組
從基因組數據中創造獨特的藝術並不是一個新想法。但是,我見過提供此類服務的大多數地方實際上只使用很少的SNP。在這個模組中,所有與特質相關的SNP結合起來,使用kandinsky R-package中的漂亮程式碼,以Wassily Kandinsky的風格創造出一種真正獨特的藝術品。 您可能會問這幅圖是否能夠揭示您對基因組和內在自我的更深入了解?也許它確實如此,也許它沒有。無論哪種方式 – 它都保證是僅從您的基因組中獲得的獨特繪圖。您可以列印並將其用作藝術品。
![](https://ask.qcloudimg.com/http-save/yehe-1075469/63ixhlgb7s.png)
這我可以把這個理解為人工智慧了,哈哈,當然這只是電腦作圖而已。
運動相關
這些SNP是最著名的運動SNP。他們都背後有很好的支援。如果你想使用這些發現,花一些時間了解比值比的概念是值得的。這是因為這些研究的效果大小通常以例如優勢比』1.3』的每等位基因給出,作為精英運動員的機會。這意味著,有一種被精英的短跑選手,每個等位基因1.3倍的幾率提高-但它也意味著一批精英的短跑運動員中,很大一部分將不會一定衝刺基因型。
![](https://ask.qcloudimg.com/http-save/yehe-1075469/2gqkgwdnhq.jpeg)