98.5%人類蛋白質結構被AI預測出來了!全部免費開放

98.5%的人類蛋白質結構被AlphaFold2預測出來了!

而且還做成了數據集,全部免費開放!

在開源AlphaFold2僅一周後,DeepMind震撼發佈AlphaFold數據集,再次引爆科研圈!

98.5%人類蛋白質結構被AI預測出來了!全部免費開放

數據集中預測的所有氨基酸殘基中,有58%達到可信水平,其中更有35.7%達到高置信度。

而在這之前科學家們數十年的努力,只覆蓋了人類蛋白質序列中17%的氨基酸殘基。

除了人類蛋白質組,數據集中還包括大腸桿菌、果蠅、小鼠等20個具有科研常用生物的蛋白質組數據,總計超過35萬個蛋白質的結構。

最重要的是,這些全都免費開放!交給歐洲生物信息學研究所託管。

98.5%人類蛋白質結構被AI預測出來了!全部免費開放

「這是人類基因組圖譜之後最重要的數據集」,這樣的評價來自Ewan Birney,他領導了人類基因組計劃的後續項目:人類基因元件百科全書(ENCODE)。

DeepMind創始人哈撒比斯在官網發佈題為《把AlphaFold的力量交到全世界手中》的文章,同時也在推特上表達了他抑制不住地興奮:

這是我一生中夢寐以求的日子,也是創辦Deepmind的初衷:用AI推進科學發展並造福人類。

98.5%人類蛋白質結構被AI預測出來了!全部免費開放

造福人類整體的另一面,是對當前結構生物學相關從業者的巨大衝擊。

有人對與AI賽跑這件事感到絕望。

98.5%人類蛋白質結構被AI預測出來了!全部免費開放

還有人吐槽,都開源了免費了沒法申報經費了。

98.5%人類蛋白質結構被AI預測出來了!全部免費開放

但也有人提出了不同的看法:21世紀不只是生物學的世紀,更是合成生物學的世紀啊!

98.5%人類蛋白質結構被AI預測出來了!全部免費開放

在結構生物學實驗室工作過的知乎網友@sorrySorui有點騷也認為AlphaFold的出現為科研人員節省大量時間和精力。

98.5%人類蛋白質結構被AI預測出來了!全部免費開放

他認為使用AlphaFold得出來的結果,可以幫助進行藥物設計等進一步的研究。

98.5%人類蛋白質結構被AI預測出來了!全部免費開放

那麼這次預測結果中有哪些蛋白質能開闢新的研究方向?

幾個重點預測

AlphaFold 2預測的結果總共有35萬個,DeepMind在論文中挑出了3種典型的蛋白質結構預測,這些預測都是從頭開始的。

雖然結果最終要通過實驗來驗證,但是這些預測還是為生物學家提供了很多有用的結果。

1、葡萄糖-6-磷酸酶(Glucose-6-phosphatase):發現了一種新的蛋白質門控機制

這是一種膜結合酶,可催化葡萄糖合成的最後一步,對維持血糖水平至關重要。以前沒有該蛋白質的實驗結構。AlphaFold預測具有非常高的可信度並給出了一個九螺旋拓撲結構。

98.5%人類蛋白質結構被AI預測出來了!全部免費開放

DeepMind發現,在這種預測的結構中,谷氨酸可以穩定封閉構象的結合位點,因此可能存在門控功能,而這種新的機制是過去沒有發現過的。

2、二酰基甘油O-酰基轉移酶2(Diacylglycerol O-acyltransferase 2):尋找抑制酶的結合位點

這種酶負責將多餘的代謝能量儲存為脂肪,它( DGAT2)是催化過程中最終酰基添加的兩種必需酰基轉移酶之一,之前的研究顯示抑制DGAT2可改善肝病小鼠模型中的肝功能。

憑藉AlphaFold高度可信的預測結構(中值 pLDDT 95.9),可以確定該蛋白與抑製劑的結合位點。

98.5%人類蛋白質結構被AI預測出來了!全部免費開放

3、Wolframin:尋找遺傳病的成因

Wolframin是一種定位於ER的跨膜蛋白,與遺傳病Wolfram綜合征有關。Wolfram綜合征是一種神經退行性疾病,其特徵是早發性糖尿病、逐漸視力和聽力喪失以及早逝。

98.5%人類蛋白質結構被AI預測出來了!全部免費開放

雖然AlphaFold完整預測結果的置信度較低(中值 pLDDT 81.7),但是可用於識別該蛋白質結構特殊區域,一樣能獲得有用的結果。

比如,最近的進化分析研究了Wolframin的一個區域,AlphaFold的預測在很大程度上支持了他們的結論。

AlphaFold的預測表明,由於Wolfram綜合征患者缺乏Wolframin中的半胱氨酸,可能會在蛋白質中形成二硫鍵交聯。分析結果對幫助我們理解這種遺傳疾病的原理很重要。

98.5%人類蛋白質結構被AI預測出來了!全部免費開放

加速癌症、HIV等疾病治療

目前,AlphaFold數據庫中大約有36.5萬個結構預測。

研究人員表示,接下來他們會將預測範圍進一步擴大,預計在今年年底將預測數量增加到1.3億個。

這個數量已經達到了人類已知蛋白質總數的一半。

這樣震撼的成果,也讓谷歌CEO Pichai再一次為AlphaFold站台:

AlphaFold數據庫展現了AI加速科學進步的巨大潛力,它能在一夜之間就大幅提升我們對蛋白質結構和人類蛋白質組的認識。

98.5%人類蛋白質結構被AI預測出來了!全部免費開放

蛋白質有着結構決定功能的特性,通過對它結構的研究,科學家能夠掌握更多其功能、機理上的信息。

比如可以了解蛋白質是如何與其他化學物質相互作用的,以及在什麼位置上發生反應。

這有助於科學家了解突變蛋白質是如何改變其功能的,從而展開對癌症、HIV、遺傳性疾病的進一步探索。

此外,AlphaFold2能夠將預測的準確性提升到了原子級別。

也就是說,人類現在可以更快速精準地確定酶的活性位點,這對藥物開發也有着重大意義。

歐洲分子生物學實驗室(EMBL)的負責人Edith Heard就說道:

我們相信這對理解生命體是如何運作有着變革性的影響。

哥倫比亞大學的計算生物學家Mohammed AlQuraishi表示,此前蛋白質結構預測領域總是要花費大量時間在一些基礎工作上,浪費了學者的很多精力,現在他們可以更加專註於對蛋白質結構的研究了。

之前我們做研究都要依賴於氨基酸序列,現在可以直接從蛋白質結構上入手了。

事實上,一些與DeepMind展開合作的研究團隊,已經通過AlphaFold加速了研究進程。

比如DNDi(被忽視疾病藥物開發組織)就表示,AlphaFold2推動了他們在熱帶疾病藥物開發方面的研究。

朴茨茅斯大學酶創新中心(CEI)也表示,他們正在利用AlphaFold2開發一些新的酶,可以用來降解污染環境的一次性塑料。

科羅拉多大學波爾德分校的生化學家Marcelo Sousa則利用AlphaFold來製作蛋白質結構模型,開展一項關於抗生素的研究。

加州大學舊金山分校的一個團隊則表示,AlphaFold2可以幫助他們更好理解SARS-CoV-2的生物學機制。

蛋白質組學

AlphaFold2獲得巨大成功的背後,離不開蛋白質組學(Proteomics)的研究。

蛋白質組指在特定時間由基因組、細胞、組織或有機體表達的全部蛋白質。

在90年代,人類基因組計劃開始成形時,科學家意識到光掌握基因的鹼基排列是不夠的,還必須了解基因的產物蛋白質。

由此,澳大利亞遺傳學家馬克·威爾金斯提出了破譯人類蛋白質組的想法。

2001年人類基因組框架圖發佈的同時,人類蛋白質組研究組織(HUPO)也正式成立。

直到2014年,慕尼黑工業大學和約翰霍普金斯大學終於繪製出人類蛋白質組草圖。

隨後人類蛋白質組數據庫逐漸被完善,AlphaFold此次使用的就是目前收錄最廣泛和注釋信息最全面Uniprot數據庫。

想了解更多AlphaFold的技術細節可參考下面鏈接:《AlphaFold2成功秘訣:注意力機製取代卷積網絡,預測準確性提升超30%

論文地址:

//www.nature.com/articles/s41586-021-03828-1

數據集:

//alphafold.ebi.ac.uk

知乎授權回答:

@sorrySorui有點騷://www.zhihu.com/question/474094187/answer/2014736529

參考鏈接:

[1]//deepmind.com/blog/article/putting-the-power-of-alphafold-into-the-worlds-hands

[2]//twitter.com/demishassabis/status/1418226238888448004?s=20

[3]//www.nature.com/articles/d41586-021-02025-4

[4]//www.sciencemag.org/news/2021/07/new-public-database-ai-predicted-protein-structures-could-transform-biology

98.5%人類蛋白質結構被AI預測出來了!全部免費開放