你身體里的DNA 能存下整個宇宙的數據

2022 年 8 月 4 日
資訊
DNA, 宇宙, 生科醫學

恐龍滅絕6000多萬年後，科學家們獲得了一塊有史前蚊子的琥珀，從蚊子血中獲得了恐龍的基因，從而讓遙遠的生物復活。

講這個故事的《侏羅紀公園》，至今仍位列全球電影票房前十。這個系列故事的原理很簡單：DNA存儲了恐龍的生物資訊，科技讓它重新表達。

現在，用DNA想像另一個故事：在宇宙長河中，「人類世紀」也寂滅了。另外一種智慧生物出現，TA們去探究遠古的「人類文明」。有什麼會承載人類文明的記憶？氣溫異變，地球上的龐大數據中心徒留遺迹。

凍土中有一份DNA，它很輕，只有1公斤，看起來是一些被封裝在膠囊里的白色粉末。讀取後，裡面卻記載了地球上曾有的巨量資訊。影片、文字、程式碼展現了人類歷史進程中的無數發明和文藝作品。

於是那個遙遠文明的痕迹在宇宙間再次展開。

這是另一個科幻設定了。背後的技術正是目前被關注的一個前沿方向：DNA存儲資訊。

在大自然里，DNA負責存儲遺傳資訊。單個人體細胞的平均直徑是5到200微米，這其中的DNA可以包含一個人全部的遺傳資訊：30億對鹼基。

那為什麼不能用鹼基存儲別的資訊？這個科幻般的設想，正在走出實驗室，被當作資訊存儲的未來方案。

01、基因組數據太多了，怎麼辦？

本來是生物學家想解決生物學發展的問題。

11年前，一群生物資訊學家在德國的一家酒店裡討論「數據存儲問題」。NickGoldman也在其中，那是他在歐洲生物資訊所（EBI）擔任高級科學家的第二年。

大規模的基因組測序正在進行，隨之產生的數據規模快速增長。存儲、壓縮這些數據是個麻煩事，現有的技術方案看起來不太行。

據估計：人類基因組需要高達2^-40EB的存儲容量。這可能超過一個世界級科技公司的雲存儲量——全世界蘋果用戶存儲在Google雲上的數據總量大約是8EB。這8EB數據，每月存儲費需要2.18億美元。（1EB=102^3GB)

生物學家們陷入了沮喪。

NickGoldman拿著存儲了莎士比亞所有十四行詩、一張照片和「我有一個夢想」演講片段的DNA｜來源：EBI

有人靈光乍現：是什麼東西阻止了我們用DNA來儲數據呢？

看起來是一句玩笑話，但是生物學家們意識到了這不僅僅是個玩笑，他們拿起手邊的餐巾紙，用圓珠筆認真計算起可行性。

DNA存儲遺傳資訊的原理並不複雜，它由四種核苷酸A、T、G、C組成，彼此兩兩對應，組成雙螺旋結構。核苷酸的序列，記錄了遺傳資訊。

在數字世界，所有的資訊本質上是0和1組成的數據串。想要DNA存儲數字資訊，簡單理解，原就是將0和1的編碼序列轉換成核苷酸的序列。DNA存儲的優勢在於密度大，大約在你眼前逗號這麼大小，1立方毫米的DNA，就可以容納9TB（1TB=1024GB）的資訊。

用DNA存儲數據，也並不是完全新的想法，之前就有科學家嘗試過。不過屬於科學和藝術的先鋒跨界實驗。

1988年，藝術家Joe Davis和哈佛大學的研究員，將一副名為「小維納斯」（Micro Venus）的圖案存儲到DNA短鏈中。

存儲進DNA的小維納斯（microvenus）圖片來源：相關論文

這個圖案編碼簡易，白色的地方標記為0、黑色的線條部分標記為1，文件大小只有35bits，用了28個核苷酸長度的DNA鏈條來存儲。

在那次酒店討論的2年之後，2013年，Goldman團隊發表了研究成果。這次，他們存儲了5種不同格式的文件，一共有0.75MB。為了確保資訊讀取不出錯，科學家存儲的時候，每份資訊按照四倍冗餘的量來存儲。

五個文件分別是：

－ 154首莎士比亞的14行詩（ASCII編碼格式）

－提出DNA雙螺旋結構的論文（PDF版）

－一張照片（JPEG格式）

－馬丁·路德金「我有一個夢想」演講其中26秒片段（MP3格式）

－一串霍夫曼密碼

這些年，DNA存儲容量的上線不斷被突破。2019年，美國一家創業公司Catalog在DNA中存儲了16GB的維基百科。這個公司表示自己正在建設世界上第一個基於DNA的大規模數字數據存儲和計算平台。

02、編碼和解碼，要處理的事情很多

在一些生物學家看來，用DNA來存儲是一件非常「順滑」的事。「大自然的編碼語言非常類似於我們在電腦領域使用的二進位語言。在硬碟上我們使用0和1來代表數據，而DNA中，我們擁有4種形式的核苷酸，A、C、T和G」。在瑞士聯邦理工學院的生物學家RobertGrass說。

DNA存儲的關鍵之一是用四個核苷酸去映射0和1兩個數字。

方案可以很簡單。比如：A對應00，C對應01，G對應10，T對應11。然後再按照所需要的核苷酸序列，像串珠子一樣，把核苷酸們串成一串。（這就是DNA合成）需要讀取資訊的時候，再運用基因測序技術，把這一串核苷酸序列讀取出來，再翻譯成0和1的字元串。這個流程就是編碼—DNA合成—測序—解碼。

這個聽起來像是「把大象裝進冰箱」的流程，操作起來需要考慮的問題還有很多。不然科學家就不必一直研究新的編碼方案了。

在自然界存在的DNA中，A和T，C與G兩兩配對，在一條DNA中，CG與AT的存在比例基本均勻，為50%左右。如果C和G的含量過高，可能會讓DNA鏈產生一些複雜的物理結構。這就會讓DNA測序（解碼）變得複雜。

DNA存儲的步驟｜來源：DNADataStorageAlliance

而且在「串珠子」（也就是合成DNA鏈條）的過程中，錯誤率不可避免。目前大約每合成100個鹼基就會出現一個錯誤。這是由目前的化學合成技術帶來的瓶頸，每合成一個鹼基，有99.9%以上的正確率。但是當鹼基串變長，0.01%的概率相乘，錯誤就難以避免。

目前人工合成DNA的單鏈的長度一般不超過100個鹼基，極限在300個鹼基左右。而在自然界的DNA動輒有幾千個鹼基對。

也就是說，雖然DNA的存儲能力很強，但它們不得不以很多條短鏈的方式存在。如果存儲的資訊量比較大，這些DNA短鏈就像一本散裝的書。它可以存儲很多資訊，存在形式卻是一張張標著頁碼的紙。

當然，可以將一條條DNA短鏈拼接成長鏈。這就意味著增加了一道工序。在測序的過程中，又需要把長鏈打斷成短鏈。這是因為目前技術還不能一次性讀取長鏈。

在測序的過程中，也存在錯誤率。儘管目前的錯誤率已經低至10^-3數量級，比起商業硬碟的讀寫錯誤率，仍相差至少9個數量級。

正確率受到合成和測序這兩項技術的影響，科學家想到設計編碼方案來避免：在編碼中增加糾錯機制。這樣，哪怕鹼基合成和測序中出現了錯誤，依舊能夠保證被存儲進DNA的內容能夠被正確讀取出來。

03、走出實驗室，還要考慮速度和成本

DNA存儲也正在嘗試走出實驗室。

2020年10月，微軟、西部數據和基因測序巨頭Illumina、DNA合成初創公司Twist Bioscience等聯合成立了DNA數據存儲聯盟。

這是世界上第一個該領域的學術和產業鏈聯盟。這個聯盟希望制定技術和格式標準，最終建立一個可以通用的商業系統。

微軟研究院在2015年就成立DNA存儲的項目，並聘請了華盛頓大學的電腦科學與工程學院的副教授KarinStrauss擔任高級首席研究經理（Senior Principal Research Manager）。

2013年，她和同事去英國EBI訪問，了解到Goldman和同事們關於DNA存儲的研究，就對這個方向產生了很大的興趣。Strauss說：「DNA的密度、穩定性和成熟度讓我們興奮。」

在他們的研究中，想開發的是另一個功能：隨機讀取。常見的DNA測序技術中，必須要將所有的鹼基串一次性讀取完，才能夠獲得資訊。要麼不讀取，要麼全讀。如果只想要數據中的某一個小片段，就會非常麻煩。

2016年，他們發表了一項研究，可以在DNA已經存儲的資訊中搜索到指定的影像，定位後，用酶來複制所需的DNA片段，然後只需讀取這一小段即可。

KarinStrauss（右）和兩位研究合作者｜來源：csenews

要讓DNA存儲離商用更進一步，還需要解決合成速度和成本。現在合成速度是每秒存儲上千個位元組（KB），成熟的雲存儲方案已經有每秒千兆位元組（GB）以上。

這意味著，編寫DNA的速度還需要提升6個數量級。如何讓提升數據處理量？就像並行計算能夠提升數據處理速度，科學家希望DNA在合成時也可以並行多條，同時處理。

2021年，微軟開發出首個納米級DNA存儲器，能夠在每個平方厘米的區域上，同時合成25X106（2650）條鹼基序列。這個新的技術把原來同時合成鹼基序列的數字從個位提升到了千位。這個吞吐量，讓DNA合成速度變成了每秒兆位元組（MB）。

新的方法讓DNA合成的陣列數量大大增加｜來源：微軟研究院

更大的吞吐量，也就意味著更低的成本。現在DNA存儲的成本是每萬億位元組（TB）8億美元。而磁帶存儲成本已經降到了每萬億位元組16美元以下。這樣比起來似乎毫無競爭力。但現實生活中的大型數據中心的維護成本極高，還要定期更新硬體；DNA存儲密度大、體積小、可以長時間不變質的優勢就變成了降維打擊。

所以量大、讀取頻率低的「冷數據」，被認為是DNA存儲最近的應用場景。TwistBioscience最近在一份市場報告中強調，這種技術能夠幫助科技企業在「大規模、低功耗」情況下更有效地部署。

另外一些樂觀的科學家，更相信技術的進步。

自2003年人類基因組計劃完成以來，測序成本降低了200萬倍。2016年時，面對每秒千位元組的速度，Goldman說：「（讀寫的速度提升）6個數量級對基因組學來說沒什麼大不了的。你只需要再等一會兒。」

那這「一會兒」是多久呢？這個領域似乎到了臨門一腳，仍在等待突破。

你身體里的DNA 能存下整個宇宙的數據

VirMach 便宜 VPS

QNews

你身體里的DNA 能存下整個宇宙的數據

分享此文：

Related Posts

華為PC家族再添「新人」：台式機行業強手出現

「廁所界」的勞斯萊斯！深圳一廁所成為網紅

直播：七夕晚會來了 王心凌/神舟十四號飛行乘組等很吸睛

美團無人機上海試運行：咖啡3分鐘送到

VirMach 便宜 VPS

QNews

熱門搜尋

直播：七夕晚會來了王心凌/神舟十四號飛行乘組等很吸睛