來源:hao123百家號 時間:2022-05-17 10:47:44
在人體細胞中,遺傳物質是DNA——脫氧核糖核酸。它被包裹在細胞的核中并存在于染色體中。DNA的編碼形式為含氮堿基——腺嘌呤(A)、鳥嘌呤(G)、胸腺嘧啶(T) 和胞嘧啶(C)。
生物體有大量的生物信息,這些信息決定了它們的形態和解剖結構,包括在生物體中進行的過程。
堿基的排列順序,決定了長相、智力,不同病癥的發病風險等。舉個例子,ACA的排列讓人眼神不好,而CAC的排列能讓人長高,這其實就是遺傳信息。有機體的每一個特征都存在于它的體內,而包含這么多信息的分子就是DNA分子。
目前,地球上大約有10萬億字節的數字數據,每天,人類產生的電子郵件、照片、推文和其他數字文件加起來還有250萬千兆字節的數據。大部分數據存儲在稱為艾字節數據中心(1 艾字節為 10 億千兆字節)的巨大設施中,這些數據中心可能有幾個足球場那么大,建造和維護成本約為 10 億美元。
每年耗費數億美元維護的數據中心
許多科學家認為,另一種解決方案在于包含我們遺傳信息的分子:DNA,它可以以非常高的密度存儲大量信息。麻省理工學院生物工程教授馬克·巴斯說,理論上一個裝滿DNA的咖啡杯可以存儲世界上所有的數據!
雖然不同機構計算一克DNA的儲存容量的值不同,但目前被廣泛接受的是一克DNA可儲存215PB(2.15億GB)!那么,既然DNA能儲存遺傳信息,那能儲存數字信息嗎?通過人工合成DNA編碼進行數據寫入,再用DNA測序進行數據讀取可行嗎?
數字數據存儲的主要步驟
答案是可行的。哈佛大學的遺傳學家George Church、Sri Kosuri和同事用數千個DNA片段編碼了一本52000字的書,他們制定了一種算法,將二進制代碼(0和1)與遺傳代碼(A、T、G和C)相對應,使用DNA的四個字母A、G、T和C來編碼數字化文件的0和1。然而,由于編碼方案問題,導致效率低,每克DNA只能存儲大約1.52 PB(152萬GB)。
編解碼過程概述
目前,寫入1PB的數據(100萬GB)需要花費1萬億美元!昂貴的成本成為DNA數據儲存發展的一大障礙。但據專家估計,隨著合成和測序DNA設備的發展,且為了與用于存儲檔案數據的磁帶競爭,DNA合成的成本將在未來兩年內降低大約六個數量級。這有點類似于過去幾十年在閃存驅動器上存儲信息的成本急劇下降的情況。
除了成本之外,使用DNA存儲數據的另一個主要瓶頸是難以從所有文件中挑選出想要的文件。現通常使用PCR(聚合酶鏈式反應)檢索DNA文件。每個DNA數據文件都包含一個與特定PCR引物結合的序列。
聚合酶鏈式反應(PCR)
要提取特定文件,將該引物添加到樣本中以查找和擴增所需序列。然而,這種方法的一個缺點是引物和脫靶 DNA 序列之間可能存在串擾,從而導致不需要的文件被拉出。這就好比你將蘋果、梨子、香蕉依次用一根繩系住,然后將其放入麻袋中。當你想要香蕉時,在拉取繩子的過程中你得依次拉出蘋果、梨子最后才到你想要的香蕉。
針對此情況,麻省理工學院的團隊開發了一種新的檢索技術,該技術涉及將每個DNA文件封裝到一個小的二氧化硅膠囊中。每個膠囊都標有與文件內容相對應的單鏈 DNA“條形碼”。為了以具有成本效益的方式證明這種方法,研究人員將20個不同的圖像編碼成大約3000個核苷酸長的DNA片段,大約相當于100個字節。(他們表明,這些膠囊可以容納高達1 GB 大小的DNA文件。)
DNA儲存膠囊
每個文件都標有與“貓”或“飛機”等標簽相對應的條形碼。當研究人員想要提取特定圖像時,他們會移除DNA樣本并添加與他們正在尋找的標簽相對應的引物,引物標有熒光或磁性顆粒,便于從樣品中提取和識別任何匹配項。同時保留 DNA 的其余部分完整地放回存儲中。
不同的顏色代表不同的儲存內容
哈佛醫學院遺傳學教授喬治·丘奇將這項技術描述為“知識管理和搜索技術的巨大飛躍”。運用此技術,詹姆斯·巴納爾正在開發一家名為Cache DNA的初創公司,該公司目前正在開發長期存儲DNA的技術,既可用于長期的DNA數據存儲,也可用于近期的臨床和其他預先存在的DNA樣本。
Cache DNA官網
雖然DNA可能需要一段時間才能成為一種數據存儲介質,但今天已經迫切需要低成本、大規模的存儲解決方案來存儲來自Covid-19測試、人類基因組測序和其他領域的預先存在的DNA和RNA樣本基因組學領域。因此,我們可以安全地假設使用DNA來存儲數據的未來并不遙遠。
標簽:
烹調雞蛋常犯哪些錯誤?雞蛋正確的烹飪方法有什么