資訊科技

一顆蛋儲存全世界

利用DNA做為產生與儲存資訊的工具,將能為巨量資料的時代帶來新革命。

撰文/達爾曼(James E. Dahlman)
翻譯/姚若潔

資訊科技

一顆蛋儲存全世界

利用DNA做為產生與儲存資訊的工具,將能為巨量資料的時代帶來新革命。

撰文/達爾曼(James E. Dahlman)
翻譯/姚若潔


在人類發明硬碟前的幾十億年,演化便已選擇DNA來儲存最珍貴的資訊:遺傳密碼。曾幾何時,DNA對於這項任務變得如此駕輕就熟,地球上所有已知的生命形式都使用DNA。近來由於技術突破,我們可以輕鬆「讀」、「寫」DNA,而現在科學家正在開發這古老分子的嶄新用途,用來儲存新型態的資訊──人類在巨量資料時代以指數速率產生的數據。


利用DNA來儲存遺傳密碼之外的資訊,這個概念已受到廣泛討論,畢竟0與1的電腦編碼正面臨物理限制。如何安全儲存人類製造的所有資訊,是我們面臨的重要挑戰,最近正好有個例子可說明:一度最受歡迎的社群網路MySpace宣佈,他們在一次伺服器遷移計畫中遺失了10年份的資料,且可能無法挽救。我們保護長期資訊的方式暴露了現行科技的脆弱與笨重,例如電腦休眠一段時期之後需重新啟動。這不只是空間問題,維持資訊儲存也需要耗費很多能量。


DNA的特性具有解決這些問題的潛力,例如DNA的雙股螺旋結構非常適合資訊儲存,因為只要知道其中一股的序列,自然就會知道另一股。若DNA能夠長期保持穩定,就代表可以長期維持資訊的完整性和精確度。舉例來說,2017年科學家從8100年前的古老人類遺骸中,成功分析了從中萃取出的DNA,即使這具遺骸沒有保存在理想狀態下。如果把DNA保存在乾燥涼爽的環境中,將可留存好幾萬年。


此外,雙股螺旋最吸引人之處,或許在於它能摺疊成非常緊密的結構。每一個人類細胞都含有一個直徑約10微米的細胞核,如果把細胞核中的DNA完全伸展開來,長度可達2公尺。換句話說,如果把一個人體內的DNA全部串在一起,可以延伸100兆公尺。2014年科學家計算,理論上一公克的DNA可儲存455艾位元組(exabyte,相當於10億GB)的資訊。這樣的資訊儲存密度,大約是硬碟的100萬倍。


雖然DNA已經被視為一種儲存媒介,不過要用它取代傳統硬碟,仍需克服科學、經濟和倫理上的龐大障礙。目前DNA已廣泛運用在資訊科技領域,例如用來記錄好萊塢的老電影,也就是把經典老片保存在遺傳密碼中,而不是脆弱的微縮膠卷裡。近來DNA成為更安全的基因療法研發工具,加速抗癌藥物的發展;甚至可用於記錄生物的基因表現狀況。在這個領域最尖端的運用上,DNA不只能做為資訊長期儲存的媒介,更能以前所未有的速度產生資訊,因為DNA在產生和儲存兩方面,都比其他分子更具擴充性,讓我們可以大量產生資訊,同時也大幅減少儲存資訊所需的資源。


當DNA條碼遇上奈米粒子


近年來,各領域科學家越來越常使用DNA做為分子記錄器,以了解並追蹤實驗結果。在許多例子中,這個過程利用了「DNA條碼」(DNA bar coding):為了標記和追蹤個別實驗結果,科學家使用一個已知的DNA序列做為分子標籤,例如一個實驗結果可標記為ACTATC的DNA序列,而另一個則可能是TCTGAT。


在1990年代早期DNA條碼就已出現,當時美國斯克里普斯研究院(Scripps Research Institute)的勒納(Richard Lerner)和已故的布藍納(Sydney Brenner)提出一種使用DNA序列來追蹤化學反應的方法。他們的概念十分創新而超越時代,但當時的技術還沒發展到能夠簡單又便宜地讀取DNA,直到許多科學家在核?酸化學、微流體學與其他領域上的貢獻催生出「次世代定序」(next-generation sequencing)後,DNA條碼的潛力才為世人所知。於是DNA讀取在2005年出現重大突破,研究人員的論文顯示,他們在四小時的實驗中成功分析了2500萬個DNA鹼基。


次世代定序持續演進,現在已可同時讀取數百萬個DNA序列,表示研究者可同時進行幾千個實驗並加以分析。使用次世代定序分析DNA條碼,已成為一種資料管理的形式:比起一次測試一種想法,現在科學家可做出兩萬種預測並同步找出正解。


最先開始廣泛利用DNA條碼的是生物學家,而隨著次世代定序操作變得更加便利,諸如化學工程、材料科學等不同領域的研究者也開始使用這項技術,在極小尺度下進行實驗。舉例來說,我在美國喬治亞理工學院主導的實驗室中,工程師用DNA條碼改進奈米粒子的設計和功能,以便把藥物安全遞送到生病的細胞。奈米技術主要仰賴的是物理和化學工程,這看似與DNA毫不相干,但當你把DNA想成一種追蹤和儲存資訊的方法,就能清楚了解如何利用它做為一種整合工具。


奈米技術學家所面對的一個根本問題,就是在尋找有效療法時,設計實驗仍然比執行與分析結果要簡單得多。這是因為個別奈米粒子的形狀、大小、電荷、化學組成和其他變項,都可能影響它們把遺傳藥物遞送到病變細胞的效果。再者,這些因子彼此也會交互作用,使得研究者很難判斷哪一種奈米粒子會以最符合目標的方式遞送藥物。有一項直接的解決方法是個別評估每種奈米粒子,但從那些已經為RNA藥物發展奈米粒子的大藥廠所得到的經驗來看,這種類型的測試可能需耗費數億美元才能達成。


這是DNA儲存能力可以大顯身手的地方。為了提高奈米粒子的測試數量,我們可以設計幾千種化學結構相異的粒子,例如大的、帶正電的球形,或小的、不帶電荷的三角形,然後給予每種粒子一個DNA條碼。


比方一號奈米粒子,擁有一號化學結構,標上一號DNA條碼;二號奈米粒子,擁有二號化學結構,標上二號DNA條碼。我們多次重複DNA條碼標記過程,藉此製造出許多不同的奈米粒子,每個都擁有獨特的DNA分子標籤。然後我們把幾百種奈米粒子送至病變細胞。為了辨識何種奈米粒子最能成功遞送藥物,我們使用DNA定序來量化細胞內的條碼。......