说到存储信息的介质,我们通常会想到硬盘、光盘,或者更早的软盘和磁带。恐怕谁也不会想到,自然界最古老、最大的存储介质,其实就在我们每个人身上,也在我们身边的每一个生物身上,也就是储存着生命密码的DNA。
自从地球上出现最早的生命以来,大自然已经用DNA存储信息35亿年了。硬盘和光驱摔在地上几次很可能就报废了,数据再也无法读取。但是,DNA不怕摔,不怕冻,经久耐用。即使离开生物体,也能在自然环境中保存数万年而不腐烂。
当然,最让人羡慕的还是它惊人的存储容量。我们知道DNA的基本单位是脱氧核苷,每个脱氧核苷都有一个碱基,碱基有四种:腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、胞嘧啶(C)。如果0、1、2和3各自代表一个基数,则形成四进制存储模式。人类基因组包含大约750 MB的信息,而这么多的信息存储在比细胞小得多的一段DNA上。这些信息告诉我们的身体每一个细节:鼻子应该长在哪里,眼睛应该长什么颜色,以及如何合成某种蛋白质…
既然大自然已经为我们发明了如此强大的储物工具,我们为什么不用呢?科学家们早就想到了这一点,而随着近年来生物技术的飞速发展,这一想法正在走向现实。
生命身体中的“雕刻”
起初,科学家的想法是将信息储存在生物体的DNA中。
我们知道,在DNA中,不仅有那些与生命活动相关的基因,还有大量曾经与生命活动相关但后来失效的基因。我们称这种基因为“垃圾基因”。对于有用的基因,一个碱基是不能随便改变的,而对于垃圾基因,无论它上面的碱基怎么改变,都不会影响生命活动。如果把DNA比作一本书,这些垃圾基因就相当于插在书中的一段段乱码。在断章取义的段落中,无论人物如何排列,都不会影响我们对整本书的理解。——因为除了傻瓜谁会看这些乱码?
令人难以置信的是,在大多数生物的DNA这本大书中,大多数段落都是乱码。以人类DNA为例,97%的区域被垃圾基因占据。人类基因组有22000个有用的基因,总长度只有DNA的3%。
于是科学家们想,既然DNA上的“乱码区”可以随意填写,为什么不填写我们需要保留的信息呢?比如说。现在我们要把“大科技”这个词储存在DNA上。我们先在电脑上把它们转换成二进制代码,再把二进制代码转换成DNA上的“基字”。比如转换结果是“A-T-T-A-C-C-G”。最后,我们在某个细菌的DNA上截取一段垃圾基因,用“a-t-t-a-a”来表示“乱码”然后,随着这个细菌继续繁殖,只要这个区域没有基因突变,所有后代都会携带“A-T-T-A-C-C-G”的信息。几百年后,我们的后代可以随便抓一个细菌,通过基因测序测出这个编码,还原它——的含义。哦,原来是“大科技”!
2000年,美国生物学家在细菌中“雕刻”了一段信息。当然,不是“大技术”这个词。我们还没有这么荣幸过。他们刻的是爱因斯坦著名的质能方程“E=MC2”。2003年,有人将迪士尼动画片中的一段音乐“雕刻”到了细菌中。2010年,当第一个人造细胞诞生时,领导这项工作的美国遗传学家卡内基文特尔(Carnegie Venter)将所有参与该项目的科学家的名字“刻”进了人造细胞的DNA中。
在人造DNA上写字
对了,为什么上面的实验都要用细菌写?因为细菌是无性繁殖的,也就是说,除非有基因突变,否则后代和母体的DNA是一模一样的。有性生殖生物则不能,因为在交配过程中,基因会发生重组,来自对方的“乱码”会被插入到你雕刻的信息中。到了下一代DNA,恐怕你就看不懂原来的意思了。
这个方法很巧妙,不可惜还是有缺点。因为生物的基因总是在变异,不管是有用还是无用的基因都不例外。基因突变通过核苷酸中新碱基的取代、缺失或插入在分子水平上表达。所以,随着时间的推移,你代代“雕刻”生物的信息,你会犯越来越多的错误。比如刻在细菌DNA上的“大技术”,读出几千年后可能就变成了“小技术”,几千年后就完全没有意义了。
为了避免这一缺点,由美国哈佛大学分子生物学家乔治丘奇领导的一个小组在2012年8月尝试了另一种方法。他们使用的材料不是活细胞的DNA,而是人工合成的DNA。除了没有基因突变的优势,人工DNA还有一个优势:整个DNA都可以用来雕刻,不像活细胞的DNA,雕刻的时候你得小心避开有用的基因。
刻录时,他们先在电脑上把文字和图片转换成二进制代码;然后用A或C代替0,用G或T代替1(这实际上是把DNA上的四进制简化为二进制);最后根据这个密码在试管中合成了人工DNA。目前人工合成长链DNA比较困难,所以他们使用很多短链DNA。这些短链DNA有序地排列在玻璃芯片上,信息被分成这些短链DNA。——类似于把硬盘分成几个扇区。读取时,用基因测序仪依次读出这些DNA的碱基代码,然后还原二进制0和1的代码。最后,计算机可以显示信息中包含的文字和图片。
惊人的存储容量
这一次,邱琦和其他人实际上“雕刻”了一整本关于人工DNA的书。这本书包含了53246个英语单词、11张图片和一个计算机程序,共5.27MB,存储的信息比之前在DNA上“雕刻”信息的记录高出600多倍。错误率只有百万分之二,也就是说,这么厚的书,只有几个字母错了。这些信息可以在室温下稳定保存至少40万年。
用DNA储存信息有着惊人的能力。在这个实验中,科学家们总共使用了5.5万条短链DNA,但DNA的总质量不到万亿分之一克。根据计算,一克DNA可以存储4.551020比特。如果将这些信息刻成光盘,需要1000亿张DVD。目前,人类每年产生的所有数字信息仅用4克DNA就可以存储。
但是使用DNA存储和CD存储有一个相同的缺点,就是一旦制作完成,只能读取,不能写入。因此,这种方法更适合需要长期备份和保存的大容量数据。比如在我们的电脑上写文章,需要经常修改,没必要用它保存数据。
目前,DNA存储还有另外两个缺点,一是价格昂贵,二是刻录读取速度慢。例如,这次科学家花了几天时间来雕刻这本书。但是随着生物技术的发展,这两个缺点将来会被克服。就基因测序的成本而言(因为DNA的存储和读取需要基因测序技术),2012年的成本仅为2001年的百万分之一。
因此,利用DNA作为超级硬盘,廉价快速地存储海量信息,并不是一个遥远的梦想。