详解DNA储存信息:一克DNA相当千亿张DVD光盘

哈佛大学研究人员将一本大约有 5.34 万个单词的书籍编码进不到亿万分之一克的 DNA 微芯片，然后成功利用 DNA 测序来阅读这本书。

　　哈佛大学研究人员将一本大约有5.34万个单词的书籍编码进不到亿万分之一克的DNA微芯片，然后成功利用 DNA 测序来阅读这本书。

这是迄今为止人类使用 DNA 遗传物质储存数据量最大的一次实验。

这是迄今为止人类使用DNA遗传物质储存数据量最大的一次实验。

“今后，拇指大小的设备就能存下整个互联网的信息。”该项目的首席研究员、哈佛大学遗传学家乔治·丘奇说。

　　要说信息存储，没有一样比得过DNA。人们很早就觊觎我们自身的基因代码存储数据的潜力，但如何将信息编码进DNA遗传物质再如何解读出来，一直是个难题。

　　近日，哈佛大学维斯生物工程研究所的一群研究人员尝试将一本大约有5.34万个单词的书籍编码到不到一沙克(亿万分之一克)的DNA微芯片中，连同文字一起的还有11张图片和一段Java程序。这是迄今为止人类使用DNA遗传物质储存数据量最大的一次实验。“今后，拇指大小的设备就能存下整个互联网的信息。”该项目首席研究员、哈佛大学遗传学家乔治·丘奇(George Church)说，被编码进DNA的书正是他的大作《再生：合成生物学将如何改变未来的自然和自己》。

　　这项实验被刊登在《科学》期刊上。但因编码存储和读取过程太过昂贵，DNA存储离商业化还有一段距离。“随着DNA合成、测序价格的不断下降，这或许将成为长期存储数据的一种选择。”哈佛大学生物学教授可苏里(Sriram Kosuri)说。这一实验，或许为解决未来社会爆炸性的大数据存储指明了方向。

　　从二进制到碱基对编码

　　DNA是生物数据库，它的主要功能就是存储包含各种指令的生物信息。DNA有G(鸟嘌呤)、T(胸腺嘧啶)、A(腺嘌呤)、C(胞嘧啶)四种碱基，共同构成了相互缠绕的双链阶梯状的螺旋结构。通过这四种碱基不同顺序的编码，存储了生物所有的遗传信息。

　　现代计算机技术奠基者之一冯·诺依曼曾在 1948 年提出“自动复制机器”的设想：一个能够自我繁殖的系统，不仅能够构建某个组成元素，结构和自己一致的下一代，也能够把对自身的描述传递给下一代，如此往复。后来随着生物遗传的奥妙被发现，人们意识到，DNA 双螺旋结构正是冯·诺依曼描述的自动复制机器。

　　DNA里的四种碱基，两两互补成对。一个最短的DNA分子也有 4000个碱基对，可能的排列方式就有44000种。碱基对排列顺序千变万化，从而能够存储大量的遗传信息。

[1] [2] 下一页