从数据增长到存储挑战,DNA正在成为新的媒介



文/观察未来科技

当前,数据的指数增长的算力的飞速提升,让数据储存的需求爆增。毕竟,庞大的数据需要足够的储存空间,而计算与储存又如同好马配好鞍,两者相辅相成。计算速度与储存速度不匹配,就会遇到著名的冯·诺依曼瓶颈。

好在云端硬盘的普及,才不至于出现数据储存空间不够用的情况。然而,即便是数据上云,都依然是有限的。预测数据显示,2040年时,人们将会面临必须储存了个10的24次方数据的状况。为了支撑大数据革命,现在,我们也必须重新思考数据储存的根本问题。在这种情形下,人类的DNA被视为可以储存所有东西的超小型设备的可能替代方案之一。

下一代存储技术

从磁带到USB,过去各种各样的记忆媒介已经在被开发出来。不过,今天,更多的数据被保存在数据中心里。一个存储量为 10 亿 GB的大型数据中心,占地可达数个足球场,建设和维护成本高达 10 亿美元。也就是说,光是储存这些海量数据,就需要花费巨大的空间及金钱成本。

并且,现在数据产生的速度,远远要超过我们生产这些存储介质的速度,所以必须要有新的介质来解决这个难题。巨大的消耗使得人类开始寻求新的方式,对于此,如果DNA能够成为记忆媒介的话,它体积小、容量大的优点将要比任何媒介都具有高性能的特点。

要知道,人类基因组包含大约相当于750MB的信息,这么多信息就储存在一条比细胞还小得多的DNA上,并且事无巨细地告诉我们的身体,鼻子该长在哪里,眼睛该长成什么颜色,某个蛋白又该怎么合成。

其中,每个基因都是用四个字母的DNA文字写成的线性信息序列——组成DNA的基本单元是脱氧核苷,每个脱氧核苷都带有一个碱基,而碱基共有四种类型,分别是腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶。而线性序列是一种常见且高效的信息存储和传递方式。

我们日常读到的这些单词和句子就是基于线性序列的,就连电脑、手机所用的代码也都是程序员用线性序列编写的。这些不同的代码都是以数字方式来存储信息的,即以少量数字的不同组合来存储的。英语使用26个基本“数字”,即字母表里的字母;计算机和智能手机使用1和0的不同组合;同理,DNA的数字就是4个核苷酸碱基。如果用0、1、2、3各代表一个碱基,就可以组成一个四进制的存储方式。

数字代码最重要的优势就在于,它们很容易从一种编码系统翻译成另一种编码系统。细胞将DNA编码转换为RNA,再转化为蛋白质就是基于这样的翻译过程。在翻译中,它们将遗传信息转化为实际动作,其无缝衔接的灵活方式是任何人类工程系统都无法比拟的。

计算机系统必须将信息“写”到不同的物理介质上才能对其加以存储,而DNA分子本身就是“信息”,这令它成为更简明的数据存储方式。正是因为认识到这一点,科学家们才设法开发将信息编码在DNA分子中的方法,以最稳定且节省空间的方式存储信息。

DNA不仅可以储存信息,而且信息衰减和损耗几乎为零。2019年,据《连线》杂志报道,科学家通过一种含有DNA数据的材料,用3D打印的方式制造出一只塑料兔子。结果显示,即使切下这只塑料兔子的尾巴,也可以在尾巴的DNA信息中制造出一只一模一样的塑料兔子。究其原因,则是因为DNA存储可以提供大量的信息密度和超常的半衰期。

如今全球每年产生的数据需要4180亿个1TB的硬盘才能放下,而把这些数据储存在DNA上,仅仅需要1千克DNA物质。不仅如此,依靠生物碱基不同的排列方式,这些信息还可以在-18℃的环境储存100万年之久。相比之下,纸张会腐烂,硬盘会降解,甚至连石头也会风化,DNA却可以彻底无视这些物理过程,保留人类文明的知识和历史。

商业化并不遥远

1981年,科幻小说家威廉·吉布森(William Gibson)发表短篇小说《约翰尼的记忆》,其中,小说的主人公正是以自己的大脑为数据记忆媒介的信息搬运商店——同样的技术或许在不久的将来成为现实。实际上,关于DNA存储信息的研究早在2000年代就已经开始。

2000年,美国生物学家把一段信息“刻”进了细菌的体内,这段信息就是爱因斯坦著名的质能方程“E=mc2”。2003年,又有科学家把迪士尼动画片中的一段音乐“刻”进了细菌体内。到了2010年,当首个人造细胞诞生时,带领该项工作的美国基因学家卡耐基·文特尔则把所有参与该项目的科学家的名字“刻”进了人造细胞的DNA上。




上一篇:温州市共同富裕研究中心成立一周年 首创共富观
下一篇:过去两周港童染疫人数急增 并出现短暂失明症状