中国科学院院士、上海交通大学化学化工学院院



1994 年,比尔盖茨坐在 33 万纸上,对全世界发布,我们现在有了 " 光盘 "。一张光盘能够记录的内容,也就 33 万张纸,这在当时来讲应该是非常具有震撼性的广告效应,也就是我们电子存储是具有如此强大的能力。

你发现了吗?

身处在信息爆炸的时代,人类每时每刻都在产生着海量数据信息。为了存储它们,我们现在到处都在建设数据中心。这些数据中心要在靠近山边、水边的地方,占用了大量的土地和能源。

你会相信吗?

未来有一天,我们有可能拿着一管 DNA 说:" 看,我们这里面存储着全世界的所有数据!"

交大安泰 EMBA20 周年之际,每日经济新闻联合上海交通大学安泰经济与管理学院,联合推出 " 我的商学之路 · 我的远见 " 系列策划。

在交大安泰 EMBA20 周年暨安泰视界年度峰会上,中国科学院院士、上海交通大学化学化工学院院长樊春海给我们讲述了一个关于用 DNA 存储海量数据的神奇故事,描绘了一个生物技术与信息技术交融发展的美好未来。

中国科学院院士、上海交通大学化学化工学院院

数据存储需要一场 " 绿色革命 "

从原始人的结绳记事,到造纸术,再到电子信息时代的数据存储,信息存储方式的变革,从一个角度反映了人类社会的文明发展史。

信息时代来临时,我们曾相信:电子信息来存储,似乎解决了所有存储问题。然而,当我们真正进入一个数据爆炸的时代,我们逐渐发现:仅凭电子信息来存储数据,满足不了我们的需求了。

樊春海院士告诉了我们一组数据:2020 年全世界的数据是 44 个 ZB(440 万亿亿字节)。" 把这些数据存下来,光耗的电就是一个三峡大坝所产生的电。这个数据还在不断增长,到 2025 年预计是 175ZB,而且里面 80%-90% 是很少被调用的冷数据。"

这些所谓冷数据,就是像图书馆的图书一样,我们需要把它存在那儿,不能让它毁灭。可是,日常工作生活中我们又很少去用它,一年可能都用不上一次。存储它们不仅需要耗能、占地,而且由于数据电子存储的寿命只有十年到几十年,时间到了就需要重新更新迭代一次。

所以,在这种情境下,信息存储越来越成为一个重大的国家战略级的需求。不仅存储消耗能源巨大,传输也越来越成为一个问题。

"1969 年阿波罗登月计划的时候,当时存储介质是纸,也就是 1 人高这么多的数据," 樊春海院士举例对比:" 到 2019 年,我们可能都知道人类第一次观察到了黑洞,把黑洞的图片传回来,存储这些数据的硬盘加起来有半吨重,没有办法通过网络来传输,只能通过飞机来运输。"

也正因如此,现有基于硅的存储方式,不仅存在高成本、高能耗、寿命短的问题,相对来说迁移起来也很麻烦。现有的数据存储架构,越来越难以满足数据日益爆发性增长的趋势。这时候,迫切需要一场 " 绿色革命 "。

基因测序从理想变为现实

在人类不断生产出海量信息的同时,我们对于生命的理解也更加深刻。在过往几十年里,人类探索生命奥秘最重要突破之一,就是对 DNA 的更深入理解。

"DNA 就是我们生命的密码。我们知道 DNA 由 4 种碱基组成,遵循非常简单的配对规则,我们有时候会称为叫华生 - 克里克配对原则。就是 4 个碱基分成两组,A 一定是跟 T 配对,G 一定是跟 C 配对。"

樊春海院士这样科普到:" 在我们细胞里,每时每刻都有这样一个的过程:DNA 双列进入到聚合酶的蛋白质的孔洞里,就像一个复印机一样,可以说是一个最精确的自然界产生的纳米复印机。当 DNA 复制达到一定量后,细胞开始分裂,一个细胞分成两个细胞,两个细胞分成四个细胞,逐渐变成组织、器官,到植物、动物、人……这就是我们所说的生物学遗传分子机制。"

大家对上世纪末的人类基因组计划耳熟能详。人类基因组计划的目的,是把我们的遗传物质 DNA 序列测定下来。什么叫测定序列?就是把 ATGC4 个字母排列组合给确定下来。

经过几代全世界科学家的努力,这终于变成了一个现实。更重要的是,当时测一个人的基因,要花几十亿美元。而现在对于全世界最强的测序公司来说,只要一天时间,花费一两千块钱的成本,就可以把一个人的基因检测出来。现在,全世界基因测序的市场规模已经达到 100 多亿美元。

不仅如此,我们还可以把古人类、古生物的基因组序列测出来。比如我们通过检测 70 万年前野马化石的基因组信息,了解 70 万年前的野马有哪些生物学特性。

DNA 如何存储数据信息?




上一篇:中国科学院院士、上海交通大学化学化工学院院
下一篇:把全世界的数据装到咖啡杯里?凤凰网河南