用一公斤DNA代替你的硬盘,靠谱吗?



最近发现关于DNA存储的文章刷屏了,源自于今年2月19号华盛顿大学和微软研究院合作在《Nature biotechnology》上发表的一篇有关DNA存储的研究成果。对此我想发表一点自己的观点,受限于我的认知,仅当是抛砖引玉了。

诚然,进入21世纪之后,这个世界的数据增长速度太快了,数据量级越来越大,按照现有发展速度传统硅基存储介质是否还能撑住,就成为了许多人关心的一个问题,大家都在探讨是否会有枯竭的那一天,如果枯竭了我们还能用什么东西来存储我们的数据。于是存储生命遗传密码的介质——DNA就成了一个非常有希望的选项。

基因是怎么与二进制联系起来的?

在谈论我们的话题之前,先来了解一下DNA是如何存储数据的。

用一公斤DNA代替你的硬盘,靠谱吗?

原理本身并不复杂。

我们知道,计算机上存储的数据都是依据电压的高和低代表1和0来表示的,每一个数字、字符和标点符号都由唯一的一串01组合来构成。比如小写字母“e”的代码是:01100101,因此,任何数字化的内容(视频,音频,图片,文字)本质上都只是一串串的0和1而已。

用一公斤DNA代替你的硬盘,靠谱吗?

DNA存储的原理示意图,首先把英文字母转变成对应的01串,然后把这个0和1的数据串转变成由碱基A、C、G、T表示的DNA序列;编码的时候就是合成这个序列,解码的时候测序解读(图片来自Science)

那么,DNA的存储原理实际上就是把原本这些用0和1来表示的内容,换成用碱基:A,C,G,T来表示,这是一个从数字信号到化学信号的过程。而且由于碱基有四个,相比起原本的0和1,我们可以用来多表示两个状态,比如,我们可以假设用A代表00,C代表01,G代表10,T代表11。一个本来要用8bit代表的字符用DNA编码的话,只需要用4个化学碱基,比如上面的小写字符“e”编码成为DNA序列就是:CGCC。

下图是哈佛大学医学院两年前做的一个事情,他们第一次利用这样的技术把这一张“奔跑的骏马”的Gif放进了活大肠杆菌的DNA里,而且还能重新测序并解码出来。

用一公斤DNA代替你的硬盘,靠谱吗?

原始影像(左)和从DNA中提取还原的gif(右),除了部分稍有模糊,准确度达90%左右。

2016年的时候,华盛顿大学和微软研究院的团队(本次NBT的成果的团队),他们更进了一步,把莎士比亚的十四行诗、马丁·路德·金的演讲原声、医学论文等资料共计739KB的数据编码成了DNA序列,并存储起来,这个技术以此为标记取得了巨大的进步。

用一公斤DNA代替你的硬盘,靠谱吗?

DNA存储结构和磁盘不同,它存储的密度极高,1克的DNA就能够存下天量的信息,如果要存下当前全世界的所有数据,更是只需要1千克左右的DNA就足够了!不需要成千上万个阿里巴巴或者AWS的数据中心,看起来还更加经济实惠,貌似一切都很美好……

但是,凡事就怕这个但是。

用一公斤DNA代替你的硬盘,靠谱吗?

DNA存储面临的问题

目前DNA存储要发展成为真正具有实际应用价值的东西,至少还需要解决以下几个问题:

合成成本高

DNA要存储信息,首先要做的就是依据信息合成DNA序列。那么现在的合成成本是多少呢?大约0.5美元~1.0美元一个碱基!也就是说存储2bit(一个碱基)的数据需要花费大约5元~10元人民币。

按照目前的信息存储技术,一般是8bit为一个字节(Byte),2个字节(Byte)才代表一个字符——也就是说8个碱基可以编码一个字符,那么你看看,要存储200MB的数据需要花费100百万~200百万美元(1亿~2亿美元)的巨资——而200MB的大小的文件还不够一个长一点的短视频大啊!更何况现在动不动就几个GB的电影呢。

因此,碱基合成的成本是第一个需要解决的难题。如果成本无法降低一百万倍,那么无法进入实用环节,而如果不能降低几亿倍甚至几十亿倍,那么我认为这个技术将很难被大规模使用。

合成速度慢

这个问题可能更要命。我们现在磁盘的存储速度是多快呢?磁盘的读写毕竟是电磁信号,信息状态的改变是以光的速度在发生的——当然磁盘在读写数据的时候需要进行非常多的定位、查询、比较、校验等一系列复杂的操作,因此远低于光速。然而即便如此,目前普通的SSD硬盘读写速度也有300MB/s~500MB/s,差一些的高速硬盘也在100MB/s左右!




上一篇:不喝水能活120年 地球上最顽强的生物是它
下一篇:重庆:快速崛起的生物医药重镇