APP下载

DNA如何解决我们的数据存储问题

2018-05-22玛丽·帕兰格

飞碟探索 2018年3期
关键词:字节字母测序

玛丽·帕兰格

1971年夏,弗兰克·扎帕在瑞士的蒙特勒赌场里表演。赌场里挤满了观众,一个粉丝放了一把火,屋子里燃起了大火。扎帕像抡起斧头一样抡起了他的吉普森吉他,砸破赌场的窗户,2000多名青少年尖叫着涌了出去。在日内瓦湖边酒店观看的深紫乐队队员看到了火焰,用《水上烟雾》捕捉了这一刻,将其永久地蚀刻在蒙特勒爵士音乐节的历史上。2013年,它成为联合国教科文组织第一个视听档案《世界记忆》的一部分。

现在,《水上烟雾》又创造了历史。2017年9月,它成为《世界记忆》档案中首批以DNA形式存储的作品之一,存储后可以100%的精度回放。这个项目是华盛顿大学、微软公司和基地设在旧金山的DNA制造公司Twist Bioscience的合作项目。

许多权威人士预测,DNA成为存储数据的最终方式只是一个时间问题。这种方式紧凑、高效并富于弹性。毕竟,DNA已经被调整了数十亿年,成为遗传信息的完美储存库,永远不会过时——因为只要地球上有生命,我们就会对解码DNA感兴趣。Twist Bioscience的首席技术官员比尔·派克说:“大自然已经对这种格式进行了优化。”

微软、IBM和英特尔等公司都对这一领域表现出兴趣。2017年4月,在由美国情报高级研究项目主办的特邀专题研讨会上,他们与其他行业、学术人员和政府专家一起讨论了DNA在解决人类数据存储危机中的实用潜力。

这是一个时时刻刻都在增大的问题。根据IBM公司2016年营销云报告,今天存在的数据中有90%是在过去两年中创建的。我们每天都会生成2.5x1018字节的信息,分别来自高清视频和照片、粒子物理学大数据、基因组测序、太空探测、卫星和遥感,还有智囊团、秘密监视行动和互联网追踪算法。

目前,所有这些数据都流入巨大的服务器农场,转移到旋转的硬盘驱动器或最先进的磁带卷轴上。这些物理基板占据了很大的空间。

我们不妨用DNA来做比较。整个人类的基因组,一个由30亿个DNA碱基对组成的代码,或者用数据语言来说,3000兆字节,都可以放入一个肉眼看不见的“包裹”——细胞核。1克DNA(指尖上一滴水的大小)至少可以相当于233个重量超过150千克的电脑硬盘。如果把人体内所有的遗传信息(150泽字节)都存储在磁带或硬盘驱动器上,就需要一个巨大的设施。

还有耐久性问题。在目前的存储竞争者中,磁带寿命最长,为一二十年。硬盘、CD、DVD和闪存驱动器不太可靠,通常有5年至10年就不行了。DNA已经被证明可以存在几千年而毫发无损。例如,2013年,科学家在阿拉斯加多年冻土中发现的70万年前的马骨碎片的DNA,就重构了一个早期马的亲缘基因组。

因此,如果将DNA数据档案保存在干燥凉爽的地方,比如说保存在北极附近的斯瓦尔巴德全球种子库的一个架子上,这个DNA数据档案就可以保存数万年而不需要维护。

因此,《水上烟雾》的DNA拷贝将存在很长时间。那么,科學家是如何将一首歌变成分子的呢?首先,将数字音乐文件从一系列的1和0转换成DNA的字母A、C、T和G的碱基,例如用A代表00、C代表01、T代表10、G代表11;然后将字母序列组合成带有索引信息的DNA短语,按照正确的顺序排列。使用这些编码序列,可以通过化学反应制造逐个字母,然后将其保存在试管中。

检索信息时,用测序仪运行DNA以读取DNA碱基的确切顺序;然后解码产生原始的二进制数据;最后,这个音乐文件在瑞士洛桑的蒙特勒爵士音乐节中被零差错播放。

《水上烟雾》不是第一个被存储为DNA的数字信息。2012年至2013年,由乔治·丘奇牵头的哈佛大学研究小组以及由尤恩·伯尼和尼克·古尔德曼牵头的欧洲生物信息学研究所的研究小组独立存储了DNA数字数据。哈佛大学的样本是一本50000词的合成生物学图书;欧洲生物信息学研究所的样本包含一张彩色图像、莎士比亚的154首十四行诗、马丁·路德·金《我有一个梦想》演讲的片断以及沃森和克里克1953年发表的有关DNA结构的经典论文。

目前,合成DNA每个字母的成本是10美分。TwistBioscience的首席执行官艾米丽·勒普劳斯特估计,只有每个字母的成本降至0.001美分,DNA存储才可以真正与磁带竞争。大量的现金投入和丰厚的市场前景可能会提供必要的推动力。

第二个障碍是技术性的:DNA合成和测序技术都可能带入某些类型的错误,所以将1和0翻译成DNA字母的代码时需要精心组合,以消除这些错误。

计算机科学家已经卷入并参加了这场争斗。每年的电气与电子工程师协会国际信息理论研讨会(主程序员的一个会议)上,都有一个专门讨论DNA存储编码的会议。

2016年4月,微软和华盛顿大学的一个研究小组存储了200兆字节的DNA,有OK Go摇滚乐队的音乐视频,有100多种语言的《世界人权宣言》,有古腾堡项目最受欢迎的100本图书,还有农作物的种子数据库,由Twist Bioscience合成,编码方法采用了计算中使用的常见错误纠正方案。他们还设计了一种方法来识别和排序特定的信息片段,而不必对整个记录进行排序。

华盛顿大学教授路易斯·塞泽说:“我们正在使用电脑知识——如何纠正记忆错误,并将其应用到自然界。”

2017年3月,哥伦比亚大学的雅尼夫·埃利克和纽约基因组中心的迪娜·杰林斯基使用新算法对6个数据文件的数据进行了编码,该算法能够编码更多的核苷酸数据,并且仍然以100%的准确性还原文件。他们的“DNA喷泉”技术,可以在每克DNA上产生215拍字节(2.15亿千兆字节)的记录。在这样的密度下,人类记录的所有数据都将能放入一个与两辆皮卡车大小相当的容器中。

因为书写和阅读DNA的速度还比较慢,所以早期的应用程序将会被归档。微软表示,公司计划在3年内建立一个原生商业DNA存储系统。

想象一下,一体化的DNA数据系统并非遥不可及。二进制数据在一端被输入,合成为DNA并被存储,然后被提取、测序,并作为二进制数据再次发送到另一端。塞泽说:“我们正在研究整合合成器(实际‘库和阅读器/定序器)架构,目标是开发一个完整的系统。”

其他研究人员正在设法尽可能保持DNA稳定。苏黎世联邦理工学院功能材料实验室的科学家罗伯特·格拉斯正在研究一种将DNA封装在微小二氧化硅珠子中的方法。他说:“类似于骨骼化石,我们希望用合成的‘化石壳来保护包含信息的DNA。”为了测试珠子的耐久性,他们将其加热到大约70℃并持续了一个星期,这相当于在大约10℃的环境中保存2000年。

现在让我们回到音乐上来。把联合国教科文组织的《世界记忆》这样的重要档案按照一定格式保存下来,即使在短期内相对昂贵,也是一个好主意。塞泽说:“联合国教科文组织的档案为测试我们的方法提供了完美的实用案例。”

当深紫乐队写“我们永远不会忘记/水上烟雾.空中之火”时,他们并不知道现在发生的这些,但是,他们的创作现在得到了证实。

猜你喜欢

字节字母测序
No.8 字节跳动将推出独立出口电商APP
二代测序协助诊断AIDS合并马尔尼菲篮状菌脑膜炎1例
缓存:从字母B到字母Z
No.10 “字节跳动手机”要来了?
简谈MC7字节码
字母派对
基因捕获测序诊断血癌
单细胞测序技术研究进展