信息|DNA存储打开想象空间

河北日报采访人员 王璐丹
在科幻片中 , 地球即将面临毁灭性灾难 , 人类家园和文明岌岌可危 。 有人提出将生命体和人类文明信息全部搬至“诺亚方舟” , 然而在星际迁移过程中 , 外部环境的变化随时可能导致传统存储介质的“寿终正寝” , 宝贵的数据毁于一旦 。
有没有一种存储密度大且安全稳定的数据存储方式呢?近年来 , 科学家们将目光投向最古老生命存储工具——DNA 。 据报道 , 科学家开发了一种标记和检索DNA数据文件的技术 , 能够快速、准确地识别检索DNA数据文件 , 为DNA数据存储技术发展带来希望 。
DNA存储密度高寿命长
数据已经是21世纪不可或缺的东西 。 需要承认这样一个事实:我们已经成为数码囤积者 , 耗费大量的空间来存储我们的数据 。
数字时代 , 我们的个人照片、文本和电子邮件只占很小的一部分;真正的数据洪流来自科学家们在其研究活动中所创造的海量信息 , 比如进行实验和临床试验 , 深入研究生物的最小组成部分;观察其他行星 , 尽可能深入地观察浩瀚的宇宙 。
数据表明 , 预计到2025年 , 全球数据信息总量将达到163ZB(泽字节) , 约相当于87.5亿张2TB(太字节)常用硬盘 , 随着数据的不断积累 , 在可预见的未来 , 基于传统硅基储存介质的储存方式将不可避免地陷入资源枯竭困境 。
现阶段使用的主要存储方式包括磁带、硬盘驱动器、蓝光存储器和闪存等 。
磁存储的原理就是在金属材料上涂上磁性介质 , 在通电的情况下形成电磁效应 , 可以进行存储和表达0101的二进制信息 。 光存储的原理是将数字编码的视频和音频储刻录在光盘表面的凹槽中 , 再通过激光将这些凹槽中的数据读取出来 , 进行转存或播放 。
“这些存储方式都存在有效存储时间短、数据易丢失缺损、能源消耗大、维护成本高以及污染环境等缺陷弊端 。 ”专家表示 , 寻求一种新的数据存储介质势在必行 。
生物技术创业公司正在从我们的身体内部来寻找解决这个问题的答案 。 具体地说 , 就是利用我们的细胞 。
“作为已知最密集、稳定的数据存储介质之一 , DNA可以保证生物体内海量遗传信息安全的存储和一代代稳定的复制遗传 。 ”石家庄学院化工学院教授马闻师说 。
我们将文本、照片和其他类型的信息都编码为一系列的“0”和“1” , 而同样的信息也可以利用构成遗传密码的4种核苷酸(A、T、G和C , 即腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶)编码在DNA中 。
马闻师介绍 , DNA数据存储首先通过计算机算法将二进制数据映射成碱基序列 , 然后合成特定序列的DNA完成编码的写入 。 “由于肉眼无法看见DNA , 所以我们需要利用聚合酶链反应技术(即PCR , 一种可对特定DNA片段进行放大扩增的生物技术)来实现数据拷贝 , 并通过专业测序仪器测得目标DNA的所有碱基序列 , 进而通过解码转换成二进制数据 , 完成数据的读取 。 ”
“相比传统磁存储、光存储这些单层平铺方式的存储 , DNA双螺旋立体结构的存储量有了多个数量级的飞跃 。 ”专家解释 , 理论上来说 , 1g的DNA可存储455EB(艾字节)信息 , 4g的DNA可存储全球一年产生的信息量 , 而1kg的DNA可以存储人类所有的信息 。 DNA单位体积的存储密度是硬盘和存储器的10^6倍 , 是闪存的10^3倍 。
并且 , DNA对于外部环境 , 如高温、震荡等具有极强的抗干扰能力 。 研究表明 , 在-5℃的条件下 , DNA每6.8×10^6年只降解1bp(指一个碱基对) 。 通常情况下 , 所有传统的数据存储10年左右就会开始失去完整性 , 而DNA作为数据存储介质的寿命则要长得多 , 可以达到上万年甚至几十万年 , 而且很容易通过聚合酶链反应技术放大 , 从而轻松获得所需的拷贝数 。
DNA存储可复原可传递
DNA数据存储技术开辟了一种新的存储模式 , 其发展对于节省存储能源及推进大数据存储发展有着重要作用 。
早在2019年第三届EmTechChina全球新兴科技峰会上 , 科学家通过一种含有DNA数据的材料3D打印出一只兔子 , 切下这只兔子身上的任意部位 , 在解码其附带的DNA信息后 , 即可制造出一只一模一样的兔子 。
为什么任意切一小块都可以成功复原这只兔子?
“这是因为我们肉眼看到的这只兔子 , 实际上是由无数包裹着DNA信息的二氧化硅小球拼接起的整体 , 任一小球中都有着科学家事先存入的全部数据信息 。 就好像我们人体的任何一块组织中都包含着人的所有基因信息一样 , 获取这只兔子的任何一个部分 , 都可以很容易获得其所携带的数据信息 。 ”专家解释 , 如果将DNA存储以溶液或者粉末的形式进行展示 , 则观感可能并没有那么强烈 。 “3D打印兔子是更直观地告诉大家 , DNA里的数据几乎可以储存在任何物体中 , 且这些物体损坏了也没关系 , 只要还有一小块就能复原所有数据 , 换句话说 , 所有物品都能成为储存数据的‘硬盘’ 。 ”
那么 , 在DNA数据存储长久过程中是否会出现部分编码的错误?如何能够确保其准确性呢?
马闻师介绍 , 由于现有的DNA合成技术的限制 , 编码写入的碱基序列会分割为长度相同的短序列 , 一般单条序列长度不超过200bp 。 每一条需要合成的序列里包括数据、地址位、纠错码等 。
虽然不同DNA模型之间存在差别 , 但DNA信息编码写入的流程大致相同 , 主要包括数据压缩—引入纠错—转换为碱基序列的过程 。 解码前通过PCR扩增得到多个DNA拷贝 , 再对拷贝进行DNA测序 , 获取DNA序列的碱基排列方式 , 随后对序列纠错、去冗余、解码 , 最终读取原始数据 。
针对可能存在的编码错误问题 , 一般有两种处理方式 。
首先 , 从硬件方面 , 不断提高合成测序和存储技术 , 从而确保合成、测序时错误率更低 。
第二 , 从软件方面加入纠错算法 , 就像人们常说的“重要的事情说三遍” , 研究者为了保证信息传递的准确性 , 在多个位置植入冗余信息 , 方便接收信息时自动修正 。
“DNA数据存储的容错率与冗余信息的多少有关 , 一般来说 , 添加5%的冗余信息 , 基本可以保证数据存储的高准确性 。 ”专家说 。
DNA存储商业化仍在路上
在生活中 , 除了我们经常使用的数据之外 , 其实还存在很多访问量小却又必要储存的数据 , 即所谓的“冷数据” 。
“常见的‘冷数据’包括档案馆资料、备份数据和监控视频等 , 这些数据的特点在于数据量大且使用率较低 , 但在必要时刻可发挥重要作用 。 ”专家举例 , 对于医院这类特定单位 , 海量的病人信息需要保存长达几十年 , 为了确保信息安全和准确 , 常常每十年就需要维护一次 , 其信息存储成本极高 。
DNA数据存储正是面向这类“冷数据” , 通过溶液或干粉的形式对DNA进行保存 , 并对其外部封装 , 从而实现长久存储 。
存储密度大、存储数据形式多样、保存时间长……尽管DNA存储优势明显 , 但是在商业化上面 , 仍然还面临着一些问题 。
首先 , DNA存储设备的访问速度很慢 , 存取也很费时间 。 相比较磁盘存储的电磁信号 , DNA合成却要依赖于一系列化学反应 。 用磁盘写入200MB数据 , 不到1秒 , 用DNA合成大约需要3个星期 。
其次 , 在DNA里 , 一旦把信息存进去 , 一般来说不能修改 。 想读取这个文档 , 需要把全部信息完全测序出来再转码 。
第三 , 目前DNA测序时的重复读取导致读错概率较大 , 数据存储的准确性有待提高 。
第四 , 目前DNA合成技术无法一次性产生较长的DNA分子 , 只能合成众多的短片段 。 这导致在众多DNA小片段组成的混合物当中 , 快速调取特定数据存在困难 。
此外 , 最重要的一点是 , DNA存储成本太高 。 按照去年DNA数据存储的合成技术和成本估算 , 8G的DNA存储合成成本在人民币1000万元以上 。
也有专家表示 , 虽然目前DNA存储成本较高 , 但与测序技术类似 , 一旦找到技术突破口 , 其成本下降也会非常快 。 放眼更长的时间尺度和数据存储空间压力下 , DNA独特的数据存储优势 , 有巨大的发展前景 。
那么 , 在商业化上有哪些进展呢?
2015年 , 微软公司和华盛顿大学合作发表了一个成果 , 采用定点读取信息 , 也就是给一个长长的DNA链里加入一些追踪标记 。 这些类似索引机制的标记 , 可以不用每次等测序完整DNA长链 , 就能选取合适的标记进行读取 。
2018年 , 读取技术又实现突破 , 微软研发了“纳米孔”读取技术 , 让DNA介质列能挤过一个很小的纳米孔而读取其中每个DNA碱基 。 这一技术大大缩小了读取设备的空间开支 , 一个手掌大小的USB设备就能进行读取 , 但读取速度在每秒几KB左右 , 可以说仍然相当慢 。
2019年3月 , 微软团队开发了世界上第一个自动DNA存储介质 。 相比较于手动操作进行DNA的合成和测序 , 能够自动化方式进行DNA编解码才是未来商业化的出路 。
【信息|DNA存储打开想象空间】“可以预见 , 磁存储和光存储方式在未来一段时间仍将占据数据存储方式的主流 , DNA存储为代表的碳基存储方式还有很长的道路要走 。 但随着存储和读取技术的发展 , 随着DNA编码和测序的效率提升 , 成本将大幅下降 。 到那个时候 , DNA存储商业化应用曙光将会来临 。 ”马闻师说 。

    推荐阅读