文/陈根
随着互联网、物联网以及各类智能设施的发展 , 人类已经进入了一个数据呈爆炸式增长的时代 。 统计显示 , 目前全世界每天产生的邮件、照片、推文、视频等数字文件超过 250 万 Gb , 全世界总数字文件高达 10 万亿 Gb 。
这些数据大多被保存在数据中心里 。 一个存储量为 10 亿 Gb 的大型数据中心 , 占地可达数个足球场 , 建设和维护成本高达 10 亿美元 。 也就是说 , 光是储存这些海量数据 , 就需要花费巨大的空间及金钱成本 。
巨大的消耗使得人类开始寻求新的方式 , 基于DNA的数据存储似乎是个“潜力股” 。 因为与其他大多数媒介相比 , DNA提供了惊人的数据存储密度 , 而且相比传统数据存储 , 它具有高度稳定性 , 即DNA分子半衰期超过500年 , 低温条件下保存可达上千年 。
本文图片
但DNA存储并非没有缺点 。 用当前的方法检索数据不仅速度慢 , 且如果访问次数太多 , 就必须以某种方式恢复它 , 这有可能导致引入错误 。
针对这一问题 , 近日 , 麻省理工学院和Broad研究所找到了一个解决方案 。 其团队创建了一个基于DNA的图像存储系统 , 它介于文件系统和元数据的数据库之间 , 实现了 DNA 数据的快速准确检索识别 。
具体来说 , 该技术首先将每个 DNA 文件封装到一个直径 6 微米的二氧化硅颗粒中 , 每个颗粒最高容量可达 1Gb , 同时每个二氧化硅颗粒都被标记上与文件内容相关的 DNA 单链条形码 。
接下来 , 研究团队为了验证上述方法的可行性 , 将狮子、老虎、猫、狗、香蕉、飞机等等 20 个不同的图像编码到大约 3000 个核苷酸长度的 DNA 片段中 , 每个文件都标有与“猫”或“飞机”等标签相对应的条形码 。
当研究人员想要提取特定图像时 , 只需添加与他们正在寻找的标签相对应的引物 , 就能快速找到对应的文件 。 另外 , 引物用荧光或磁性粒子标记 , 便于从样本中读取和识别匹配信息 , 这种方法允许人们自主删除所需的文件 , 而不会损坏其他 DNA 文件 。
同时 , 研究人员使用了来自哈佛医学院 Stephen Elledge 教授开发的 100000 个序列库中的单链 DNA 序列 , 每个序列长约 25 个核苷酸 。 如果在每个 DNA 文件上放置两个这样的标签 , 可以对 100 亿个不同的文件进行唯一不重复标记 , 如果每个文件上有四个标签 , 则可以唯一不重复标记 1 万亿亿个不同的文件 。
但是该方法检索数据速度速度较慢 , 且由于技术限制 , 目前只适合存储“冷”数据 , 也就是一些不常访问的数据 。
不过总的来说 , 该研究突破了 DNA 存储技术的瓶颈 , 未来 , 随着DNA作为存储介质成本的下降 , 以及人类基因测序和相关技术的发展 , 或许DNA可以替代传统的硅基存储 , 成为新的数据存储方式 。
【大数据|陈根:DNA存储数据,是否可以代替硅基?】
推荐阅读
- 技术|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- 区块|面向2030:影响数据存储产业的十大应用(下):新兴应用
- 重大进展|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- 市场|激斗智能家居,大厂遇到新对手
- 精度|将建模速率提升10倍,消费级3D扫描仪Magic Swift在2021高交会大显“身手”
- 最新消息|世界单体容量最大漂浮式光伏电站在德州并网发电
- 四平|智慧城市“奥斯卡”揭晓!祝贺柯桥客户荣获2021世界智慧城市治理大奖
- 项目|常德市二中2021青少年科技创新大赛再获佳绩
- 选型|数据架构选型必读:2021上半年数据库产品技术解析
- 殊荣|蝉联殊荣!数梦工场荣获DAMA2021数据治理三项大奖