
文/陈根
【让信息保存千万年的方法,是通过DNA的储存】DNA擅长储存信息 , 实际上 , DNA最基本的任务就是储存信息 。
一方面 , DNA储存信息具有高效率和低损耗的特点 。 DNA携带的遗传信息储存于胞嘧啶(C)、鸟嘌呤(G)、腺嘌呤(A)与胸腺嘧啶(T)这四个核苷酸碱基的排列顺序之中 。 其中每三个碱基对应编码一个氨基酸 。 一个基因可能需要成百上千个碱基才能产生一个蛋白质 。 对于储存在DNA上的信息而言 , 需要200本电话簿才能将30亿个碱基序列印全 。 然而 , 人类23 600个基因仅占用了DNA大约2厘米的长度 。
另一方面 , DNA存储信息可以提供大量的信息密度和超常的半衰期 。 如今 , 全球每年产生的数据需要4180亿个1TB的硬盘才能放下 , 而把这些数据储存在DNA上 , 仅仅需要1千克DNA物质 。 不仅如此 , 依靠生物碱基不同的排列方式 , 这些信息还可以在-18℃的环境储存100万年之久 。 相比之下 , 纸张会腐烂 , 硬盘会降解 , 甚至连石头也会风化 , DNA却可以彻底无视这些物理过程 , 保留人类文明的知识和历史 。
几十年来 , 受到DNA储存人类遗传信息的启示 , 科学家们一直想通过DNA来解决日益困扰人类的信息储存问题 。
现在 , 天津大学宣布 , 该校合成生物学团队创新DNA存储算法 , 将十幅精选敦煌壁画存入DNA中 , 通过加速老化实验验证壁画信息在实验室常温下可保存千年 , 在9.4℃下可保存两万年 。 该算法支持DNA分子成为世界上最可靠的数据存储介质之一 , 可以让面临老化破损危机的人类文化遗产信息保存千年万年 。
值得一提的是 , 虽然DNA存储高效低耗 , 但作为一种链式生物大分子 , 在体外常温保存时会面临DNA断裂降解等风险 , 严重影响信息存储的长期可靠性 。 对此 , 此次研究团队设计了基于德布莱英图理论的序列重建算法来解决DNA断裂等问题 。 该算法结合贪婪路径搜索和循环冗余校验码来实现断裂DNA片段的高效从头组装 , 从原理上支持了DNA存储的长期可靠性 。
结合该序列重建算法(内码)与喷泉码算法(外码) , 团队设计编码了6.8MB敦煌壁画 , 合成了承载图片信息的DNA片段21万条 。 为数据的长期可靠性 , 团队制备了一个没有任何特殊保护的DNA水溶液样本 , 并在70℃下加速样本断裂、降解长达十周 。
处理后的DNA片段80%以上都发生了断裂错误 , 依靠设计的序列重建算法依然可以准确组装并解码96.4%以上的片段 , 再通过喷泉码解决少量片段丢失的问题 , 原始的敦煌壁画图片依然能够完美恢复 。 根据理论推算 , 这种程度的高温破坏相当于实验室常温25℃一千年或者9.4℃长达两万年的自然保存 。
大数据与人工智能的大爆发 , 促使人类必须找到更多的新兴算力之源 , 而DNA储存的创新技术 , 很可能就是人类未来的智能新大陆 , DNA储存技术的突破 , 自然也就是人们朝着未来储存技术的更进一步 。
推荐阅读
- 人火化后,基因去了哪里?
- 从科学的角度分析,宇宙只是一个二维全息投影,一切可能都是虚拟
- 为什么水是生物中食物链最复杂的生物?
- 比稀土还金贵!新疆发现毒性强烈的奇特金属,能够用来制造火箭
- 下半年生存指南—进化能力(二),打破桎梏思维!
- 分子生物学知识点归纳
- 动物遗传学试题库及答案
- 陈根:只需100美元,就可完成全基因组测序?
- 生命可能并非源于地球,越来越多的证据表明,生命应该源于外太空