以前要24小时的基因组测序,中国团队只用了7分钟( 二 )



对数据读取次数有了概念 , 我们再换算一下数据的内存占用量 。 据不准确计算 , 1bp 碱基大概占用 3B 内存 , 那么 30X 测序深度的人类全基因组大概需要占用接近 300GB 内存 。
别说读取分析数据了 , 光是存起来就足够把计算机搞死机了 , 所以这样的任务一般都交给专业测序公司强大的服务器来做 。 而业界目前的水平 , 完成人类全基因组的拼接至少需要 24 个小时 。

这样一对比 ,7 分钟能完成 24 小时的海量数据处理工作 , 确实强得一批 。 难道是超级 CPU 出现了?
CPU 还是那些 CPU , 不过是有新的数据处理方式出现了 。
我们把数据读写看作是往仓库里运包裹 , 大大小小各种包裹都要往里装 , 无论物件大小全部按顺序摆放的方式 , 不仅搬运效率低 , 空间利用率也不高 。
正确的方法是将小包裹收纳打包进大箱子 , 再和其他大包裹一起顺序摆放 , 不仅提高了整体的空间利用率 , 也缩减了搬运时间 。

这就是 7 分钟办完 24 小时工作的原因之一 , 大数据直接写入 , 小文件聚合成大文件再写入 , 不仅存得快 , 还存得多 。
海量数据秒处理的另一个秘诀就是 “ 天下大同 ”。
通常情况下 , 不同类型的数据互相不认识 , 需要借助单独的协议进行私密对话 , 调用上不太方便 。
想提高数据的调用效率 , 那就让它们都来广场上喊话好了 , 露天场地找人总比在小区里挨家挨户找人要快得多 。
只要打破不同数据间的加解密逻辑 , 使用统一的数据访问协议 , 免去加载过程 , 就可以实现对磁盘内所有数据的快速调用 。

除了这两项突破性的数据处理方式 , 一些硬件软件上的加强也促成了这项 7 分钟的成就 。
比如说压缩磁盘大小 , 改造服务器结构 , 用相同体积放置更多数量的固态硬盘 , 实现更大容量的数据存储功能 。

另外该平台还开发出了多线操作的数据读写模式 , 能够把处理数据的速度再提升一级;并且还改进了数据压缩算法 , 能够以更小的磁盘容量处理更多的数据 。
种种创新技术的强强联合实现了海量数据分析 24 小时到 7 分钟的飞跃 。 连天文数字规模的生物信息都能在几分钟时间内进行处理 , 还有什么做不到的呢 。
这个 7 分钟的意义不仅仅是快速获得全部基因信息 , 也是数据处理领域中十分重要的一项突破 。

类似一些需要精密计算并且数据量庞大的应用领域 , 用上中国自己的服务器来处理 , 又快又安全 。
例如卫星遥感 , 药物研发 , 能源勘测等 , 都需要对海量数据进行分析;而自动驾驶之类的技术则要求了数据的实时反馈 , 数据的高速运算处理能力必不可少 。
换句话说 , 驯服了数据就相当于把握住了科技命脉 , 得数据者得天下 。 依附在这个基础上的所有领域 , 都得铆足了劲再卷一波 。
说不定 , 一直以来磕磕绊绊的 AR 眼镜 , 很快就可以普及了 。
【以前要24小时的基因组测序,中国团队只用了7分钟】

推荐阅读