以前要24小时的基因组测序,中国团队只用了7分钟( 二 )
对数据读取次数有了概念 , 我们再换算一下数据的内存占用量 。 据不准确计算 , 1bp 碱基大概占用 3B 内存 , 那么 30X 测序深度的人类全基因组大概需要占用接近 300GB 内存 。
别说读取分析数据了 , 光是存起来就足够把计算机搞死机了 , 所以这样的任务一般都交给专业测序公司强大的服务器来做 。 而业界目前的水平 , 完成人类全基因组的拼接至少需要 24 个小时 。
这样一对比 ,7 分钟能完成 24 小时的海量数据处理工作 , 确实强得一批 。 难道是超级 CPU 出现了?
CPU 还是那些 CPU , 不过是有新的数据处理方式出现了 。
我们把数据读写看作是往仓库里运包裹 , 大大小小各种包裹都要往里装 , 无论物件大小全部按顺序摆放的方式 , 不仅搬运效率低 , 空间利用率也不高 。
正确的方法是将小包裹收纳打包进大箱子 , 再和其他大包裹一起顺序摆放 , 不仅提高了整体的空间利用率 , 也缩减了搬运时间 。
这就是 7 分钟办完 24 小时工作的原因之一 , 大数据直接写入 , 小文件聚合成大文件再写入 , 不仅存得快 , 还存得多 。
海量数据秒处理的另一个秘诀就是 “ 天下大同 ”。
通常情况下 , 不同类型的数据互相不认识 , 需要借助单独的协议进行私密对话 , 调用上不太方便 。
想提高数据的调用效率 , 那就让它们都来广场上喊话好了 , 露天场地找人总比在小区里挨家挨户找人要快得多 。
只要打破不同数据间的加解密逻辑 , 使用统一的数据访问协议 , 免去加载过程 , 就可以实现对磁盘内所有数据的快速调用 。
除了这两项突破性的数据处理方式 , 一些硬件软件上的加强也促成了这项 7 分钟的成就 。
比如说压缩磁盘大小 , 改造服务器结构 , 用相同体积放置更多数量的固态硬盘 , 实现更大容量的数据存储功能 。
另外该平台还开发出了多线操作的数据读写模式 , 能够把处理数据的速度再提升一级;并且还改进了数据压缩算法 , 能够以更小的磁盘容量处理更多的数据 。
种种创新技术的强强联合实现了海量数据分析 24 小时到 7 分钟的飞跃 。 连天文数字规模的生物信息都能在几分钟时间内进行处理 , 还有什么做不到的呢 。
这个 7 分钟的意义不仅仅是快速获得全部基因信息 , 也是数据处理领域中十分重要的一项突破 。
类似一些需要精密计算并且数据量庞大的应用领域 , 用上中国自己的服务器来处理 , 又快又安全 。
例如卫星遥感 , 药物研发 , 能源勘测等 , 都需要对海量数据进行分析;而自动驾驶之类的技术则要求了数据的实时反馈 , 数据的高速运算处理能力必不可少 。
换句话说 , 驯服了数据就相当于把握住了科技命脉 , 得数据者得天下 。 依附在这个基础上的所有领域 , 都得铆足了劲再卷一波 。
说不定 , 一直以来磕磕绊绊的 AR 眼镜 , 很快就可以普及了 。
【以前要24小时的基因组测序,中国团队只用了7分钟】
推荐阅读
- 寻求气候变化的确定性:要多少才足够?
- 跳马冠军桑兰训练瘫痪,33岁冒死产子,母子平安后坦言:想要二胎
- 为什么地球每四年要闰一年?地球相关的冷知识你知道多少
- 癌症会传染吗?人类接触癌细胞不会传染!但要小心这3种病毒 。
- 小伙过年时相亲遭遇尴尬事,如遇此类特征的女子,再漂亮也不能要
- 徒弟杨永财发“长文”爆料垂钓大师李大毛,网友喊话:要懂得尊师重道
- 心灵感应也许是人类认识宇宙真相的重要途径
- 一旦准备好初始状态,通过计算机的量子状态演变将由算法要求的序列确定
- 太阳或将进入“冰河时代”,科学家真的要用核弹引燃木星?
- 男子欠债不还,债主带人上门要钱反被判刑,债主有苦说不出