Hadoop和Spark加速基因大数据挖掘简介( 二 )
Hadoop和 Spark是大数据领域受关注度比较高的解决方案 , 目前天河上已经部署了 Hadoop和Spark集群 , 为大数据计算和分析提供环境 。 早在2012年 , 华大基因研究院天津分院就将生产和科研的计算存储环境部署到国家超级计算天津中心的“天河一号”上 , 对百万级以上的检测和科研样品进行了数据分析 。 同时部署了基于 Hadoop的分布式重测序分析软件 SOAPgaea , 能够快速地进行生物信息中的比对和变异检测分析 。 相比单机程序 , 20个节点的加速比达到17倍 , 大大加快了对孕前检测、肿瘤筛查等样本的分析速度 。 期间 , 华大基因采用 Hadoop将GPU程序和数据调度到GPU节点上进行并行计算 , 完成了宏基因组中的1000*9.9M的聚类问题 。
随着国家超级计算广州中心(简称广州超算)“天河二号”的大范围使用 , 华大基因正同广州超算起进一步解决生物大数据问题 。 华大基因在广州超算上进行的 SOAPgaea测试 , 获得了相比华大基因传统集群2倍的加速 , 其中一个Spak版本的程序模块 , 获得了近5倍的效果提升 。 虽然数十万数据的联合群体频率计算是个比较大的计算难题 , 单机程序无法承受 , 又由于涉及比较复杂的统计计算 , 包含高次方程的求解 , 计算量非常大 , 但是 , 华大基因正在同国防科学技术大学和广州超算一起积极解决这个问题 。 另外 , 聚类问题也变得更加棘手 , 华大基因联合国防科大的研究人员正在考虑如何基于“天河二号”进一步提高 Hadoop和Spark对基因大数据的速度 。
推荐阅读
- 暴雪|TBC怀旧服:暴雪拿奥法开刀?法术加速公共CD修改
- 设计师|LOL新版琴女扬眉吐气!上线仅1天就登上全服T1,无限加速让对手绝望
- 剑网3|新手藏剑堆加速堆成“缝纫叽”,剑三小白做过的傻事太好笑了
- 阿拉德|DNF:如何加速T0刃影职业毕业?全方位解析“玩转阿拉德”!
- 妄想山海|妄想山海:全民开天时代到来,采集全面加速,生活玩家开始赚钱!
- 碧蓝航线|碧蓝航线猫屋功能即将实装 加速培养指挥喵 没用的鸡肋系统追加了
- tes战队|TES输给RA后,JKL喜提热搜!中路装杯E加速甩尾点赞,后续直接被瞬秒
- 魔兽世界怀旧服|魔兽怀旧服:60永久服被加速“没落”,策划还“加了一把火”!
- |玩家解锁荣耀水晶获得新方法,购买加速器即可免费得,细思极恐
- 武神|部落冲突:即将开启的四个活动,奖励就别提了,但1宝石加速真香