Hadoop和Spark加速基因大数据挖掘简介( 二 )_基因大数据—Hadoop和Spark加速基因大

Hadoop和 Spark是大数据领域受关注度比较高的解决方案，目前天河上已经部署了 Hadoop和Spark集群，为大数据计算和分析提供环境。早在2012年，华大基因研究院天津分院就将生产和科研的计算存储环境部署到国家超级计算天津中心的“天河一号”上，对百万级以上的检测和科研样品进行了数据分析。同时部署了基于 Hadoop的分布式重测序分析软件 SOAPgaea ，能够快速地进行生物信息中的比对和变异检测分析。相比单机程序， 20个节点的加速比达到17倍，大大加快了对孕前检测、肿瘤筛查等样本的分析速度。期间，华大基因采用 Hadoop将GPU程序和数据调度到GPU节点上进行并行计算，完成了宏基因组中的1000*9.9M的聚类问题。

随着国家超级计算广州中心（简称广州超算）“天河二号”的大范围使用，华大基因正同广州超算起进一步解决生物大数据问题。华大基因在广州超算上进行的 SOAPgaea测试，获得了相比华大基因传统集群2倍的加速，其中一个Spak版本的程序模块，获得了近5倍的效果提升。虽然数十万数据的联合群体频率计算是个比较大的计算难题，单机程序无法承受，又由于涉及比较复杂的统计计算，包含高次方程的求解，计算量非常大，但是，华大基因正在同国防科学技术大学和广州超算一起积极解决这个问题。另外，聚类问题也变得更加棘手，华大基因联合国防科大的研究人员正在考虑如何基于“天河二号”进一步提高 Hadoop和Spark对基因大数据的速度。