Hadoop和Spark加速基因大数据挖掘简介

Hadoop和Spark加速基因大数据挖掘简介

基因大数据— Hadoop和 Spark加速基因大数据挖掘随着测序技术的发展 , 测序通量越来越高 , 单碱基成本下降速度超越了摩尔定律 , 推动了越来越多的生物数据产出 , 生命科学的发展也由传统的观测实验开始转向数据驱动的科学 。 首先 , 在市场应用领域 , 近几年如无创产前检测、肿瘤筛查等基因检测技术逐渐得到实际应用 , 产生了大量的数据据不完全统计 , 仅仅华大基因一家的一项无创产前检测样品数就已经将近百万 。 而临床检测要求从测序到出报告的整个过程尽量快 , 其中快速的生物数据计算也是很重要的一部分 。 其次 , 在基因研究领域 , 如英国十万人基因组计划的超大样本量的基因组研究也开始展开 , 其样本数是之前千人基因组计划的数十倍 , 假设一个人的全基因组数据有100GB(30~40X左右深度的人类基因组) , 仅仅基因组数据就有10PB , 而分析这些数据需要大量的计算资源 , 其中一个人的基因组比对和变异检测的过程在传统环境中计算就需要好几天 。 这些都对计算的性能和整体能力有较高的要求 。 生物数据的“大”不仅仅体现在数据量和计算量上 , 还体现在数据维度等方面 , 如在肠道微生物基因组(宏基因组)的研究中 , 往往涉及到千万级别基因向量的聚类问题 , 需要调用机器学习算法来计算大规模和高维度的生物数据 。 综上所述 , 生物大数据已经是大数据领域里的典型场景 , 一个强大的生物大数据分析平台是解决这一问题的必备条件 。

推荐阅读