Hadoop和Spark加速基因大数据挖掘简介
基因大数据— Hadoop和 Spark加速基因大数据挖掘随着测序技术的发展 , 测序通量越来越高 , 单碱基成本下降速度超越了摩尔定律 , 推动了越来越多的生物数据产出 , 生命科学的发展也由传统的观测实验开始转向数据驱动的科学 。 首先 , 在市场应用领域 , 近几年如无创产前检测、肿瘤筛查等基因检测技术逐渐得到实际应用 , 产生了大量的数据据不完全统计 , 仅仅华大基因一家的一项无创产前检测样品数就已经将近百万 。 而临床检测要求从测序到出报告的整个过程尽量快 , 其中快速的生物数据计算也是很重要的一部分 。 其次 , 在基因研究领域 , 如英国十万人基因组计划的超大样本量的基因组研究也开始展开 , 其样本数是之前千人基因组计划的数十倍 , 假设一个人的全基因组数据有100GB(30~40X左右深度的人类基因组) , 仅仅基因组数据就有10PB , 而分析这些数据需要大量的计算资源 , 其中一个人的基因组比对和变异检测的过程在传统环境中计算就需要好几天 。 这些都对计算的性能和整体能力有较高的要求 。 生物数据的“大”不仅仅体现在数据量和计算量上 , 还体现在数据维度等方面 , 如在肠道微生物基因组(宏基因组)的研究中 , 往往涉及到千万级别基因向量的聚类问题 , 需要调用机器学习算法来计算大规模和高维度的生物数据 。 综上所述 , 生物大数据已经是大数据领域里的典型场景 , 一个强大的生物大数据分析平台是解决这一问题的必备条件 。
推荐阅读
- 暴雪|TBC怀旧服:暴雪拿奥法开刀?法术加速公共CD修改
- 设计师|LOL新版琴女扬眉吐气!上线仅1天就登上全服T1,无限加速让对手绝望
- 剑网3|新手藏剑堆加速堆成“缝纫叽”,剑三小白做过的傻事太好笑了
- 阿拉德|DNF:如何加速T0刃影职业毕业?全方位解析“玩转阿拉德”!
- 妄想山海|妄想山海:全民开天时代到来,采集全面加速,生活玩家开始赚钱!
- 碧蓝航线|碧蓝航线猫屋功能即将实装 加速培养指挥喵 没用的鸡肋系统追加了
- tes战队|TES输给RA后,JKL喜提热搜!中路装杯E加速甩尾点赞,后续直接被瞬秒
- 魔兽世界怀旧服|魔兽怀旧服:60永久服被加速“没落”,策划还“加了一把火”!
- |玩家解锁荣耀水晶获得新方法,购买加速器即可免费得,细思极恐
- 武神|部落冲突:即将开启的四个活动,奖励就别提了,但1宝石加速真香