生物医学数据大爆炸,大数据“挖掘机”哪家强?( 二 )

人体成为大数据重要产出源

生物医学数据大爆炸,大数据“挖掘机”哪家强?

欧美发达国家已经纷纷启动了基于测序技术的生命科学大数据研究计划。人体成为大数据重要产出源,目前多种组学数据、医学影像和临床资料在内统计的生物信息数据产出达到了10TB/人的水平,全球每年产生的生物数据总量已达EB级,生命科学已经从实验数据积累阶段进入大数据科学时代。这是中科院专家在2018年发表的一篇《国家级生物大数据中心展望》指出的当前严峻形势。

欧、美、日等几大国际生物信息中心建设起步早,多年来一直引领着全球生物大数据及生物信息领域的发展。在1980年到1988年间,美国、欧洲和日本分别建立了世界三大生物数据中心,即美国国家生物技术信息中心(NCBI)、欧洲生物信息研究所(EBI)和日本DNA?数据库(DDBJ),三大生物数据中心掌握并管理着全世界主要生物数据和信息资源。

三大国际生物数据中心的规模庞大,例如截止到2014年DDBJ中心的CPU性能理论峰值达208TFlops、存储容量达12.6PB。而美国NCBI中心凭借雄厚的科研技术力量以及在生命技术方面的巨大影响,建立了一系列生物信息数据库和各种数据服务,例如带注释的所有公开已知DNA序列数据库GenBank,该数据库每天都与DDBJ和EBI的欧洲核甘酸档案库同步交换数据,以保持数据的实时更新。

推荐阅读