生物医学数据大爆炸,大数据“挖掘机”哪家强?( 五 )

为了推动基因数据的开放共享,2016年华为与中科院合作建立了新一代组学数据汇交管理平台NODE(又称为国家组学数据百科全书),目前已开放共享的各类数据达到数百TB,提供数据的发布、审阅、分享、管理、质量评估、下载与申请,让数据更广泛服务于科学研究。用户还可以在线分析NODE上的数据,在线提交数据。NODE分析功能强大,基于国产测序平台MGISEQ-2000测试的RNA-seq数据,测序质量好,性能优异。截止目前,NODE数据已服务于超过23个国家、83万的访客,帮助全球的科学家开展133个项目,其中25个项目的科研成果在Cell、Nature等权威杂志发表。

此外,2019年8月1日,中科院生物化学与细胞生物学研究所惠利健、中科院上海营养与健康研究所李亦学、第二军医大学张海斌及南京大学施晓雷等共同通讯在Cancer Cell在线发表题为“A Pharmacogenomic Landscape in Human Liver Cancers”的研究论文,基于海量的数据分析,以大约50%的成功率建立人肝癌细胞模型并生成模型库,相关研究结果发布于Cancer Cell上。

目前生命科学和临床医学研究每天产生研究和检测数据庞大,有些测试数据会被不断覆盖,有些则会被永久保存下来以便后续分析,主要数据类型为文本文件、图像文件、二进制文件等非结构化数据,对存储的要求主要是存储容量的大小和大文件读写通量的高低,而少量的关键数据库、索引等结构化数据则对存储的要求是较高IOPS和稳定的读写能力。基于华为OceanStor分布式存储解决方案,不仅为科研人员提供了日常科研所需的数据存储,其横向扩展能力更能够满足机构未来5年数据发展需求,并且保障业务7×24小时持续平稳运行。

推荐阅读