天河二号肿瘤信息学数据分析平台简介

天河二号肿瘤信息学数据分析平台简介

医学研究肿瘤样本的源数据通常是从测序仪产生的短序列的信息集合(raw data) , 这些源数据都需要经过基本分析才能转换成可以用于分析比较的数字信号 。 基本分析的过程包括质量控制、参考基因组比对、表达定量、转录本拼接、变异检测等 。 通过计算比较发现 , 现有的分析工具软件多适用于小批量样本的分析处理 , 效率较低;在分析流程的研究中采用不同的分析软件可导致不同的分析结果 。 “天河二号”可以对限制分析效率的核心软件算法进行并行化处理 , 从而提高分析效率 , 并具有适用于不同数据、不同实验设计的最佳分析流程 。 此外 , 还加入了高级分析内容 , 包括功能分析、通路分析以及比较分析 , 可最大限度地获得数据所携带的研究信息 。 该平台涵盖基因组分析、转录组分析和表观遗传学分析三大研究领域 , 利用 Linux shell , Java以及C/C++等编程语言将分析过程流程化 。 在保证分析结果准确性的前提下 , 还针对流程中部分不适用于超算计算体系的软件进行重编程 , 利用GPU、MC或MPI等技术使搭建的流程可以在天河超级计算机上运行 。 通过以上的整合移植工作 , 可以提高数据分析质量、分析速度以及分析体验 。

推荐阅读