|大数据揭秘3亿年生命演化

古生代约3亿年海洋生物多样性曲线与重要演化事件 。  
樊隽轩 
科技部高技术研究发展中心日前发布“2020年度中国科学十大进展” , 其中一项进展是 , 南京大学沈树忠、樊隽轩团队联合国内外专家创建国际大型数据库 , 自主研发人工智能算法 , 利用“天河二号”超算取得突破 , 获得了全球第一条高精度的古生代3亿多年的海洋生物多样性演化曲线 , 时间分辨率较国际同类研究提高400多倍 。  
【|大数据揭秘3亿年生命演化】生命起源与演化是自然科学领域的十大科学问题之一 。 地球生命从最早的单细胞生命 , 到纷繁复杂、高度多样化的现今生命世界 , 中间经历了复杂的甚至可以称之为波澜壮阔的演化过程 。 本报约请樊隽轩教授撰文向读者解读该项研究的科学内容 。  
早先化石古生物数据库识别出五大灭绝事件 
2011年国际著名学术期刊《自然》报道 , 根据科学家的估算 , 现今地球上一共有870万种生物物种 。 地球已经有46亿年的历史 , 其中最早的地球生命出现在38亿年前 。 在这漫长的生命历史中 , 不断有物种消失 , 以及新的生命类型的出现 。 那么 , 在整个地球历史中 , 一共存在过多少物种呢?根据科学家的估算 , 这个数字是40亿!也就是说 , 如果要恢复生命演化的全部历史 , 我们就必须对所有现生的以及已经消失的物种进行全面的统计 。 对于这些已经消失的物种 , 只能通过它们留下来的化石记录来进行统计分析 。 比如三叶虫最后的化石记录发现于二叠纪末的沉积岩里 , 因此科学家就可以推测 , 三叶虫最终消失的时间是在2.5亿年前 。  
对化石记录开展的研究已有数百年历史 , 地质学家和古生物学家已经积累了海量的化石记录信息 。 对这样庞大的数据进行准确、可靠的分析 , 就必须利用大数据的手段 。  
上世纪70到80年代 , 美国芝加哥大学的演化古生物学家杰克·塞普柯普斯基教授 , 耗费十多年时间 , 收集了北美、欧洲等地的化石记录 , 构建了第一个较为完整的古生物数据库 。 这个数据库里 , 只有化石的分类名称 , 以及该种化石出现的时间以及消失的时间 , 虽然信息很简单 , 但是已经可以用来统计各个时段有多少种化石生物了 。  
地球历史很长 , 以亿年计 。 塞普柯普斯基的这项研究 , 时间精度或者说时间单位只能做到以千万年计 , 也就是说只能统计到每一千万年地球上生活过多少种生物 。 通过这个方法 , 他识别出过去6亿年的地球生物多样性的变化规律 。 这就相当于人类五千年历史中 , 统计出了每一百年的人口变化 。 在这个生物多样性变化曲线上 , 他识别出了五次显著的生物类群数目快速下降的事件 , 他称之为五大灭绝事件 , 代表了地球历史上最为重要的五次生命灾难 。 这项研究被誉为20世纪后半叶地球科学领域最为重要的发现之一 。  
后来的学者觉得这个数据库太简单 , 有必要建立一个更为庞大的数据库 , 收录种类更丰富的信息 , 不仅可以重新检验上述结果 , 还可以进一步揭示生命演化的机理、机制及其与地球环境变迁间的关系等 。 1998年 , 在美国国家自然科学基金委的支持下 , 一批美国与欧洲的古生物学家联合 , 发起了一个大型的古生物网络数据库项目 。 这个数据库的结构要复杂得多 , 不仅包含了上述化石的名称以及出现和消失的时间信息 , 还包括了产出化石的岩石信息、化石生物的地理位置信息、化石生物的生活状态信息等 。 利用这些数据 , 这些科学家在2008年重新计算了过去6亿年的地球生物多样性曲线 , 时间精度与上述曲线类似 , 也是一千万年 。 这一新曲线与塞普柯普斯基的曲线相比 , 既有相似的地方 , 但也存在一些不同的地方 。 这两条曲线 , 究竟哪条曲线更准确呢?如果我们重新回顾一下这两项研究 , 可以发现他们统计生物数目的时候时间单位是以千万年计 , 这个精度是很粗糙的 , 因此容易带入一些因为时间不准确导致的偏差 。  
数据、算法和算力创新 
推动古生物时间分辨率大大提高 
为了获得更加全面、可靠的古生物多样性曲线 , 需要实现三方面的突破 , 一是需要更加准确的海量化石记录 , 也就是古生物大数据的支撑;二是需要研发全新的算法 , 实现数据的有效计算与分析;三是需要强大的算力 , 从而可以在有限的时间里 , 比如数周内完成计算与分析 。  
南京大学沈树忠、樊隽轩团队联合国内外专家开发了一个全新的国际大数据平台 , 可以实现全球古生物资料的高效数字化、集成、管理与应用 。 并组建了一个国际一流的数字化队伍 , 耗费数年时间将中国85%以上的化石记录都收集起来 , 并开放给全球的同行使用 。  
在算法方面 , 传统的定量统计方法不再适用 。 科学家团队尝试与信息科学相结合 , 研发全新的算法 。 在古生物学领域有一个重要的基本概念 , 即化石的保存和采样概率 。 前者指古代生物有多大的概率变成化石 , 后者指化石有多大的概率被我们发掘出来 。 比如 , 某片森林里曾经生活过几只松鼠 , 当它们死后 , 未必都能被埋到土里成为化石 。 因为有可能被狐狸叼走了 , 也可能被细菌分解破坏了 。 就算埋到土里成为化石 , 也未必能被古生物学家所发现 , 因为古生物学家不可能把整个森林都挖开去找寻每一个化石 。  
正因为化石存在保存和采样概率 , 所以在各个化石挖掘点找到的化石出现和消失的时间就有可能存在问题 , 这就导致化石的出现或消失的先后顺序可能会颠倒 。 举个例子 , 比如李白出生在公元701年 , 杜甫出生在公元712年 , 李白的出生比杜甫早了11年 , 但是 , 假设史书中的记录有偏差 , 缺了李白的一些编年史记录 , 导致关于李白的最早记录是公元713年 , 那么后人在整理资料时就会以为杜甫的出生比李白早一年 。 如果将每个化石挖掘点找到的化石记录看作是一本化石编年史 , 每本编年史都是不完整的 , 有的记录了李白出生更早 , 有的则是杜甫更早 。 假设李白应该比杜甫更早 , 然后看看有多少本书里的记录与之不符 , 每一次不符记为1 , 其总和就代表了“李白早于杜甫”这一假设与实际记录的不吻合程度 。 假设有100种化石 , 对每两种化石的先后顺序都进行这样的假设和比较 , 最后就可以得到这100种化石的一个假设的顺序以及对应的总不吻合度 。 求取不吻合度最小的那个顺序 , 这就是化石在全球出现的最合理的顺序 , 在这个基础上 , 就可以计算出高分辨率的生物多样性曲线 。  
通过这种方法 , 将可以获得时间精度是2万至3万年的多样性曲线 。 如果将过去6亿年的生命历史对应到人类文明的五千年 , 这一分辨率就相当于我们每两三个月就统计一次全球的人口总数 , 看看变化趋势是什么 。 生命演化的时间精度达到万年尺度 , 这代表的就是生命演化领域目前的世界纪录了 。  
获得这样的时间分辨率 , 需要非常庞大的算力的支撑 。 根据科学家的估算 , 如果对1万种化石的地质记录计算和分析一次 , 当前主流的台式机需要17年!所以 , 研究团队拜访了中国的多个超级计算机 。 其中 , 位于广东中山大学的“天河二号”超级计算机在2013年到2016年都是世界上最快的超级计算机 。 科学家最终采用了“天河二号” , 同时使用1万多个CPU核心进行计算 , 原本需要17年才能完成的一次计算 , 最终只用了两三天 。  
更精细的生物多样性曲线 
揭示3亿年生命演化史 
在大数据、算法和算力方面都取得了突破之后 , 科学家团队正式开始了计算 , 并最终获得了从5.4亿年前开始到2.4亿年前的3亿年地球生物多样性变化的曲线 。 与国际的同类研究相比 , 这一新曲线的时间分辨率提高了400倍 , 彻底改变了对该时期海洋生物演化的一些传统认识 。  
该项研究表明 , 前人使用的低分辨率且不均一的时间标尺 , 会直接影响对古生物多样性的估算 , 导致无法准确评估生物多样性的变化速率和模式 , 并可能掩盖突发性的重大事件以及短时间的剧烈波动 。 比如有的时候生物正面临多样性危机 , 或者是生命形式正快速爆发、增长的时候 , 前人的曲线会显示完全不同的规律 。  
新的多样性变化曲线更加准确地重现了地质历史中最大的三次生物灭绝事件和三次重大生物辐射事件的精细过程 。  
三次生物大灭绝事件 , 其中2.52亿年前发生了人类迄今为止识别出的最大规模的生物灭绝事件 , 导致超过70%的海洋生物在数万年内迅速灭亡 , 这一事件的发生 , 与当时全球气候的快速升温密切相关 。  
——奥陶纪末生物大灭绝:五大灭绝事件之一;发生在奥陶纪、志留纪之交(4.47亿至4.45亿年前) , 导致34%的海洋生物快速消失 。  
——中-晚泥盆世生物大灭绝:五大灭绝事件之一;始于3.93亿年前 , 并一直延续至3.68亿年前 , 持续两千五百万年 , 导致59%的海洋生物消失 。  
——二叠纪末生物大灭绝:五大灭绝事件之首;发生在二叠纪、三叠纪之交(2.52亿年前) , 生物多样性在数万年里急剧下降超过70% 。  
三次重要的生物辐射事件 , 多与当时全球气候的逐渐变冷同步 。 深刻理解这些重大生物事件的驱动机制 , 对于我们认识当今地球生物多样性以及与全球气候变化之间的关系具有重要启示意义 。  
——奥陶纪生物大辐射事件:发生在4.97亿至4.67亿年前 , 物种多样性快速增长 , 并增加了近三倍 。  
——志留纪初生物辐射事件:发生在4.45亿至4.37亿年前 , 奥陶纪末生物大灭绝结束后 , 生物快速复苏并辐射 , 多样性增加约80% 。  
——石炭纪-二叠纪生物辐射事件:发生在3.35亿至2.95亿年前 , 多样性增加三倍 , 基本与奥陶纪大辐射事件相当 。  
地质历史中生物多样性的重大变化 , 通常也伴随着环境的剧烈波动 。 前人研究表明 , 生物多样性变化可能与多项环境因子的变化同步 , 如古气候、海平面、总栖息地面积和大陆连通性等 。 各重要生物事件与环境变化之间存在一些相关性 , 如: 
奥陶纪大辐射事件和石炭纪-二叠纪的生物多样化事件均与气候变冷相关; 
中-晚泥盆世生物大灭绝事件与该时期古温度变化相关 。  
生物的演化与环境的变迁经常是彼此联系的 。 为了探究两者之间的关系 , 科学家团队将一些关键环境指标参数与新的多样性曲线进行了初步的比较 , 发现生命的兴衰与大气中二氧化碳含量的变化存在同步的现象 , 二氧化碳含量高 , 生物多样性通常也较高 , 二氧化碳含量变低 , 生物多样性也会变低 。 目前尚不清楚究竟是什么机制将这两种变化联系在了一起 , 但相信随着研究的不断深入 , 比如未来收集了环境变化的大数据 , 就可以去尝试揭秘这两者之间的真正关系了 。  
地球生命演化有着无穷的奥秘 , 利用大数据绘制出高分辨率的生物多样性曲线不过是第一步 。 随着大数据、人工智能等新技术手段的应用 , 科学家们将会不断揭示地球生命演化的奥秘 。

    推荐阅读