AI|中国团队刷新全球蛋白质结构预测纪录 大牛彭健创业项目一鸣惊人( 二 )


相比RoseTTAFold和PaFold的76分,更是数量级上的超越 。

AI|中国团队刷新全球蛋白质结构预测纪录 大牛彭健创业项目一鸣惊人
文章图片

此外,在最新一周的标注为“困难” (hard) 的7个蛋白结构中,HeliXonAI更是进一步拉开差距,在TM-score上比第二名Alphafold2高出6分之多 。
总之,不同层面的数据结果都在说明,全球蛋白质结构预测的王座,易主了 。
HeliXonAI如何炼成?
众所周知,蛋白质在理解生命科学与药物开发中的地位举足轻重 。为了执行特定功能,蛋白质必须折叠成对应的结构 。
然而,理解蛋白质的三维空间结构一直是生物学中的重大挑战,已经困扰生物学家 50 多年…
直到 2020 年由DeepMind 团队开发的 AlphaFold2模型,在第十四届国际蛋白质结构预测竞赛(CASP14)上,几乎达到冷冻电子显微镜等实验技术的准确度 。
一石激起千层浪,引领计算生物领域的标志性变革 。
但AlphaFold2实际也并非完美,例如在同源信号较弱的情况下预测的误差较大,对于抗体可变区域的预测也精度欠佳 。
华深智药团队,也是看到了可改进之处,着手开发人工智能药物开发平台——HeliXonAI 。
该平台囊括了包含蛋白质结构预测在内的一整套生命建模算法体系,将被用于承接包含抗体设计,靶点发现等诸多挑战性任务 。
同时,HeliXonAI的蛋白质结构预测算法在AlphaFold2的基础上,提出了诸多改进 。
比如数据上利用数据蒸馏引入了更为庞大的无结构氨基酸序列数据库,并且在模型上设计了新颖的进化调整(Evolutionary Calibration)模块实现了对多比对序列的信息较正 。
又比如对于空间坐标的优化,HeliXonAI引入了几何平滑(Geometric Smoothing)模块,利用几何深度学习的特性,和近一千层的深度,不断地将坐标优化到正确位置上 。

AI|中国团队刷新全球蛋白质结构预测纪录 大牛彭健创业项目一鸣惊人
文章图片

这2大全新的模块的加入,能够迭代式地修复同源序列对比中的误差并相应地对所有原子几何位置做出对应的调整,这样就能更为有效地解决同源信号弱的问题,并在原子级别的细节上做出更精准的预测 。
最终,在8块A100显卡上,经过连续接近3个多月的训练,HeliXonAI实现了模型预测能力指标上对AlphaFold2的超越 。
当然,需要指出的是,如此成果并非只是3个月的冲刺,背后还有华深智药团队的多年积累 。
华深智药打造者?
彭健,伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系及医学院终身教授,生物计算领域的知名大牛,机器学习与蛋白质结构和功能预测的顶级科学家 。

推荐阅读