预测|深势科技推出蛋白结构预测工具Uni-Fold:开源训练代码 提供测试接口

12月8日 , 来自深势科技的团队推出了蛋白质结构预测工具Uni-Fold , 并开源训练、推理代码(开源地址:https://github.com/deepmodeling/Uni-Fold) 。 Uni-Fold成功复现了曾引起生物学界轰动的Alphafold2的全规模训练 , 相应解决方案已集成至深势科技自主研发的药物设计平台Hermite , 供广大用户测试使用 。 Uni-Fold克服了Alphafold2未开源训练代码、硬件支持单一、模型不可商用等局限性 , 在训练与推理环节进行了GPU上的适配、性能优化、功能完善等工作 , 为更多人参与推动领域进一步发展提供了基础 。

预测|深势科技推出蛋白结构预测工具Uni-Fold:开源训练代码 提供测试接口
文章图片


预测|深势科技推出蛋白结构预测工具Uni-Fold:开源训练代码 提供测试接口
文章图片

图1 Uni-Fold预测的蛋白结构
蛋白质是组成生命体的重要物质基础 。 不同的蛋白质通过折叠形成不同的三维结构 , 执行多种多样的生理功能 。 从氨基酸序列到对应蛋白质三维结构的预测问题被认为是生物学领域最具有挑战性的问题之一 。 在过去几十年的研究中 , 科学家们为探测蛋白质结构发展出三大实验手段:X射线晶体学、核磁共振和冷冻电镜 。 但实验方法成本高、周期长 。 目前人类已知有数十亿氨基酸序列 , 但还原出结构的只有十几万 。 生物学发展因此颇受掣肘 。
近年来AI的发展为这一问题带来了新的可能 。 在2020年的国际蛋白质结构预测顶级竞赛CASP14(Critical Assessment of protein Structure Prediction 14)上 , Google DeepMind推出的AlphaFold2预测的大部分结构准确度均与实验足够接近 , 远超此前所有方法 。 这一结果也标志着蛋白质单体的结构问题在一定意义上得到了解决 。
不过 , 尽管DeepMind在半年后开源了AlphaFold2模型的推理代码 , 其训练代码并未被公布 , 且模型不可商用 。 研究者难以通过训练或调整模型进一步提升AlphaFold2的表现 , 或迁移至更多应用场景 , 如蛋白质复合物结构预测、蛋白质与小分子相互作用、与电镜实验结合等 。 此外 , 该代码基于Google自研的可微分计算框架JAX及TPU硬件平台开发 , 高度依赖Google生态系统 。
【预测|深势科技推出蛋白结构预测工具Uni-Fold:开源训练代码 提供测试接口】Uni-Fold打破了这些限制 。 目前已开源的Uni-Fold训练代码 , 经过MPI并行、数据异步读取、混合精度训练等优化工作 , 支持高效GPU训练 。 基于优化后的训练代码 , 深势科技团队实现在128块NVIDIA GPU上进行AlphaFold2模型的全规模训练 , 并将持续优化所得模型 。 Uni-Fold的推理代码更加轻量、高效 , 在相同硬件环境下 , 可获得与公布的Alphafold2代码相比2-3倍的效率提升 。

推荐阅读