重大突破!AI破解几乎所有蛋白质结构,两亿个全新数据将带来什么( 二 )


从量变到质变如果把AlphaFold看作一个人 , 它大概会是成长飞速的天才少年 。
DeepMind隶属于谷歌的母公司Alphabet , 击败了传奇围棋选手李世石的AlphaGo亦为其旗下产品 。 2016年 , 击败李世石后不久 , DeepMind成立了针对“蛋白质折叠问题”的研究团队 。 到2018年 , DeepMind首次公开了AlphaFold的预测结果 , 其成果发表在《自然》上 。
2020年11月30日 , AlphaFold2以巨大优势在国际蛋白质结构预测竞赛(CASP)中一举夺魁 , 其预测的蛋白质结构已达到原子精度 , 可与实验测得的结构相媲美 。 要知道 , 多年来 , 科学家只能通过核磁共振、X射线和冷冻电镜技术来确定蛋白质的结构 。 他们需要为了一个蛋白质结构反复试验 , 其间花费了数年时间和巨额费用 。 2005年 , 《科学》杂志在创刊125周年之际将预测蛋白质结构列为125个最具挑战性的科学问题之一 。 因此 , AlphaFold的这次胜利被视为解决了50年来生物学领域的一个重大挑战 。

在中等难度的蛋白结构预测中 , AlphaFold连续两年夺冠 , 今年更是取得了将近90分的GDT成绩 。 来源:DeepMind
到了2021年 , DeepMind决定把AlphaFold的力量交到世界手中 , 于是在当年的7月15日在《自然》上开源了AlphaFold的代码以及60页的详细补充信息 。
就在1周后 , DeepMind在《自然》上又发表了对整个人类蛋白质组的结构预测结果 , 且使当时已知的高置信度蛋白质结构的数量增加了一倍 。 与此同时 , DeepMind还联合EMBL-EBI推出了AlphaFold数据库 , 其中囊括了人类蛋白质组以及另外20种模式生物体内超过35万个蛋白质结构 。
而又于11月 , DeepMind又更新了AlphaFold2的源代码 , 以解读多链蛋白质复合物 , 这显著提高了预测蛋白质之间相互作用的准确性 。 2022年 , AlphaFold数据库迎来了库容的数量级增长 。 这个“蛋白质宇宙”就拥有了独一无二的强大力量 。
更高的期待当然这个数据库并非万能 , 科学家有更高的期待 。
伦敦帝国理工学院教授基思·威尔逊(Keith Willison)称 , AlphaFold在蛋白质折叠方面仍有问题需要解决 。 AlphaFold只能基于已知实验数据进行预测 , 但对于无法折叠成稳定3D结构的蛋白质就无能为力了 , 这些蛋白质通常具有不稳定和不可预测的折叠模式 。
伊利诺伊大学厄巴纳-香槟分校计算生物学家彭健称 , AlphaFold可以帮助科学家重新评估以前的研究 , 以更好地了解疾病是如何发生的 。 不过他提示说 , 对于具有相关信息但认识不足的罕见蛋白质 , AlphaFold的预测质量也可能不那么高了 。
哥伦比亚大学系统生物学家穆罕默德·库莱希(Mohammed AlQuraishi)在接受据《麻省理工科技评论》采访时称 , 许多蛋白质会受基因突变和自然等位基因的影响 , 但它们的结构会如何改变 , 这个数据库不会解决 。 他说 , “希望能准确模拟蛋白质突变体的工具很快会出现” 。
库莱希等人参与创办了非营利性人工智能研究联盟OpenFold , 他们在AlphaFold数据库基础上做了进一步改造 。 2022年6月28日 , OpenFold发布了其开发的第一个能预测蛋白质结构的AI模型 , 该模型是基于谷歌DeepMind和华盛顿大学蛋白质设计研究所的工作而开发的 。 OpenFold内部评价是 , 该模型比AlphaFold2平均精度更高 , 运行时间更快 。
【重大突破!AI破解几乎所有蛋白质结构,两亿个全新数据将带来什么】不过 , 山东大学数学与交叉科学研究中心教授杨建益(从事蛋白质结构预测)告诉《环球科学》 , AlphaFold2已经很好用了 , 部署也很简单 , 对硬件要求并不高 , 有图形处理器(GPU)就够 , 很多公司和高校都在用 , 速度还很快 。 他说 , “我个人并不太看好OpenFold , 复现AlphaFold2的训练过程意义并不大 , 我自己也测试过OpenFold , 它的性能并不如AlphaFold2 。 ”

推荐阅读