氨基酸|当AI“进击”蛋白质结构预测( 四 )


今年7月 , 深层思维公司公开了由AlphaFold 2预测得到的蛋白质结构数据库 , 涵盖了人类基因组直接对应的蛋白质中的98.5% 。 这是一个令人惊叹的伟大成就 , 在硅基空间中已经基本实现了当初“结构基因组计划”的宏愿 。
开启未来
在AlphaFold 2一鸣惊人之后 , 结构生物学家们最常被问到的问题就是:“你们是不是要失业了?”在2020年第十八次中国暨国际生物物理大会开幕式上 , 中国结构生物学家饶子和院士的讲话被认为代表了结构生物学界的心声:“我们没必要抗拒人工智能的结构预测算法 , 而是要去拥抱这种新技术 , 因为它只会推动这个领域以更快的速度发展 。 ”
的确 , 有一部分结构生物学的研究工作可以被AlphaFold 2取代 。 比如在较低的分辨率上讨论蛋白质的整体结构 , 包括肽链的折叠走向、各个结构域的相对位置关系等等 。 因为偏差优于1埃的预测结构 , 显然要比3埃分辨率的实测结构更准确 , 而3埃通常被认为是可以判断原子准确位置的分辨率下限 。
但是 , 还有一些研究工作对于蛋白质结构的准确度要求极高 。 比如前文谈到血红蛋白中铁离子的位移 , 是在零点几埃的尺度上进行讨论的 。 对于这类结构细节的精细分析 , 预测结构无法作为讨论的基础 , 因为其中一丝一毫的不确定性都可能导致完全不同的结论 。
再比如在药物研发中 , 作为药物靶标的蛋白质的结构是相应药物设计与改造的基础 。 如果蛋白质结构数据有误 , 以之为基础开发的药物分子就不可能与真实的蛋白质相结合 , 也就无法发挥药效 。 因此 , 这类研究仍然只能依赖于通过实验方法测定得到的蛋白质真实结构 。
这样来看 , 是不是应用AI技术的蛋白质结构预测程序并没有带来什么革命性的改变呢?事实并非如此 。 由于AlphaFold 2的出现 , 结构生物学家们获得了一件新的利器 , 能够以全新的方式开展结构生物学研究 。 比如 , 这些预测的结构可以作为晶体学计算中的初始模型 , 从而绕开麻烦的“相位问题”;也可以作为冷冻电镜方法中大型复合物各个亚基的初始模型 , 从而减小模型搭建的难度 。 再比如 , 对于始终不能结晶的蛋白质 , 可以先参考预测结构 , 对其进行一些截短或突变处理 , 使之变得更易于结晶 。
此外 , 对于不熟悉结构生物学的生物学家来说 , AlphaFold 2的出现也是一个福音 。 以前他们感兴趣的蛋白质如果没有已知结构 , 就只能去找结构生物学家合作 , 而获得的结果也未必对他们要研究的问题有帮助 。 现在 , 他们可以先用AlphaFold 2的预测结构进行初步研究 , 以判断自己是否还需要通过合作来获得其准确的精细结构 。

推荐阅读