新浪科技综合|一个困扰生物学家50年的问题,被AI突破了

来源:果壳
众所周知 , 蛋白质就是一串氨基酸而已 。
可是 , 拿到氨基酸的排列顺序 , 你能猜出它会折叠出怎样的三维结构么?恐怕很难 。 就算是天天研究蛋白质的科学家们 , 也被这个问题困扰了50年 。
如今有只AI , 能以前所未有的准确率预测蛋白结构 。 它给出的答案与蛋白质的真实结构之间 , 大约只差一个原子的宽度:

新浪科技综合|一个困扰生物学家50年的问题,被AI突破了
文章图片
图1/4
蓝色为AI预测结果 , 绿色为标准答案丨DeepMind
这只AI名叫AlphaFold , 来自谷歌DeepMind , 和会下棋的AlphaGo师出同门 。 它刚刚在蛋白结构预测比赛CASP14上 , 超越所有对手获得优胜 。
消息发表之后 , 学界备受鼓舞 。 AlphaFold的存在 , 仿佛让科学家拥有了上帝视角 。 Nature把马普所生物学家Andrei Lupas的一句评论当做了新闻标题:它会改变一切 。
怎样的一场比赛
拿到一个氨基酸序列 , 每只AI都会给出自己预测的三维结构 。
那么 , 拥有近100位参赛选手的CASP挑战赛 , 是依靠什么来衡量各位选手的得分?
首先 , 标准答案是通过低温电子显微镜(Cryo-EM)等等学界标配的实验方法检测蛋白质本身 , 得出的相对精确的三维结构 。
然后 , 对比标答和选手答案之间的相似度 , 利用的方法叫做Global Distance Test(全球距离测试 , 简称GDT) 。 GDT满分为100 , 通常只要选手得分超过90 , 就认为一道题目做对了 。

新浪科技综合|一个困扰生物学家50年的问题,被AI突破了
文章图片
图2/4
GDT评测标准丨DeepMind
把所有题目算在一起 , AlphaFold得分的中位数达到了92.4 , 大约2/3的题目都做对了 。 这个成绩比其他选手高出一大截 。
即便在最难的一组题目“自由建模(Free-Modelling Category)”当中 , AlphaFold的中位数也有87.0分 , 比第二名高出25分 。
CASP挑战赛两年一届 , 从1994年开始至今已经举办了14届 , 大致相当于蛋白结构预测界的奥林匹克 。
比赛创办人之一、马里兰大学教授John Moult毫不吝惜对这只AI的赞美 。 他说 , 从某种程度上看 , (蛋白结构预测)问题已经解决了 。
对于那些AlphaFold预测与标答出现分歧的题目 , Moult教授也认为 , 并不能确定是AI预测出了差错 , 还是实验室结果本身有问题 。
AI是怎样炼成的
那么 , AlphaFold的工作原理是怎样的?
DeepMind研究团队说 , 一个折叠的蛋白质可以视为一张空间图(Spatial Graph):构成蛋白质的每个残基(residue)都是图中一个节点(node) , 然后有边(edge)把距离相近的节点连在一起 。
如此一来 , 过往已知结构的那些蛋白质 , 都可以用这样的眼光来看待 。 在日复一日的训练之中 , AI逐渐熟悉了图上节点相连的规律 。 再遇到陌生考题的时候 , 便可以按照之前摸出的规律 , 连出一幅新的图来 。

新浪科技综合|一个困扰生物学家50年的问题,被AI突破了
文章图片
图3/4
残基相连的方式预测丨DeepMind
2018年 , AlphaFold官宣之初 , 便拿下了CASP13冠军 。 虽然 , 那时它的得分中位数没有达到90 , 也就是总体上没达到系统判定正确的分数线 , 却也远远超越了其他选手 。
从那时起 , 欢呼和质疑一并到来了 。 许多人都担心 , 这只AI用某种人们不知道的方式作了弊 。
不过 , 在一种名叫Orf3a的蛋白质上 , AlphaFold证明了自己 。 加州大学伯克利分校的分子神经生物学家Stephen Brohawn说 , AI预测出的蛋白结构 , 和后来实验室用低温电子显微镜做出的成像十分接近 。
那么 , AI拥有这样的能力 , 到底意味着什么?
影响了谁的工作
大约半个世纪以前 , 有位名叫克里斯蒂安·安芬森的科学家 , 在研究RNA酶的时候发现:对一些蛋白质来说 , 只要环境不变 , 它的天然结构便只由氨基酸序列决定 。

新浪科技综合|一个困扰生物学家50年的问题,被AI突破了
文章图片
图4/4
安芬森丨National Institutes of Health
换句话说 , 给定一个氨基酸序列 , 理论上就可以预测出蛋白质的三维结构 。
安芬森因此获得了1972年的诺贝尔化学奖 。 他提出的这条假说也有了个响亮的名号:安芬森原则 。
后来的几十年间 , 科学家们在预测蛋白结构的路上艰难地前行 , 希望有朝一日能把“理论上”这几个字去掉 。
毕竟 , 蛋白质的功能 , 要靠折叠成特定的结构才能实现 。
而那些设计新药或者新酶的科学家们 , 如果能了解某种蛋白质的结构 , 便可以更好地预判某种蛋白质能不能和特定的分子结合 , 进而带来他们希望看到的反应 。
【新浪科技综合|一个困扰生物学家50年的问题,被AI突破了】假如AI能够准确预测蛋白质的结构 , 许多科学家的工作(没有被取代的话)可能都会变得更高效 。

    推荐阅读