蛋白质 陈根:从AlphaFold到AlphaFold2,医学革命还将到来


蛋白质 陈根:从AlphaFold到AlphaFold2,医学革命还将到来
文章图片

蛋白质 陈根:从AlphaFold到AlphaFold2,医学革命还将到来

文/陈根
蛋白质对生命来说不可或缺 , 它们支持生物体的几乎所有功能 。 这些复杂的大分子由氨基酸链构成 , 而蛋白质的功能很大程度上决定于它的3D结构 。 显然 , 了解蛋白质的结构和形状对医药研究的进步至关重要 。 生物医学领域的众多挑战 , 包括开发治疗疾病的创新疗法 , 都依赖于对蛋白质结构和功能的理解 。
但是 , 由于蛋白质结构极其复杂 , 到现在为止 , 医学上也只研究出少数蛋白质的构造 。 但是 , 这一情况随着用人工智能确定蛋白质的结构方向取得了突破性进展 。 现在 , 随着AlphaFold2的开源 , 人工智能正被用来预测人体产生的几乎每一种蛋白质的结构 。
蛋白质结构成为终极难题
人类生命得以运转离不开生物学里的“中心法则” 。
一方面 , 上一代生物会把自身携带的遗传物质 , 也就是DNA分子 , 照原样复制一份 , 传递到后代体内 , 一代代传递下去 。 另一方面 , 在每一代生物的生命过程中 , 这套遗传信息又可以从DNA传递给RNA , 再从RNA传递给蛋白质 , 即完成遗传信息的转录和翻译的过程 , 执行各种各样的生物学功能 。
其中 , 不论是从遗传信息到DNA , 还是从遗传信息到蛋白质 , 都离不开4种不同碱基的排列组合 。
对于遗传信息到蛋白质来说 , 这4种不同碱基的排列组合 , 翻译出64种密码子 。 这60多个密码子又对应着整个地球生命系统中仅有的20多种氨基酸 , 而20多种氨基酸的排列组合 , 则构成了数万至数亿种不同的蛋白质 。
所有生物都是由蛋白质构成的 , 蛋白质是一切生命系统的物质基础 , 密切参与着从触发免疫反应到大脑思考的每一个生理过程 。 蛋白质的结构 , 又决定了蛋白质的功能 。 其中 , 蛋白质的结构 , 除了包括不同氨基酸的排列组合 , 更重要的则是氨基酸链的3D结构 。
氨基酸链扭转、弯曲构成不同的蛋白质 , 因此 , 具有数百个氨基酸的蛋白质可能呈现出数量惊人的不同结构 , 比如 , 10的300次方个 。
值得一提的是 , 蛋白质只有正确折叠为特定的3D构型 , 才能发挥相应的生物学功能 。 而蛋白质四级结构结构的折叠 , 受到大量非共价相互作用的影响 , 想要从分子水平上了解蛋白质的作用机制 , 就需要精确测出蛋白质的3D结构 。
在这样的认知下 , 半个多世纪以来 , 医学研究人员们开发了各样的技术来预测蛋白质的结构 。 1959年 , 佩鲁茨和肯德鲁对血红蛋白和肌血蛋白进行结构分析 , 解决了三维空间结构 , 并因此获得1962年诺贝尔化学奖 。 这也是人类历史上第一次彻底看清蛋白质分子机器的细节 。
之后 , 豪普特曼和卡尔勒建立了应用X射线分析的以直接法测定晶体结构的纯数学理论 , 在晶体研究中具有划时代的意义 , 特别在研究大分子生物物质如激素、抗生素、蛋白质及新型药物分子结构方面起了重要作用 , 因此而获得1985年诺贝尔化学奖 。
2017年 , 诺贝尔化学奖有授予发明了冷冻电镜技术的三位科学家 , 以奖励其对探明生物分子高分辨率结构的贡献 。 然而 , 对于想要更深层次理解生命现象过程以及更复杂的药物研发而言 , 仅靠这种“观察”的手段来研究蛋白质的结构 , 却难以满足需求 。
对于一种复杂蛋白质结构的测定 , 往往需要耗费大量的时间和成本 , 甚至还不一定准确 。 历史上 , 动辄有科学家耗费几年、几十年时间才能得到一个清晰的蛋白质三维结构 。 比如 , 因为基因测序技术的高速进步 , 人类掌握的基因序列已经有1.8亿条 , 但其中三维结构信息被彻底看清的只有17万个 , 还不到0.1% 。
这也成了一直以来在生物学领域蛋白质三维结构难以突破的瓶颈所在 。
从AlphaFold到AlphaFold2
好在人类社会总是在前进的 , 解决蛋白质折叠问题 , 明晰蛋白质分子的三维结构 , 作为生物学里悬而未决的几大终极难题之一 , 终于随着人工智能的发展 , 特别是深度学习方法的应用而曙光初现 。
1994年发起 , 美国科学家约翰·莫尔特(JohnMoult)发起全球蛋白质结构预测竞赛(CASP) , 每两年举办一届 , 竞赛的举办正是为了吸引计算机科学、生物物理学等不同领域的专家参与到蛋白质三维结构预测这一极具挑战性的生物信息学问题中来 。

推荐阅读