蛋白质 AI技术正在给生物学带来革命


蛋白质 AI技术正在给生物学带来革命
文章图片

蛋白质 AI技术正在给生物学带来革命
文章图片

蛋白质 AI技术正在给生物学带来革命

半个世纪以来 , 生物学的核心有一个未解之谜一直在减缓医学进步 。 无论你是试图了解生命的生物化学家 , 还是试图挽救生命的医药学家 , 你都可能遇到过蛋白质折叠问题 。
蛋白质结构

\t        尽管蛋白质是生命的基础 , 但是我们很难预测它们的样子 。 但是在 2021 年 7 月 15 日 , 两个独立团体宣布他们已经破解了它 , 这一切都归功于一些非常聪明的人工智能 。 这是振奋人心 , 因为它最终可能会在对抗癌症和 covid-19 甚至其他病毒的斗争中取得突破 。

蛋白质结构预测的难度【蛋白质|AI技术正在给生物学带来革命】
\t        蛋白质是生命的基石 。 你体内的一切 , 生物体中的一切 , 一直到细菌病毒 , 蛋白质都是重要的组成部分 。 蛋白质在你的血液中运输氧气 , 辅助消化食物、复制 DNA、对抗感染、构建细胞结构……
事实上 , DNA , 也就是造就你的“密码” , 也是一系列控制制造蛋白质的指令 。 蛋白质是由一组二十个称为氨基酸的基础分子构成的 。 如果蛋白质就像单词 , 那么氨基酸就是构成它们的字母表 。
蛋白质的生产过程

\t        当你的身体制造蛋白质时 , 它会从你的 DNA 中读取指令以制造一长串氨基酸 , 这些氨基酸以特定的方式折叠起来 , 并形成特定的形状 。 这种形状决定了蛋白质的工作方式 , 因为蛋白质需要与其他蛋白质(像拼图一样)结合在一起 , 或固定特定分子 。 这使得蛋白质不同于 DNA 之类的东西 , DNA 知道序列就等于知道它做什么 。
对于蛋白质来说 , 氨基酸序列很重要 , 形状也很重要 。 然而 , 巧妙的是氨基酸长链折叠的方式是由序列决定的 。 根据这一点 , 理论上就能够计算出蛋白质的最终形状 。
找出氨基酸序列是非常容易的 , 因为这是由 DNA 决定——我们可以读取遗传密码 。 但是塑造形状要困难得多 。 蛋白质可以由五十到两千个氨基酸构成 , 而且每种氨基酸的化学结构略有不同 , 增加了蛋白质的复杂性 。 氨基酸的各个部分可以与所有其他附近的氨基酸相互作用 , 甚至与一些远离的氨基酸相互作用 , 以看似随机的方向推动折叠 。 它最终仍然会形成一个每次都相同的有用结构 , 但是很难预测它是如何变成这样的 。
因此 , 即使我们知道数十亿蛋白质的氨基酸序列 , 但在计算它们的形状时 , 我们仍然在黑暗中蹒跚而行 。 我们目前研究蛋白质结构的一种方法是使用 X 射线晶体学 。 将含有蛋白质的溶液缓慢蒸发 , 使留下的蛋白质形成晶体 。
X射线下的蛋白质结构
向晶体发射 X 射线以获取图像 , 然后将这些图像组合成 3D 模型 。 另一种方法使用核磁共振成像 , 与医院使用的人体成像技术相同 。 这些过程非常耗时 , 根据蛋白质的不同 , 这个过程可能需要几天甚至几年的时间 。
AI助力蛋白质结构预测
\t        但在 2020 年 , 来自伦敦的一个团队——DeepMind , 发布了一个惊人的公告 。 他们声称他们的新 AI 算法 AlphaFold2 可以从氨基酸序列和实验方法预测蛋白质的折叠形状 。
DeepMind 之前曾因制作AI击败人类而名声大噪 , 比如 , 他们的AI曾在国际象棋、围棋、将棋甚至星际争霸 2 中击败世界冠军 。 但这些游戏AI 只是为真正的科学挑战做准备 。
他们此项声明的依据来自于 2020 年举办的一场名为 CASP14 的比赛的结果 。 CASP 是一项每两年举办一次的竞赛 , 旨在让人们尝试用计算机解决蛋白质折叠问题 。 在比赛中 , 参赛队将获得大约 100 种已知结构蛋白质的氨基酸序列 。
他们已经通过实验得出 , 比如 X 射线晶体学 , 但结构尚未公开 。 然后 , 团队预测折叠后蛋白质的结构会是什么样子 , 独立评委将预测与实验进行比较 。 在 2020 年之前 , 没有任何团队的预测模型能够接近实验结果 。
甚至 DeepMind 在 2018 年最初的 AlphaFold迭代版也没能成功预测 。 但 2020 年有所不同 , 不仅仅是因为竞争涉及来自一种名为 SARS-CoV-2 的新病毒的蛋白质 。 在 CASP14 中 , AlphaFold2 破解了这个难题:他们三分之二的预测与实验一样准确 。

推荐阅读