生物史最全“证件照”!DeepMind开放35万种蛋白质结构,超人类知识2倍( 二 )
英国格拉斯哥大学(University of Glasgow)结构生物学教授Helen Walden认为 , DeepMind的数据将“显著缓解研究瓶颈” , 但“进行生物化学和生物学评估的费力、耗费资源的工作”将继续存在 , 例如药物功能研究 。
Sousa也提到 , 他曾在工作中使用过AlphaFold的数据 , “科学家们能快速地感受到它带来的影响 。 ”他说 , 在他们与DeepMind的合作中 , 他们有一个包含蛋白质样本的数据集 , 但10年来都还没开发出一个合适的模型 , 直到DeepMind同意为他们提供一个结构 , 在15分钟内就解决了这个问题 。
二、蛋白质折叠难题背后 , AlphaFold分析速度已提升16倍AlphaFold只需15分钟就能解决的问题 , 为何困扰了这些科学家10年?蛋白质折叠问题究竟难在哪?
如我们前面所说 , 蛋白质由氨基酸链构成 , 人体中共含有20种不同的氨基酸 , 任何一个蛋白质都可以由数百个氨基酸组成 , 且每个氨基酸都有不同的折叠和扭曲结构 。
这些都意味着 , 哪怕是一个常见的蛋白质分子 , 它的最终结构都有许多种可能构型 。 一个估计是 , 典型的蛋白质可以以10^300种方式折叠 。 不用数了 , 就是“1”后面跟着300个“0”的可能性 。
不过由于蛋白质的样本太小 , 科学家们难以用显微镜检查 , 不得不使用成本昂贵且复杂的方法来间接确定蛋白质结构 , 比如核磁共振和X射线晶体学(X-ray crystallography) 。
但实际上 , 简单地通过氨基酸序列来确定蛋白质结构的构想 , 在理论上一直是难以实现的 。 因此 , 分析蛋白质结构也成为了人们攻克生物学领域的一大难关 。
直到近年来 , 人们发现可以利用AI的方法来分析蛋白质结构 。 借助这些技术 , AI系统可以通过在已知蛋白质结构的数据集上进行训练 , 并最终利用这些信息来预测蛋白质结构 。
多年来 , 很多团队都参与到这项AI研究中 , 其中DeepMind基于深厚的AI人才库和大量计算资源基础 , 一直走在该领域的前沿 。
去年 , DeepMind在一项名为CASP的国际蛋白质折叠比赛中脱颖而出 , 其AlphaFold软件对蛋白质结构的预测结果非常准确 。 对此 , CASP联合创始人之一的计算生物学家John Moult说:“在某种意义上 , 蛋白质折叠的难题已经有了解决方案 。 ”
▲DeepMind的AlphaFold软件显着提高了计算蛋白质折叠的准确性(图源:DeepMind)
自去年CASP竞赛以来 , AlphaFold系统也实现了升级 , 现在它分析蛋白质结构的速度已提高了16倍 。 “我们可以在几分钟内折叠一个普通蛋白质 , 多数情况下只要几秒钟 。 ”Hassabis谈道 。
英国雷丁大学教授Liam McGuffin曾开发出一些蛋白质折叠软件 , 他肯定了AlphaFold的技术 , 但也指出 , AlphaFold的成功主要归功于科学家们数十年的先前研究和公开数据 。
“DeepMind拥有大量研究资源来保持数据库的更新 , 他们比任何一个学术团体都更有能力做到这一点 。 ”McGuffin认为 , 尽管科学家们最终也会走到这一步 , 但速度会更慢 , 因为他们没有足够的资源 。
三、持续推进AI发展 , 年底数据库结构将增至1.3亿个尽管DeepMind每年都处于大量亏损的状态 , 但这次开放蛋白质结构数据库是免费的 。
实际上 , DeepMind归属于Google母公司Alphabet , 该公司一直在商业医疗保健领域投入大量资源 。 还有许多报道称 , DeepMind与Alphabet在研究自主性和商业可行性等问题上存在分歧 。
不过Hassabis谈道 , 公司一直在计划免费提供这些信息 , 这样做是对DeepMind创始精神的体现 。 “我们在被收购时与Alphabet达成的协议是 , DeepMind主要的研究目的是推进AGI(通用人工智能)和AI技术的发展 , 然后利用它们来攻克科学领域的难题 。 ”他说 。
他认为 , Alphabet有许多部门都专注于盈利 , 但DeepMind对研究的关注能够“为科学界带来各种各样的好处 , 包括声望和信誉 , 从而通过多种方法实现价值 。 ”
Hassabis还强调 , 虽然DeepMind的主要研究目标是一些基础领域 , 但其技术已广泛应用于谷歌的其他业务中 。 “几乎你使用的任何谷歌产品 , 其中一部分技术都有我们的参与 。 ”他透露 。
与此同时 , Hassabis预测AlphaFold将成为未来的标志 , 因为它展示了AI在处理人类生物学等复杂问题上的巨大潜力 。
“我认为我们正处于一个非常激动人心的时刻 。 ”Hassabis提到:“在接下来的十年中 , 我们和AI领域的其他人都希望能取得突破性进展 , 真正加速解决我们在地球上面临的真正重大问题 。 ”
对于接下来的计划 , EMBL-EBI的结构生物信息学Sameer Velankar谈道 , 到今年年底 , 本周提交的大约36.5万个蛋白质结构预测将增加至1.3亿个 , 几乎是所有已知蛋白质的一半 。
推荐阅读
- 三星堆三大未解之谜,考古学家都无从下手,一旦解开或将颠覆历史
- 假如存在二维生物,他们如何辨别所处的面是平面还是曲面
- 为人类敲响警钟!57000年前的尸体重见天日,史前生物现身引发关注
- 简述相对论发展史:从伽利略到引力波
- 历史上十位被自己发明杀死的科学家
- 除了扎克伯格, 他以身价250亿美元成为世界历史第2位最年轻富豪。
- 768公里!17.01秒!史上最长和最久的闪电!
- 宇宙大爆炸理论遭质疑,宇宙或许没有起点,历史可能无限久远?
- 在约旦河谷发现的史前人类脊椎讲述了从非洲开始的史前迁徙故事
- 圆圆的地球变成方了!各种外星生物也开始入侵,大家快来拯救世界