AlphaFold2爆火背后,人类为什么要死磕蛋白质?


 AlphaFold2爆火背后,人类为什么要死磕蛋白质?
文章图片

 AlphaFold2爆火背后,人类为什么要死磕蛋白质?
文章图片

近期在生命科学领域 , 有一则爆炸性的新闻 , DeepMind 的Al phaFold2模型 , 将人类的98.5%的蛋白质 , 全部预测了一遍 , 并且做成了数据集免费开源 , 供科研圈的人使用 。
开放的数据集不仅包括人类蛋白质组 , 还有大肠杆菌、果蝇、小鼠等20个具有科研常用生物的蛋白质组数据 , 总计超过35万个蛋白质的结构 。 AlphaFold2模型的目标是为所有具有已知序列的蛋白提供预测结构 。 Deepmind计划在年底将预测数量增加到1.3亿个 , 而这个数量已经达到了人类已知蛋白质总数的一半 。
科研圈因为这一新闻都炸锅了 , 平时需要花费数月、数年的才能完成的事情 , 只需要几天就可以搞定 , 大家无一不在赞叹这个具有划时代意义的时刻 。 DeepMind联合创始人兼CEO Demis Hassabis谈道:“我认为这是DeepMind整个10年多生命周期的顶峰 。 ”对于研究人员来说 , 丰富的蛋白质结构数据有了 , 开展下一步的研究就顺畅了 。
内行人看门道 , 外行人看热闹 , 对于学术圈人的集体高潮 , 外行人的内心都有个大大的问号 , 预测这么多的蛋白质结构究竟有什么卵用?人类为何一直在和蛋白质死磕?
研究蛋白质的意义
回答这个问题之前 , 不得不提及生命科学领域最重要的中心法则:遗传信息在细胞内的生物大分子间转录从DNA→RNA→蛋白质 。
【|AlphaFold2爆火背后,人类为什么要死磕蛋白质?】如何理解呢?在生物世代繁衍的过程中 , 生物会把自身携带的遗传物质DNA分子 , 通过复制传递给后代 , 而在每一代生物从生到死的过程中 , 这套DNA分子以自身为设计蓝图 , 指导生产大量的蛋白质分子 , 执行支持生物生存和活动的全部功能 。
中心法则的一端是DNA , 一端是蛋白质 , DNA可以看做是工厂里面生产制造的设计图纸 , 而蛋白质就是有各种功能的零部件 , 造出来的蛋白质有的跑去参与体内各种生物化学反应 , 比如食物的消化有各种酶的参与 , 有的在血液中(血红蛋白)积极的运输养料 , 有的作为信使在细胞之间传递信号 , 有的作为卫士 , 参与生物体的免疫大战 , 各种设计组装出厂的不同蛋白质可以让遗传、发育、繁殖、代谢等生命活动正常运行开展 。
对蛋白质进行系统深入的研究 , 能让我们从更深层次诠释生命体的构成和运作变化规律 , 进而全面揭示生命运行、发展的机制 , 激发生物科学、药物研发、合成生物学方面的发展 。
我们在中学就已经简单了解过蛋白质了 。 蛋白质是生物构成的重要基本物质 , 由各种氨基酸组成 , 其排列方式和位置的差异使得其种类极其繁多 , 结构复杂 。 每种蛋白质的空间结构和功能都大不相同 , 也因为蛋白质的空间结构 , 不同的折叠方式使得蛋白质具有的活性和生物性能不定 , 而这个复杂的特性也就注定了研究蛋白质的路径困难重重 。
蛋白质研究的波折之路
蛋白质早在18世纪就被法国化学家发现 , 但是因为技术条件的限制 , 直到20世纪初 , 科学家才能根据一些技术去深入的研究蛋白质 。 因为蛋白质结构的复杂与种类极其繁多 , 研究了解的过程极其费时费力 。
对于早期的生化学家来说 , 研究蛋白质的困难在于难以获取大量的纯化的蛋白质用于研究 , 因此早期的研究工作就是在各种纯化蛋白质的路上 。 后来有生物公司1950年在牛胰腺中纯化了核糖核酸酶a , 并免费提供给科学家使用 , 科学家的大量试验逐渐打开 。
1949年 , 英国生化学家桑格用8年的时间测试出了胰岛素(蛋白质)的51个氨基酸的排列顺序 , 验证了蛋白质是由氨基酸所形成的线性多聚体 。 因这一研究桑格被授予1958年诺贝尔化学奖 。 人们运用桑格的方法对许多别的蛋白质迅速进行了测序 , 桑格的研究为1965年第一次人工合成胰岛素铺平了道路 。
人类第一次知悉蛋白质分子结构是在1959年 , 英国科学家 Max Perutz 利用X射线衍射的方法 , 根据射线被散射的角度推测电子的位置解析了肌红蛋白分子的三维结构 , 自此之后 , X射线衍射成为解析高分辨率蛋白质结构最有力的工具 。 除了X射线衍射之外 , 后期科学家们常用的研究工具还有核磁共振与冷冻电子显微镜技术 。
虽然有设备辅助研究 , 但是现实测试技术的局限 , 施行起来成本过高 , 按照传统的实验步骤 , 从基因序列到相应的蛋白质结构测定之间还要经过基因表达、蛋白质的提取和纯化、结晶、X射线衍射分析等步骤 。 由于蛋白质结构和性质的多样性 , 这些步骤大多没有固定的规律可循 。

推荐阅读