从预测到设计
前述贝克团队开发的RoseTTAFold达到了与AlphaFold 2相接近的准确度 , 且运算速度要快得多 。 对于一个普通大小的蛋白质 , 一台用于游戏的主流配置电脑仅需10分钟左右就能完成结构预测 。 这很可能是因为 , 贝克团队在多年结构预测研究的积累下 , 对于蛋白质结构有着更为深刻的认知 , 从而以更加合理的方式建立了高效的神经网络 。
其实 , 作为蛋白质结构预测领域的领军人物之一 , 贝克近年来的研究重点已经从蛋白质结构预测转向了人工蛋白质设计 。 新冠肺炎疫情暴发后 , 贝克团队就在《自然》杂志上发表论文 , 介绍了一种人工设计的蛋白质 , 能够与新冠病毒表面的刺突蛋白牢固地结合在一起 , 屏蔽病毒与受体的结合面 。 这种蛋白质能够替代中和抗体的作用 , 却比中和抗体蛋白小得多 , 也稳定得多 。 这项工作向科学家们展示了人工设计蛋白质在未来医药应用上的广阔前景 , 它们甚至有可能取代抗体药物 , 成为药物研发领域的明日皇冠 。
然而蛋白质设计是一件比结构测定更加困难的事 。 由于科学家还不清楚从蛋白质序列到结构的科学法则 , 因此不能简单地直接设计出具备某种特定功能的蛋白质序列 。 目前贝克团队采用的方法是先在随机生成的蛋白质序列中进行筛选 , 通过结构预测程序获得这些序列对应的结构 , 再依据结构判断哪些序列有可能达到设计功能 。 最后再对筛选得到的有限蛋白质进行生物学上的合成与功能的实际验证 。
但是上述过程中的筛选步骤需要极其巨大的计算量 。 以一个氨基酸序列长度为100的小型蛋白质为例 , 由于序列上的每一位都可以是20种基本氨基酸中的任何一种 , 所以这个蛋白质理论上有20100种不同的可能序列 。 这个数字大约是1.3×10130 , 比可观测宇宙中所有恒星的数量还要高100多个数量级 。 与之相比 , 自然界真实存在的蛋白质种类不过是沧海一粟 。 正因为如此 , 科学家才需要高效而准确的蛋白质结构预测程序 , 能够在可接受的时间内尝试尽可能多的序列组合 , 从而提高获得设计功能的可能性 。
应对这些海量的非天然蛋白质序列的结构预测工作 , 恐怕才是AlphaFold 2和RoseTTAFold等人工智能蛋白质结构预测程序真正的用武之地 。 同时 , 也正是在这些AI算法的推动之下 , 结构生物学以及蛋白质设计的发展必然进入一条快车道 , 为药物研发带来一个更加光明的未来 。
至于结构生物学家们 , 也将在AI的辅助下 , 逐步从蛋白质样品制备与结晶等的繁琐工作中解脱出来 , 把更多的精力投入到对蛋白质结构本身的分析与研究 , 以及人工蛋白质的设计工作中去 。
(作者系北京航空航天大学大数据精准医疗高精尖创新中心特聘研究员 , 中国科普作家协会理事)
推荐阅读
- 星链|石豪:在太空,马斯克和美国当局是如何作恶的
- 快报|“他,是能成就导师的学生”
- 技术|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- bug|这款小工具让你的Win10用上“Win11亚克力半透明菜单”
- 重大进展|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- 历史|科普:詹姆斯·韦布空间望远镜——探索宇宙历史的“深空巨镜”
- 空间|(科技)科普:詹姆斯·韦布空间望远镜——探索宇宙历史的“深空巨镜”
- 精度|将建模速率提升10倍,消费级3D扫描仪Magic Swift在2021高交会大显“身手”
- 四平|智慧城市“奥斯卡”揭晓!祝贺柯桥客户荣获2021世界智慧城市治理大奖
- |南安市司法局“加减乘除” 打造最优法治营商环境