以最经典的X射线晶体学方法为例 , 第一道门槛是目标蛋白质的获取 , 第二道门槛是获得目标蛋白质的晶体 。 与小分子不同 , 蛋白质通常都非常脆弱 , 环境条件稍不注意 , 其结构就可能被破坏 , 因此 , 其制备是件很需要技巧的工作 。 而蛋白质的结晶更是一个瓶颈 , 比小分子的结晶困难得多 。
即便困难重重 , 结构生物学家们也已获得了超过10万种不同蛋白质的三维结构 。 这个数字似乎很多 , 但其实远远不够 。 “人类基因组计划”告诉我们 , 人类大约有不到2万个基因 , 但是考虑到信使RNA的不同剪辑 , 以及翻译后修饰等问题 , 人类细胞能够生产的蛋白质很可能多达100万种 , 保守估计也有10万到20万种 。
而这还仅仅是人类而已 。 由于不同物种之间基因序列的差异性 , 其蛋白质也是不同的 。 也就是说 , 人类的血红蛋白与猴子或老鼠的血红蛋白肯定是不同的蛋白质 。 考虑到地球物种的多样性 , 特别是细菌等微生物的丰富性 , 世界上天然存在的蛋白质很可能达到数万亿种 。
如此多的蛋白质 , 要想一一测定它们的结构 , 显然是个不可能完成的任务 。 那么 , 有没有可能把蛋白质的结构推算出来呢?
从测定到预测
蛋白质的氨基酸序列很容易从其编码基因的序列翻译得来 , 这在后基因组时代只需点几下鼠标就可以完成 。 而一旦氨基酸序列确定 , 蛋白质的空间结构通常也是确定的 。 只是科学家直到今天也不知道从序列到结构的科学法则 。 但既然是一一对应关系 , 就可以尝试通过计算进行预测 , 这就是蛋白质结构预测的由来 。
最初的结构预测主要基于与已有结构的序列比对 , 以及能量最小化 。 这样做的理论基础是:序列相似的蛋白质 , 其结构也往往比较相似;而蛋白质折叠之后的结构应该是一个稳定的结构状态 , 所以其内部势能应该处于最小值 。 但是 , 基于这一思想的结构预测程序始终不能达到非常高的预测精度 。
自从AlphaGo在围棋比赛中战胜人类最高水平选手之后 , AI算法热度陡升 , 被应用于生产生活的诸多方面 , 当然也包括科研 。 近来获得极大进展的深度学习等算法 , 尤其适于处理所谓的“黑箱问题” , 也就是不清楚“输入”与“输出”之间的确切原理、机制或公式的问题 。 围棋如此 , 蛋白质从序列到结构的折叠问题亦如此 。
开发AlphaGo的深层思维公司很快就将研究重心转向了蛋白质结构预测领域 , 并取得了显著成果 。 2018年 , 深层思维公司开发的人工智能程序AlphaFold在国际蛋白质结构预测比赛(CASP)中取得了第一名 。 2020年 , 采用了新思路和新神经网络框架的AlphaFold 2在CASP中再次取得第一名 , 并展现出远远高于其他预测程序的准确度 。 AlphaFold 2的预测结构与通过X射线晶体学等方法获得的实测结构相当接近 , 各氨基酸α碳原子的位移均方根差仅为0.96埃 。
推荐阅读
- 星链|石豪:在太空,马斯克和美国当局是如何作恶的
- 快报|“他,是能成就导师的学生”
- 技术|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- bug|这款小工具让你的Win10用上“Win11亚克力半透明菜单”
- 重大进展|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- 历史|科普:詹姆斯·韦布空间望远镜——探索宇宙历史的“深空巨镜”
- 空间|(科技)科普:詹姆斯·韦布空间望远镜——探索宇宙历史的“深空巨镜”
- 精度|将建模速率提升10倍,消费级3D扫描仪Magic Swift在2021高交会大显“身手”
- 四平|智慧城市“奥斯卡”揭晓!祝贺柯桥客户荣获2021世界智慧城市治理大奖
- |南安市司法局“加减乘除” 打造最优法治营商环境