算法又立功!有望精确预测蛋白质三维结构 或将成领域“分水岭”

Winnie Lee

595

在细胞中,蛋白质负责执行或催化所有的化学和机械过程。

以氨基酸残基的线性链形式合成的大多数蛋白质会自发地折叠成一个或几个三维结构。氨基酸序列决定了蛋白质的结构和运动范围,进而决定了蛋白质的功能。

几十年来,结构生物学家已经通过实验确定了数千种蛋白质的结构,但是这些研究的困难使得从序列预测蛋白质结构的计算方法成为可能。

Senior等人在《自然》期刊上撰文,描述了一种名为AlphaFold的算法,它通过引入现代机器学习技术,在解决这一经典问题上迈出了一大步。

蛋白质结构的多样性使其不具有简单的折叠规则,使得结构预测变得困难。蛋白质折叠最终是由量子力学驱动的。如果有可能从量子理论中计算出蛋白质分子的确切能量,并对每一种可能的构象都这样做,那么预测蛋白质最受能量青睐的结构就很容易了。

不幸的是,对蛋白质的量子处理在计算上是难以处理的(量子计算机可能会改变这一点),而且任何蛋白质可能获得的所有构象都是天文数字,这使得这个方法并不可行。

AlphaFold使得使用一个简单的过程来寻找最合适的构象成为可能,而不是使用其他方法使用的复杂的搜索算法。

事后看来,复杂的搜索对于结构预测来说可能是不必要的,这并不奇怪。数学上,点之间的距离决定了它们的相对位置。因此,对距离的预测可以预测结构。

AlphaFold值得注意的一点是,它能够以足够的精度预测距离,从而胜过最先进的搜索方法。Senior等人利用深度学习的优势,从蛋白质序列中提取尽可能多的结构信息。

在最近一次预测蛋白质结构的盲法评估(CASP13事件)中,AlphaFold的算法表现优于所有参赛者,在43种蛋白质中选出25种蛋白质的最佳结构,次优的算法在43种蛋白质中选出3种。

挑战仍然存在。AlphaFold对于大多数应用还不够精确,例如计算酶的催化机制或药物如何与蛋白质结合。

尽管AlphaFold的搜索过程比大多数现代方法简单得多,但它仍然可能很慢,需要几十到几百个小时才能做出一个预测。

对于蛋白质设计等需要对许多不同蛋白质序列的结构进行建模的应用,速度慢是一个障碍。

然而,这是该领域的一个分水岭。

考虑到可用蛋白质序列数量的持续增长,在未来五年内,由单个折叠区域组成的大多数蛋白质的粗结构可能被成功预测结构。

如此广泛的结构信息可能会改变生命科学,就像序列信息在过去几十年里所做的那样。

这可能意味着,结合冷冻电子显微镜在蛋白质结构测定方面的快速进展,我们正在进入结构生物学的黄金时代。

原文出处:

https://www.nature.com/articles/d41586-019-03951-0,A watershed moment for protein structure prediction,作者:Mohammed AlQuraishi

可行性研究报告

广告、内容合作请点这里:寻求合作

咨询·服务

相关阅读

精彩推荐