准备好迎接蛋白设计的时代了吗?Alphafold2了解一下

2021年7月22日,全球顶级三大期刊之一的Nature发表了一篇题为“Highly accurate protein structure prediction with AlphaFold”的文章,推出了一款名为Alphafold2的软件,沸腾了整个学术圈。

马普所演化生物研究所主任Andrei Lupas惊呼:

It will change everything!

著名生物学家CSAP联合创始人John Moult表示:

This is a big deal. In some sense the problem is solved.

谷歌CEO Sundar Pichai很开心的说:

This is an exciting step forward that will help enable the scientific community to accelerate research in many important areas.

一、Alphafold2到底是啥?

简单来说,Alphafold2是deepmind公司基于人工智能技术开发的一款用于预测蛋白质三维结构的程序。

我们知道,蛋白质是生命的基础,它们支持生物体的几乎所有活动。蛋白质是由氨基酸聚合成的高分子化合物,目前,学界的主流观点是蛋白质的一级结构决定蛋白质的三维结构,而蛋白质三维结构决定了蛋白质的工作方式和功能。可以说,蛋白质三维结构信息蕴含着生命信息的密码,了解蛋白质的结构,将有力推动生命科学的发展,大大加速针对癌症、病毒的抗生素、靶向药物和新效率的蛋白酶的研发。

二、但是了解蛋白质结构的道路困难重重?

人类第一次知悉蛋白质分子结构,是在1959年。英国化学家佩鲁兹(M.F.Perutz)和肯德鲁(J.C.Kendrew),利用x射线衍射的方法,根据射线散射的角度推测电子的位置,解析了肌红蛋白分子的三维结构。为此,二位大佬获得了1962年诺贝尔化学奖。除了X射线衍射之外,后期科学家们逐渐使用的工具还有核磁共振与冷冻电子显微镜技术。可即使有设备辅助研究,蛋白质结构的研究依然困难重重。

每个结构都依赖于广泛的反复实验,可能要花费数年艰辛的工作,并且需要使用价值数百万美元的专用设备。历史上有科学家耗费几十年时间,才能得到一个清晰的蛋白质三维结构。至今为止,没有AI技术的协助,三维结构能被看清的量也仅有17万个,而已知氨基酸顺序的蛋白质分子高达1.8亿个。

马克斯·费迪南·佩鲁茨(左)约翰·考德瑞·肯德鲁(右)

在这种情况下,有一批科学家,跳出肉眼观测的技术思路困境,绕开费时费钱的传统技术实验步骤,从氨基酸序列直接进行计算,预测他们的三维结构。为此,科学家每两年举办一次蛋白质结构预测关键技术分析大赛(CSAP),来交流最新的蛋白预测技术,直到2016年,最好的蛋白预测准确性也只达到40分左右(满分100)。

蛋白预测


三、Alphafold2横空出世

但是!!!2020年12月,Alphafold2横空出世,一举将分数拔高到92.4,和蛋白质真实结构之间只差一个原子的宽度。即使对于最困难的蛋白质目标,也就是最具挑战性的自由建模类别中的蛋白质目标,AlphaFold2的中位数得分也达到87.0,恐怖如斯!

四、Alphafold2极大推动了结构生物学的发展

前面我们说,冷冻电镜是当代研究蛋白质结构的重要工具。冷冻电镜研究的前提是目标蛋白的表达和提纯,因此往往在天然蛋白质序列中引入点突变,以稳定蛋白的结构。在缺乏结构信息时,突变位点的设计往往以经验为主,费时费力。AlphaFold2可以快速预测蛋白的结构,为突变位点的设计提供重要的结构信息作为参考。基于结构的突变位点设计显然更有针对性,比如相对于蛋白结构的内部残基,表面的残基的突变往往不容易破坏结构的稳定性。

其次,AlphaFold2预测的结构可以作为实验结构生物学的初始结构模型,辅助最终的结构建模。比如,X射线晶体衍射实验往往由于缺乏相位信息无法建立结构模型,已有研究表明,AlphaFold2预测的结构可以提供重要的相位信息,从而有效辅助蛋白质晶体学家快速解析结构。再比如,单颗粒冷冻电镜结构解析中二维图像的分类对最终模型的建立至关重要,但是目前的算法要先依赖经验进行初始分类再迭代优化。AlphaFold2预测的结构显然可以对二维图像的分类提供重要的理论指导,从而进一步优化电镜结构模型的建模。

第三,AlphaFold2预测的结构可以提供初始坐标作为蛋白质结构动态研究的基础。冷冻电镜断层扫描、核磁共振、小角散射以及单分子荧光等实验可以快速获取蛋白质的部分结构特征用于表征或描述蛋白质的结构动态变化,但是这些方法或者只能得到低分辨率的结构信息(如冷冻电镜断层扫描),或者完全缺失结构细节(如小角散射和单分子荧光),或者需要复杂冗长的实验流程才能得到结构细节(如核磁共振)。显然,AlphaFold2预测的结构可以为这些方法补充缺失的结构信息。

最后,有了AlphaFold2预测的结构,分子动力学模拟等计算化学方法也会有更广泛的应用。传统的分子动力学模拟计算需要以可靠的结构作为模拟起始点,因此很难用于研究未知结构蛋白。AlphaFold2则大大扩展了分子动力学模拟计算的研究范围,从而对分子机理的研究、蛋白质设计和药物设计等提供重要的辅助作用。

五、Alphafold2的原理是什么?

作者用12页的正文和62页的附录算法介绍了Alphafold2的原理,有兴趣的小伙伴可以认真研究一下。不过毕竟大nature的文章,读起来比较吃力,而且需要有一定的机器学习背景。Facebook 人工智能研究院研究员田渊栋对AlphaFold2的设计思路做了一个精炼的总结:

1.神经网络来对regression target进行逐步迭代精化(Iterative refinement)确实很有用。

2.广泛运用了Attention架构。一个二维的表可以横着做再竖着做attention,一个图可以在各种局部结构上做attention,从而不断精化embedding的结构。最后那个structure module生成3维结果还是用的attention(invariant point attention),其背后的设计逻辑是对于一个非常复杂的图结构,只找到最相关的结点来进行精化,这样可以降低样本复杂度。

3.用带标签数据(氨基酸序列与三维坐标的对应)先训练一遍网络,然后用训练完的网络在无标签数据(仅有氨基酸序列)上预测一遍生成新的数据集,只保留预测得好的部分,然后把这两者混合拿来再进行训练,效果更好。

4.类似BERT的masking操作,对各种输入信息加噪音要求输出稳定。这样提高鲁棒性和泛化能力。

总的来说是站在了大量神经网络训练成功实践的基础之上,再加上大量的算力和长达几年的专注得到的结果。

正文:https://www.nature.com/articles/s41586-021-03819-2

方法:https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-021-03819-2/MediaObjects/41586_2021_3819_MOESM1_ESM.pdf

六、那Alphafold2如何安装并使用呢?

首先看看Alphafold2团队在Google云服务器上做测试时用的配置:
CPU:12核
内存:85 GB (是的你没看错,是内存85G,不是硬盘85G)
boot disk:100 GB
硬盘:3 TB (是的你没看错,是3个T,不是3个G)
显卡:A100 一块(目前80G显存大概10万块钱左右吧)
现在我们假设你有一个相似配置的服务器,我们用conda安装Alphafold2
欢迎关注公众号,添加小正微信,为您提供免费的咨询服务。

微信

小正微信号

七、没有服务器怎么办?(福利)

前面我们也看到,Alphafold2对于服务器的配置要求很高,如果实验室没有条件怎么办?这里小正给大家重磅推荐Alphafold2网页版,它搭载在Google Colab notebook上,只要输入蛋白质的氨基酸序列就能运行略微简化的 Alphafold 2,不需要任何特殊硬件,也不需要下载数据库,所有的计算都是在云上进行的。

通过反复测试,大部分蛋白网页版的准确率与完整的Alphafold2系统几乎相同,但网页版由于MSA较小、缺少同源结构,有一小部分蛋白预测的准确性不是那么高。另外由于是搭载在Google上的,需要vpn才能打开网站。感兴趣的老师同学们可以前来咨询,关注公众号,添加小正微信,为您详细解答。