最近,朋友圈里热议的科研动态非AlphaFold莫属了。该成果于2021年7月15日发表在Nature杂志上,该文章第一作者来自英国DeepMind团队。

AlphaFold解决的基本问题是什么?在原文中,作者提到,该算法提供了第一个用于预测原子级别的蛋白质结构。该方法预测的蛋白质精度在大多数情况下与实验测得的精度相当。

AlphaFold的核心亮点是什么? 最关键的一点是,该算法比现有计算算法精确度高。从测试集数据来看,该算法对蛋白质主干原子的中位预测精度为0.96埃RMSD95, 高于其他算法的2.8埃RMSD95的水平。其 对全原子的预测精度值为1.5埃RMSD95,高于其他算法3.5埃RMSD95 的水平。

AlphaFold的技术路径是什么?从最简单的概念上讲,AlphaFold是一种基于神经网络的预测算法。为什么其精确度能优于其他算法,是因为它采用了新的神经网络架构,以及基于蛋白质结构进化,物理和集合限制的训练过程。AlphaFold以被预测蛋白质的氨基酸序列以及同源物的序列结构作为输入,输出被预测蛋白质的重原子的三围坐标结构。首先,网络的主干通过重复的新神经网络模块处理输入,以产生一个Nseq × Nres的矩阵和一个Nres × Nres的矩阵。这个过程又被称为Eyoformer。其中Nseq × Nres 的矩阵代表一个处理后的多序列比对,Nres × Nres代表氨基酸残基对。紧接着的下一步为结构模块,引入一个显性三围结构对目标蛋白质中每一个氨基酸残基进行进一步旋转和平移。该步骤中核心的创新点包括将链上原子结构打断以允许多位点同时局部优化。

AlphaFold将对科研和生物医学应用领域产生什么影响?AlphaFold的出现无疑在科研领域让众多研究人员兴奋不已。一些可能的应用场景包括预测肿瘤分子突变所形成的分子结构。但是,该机器学习方法仍然是通过对现有的蛋白质结构数据库进行训练所形成的模型,对于未知结构,特别是对不存在任何同源蛋白质结构的蛋白质的预测能力还有待验证。

参考文献: Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature (2021). https://doi.org/10.1038/s41586-021-03819-2