物理学家使用人工智能来寻找迄今为止最复杂的蛋白质结

安卓p2022-09-24  22

物理学家使用人工智能来寻找迄今为止最复杂的蛋白质结

以下文章来自ScienceAI by ScienceAI。

编辑|萝卜皮

计算机人工智能系统AlphaFold最近预测了数万个以前未知的蛋白质三维结构。

位于美因茨(JGU)的约翰内斯·古腾堡大学的研究团队专注于具有高置信度得分的子集。研究人员通过算法分析了这些预测,发现蛋白质骨架表现出一种罕见的拓扑复杂性,即打结。

其中,研究人员发现了一个71结,这是迄今为止在蛋白质中发现的最复杂的拓扑结,以及几个由两个甲基转移酶或碳酸酐酶结构域组成的六交叉复杂结,每个结都包含一个简单的三叶结。这些深深嵌入的复杂结显然是通过基因复制和打结二聚体的相互连接而发生的。

此外,该团队还报告了两个新的五交叉结,包括第一个51结。这项工作分析的结构列表形成了未来实验研究的基础,以确认这些新的打结拓扑结构,并探索其复杂的折叠机制。

这项研究名为“阿尔法折叠预测最复杂的蛋白质结和复合蛋白质结”,发表在2022年7月13日的《蛋白质科学》上。

谷歌DeepMind开发的人工智能(AI)系统AlphaFold曾两次领衔蛋白质结构预测技术(CASP)的关键评测。AlphaFold 2是一个深度学习系统,它结合了基于蛋白质结构进化、物理和几何约束的训练程序。其特征在于预测的迭代改进,并允许自蒸馏和自估计精度用于从未标记的蛋白质序列中学习,以便使用一级结构和同源物的比对序列直接预测给定蛋白质中所有重原子的3D坐标。

目前,AlphaFold 2已经预测了数十万个蛋白质结构,其中大部分都不在蛋白质数据库(PDB)中,该数据库主要存档通过实验确定的结构。因此,AlphaFold的预测数据库可能具有很大的价值,尤其是对于蛋白质现象的研究,这种现象并不常见,但仍然与蛋白质折叠的底层机制的复杂性高度相关。对于其多肽骨架中存在拓扑结的蛋白质,会出现一个特别迷人的现象,即从两端拉出后不会完全解绑的蛋白质。

在过去的二十年中,只发现了大约20个不同的含有结的蛋白质家族。然而,打结蛋白对蛋白质的折叠和进化提出了挑战。模拟算法经常高估蛋白质的打结概率,因为后者低于随机链的打结概率。

此外,同源物之间蛋白质的拓扑结构通常是相似的,这意味着在进化中密切相关的蛋白质中往往保留了打结的折叠。由于这些原因,也由于天然蛋白质之间打结的稀有性,庞大新数据库中用于预测蛋白质结构的打结拓扑结构的可能存在引起了人们的极大兴趣。

目前在蛋白质中发现的最复杂的结是单结,它在任何投影平面上都有六个基本交点。没有观察到复合结。

JGU团队搜索了整个AlphaFold 2数据库,包括“模式生物的蛋白质组”、“Swiss-Prot”和“全球健康的蛋白质组”的数据集,以找到具有先前未知的深结的拓扑复杂蛋白质。研究人员排除了那些低置信度得分(< 80)或超长蛋白质链(>:00aa)的蛋白质,其中预测的准确性和结构的实验验证能力可能是有限的。基于这种搜索和视觉检查,该团队确定了第一个71结(在平面上的任何投影中至少有7个交点)以及生成31#31复合结的可能进化机制。

复合结的形成机制

研究人员通过调查发现了9个以前未知的复合结病例。这是一个蛋白质长链中两个基本独立的三叶平衡的例子。

所以他们提出了一种基于基因复制和打结同型二聚体互连的新机制来产生这种复杂的结。有趣的是,这种机制类似于用于创建第一个人工蛋白质结的策略,其中打结的二聚体被“连接”起来形成三叶草。

该小组已经观察到几个例子,包括甲基转移酶和碳酸酐酶,其中含有复杂三叶结(31#31)的蛋白质与已知的每个链中有一个三叶结的打结同型二聚体同源。

经核实,复合三叶形结可认定为“奶奶结”。复杂结的手性与先前关于甲基转移酶和碳酸酐酶中单个三叶结的手性的报道一致。研究人员在两个不同的蛋白质家族和两种结构变化中观察到了相同的现象,他们认为这是产生复杂结的潜在机制。

图示:蛋白质Q313J9(甲基转移酶)中六交叉复杂结的3D结构(上)和简化表示(下)。(来源:论文)

图示:蛋白质P54212(碳酸酐酶)的3D结构(上)和简化表示(下)。

第7节1-蛋白质中的结

下图描述了蛋白质P73136和Q9PR55,它们的长度分别为112和89个氨基酸。两者都没有特征,使用PDBeFold无法鉴定可能的同系物。但它们有48%的序列同一性和71%的二级结构匹配性,这表明它们可能是同源的。

蛋白质Q9PR55包含最复杂的结,一个71-结,目前已知在残基27和83之间有一个打结的核心。蛋白质P73136的类似结构包含一个51-结,在残基45和94之间有一个打结的核心。这种具有不同非平凡拓扑结构的两种蛋白质的同源对以前没有观察到。

仔细观察发现,蛋白质Q9PR55更复杂的拓扑结构是由一个具有额外缠结的蛋白质片段引起的。71环面纽结本质上是51环面纽结,在环面上多了一圈绕组;两个结都是正手。

图示:蛋白质P73136(左)和Q9PR55(右)的结构和拓扑。(来源:论文)

新的51和5 2

研究小组发现了两个以前未知的结,有五个基本交点,包括第一个51结。

图示:蛋白质A0A0K0IQS9(左)和C1GYM9(右)的结构和拓扑结构。(来源:论文)

准确性测试

由于这一发现的新颖性,用一种独立的方法来验证它是很重要的。在实验研究之前,研究人员使用正交计算工具ERRAT来评估预测的打结结构。ERRAT算法评估C、N和O原子之间的非成键接触模式,并与高分辨率结构进行统计比较。与AlphaFold(和其他预测方法)中使用的指标不同,它提供了独立的评估。

研究人员对打结结构集进行了勘误。通过排除一些模型中的偶然延伸末端,所有测试的模型都显示出良好的分数;所有蛋白质都具有>:90%的蛋白质链都在拒绝不太可能的构象的95%阈值之内(以下)。所以总体来说,预测的结构是正确的,至少在很大程度上是正确的。

然而,在某些情况下,结构的局部区域似乎存在潜在的问题。需要注意的是,蛋白质链路径的微小差异——例如,那些改变上/下交叉点的差异——可能会改变拓扑结构,这可能会导致结的错误分配。

研究人员注意到,ERRAT程序将残基100-110周围的β片段标记为复合结Q4D5S2的结构不正确。值得注意的是,链在该区域的通过对于打结拓扑是重要的。

结论

总之,团队用AlphaFold AI系统分析了具有复杂新拓扑的蛋白质的所有蛋白质3D结构预测。对AlphaFold提供的数据的完整分析揭示了几个具有深复杂结的高置信度蛋白质,并且这些蛋白质适合于它们的3D结构的实验验证。

在这个数据集中,研究人员发现了一个71结,这是迄今为止在蛋白质中发现的最复杂的一个,是同源结构中的一个新的51结,也是复合蛋白质结的第一个例子。对于后者,研究人员提出了一种通过基因复制来创造它们的进化机制。

因为蛋白质的拓扑结构是蛋白质折叠算法的一个持续挑战,所以通过实验来验证所讨论的结构预测是非常重要的。我们不仅可以获得对AlphaFold系统正确预测复杂蛋白质拓扑结构的能力的精细测量,而且对确认这里发现的大量新蛋白质连接也很重要。

论文链接:https://onlinelibrary.wiley.com/doi/10.1002/pro.4380

相关:https://phys . org/news/2022-07-physicians-ai-complex-protein . html

人工智能×[生物神经科学数学物理材料]

“科学AI”专注于人工智能与其他前沿技术和基础科学的交叉研究和融合

转载请注明原文地址:https://juke.outofmemory.cn/read/1762792.html

最新回复(0)