让所有人都能做蛋白质结构预测,华为昇思 MindSpore 最新成果将开源

郝叟2022-09-23  13

让所有人都能做蛋白质结构预测,华为昇思 MindSpore 最新成果将开源

来自机器核心的报告

作者:机器之心编辑部

华为推出全流程蛋白质结构预测工具Mega-Protein(Mindsport for Evolutionary Generation Assessment Protein),其中业界首创的AI MSA引擎,使蛋白质的结构预测突破了“孤儿系列”等高精度预测限制

近日,华为联合北京昌平实验室课题组、北京大学生物医药前沿创新中心(BIOPIC)、化学与分子工程学院高教授、深圳湾实验室,在中国计算网络关键节点安未来人工智能计算中心瑞星AI强大的计算能力支持下,在全场景AI框架胜思MindSpore上推出了全流程蛋白质结构预测工具MEGA-Protein。

MEGA-Protein包括AI MSA引擎、蛋白质折叠训练推理过程、蛋白质结构评分、蛋白质结构预测数据集PSP等关键技术。该工具提供高精度、高性能的蛋白质结构和功能预测,其中AI MSA引擎可以显著提高单序列的预测速度。并且可以帮助AlphaFold 2等模型在MSA样本很少甚至为零(零拍,即单序列)的情况下保持甚至提高推理精度。突破了孤儿序列、高度突变序列、人工蛋白等MSA缺失场景无法进行准确预测的限制

这是该团队在盛腾AI基础软硬件平台上实现AlphaFold 2从训练到推理全过程后取得的又一次成功,效率同比提升了2到3倍。相关代码和模型参数将在盛思的MindSpore社区开源,算法和相关论文将尽快发表。盛思MindSpore首席架构师金学峰评价说:“这项工作是产学合作的一次重大成功实践,也是科学计算与人工智能结合潜力的展示。金学峰补充道,支持多计算范式的MindSpore可以有效提高科研工作的生产力,大幅提升科学计算场景的性能,希望未来能看到更多更好的成果出现。

高性能蛋白质结构预测引擎AI MSA,解决“孤儿序列”问题

它是蛋白质生命活动中最重要的功能体之一,在人体的结构和功能中起着核心作用。然而,能够分析蛋白质结构的实验方法通常价格昂贵,周期长,很难直接通过它们探索整个“蛋白质宇宙”。

蛋白质的三维结构完全由其氨基酸序列决定(1972年诺贝尔奖获得者克里斯蒂安·安芬森证明了这一点),从理论上证实了存在一个“理想函数”,可以将氨基酸序列X映射到其三维结构y上,因此,蛋白质的结构预测问题转化为一个典型的数学建模问题。AlphaFold 2是目前为止人们能找到的最接近理想函数的模型。

然而,为了实现高精度预测,AlphaFold 2必须引入额外的信息,即蛋白质多序列比对(MSA)。

MSA的多少直接决定了AlphaFold等模型的预测精度。

图一。当可用MSA的数量不足时,Alpha Fold2的预测精度将显著降低。图片来源:AlphaFold 2 Paper

但是自然界中仍然存在大量的“孤儿序列”,比如人类蛋白质组中的很多蛋白质,以及病毒等大量其他抗原相关的蛋白质,都存在MSA不够深的问题。此外,在蛋白质设计领域,研究人员一般会面临人工序列没有MSA可用的情况。在这些场景下,AlphaFold 2等模型对相关结构的预测精度会大大降低,不再适用。

另一方面,标准搜索MSA过程如AlphaFold 2使用搜索工具对数据库中的目标蛋白质和相关序列进行多重序列比对。这个过程需要配置数据库,其中数据库大小在1.3T左右,配置时间长,比较繁琐。而且使用数据搜索工具(如HHblits、JackHMMER、MMseqs2等)搜索需要很长时间。),不利于科研人员的研究。

由MindSpore社区高教授课题组与昌平实验室、北京大学生物医药前沿创新中心(BIOPIC)、化学与分子工程学院、深圳湾实验室合作新提出的AI MSA引擎

对于低质量或原始MSA量少的蛋白质,将AI MSA引擎连接到AlphaFold 2可以显著提高结构预测的质量,如下图所示:

图二。不同方案预测蛋白质结构效应的比较。

图3。零样本预测精度的比较

并且端到端推理性能比AlphaFold 2标准检索过程高40+倍左右,比MMseqs2高5+倍左右,可以大大提高结构预测模型的推理通量。而且经过训练的AI MSA引擎不需要额外的配置数据库。

图4。AIMSA发动机的性能比较

据团队介绍,AI MSA引擎是一种通用的下游结构模型预训练方案,可以直接连接到下游结构预测模型,如AlphaFold和RoseTTAFold,无需微调,以帮助研究人员进行蛋白质结构预测、蛋白质设计和蛋白质相互作用的研究,促进生物制药产业的发展。

北京大学李兆基讲座教授认为,创新自主研发的AI MSA引擎和基于MindSpore的蛋白质结构预测程序的开源,标志着我国在全球蛋白质结构预测领域排名第一,这一巨大进步得益于高团队多年来对相关底层技术的深耕和积累。

瑞星AI基础软硬件平台,瑞星MindSpore AI框架,支持面向科学的AI新研究范式

AI MSA引擎的训练参数为47M,总数据量为4.4T AI MSA引擎的训练对框架提出了很多要求。在AI提升的基础软硬件平台上,MindSpore与提升CANN深度结合,通过深度协同优化的高性能算子库,充分释放硬件的计算能力。

圣明孢子采用多段并行流水线构建数据处理流水线,更精细地规划NPU、CPU等计算资源的使用。它天然支持各段异构硬件的流水线处理,大大提高了数据处理的吞吐量。

同时,盛思MindSpore支持大型集群的高效训练,实现高质量的计算通信比,通过三层AI分布式编程范式(手动并行+半自动并行+全自动并行),大幅提升分布式并行程序的开发效率。

相关代码和模型参数将在盛思的MindSpore社区开源,算法和相关论文将尽快发表。

该团队还发布了首个百万级蛋白质结构预测数据集PSP,具有高覆盖率和多样性。该数据集由570k真实结构序列(10TB)和745k互补蒸馏序列(15TB)组成。基于该数据集,圣敏孢子可以进行蛋白质结构预测训练,同时提供了丰富的处理和使用该数据集的接口。欢迎试用。

了解更多信息并查看论文:https://arxiv.org/pdf/2206.12240.pdf

相关工作

MindSpore科学开源之路

https://gitee.com/mindspore/mindscience

MindSpore的最新成果是开源的:高研究组发布了一个高性能的蛋白质结构预测工具。

https://biopic.pku.edu.cn/xwzx/mtbd1/517695.htm

思维MindSpore再突破:蛋白质中的结构预测、训练、推理全过程开源,助力生物医药发展。

https://icg.pku.edu.cn/xwzx/kycg/520034.htm

Si MindSpore蛋白质结构预测模型获得CAMEO全球预测大赛第一名。

https://www . Huawei . com/cn/news/2022/4/mind spore-cameo-protein-ascend

了解更多,访问并关注盛思科学计算开源项目

剧终

授权请联系本微信官方账号。

投稿或寻求报道:content@jiqizhixin.com

转载请注明原文地址:https://juke.outofmemory.cn/read/1745221.html

最新回复(0)