[文/观察者网吕东]
今年4月,《中共中央国务院关于加快建设全国统一市场的意见》正式发布,其中指出,要通过建设全国统一市场,使资源和要素流动更加顺畅,全面推动中国市场由大变强。
随着中国步入数字经济时代,计算能力正在成为新的生产要素。人工智能计算中心、超级计算中心和国家综合计算网络枢纽节点作为新型国家计算基础设施正在加快建设。
在各种计算设施如雨后春笋般涌现的背景下,优化计算资源配置,突破单点计算能力的限制,提高数据流通效率,建设全国统一的计算网络和计算能力市场势在必行。
5月底,鹏程实验室的“中国计算网(C NET)”项目首次发布。规划提出,构建自主可控的计算网络技术体系,要“像电网一样建设国家计算网络,像互联网一样运营计算网络,像电一样让用户使用计算服务”。
华为计算产品线总裁邓泰华
彭城实验室主任、中国工程院院士高文指出,建设中国计算力网络,需要突破异构兼容、计算网络融合、跨云协同等关键核心技术,实现全国大规模计算力的协同调度和高效计算,推动“东算西算”国家战略重要节点互联互通,更好满足中国经济社会高质量发展的新需求。
今天,这项致力于建设中国数字经济计算能力基础的全球倡议迈出了具有里程碑意义的一步。
中国计算力网络开始落地
“今天,我们迎来了一个重要的历史时刻。”
在6月15日举行的华为合作伙伴与开发者大会上,鹏程实验室主任、中国工程院院士高文,科技部高技术司副司长梅建平,华为计算产品线总裁邓太华共同见证了中国计算网第一期——智能计算网的启动。
中国计算网一期工程——智能计算网的成功建设,标志着以各地建设的人工智能计算中心为基础的中国计算网建设正式开始。
当前,人工智能已经成为数字经济高质量发展的引擎。人工智能计算中心作为人工智能的计算基础设施,在世界范围内受到广泛重视。美国、欧洲、日本等国家和地区都在积极推进人工智能计算中心的建设,中国作为人工智能大国也不例外。
一年多来,基于不断崛起的AI集群,鹏城云脑二号和武汉人工智能计算中心相继上线,拉开了中国各地AICC(人工智能计算中心)建设的序幕。目前,国内已有超过20个领先城市基于瑞星AI的软硬件平台和华为集群计算解决方案建设了人工智能计算中心。
各地建成人工智能计算中心后,建设中国计算力网络——智能计算网的条件也已经成熟。
作为中国人工智能行业的重要参与者,瑞星AI其实早就洞察到了计算力网络的发展趋势。
邓太华告诉观察者网,中国已经建成了电力网、高铁网、通信网,未来一定会建成计算力网。这种计算力网络就是将各地独立建设的计算力资源,尤其是大规模的计算力资源连接成一个网络,最大限度地实现数据流通和共享,然后基于各地共享的计算力资源,提供更高效的计算力发展方案。
2021年12月,在科技部的指导下,鹏程实验室、华为、百度、讯飞等近20家单位联合发起人工智能计算网络推进联盟,推动各地AICC在线连接成网、上线运行。
如今,随着中国计算网一期——智能计算网的正式启动,各地人工智能计算中心也已成功联网,可实时动态感知计算资源状态,实现计算任务的整体分配和调度,形成区域内可感知、可分配、可调度的AI计算资源,以“一张网”实现“三个融合”:
计算融合:不同人工智能计算中心之间的高速网络互联,可以实现计算能力的合理调度和资源的弹性分配,提高各个人工智能计算中心的利用率,也可以实现整体的能耗节约。数据汇聚:多方合作将推动AI领域公共数据开放,汇聚基于人工智能计算中心的优质开源、开放AI数据集,推动AI算法研发和行业落地。生态融合:采用互联互通、应用接口等标准,加强跨区域科研和产业协作,为所有用户创新AI应用提供更多资源选择和更便捷的合作方式,加速产业融合,激活产业融合共生。
智能计算网络为大模型发展带来新机遇
目前在AI领域,人工智能大模型具有更强的泛化能力,适应多种场景,发展大模型已经成为产学研各界的共识。智能计算网络聚集了大量的计算能力和数据,为大模型的训练创造了天然的有利条件。
这里用盘古多语言模型的一个真实任务来演示用户如何提交任务,协同多个计算中心资源进行训练。
邓太华告诉Observer.com,一些用户仍然在基于自建计算能力训练大模型。但是,未来随着大模型越来越复杂,数据量越来越大,如果企业和科研机构依靠自己的计算能力进行训练,可能无法提供足够的计算能力,训练时间会大大增加。此外,即使用户自己构建了足够的计算能力,计算业务自然也有波动,仍然会有闲置能耗,这不是最经济的选择,也不符合国家“双碳”的目标。
因此,包括人工智能计算中心、超级计算中心在内的大型计算基础设施自然适合集约化建设。
通过计算能力网络的协同调度,当A中心的计算能力达到峰值时,可以将排队任务转移到计算能力处于低谷的B中心,多个计算中心可以维持较高的计算能力利用率,使计算中心的能耗得到充分利用。从全球和长远来看,这是进一步提高电力利用率和减少碳排放的有效途径。
后续不仅是智能计算中心的联网,还可以将超级计算中心、综合大数据中心的计算枢纽等并入中国计算网,实现数据、计算能力、算法、模型、服务等要素的共享和流通。用户也可以按需申请和使用,并在全国范围内调动计算能力来训练大型模型。
对于大模型训练,计算能力很重要,AI计算框架的支持也必不可少。
在极限性能方面,正在崛起的AI框架MindSpore支持全自动并行,可以将大型模型拆分到不同的算子中。在训练的过程中,大图可以拆分成小图,小图可以拆分成不同的计算单元,都是自动化的,不需要人工干预,可以最大化的利用计算资源,提高整个模型的训练效率。
为了更好地使能大模型的开发,盛腾爱还构建了大模型从规划、开发到产业化的全流程使能体系:包括建立大模型沙盘,规划和拉动行业真正需要的大模型;推出大模型开发使能平台,让开发者快速完成大模型开发;大模型培训完成后,携手行业合作伙伴,打造大模型产业联盟,让更多合作伙伴基于大模型进行场景方案,实现产业化推广。
过去一年,中国业界发布了一系列有影响力的大模型,包括基于盛腾智能计算中心的华为云盘古系列大模型。在NLP领域,鹏程实验室发布鹏程盘古;发布百度鹏城-百度。文心;致远研究院发布启示;在多模态领域,中科院自动化所发布了全球首个大型三模态模型Zidong Taichu生物制药领域的鹏程、神农等。
对于大模式来说,最关键的是产业化。
2021年底,立足武汉。全球首个智能遥感框架罗家和紫东。Taichu,全球首个大规模三模模型,华为携手合作伙伴成立智能遥感开源生态联盟和多模人工智能产业联盟。如今,半年多过去了,两个联盟已经开花结果,孵化出了多个行业解决方案。
例如,钱波信息开发了基于紫动太初的手语多模态模型,创造性地实现了手语动作与示意性图片和文字的联动,让听障初学者更容易理解,帮助他们解决交流、就业等一系列问题。
这也充分体现了AI成果转化中的社会价值。
更重要的是,在大模型产业化的过程中,可以以更丰富的数据和参数、更一般化的应用场景,反哺大模型的基础能力,使大模型更加智能,对场景的适用性更好,从而为产业应用提供更大的支撑,从而形成大模型创新、应用、迭代创新的正向产业循环。
中国计算力网络建设仍有待解决的问题
随着中国计算网一期——智能计算网的正式上线,人工智能计算中心将不再“单打独斗”,计算能力、大模型、数据集、行业应用等人工智能要素将充分共享,成为满足新需求的重要途径。
但是,中国的计算力网络建设似乎还有很长的路要走。
邓太华告诉观察者网,中国计算网的建设是一个持续迭代的过程,而不是一个静态的目标。未来需要一个不断优化、不断扩展的过程,所以目前的智能计算网只是中国计算网的一期,只是以鹏城云脑为核心节点,实现几个智能计算中心的组网和最基本的任务调度。
未来的发展方向无疑是让更多的计算能力接入中国的计算能力网络。但要实现这个目标,似乎还有很多问题需要解决。
比如计算力网络的技术架构应该如何规划,技术方案应该如何实现?如何保证计算能力相互衔接,任务和资源可以联合调度,如何解决中间时延?不同的进度是基于不同的要求,那么如何才能实现全局安排管理呢?统一调度如何与单点数据中心对接?如何协调数据中心之间的传输?
邓太华认为,如果把整个中国计算机世界看成一个大系统,这个系统的技术架构如何规划和创新,目前还没有成型。因为中国计算机世界是世界第一,它的形成没有先例。
今年2月,国家发改委、中央网信办、工业和信息化部、国家能源局联合印发《国家综合大数据中心协同创新体系计算枢纽实施方案》,明确提出布局国家计算网络国家计算枢纽节点,启动实施“东西计算”工程,建设国家计算网络体系。
邓太华指出,东算西算,东算西储,甚至东算西练,都有不同的应用场景,这是一个大的系统规划。目前,集东西方计算、东西方计算、东西方训练于一体的大数据中心枢纽仍处于规划阶段,部分地方刚刚开工建设,尚未上线,而基于盛腾AI的智能计算中心已经批量建成。目前,九个城市的计算中心已经联网并联机。未来,随着综合大数据中心的推出,它也将被纳入中国计算机世界。