晨梦来自凹庙
qubit |微信官方账号QbitAI
从游戏、短视频到人工智能、工业模拟到元宇宙,这些当下的时尚都离不开同一个芯片——
GPU.
IDC数据显示,2019年中国AI市场每台服务器配置1-20个GPU,加权计算平均每台AI服务器8.02 个GPU加速卡。此外,GPU在所有加速卡类型中的市场份额为91.9% 。
在这样的行业趋势下,除了GPU创业公司对资本的热情,传统CPU巨头英特尔也加快了在GPU上的布局。
今年以来,英特尔在GPU上动作的高密度和力度不断刺激着业界的神经。
2月,组织架构调整,加速计算系统与图形事业部(AXG)正式成立。
同时,我们公布了Arc系列独立显卡的出货时间表,宣布今年要卖出400万张。
到4月份,AXG部门负责人Raja Koduri被提升为执行副总裁,随后新的图形实验室成立。
5月初收购了芬兰老牌GPU技术供应商Siru Innovations ,吸纳了大量图形IP开发人才。
然后在5月中旬的2022 Intel On Industry Innovation Summit上,新发布了一款面向数据中心的多用途GPU。
这款代号为Arctic Sound-M(简称ATS-M)的数据中心GPU获得了戴尔、超微、思科、HPE、浪潮、新华等合作伙伴超过15项系统设计,使得本已火热的GPU市场竞争再次升级。
英特尔首席执行官帕特·基辛格对GPU业务寄予厚望,称图形和加速计算将成为英特尔未来的主要增长点,预计2022年将带来超过10亿美元的收入。
怎么做?
英特尔GPU,靠什么赢得市场?
要回答这个问题,要从GPU本身的特点和目前的行业趋势入手。
与CPU相比,GPU更擅长并行计算,适合解决大规模加速和计算能力密集型的问题。在万物数字化的浪潮中,大规模加速是GPU行业普及的关键。
水平观看功能、图形计算(游戏、3D渲染)、数据处理(人工智能、工业仿真)、视频编码(直播、短视频)对GPU提出了不同的工作负载需求。
纵向看场景,云端、桌面PC、手机、智能汽车、机器人以及更多物联网设备对异构GPU的需求正在激增。
两个维度一相交,就产生了大量的细分需求,被不同的产品占据,生态分散。
英特尔这次进军GPU市场的思路很明确,就是提供多用途集成的统一解决方案,通过降低异构开发的成本,提高协作的效率来重构生态。
芯片设计的核心取决于架构。英特尔在2020年架构日首次公布了英特尔睿聚的XE图形架构。
在Xe架构研发之初,英特尔就强调要在一个架构下实现四个微架构,同时针对集成显卡/入门级显卡、中端和发烧级显卡、数据中心GPU和超性能。
以新发布的ATS-M数据中心GPU为例,我们可以更具体地看到这些设计思路和技术特性如何为行业提供统一的解决方案。
ATS-M的定位是专注于智能视觉云场景的多用途数据中心GPU,面向云游戏、媒体处理与传输、虚拟桌面基础设施和AI视觉推理[/S2]
预计到2026年,英特尔智能视觉云的市场规模将达到150亿美元。
ATS-M分别提供150W功率和75W功率版本,以满足峰值性能和高密度要求。
比如在云游戏上,150W功率版本可以更好的运行3A大作,而75W版本通过一个平台满足了跨智能手机和PC游戏的融合云游戏解决方案。
对于多媒体处理和传输,一个杀手锏就是给这个GPU配备英特尔首款基于硬件加速的AV1编码器,比软件编码快50倍。
与常见的H.264编码相比,在相同的图像质量下,AV1编码的压缩率高出30%。在4K普及、8K到来的今天,编码速度和高压缩率节省的流量至关重要。
对于拥有100,000个用户的媒体服务器来说,仅提高压缩率每年就可以减少2300万美元的运营成本。
随着远程办公需求的增加,虚拟桌面市场也在快速增长。
英特尔的数据中心GPU提供了灵活的虚拟GPU(vGPU)调度策略,允许管理员单独微调GPU上每个虚拟机的运行指令。
此外,英特尔不会对基于硬件的可扩展I/O虚拟化(SIOV)收取任何额外的软件许可费用,这大大降低了相关提供商的整体部署成本。
最后,AI视觉推理任务往往需要对摄像机拍摄的大量视频进行解码和预处理,然后将数据发送给AI模型进行下一步动作。
无论是工厂流水线上的零件缺陷检测,还是公共场所的人流管理,都需要快速分析,快速决策。
集成了两个GPU的75W功率版本ATS-M用于Dell PowerEdge服务器。
以经典的ResNet-50模型的图像分类和目标检测任务为例,可以在计算和解码能力上达到很好的平衡。
一个GPU能否进入广泛的市场,除了强大的硬件性能外,还有赖于配套软件生态的支持。
英特尔开源的、基于标准的统一编程模型oneAPI通过一套完整可靠的工具包改进了现有的编程语言和并行计算模型,允许开发人员设计开放和可移植的代码,更大程度地利用多个CPU和GPU的组合,降低开发难度,释放硬件的所有性能。
通过oneAPI统一编程模型与CPU深度融合的思想也体现在超级计算机上。
美国阿贡国家实验室安装的下一代超级计算机Aurora也在英特尔峰会上首次展示。
极光超级计算机将使用代号为Sapphire Rapids的英特尔至强CPU和代号为Ponte Vecchio的英特尔数据中心GPU。其双精度峰值计算性能超过每秒200亿次,可以支持RD和创新活动,如更准确的气候预测和寻找癌症的新疗法。
元宇宙、沉浸式体验、人工智能的大规模部署都依赖于高性能GPU,这也对未来的图形处理产品提出了要求:视觉保真度高、人工智能优化、持续计算。
相信大家对光线追踪和人工智能都很熟悉,那么什么是连续计算呢?
英特尔展示的下一代云游戏方案Project Endgame就是一个很好的例子。
不同于以往的云游戏产品,本地硬件只是接收流数据,充当显示器,而是云端和本地硬件协同工作。
这样,应用程序可以充分利用软件基础设施层,使设备可以利用网络中其他设备的计算资源,从而提供始终可用、低延迟和连续的计算服务,降低对网络环境的需求,使云游戏更加实用。
通过持续计算,用户可以随时借用云计算的能力在他们的便携式小型设备上运行复杂的应用程序。
英特尔认为,需要将计算能力提高至少1000倍,才能理想地运行元宇宙。在制造出如此强大的个人设备之前,持续计算是进入超宇宙的敲门砖。
英特尔的第二次转型
从前面的介绍可以看出,英特尔现在不仅是芯片巨头。
2016年,英特尔提出“以数据为中心”转型,随后进一步明确了驱动数字化转型的四大超级技术力量的方向,即:
四大超级大国带来的不仅仅是芯片的pre[/k0/]需求,他们的合作和相互增强将催生各行业各种各样的芯片应用场景。
英特尔将如何应对新一轮数字化转型的关键时刻,在本次峰会上也给出了答案:
PC是数字化活动的基础,至强处理器是计算和基础设施的基础,XPU策略和各种加速处理器,以及全栈软件优化方案,使四大超级大国拥有高性能、易部署、安全可靠、可扩展和持续创新,帮助客户解决当前问题,确保未来可持续发展。
XPU战略意味着英特尔将其重点从单一CPU转移到跨CPU、GPU、FPGA和其他加速器的广泛产品组合。
其意义不仅在于英特尔自身拓展了更多的市场,更在于产品组合下不同架构的芯片的协作能够给用户带来更好的体验。
在本次峰会上,英特尔分享了更多具体的实践和思考:打破组件的界限。
以游戏为例,大型3D游戏有这样一个现象:有些游戏偏爱显卡,比如画面效果更重的动作游戏。而且有些游戏吃CPU比较多,像策略类游戏有很多屏幕人物。
Intel DeepLink技术可以打破组件界限,根据实时运行在CPU和GPU之间动态分配功率,解决性能瓶颈,让同一台PC适应多种任务。
深度链接科技的核心理念是提升芯片与芯片内IP的深度合作。
除了动态功率共享,还有两个特点:超级编码和超级计算能力。
超级编码让独立显卡匹配CPU中的核显示,编码速度提升60%。
超级计算的原理是一样的。全系统所有AI引擎统一调度,性能提升24%。
在PC上,只有CPU和GPU的配合才能带来这样的好处。
那么,安装在数据中心服务器上的更多类型的芯片,如果在同一架构下合作,将会显示出更大的威力。
在本次峰会上,除了GPU,英特尔还发布了AI训练芯片Gaudi2、AI推理芯片Greco,并公布了基于FPGA和ASIC的IPU (Infrastructure Processor)产品路线图,这些都是XPU战略的体现。
作为芯片领域的老牌公司,英特尔非常重视构建开放的生态系统,引领行业标准。
除了前面提到的oneAPI开源编程和AV1视频编码标准,还领先了芯片制造领域的高速通用核心互连标准UCIe。
UCIe打算推动小芯片之间的互连标准,让未来异构芯片ip封装可以封装在一起,延续摩尔定律。
为了这一愿景,英特尔还计划开放x86架构的IP授权,让客户可以在英特尔制造的定制设计芯片中混合使用x86、Arm、RISC-V等不同的CPU IP核。
这不是英特尔第一次转型。英特尔首席执行官帕特·基辛格(Pat Kissinger)指出,整个行业已经到了一个“战略转折点”,这个转折点决定了未来可能更好,也可能更坏。企业需要在相对较短的时间内做出明智的决策。
实际上,“战略转折点”的概念是由英特尔第三任首席执行官安迪·格罗夫提出的。当时,他带领英特尔在混乱和危机中完成了从内存芯片到处理器的转变,随后他领导了半导体行业数十年。
如今,事实证明,随着技术的飞速发展及其对人类的深远影响,人类交互的方方面面都在朝着以技术为中心的方向演进,“计算已经成为我们与世界交互的方式”。
英特尔通过拓展智能芯片的深度和广度,构建更加开放的生态系统和软件解决方案,再次在IDM2.0战略中找到了新的领先地位。
不得不说,这种识别变化的洞察力和改变应变的行动是最值得学习和借鉴的。
参考:
[1] IDC《中国半年度加速计算市场(2021年上半年)跟踪》