英伟达江湖地位稳固,国产AI芯片新势力发起冲锋。
Author | ZeR0
编辑| 沙漠之影
AI芯片的战场显然更热闹。
就在上周五,人工智能(AI)性能国际权威基准测试MLPerf公布了最新的数据中心和边缘场景AI推理榜单结果。无论是参与评选的公司,还是实际AI芯片表现,都比往届有趣多了。
自然是国际AI计算巨头Nvidia独占鳌头。这是英伟达首次要求其今年刚刚发布的最新旗舰AI加速器H100 Tensor Core GPU提交结果。AI推理性能比上一代GPU提升4.5倍。
高通通过云AI芯片Cloud AI 100的最新评测结果,证明了它在能效方面依然可以发挥出色。
国内AI芯片公司也不示弱。这一次,沃尔科技和墨芯人工智能双双首次“参战”,取得了不俗的成绩,甚至在部分机型上超过了英伟达旗舰AI芯片A100和H100。
碧湖科技已经提交了数据中心场景ResNet和BERT 99.90%准确率模型的数据,包括离线模式和服务器模式。其8卡整机在离线模式下的性能是英伟达8卡A100机型在Bert模式下的1.58倍。
墨芯S30计算卡获得ResNet-50 95784 FPS单卡计算能力第一名,达到英伟达H100的1.2倍,A100的2倍。
还有2020年11月SK电讯推出的韩国首款AI芯片Sapeon X220。这次也通过参与测试展示了超越英伟达入门级AI加速器A2的性能。
然而,在今年6月的训练基准测试列表中表现出高性能和高能效的谷歌TPU v4芯片并没有出现在这个推理列表中。
此外,英特尔和阿里分别展示了仅基于其服务器CPU的系统在加速AI推理方面的性能。
总的来说,Nvidia A100还是一个横扫各大测试成绩的全能选手。未上市的H100这次只是露个边,预计训练成绩的提升会更夸张。
虽然国产AI芯片只参与过ResNet、BERT等部分AI机型的评测,但其单点战绩已经可以媲美英伟达的旗舰计算产品,显示了其在运行特定机型时替代国际先进产品的能力。
MLPerf数据中心推理列表:
https://mlcommons.org/en/inference-datacenter-21/
MLPerf边缘推理列表:
https://mlcommons.org/en/inference-edge-21/
01。
H100王者登场,英伟达依旧称霸
根据部署模式,MLPerf基准测试分为数据中心、边缘、移动和物联网四个场景,涵盖六个最具代表性的主流AI模型——图像分类(ResNet50)、自然语言处理(BERT)、语音识别(RNN-T)、目标对象检测(RetinaNet)、医学图像分割(3D-UNet)和智能推荐(DLRM)
其中,对自然语言理解、医学图像分割和智能推荐三项任务设置了99%和99.9%两个精度要求,以考察提高AI推理精度要求对计算性能的影响。
到目前为止,Nvidia是唯一一家参与每一轮MLPerf基准测试所有主流算法测试的公司。
Nvidia A100在最新的MLPerf AI推理测试榜单中依然四面楚歌,性能在各机型榜单中名列前茅。A100的继任者H100首次亮相MLPerf,连续打破多项世界纪录,性能比A100高出4.5倍。
▲ Nvidia H100性能比A100高4.5倍(来源:Nvidia)
英伟达提交了两套基于H100 GPU单芯片的系统。一个系统配备AMD EPYC CPU作为主机处理器,另一个系统配备英特尔至强CPU。
可以看到,虽然采用Nvidia最新Hopper架构的H100 GPU这次只展示了单个芯片的测试结果,但其性能在很多情况下已经超越了2、4或8个A100芯片的系统。
▲ Nvidia H100创下数据中心场景所有工作负载的新性能记录(来源:Nvidia)
尤其是用在自然语言处理的BERT-Large模型中,需要更大的规模和更高的性能,H100的性能远高于A100的和Bihu的GPU,这主要得益于它的Transformer引擎。
H100 GPU预计今年年底发布,后续将参与MLPerf的训练基准测试。
此外,在边缘计算方面,将Nvidia Ampere架构和Arm CPU内核集成到一个芯片上的Nvidia Orin已经运行了所有MLPerf基准测试,是所有低功耗片上系统中赢得测试最多的芯片。
值得一提的是,Nvidia Orin芯片的edge AI推理能效比今年4月在MLPerf上首次亮相时进一步提升了50%。
▲能效方面,Orin edge AI推理性能提升高达50%(图片来源:英伟达)
从过去Nvidia在MLPerf提交的测试结果可以看出,AI软件带来的性能提升越来越显著。自2020年7月在MLPerf上首次亮相以来,得益于NVIDIA AI软件的不断改进,A100的性能提升了6倍。
目前,NVIDIA AI是唯一可以运行数据中心和边缘计算中所有MLPerf推理工作负载和场景的平台。通过软硬件的协同优化,Nvidia GPU在数据中心和边缘计算加速AI推理方面取得了更加突出的成绩。
02。
墙技通用GPU参战
ResNet和BERT型号优于A100
富弼科技今年8月刚刚发布的通用GPU芯片BR104也在MLPerf上首次亮相。
MLPerf推理表分为两类:封闭式(固定任务)和开放式(开放式优化)。固定任务主要考察参赛厂商的硬件系统和软件优化能力,开放优化重点考察参赛厂商的AI技术创新能力。
此次,富弼科技参与了数据中心场景的固定任务评估。参赛机型为浪潮NF5468M6服务器,配备8块毕丽104-300W板,毕丽104板内置BR104芯片。富弼科技提交了ResNet和Bert 99.9%准确率模型的评测,包括离线模式和服务器模式。
离线模式对应于数据的本地可用性。比如在ResNet-50和BERT型号中,离线模式更重要;服务器模式的数据来自实时数据,数据以突发、间歇的方式在线交付。例如,在DLRM,服务器模式更重要。
据悉,此次富弼科技仅选择这两款机型参与测评,主要是考虑到它们是目前富弼科技目标客户应用最广泛、最重要的机型,尤其是BERT机型。
▲富弼科技BR104在BERT车型评选中获得线下和线上两种模式的综合性能领先地位(来源:富弼科技)
从测试结果来看,在BERT模型的选择上,与英伟达提交的8款基于A100的模型相比,基于8款BIH BR104的模型性能是前者的1.58倍。
Bi BR104的单卡性能在ResNet-50和BERT模型评测中超过A100。
总体来说,碧湖科技的8卡PCle方案性能估计介于英伟达的8卡A100和8卡H100之间。
除了碧湖科技自己提交的8卡模型,知名服务器提供商浪潮信息也提交了一台搭载4块毕丽104板的服务器,这也是浪潮信息首次提交基于国内厂商芯片的服务器测试结果。
在所有4卡型号中,浪潮提交的服务器在ResNet50(离线)和BERT(离线服务器,99.9%准确率)两个型号下均获得全球第一。
对于一个首次推出芯片的羽翼未丰的创业公司来说,这个成绩已经很了不起了。
03。
墨芯S30获奖图像分类的单卡计算能力
95784 FPS远超H100
另一家中国云AI芯片公司摩芯人工智能也首次参与了MLPerf的评测,在图像分类模型的推理任务中取得了超过Nvidia H100的单卡计算能力性能。
墨芯在设计AI芯片ANTOUM处理器时,采用了自主研发的双细化技术,实现了底层芯片架构的创新,从而兼顾了数据中心对高性能和高能效比的需求。在今年的GTIC 2022全球AI芯片峰会上,墨芯人工智能首次向行业发布了首批高稀疏率计算卡S4、S10和S30,分别为单芯片、双芯片和三芯片卡。
▲墨芯人工智能S30计算卡
这次墨芯参加了开放优化测试。根据最新的MLPerf推理榜单,单卡95784FPS的墨芯S30卡计算能力获得ResNet-50型号计算能力第一名,是H100的1.2倍,A100的2倍。
在运行BERT-Large高精度模型(99.9%)方面,墨芯S30虽然没有击败H100,但是达到了A100的两倍性能,S30的单卡计算能力达到了3837SPS。
▲运行ResNet-50和BERT-Large模型时墨芯S30与A100和H100的对比(来源:墨芯人工智能)
值得一提的是,墨芯S30采用12nm工艺,而NVIDIA H100采用更先进的4nm工艺,在工艺技术存在代际差异的情况下,能够匹配两大数据中心主流AI机型的性能,这主要得益于墨芯自主研发的细化算法和架构。
MLPerf的测试要求非常严格,不仅测试每个产品的计算能力,还将准确率要求设定在99%以上,以考察AI推理准确率的高要求对计算性能的影响,也就是说,参赛厂商不能为了计算能力的提升而牺牲准确率。这也证明了墨芯可以在兼顾无损精度的同时实现稀疏计算。
04。
高能效,高通云AI芯片的王牌
高通早在2019年发布的首款云AI芯片Cloud AI 100继续坚定地参与MLPerf,并与多家新的AI加速器竞争。
从测试结果来看,7nm工艺的高通云AI 100芯片还是可以做笑傲江湖的,只是因为它在图像处理上的高能效。
▲高通云AI 100
在MLPerf披露的最新评测结果中,富士康、迅雷通讯、英业达、戴尔、HPE、联想均提交了使用高通云AI 100芯片的测试结果。可见,高通的AI芯片已经被亚洲云服务器市场所接受。
高通云AI 100有两个版本,专业版(400 TOPS)和标准版(300 TOPS),这两个版本都具有高能效的优势。在图像处理方面,该芯片的性能功耗比是标准组件NVIDIA Jetson Orin的两倍,在自然语言处理BERT-99模型中的能效略好。
▲高通云AI 100在ResNet-50和BERT-99模型测试的能效比中领先(图片来源:高通)
在保持高能效的同时,高通的人工智能芯片并没有牺牲高性能。5卡服务器功耗75W,可达到的性能比2卡A100服务器高近50%。而单个2卡A100服务器功耗高达300W。
▲高通云AI 100的性能功耗比(图片来源:高通)
对于边缘计算,高通云AI 100在图形处理方面的高能效已经非常具有竞争力。而大型数据中心对芯片的通用性要求会更高。如果高通想要进一步进入云市场,它可能必须在下一代云边缘人工智能芯片的设计中扩大对推荐引擎等更主流人工智能模型的支持。
▲在不牺牲高性能的情况下实现边缘服务器的高能效(图片来源:高通)
05。
韩国首款AI芯片亮相
打NVIDIA入门级AI加速卡
在这份MLPerf榜单中,我们也看到了在AI芯片领域相对欠缺的韩国企业的身影。
Sapeon X220是韩国知名科技公司SK电讯自主研发的AI芯片。它也是韩国首个用于数据中心的非存储商用芯片,可以高速低功耗地执行AI服务所需的大规模计算。
▲ Sapeon X220部分参数
测试结果也很有意思。Sapeon X220安装在Supermicro服务器上,在数据中心推理基准测试中的性能超过了去年年底Nvidia发布的入门级AI加速卡A2 GPU。
其中,X220-Compact的性能是A2的2.3倍,X220-Enterprise是A2的4.6倍。
能效也不错。在基于最大功耗的性能功耗比方面,X220-Compact的能效是A2的2.2倍,X220-Enterprise是A2的2.0倍。
SAPEON X220系列与NVIDIA A2的性能和能效对比(图片来源:SAPEON)
值得一提的是,Nvidia A2采用先进的8nm工艺,而Sapeon X220采用成熟的28nm工艺。
据悉,Sapeon芯片已应用于智能音箱、智能视频安全解决方案、基于AI的媒体质量优化解决方案等应用。今年,SK电讯还将AI芯片业务分离出来,成立了一家名为SAPEON的公司。
SAPEON首席执行官Soojung Ryu透露,公司计划在未来拓展X220的各种应用领域,并有信心在明年下半年将下一代芯片X330与竞品拉开差距,进一步提升性能。
06。
英特尔预览下一代服务器CPU
阿里永恒710 CPU首次参与评测
虽然云AI推理芯片百家争鸣,但截至目前,服务器CPU依然是AI推理市场的老大。
在这份MLPerf榜单中,我们看到只有搭载英特尔至强和阿里自研CPU倚天710的系统参与评测。这些系统没有配备任何AI加速器,能够真实反映这些服务器CPU的AI推理加速能力。
在修复任务列表中,英特尔提交了一份带有PyTorch软件的Sapphire Rapids 2插槽预览版。推理性能虽然被H100“虐”了,但也足以打败A2了。毕竟这是一个服务器CPU,AI推理的加速能力只是它的加成,所以看起来英特尔至强CPU的加速能力足以满足常规AI推理任务的需求。
在开放优化类的列表中,一家名为NeuralMagic的初创公司通过提交一个仅使用英特尔至强CPU的系统,展示了其基于剪枝技术的更精细的软件,它可以用更少的计算能力实现与其他软件相同的性能。
阿里巴巴还首次将整个集群展示为一台单机,在总吞吐量上超越了其他成果。其自主研发的永恒710 CPU芯片首次出现在MLPerf榜单中。
另外,从各厂商对MLPerf的系统配置的评论中,我们可以看到AMD EPYC服务器CPU在数据中心推理应用中的存在感越来越高,有与英特尔至强并驾齐驱的势头。
07。
结论:Nvidia在江湖中地位稳固
国产AI芯片新势力冲锋
整体来看,Nvidia继续稳定发挥,称霸MLPerf推理基准测试,是无可争议的大赢家。虽然有些单点性能分数被其他竞品超越,但Nvidia A100和H100在通用性上还是可以“蹭地”其他AI芯片的。
目前英伟达还没有提交H100的推理能效测试数据,以及在训练中的表现。当这些结果出来时,H100预计会更受欢迎。
国内的AI芯片公司也在显露锋芒。继2019年阿里平头哥自研云AI芯片搭载light 800单卡算力登顶MLPerf ResNet-50模型推理测试后,富弼科技和摩芯也通过第三方权威AI基准测试平台展示了其AI芯片的实测性能实力。
从这份开放优化类列表中显示的性能结果可以看出,稀疏计算已经成为数据中心AI推理的热门趋势。我们期待这项创新技术进入固定任务列表,通过更精细、更公平地比较系统实力,进一步验证其落地价值。
随着参与机构、系统规模和系统配置的增加和多样化,MLPerf基准测试变得越来越复杂。这些往届榜单的结果也能反映出全球AI芯片技术和产业结构的变化。