띧띧了解这是衡量机器学习性能的基准

聚客2022-05-29  39

띧띧:了解MLPerf这是衡量机器学习性能的基准

当您想要查看一个CPU是否比另一个快时,可以使用PassMark。对于GPU,有Unigine的叠加。但是当你需要弄清楚你的机器学习平台有多快,或者你正在考虑投资的机器学习平台有多快时,你会怎么做?

机器学习专家大卫·坎特(David Kanter)与来自谷歌、英特尔和微软等机构的科学家和工程师一起,旨在用机器学习的基准套件MLPerf来回答这个问题。衡量机器学习平台的速度是一个问题。研究时间越长,它就会变得越复杂,因为机器学习领域的问题集和架构非常不同——除了性能,MLPerf的推理方面也必须衡量准确性。

训练和推理

如果不直接使用机器学习,很容易混淆这些术语。你要知道的第一件事是,神经网络根本不是真正被编程的:它们被提供(希望如此)大量的相关数据,然后被松绑去寻找模式。神经网络存在的这个阶段称为训练。神经网络接受的训练越多,它就越能学会识别模式并推导出规则来帮助它解决问题。

训练阶段的计算成本是巨大的(我们不是在拿“大”数据集部分开玩笑)。例如,谷歌在238,000,000封样本邮件上训练了Gmail的SmartReply功能,而谷歌翻译在数万亿样本上进行训练。为训练而设计的系统通常庞大而强大,它们的工作是尽可能快地处理数据——这需要非常强大的存储子系统和处理能力来保持AI管道的供应。

神经网络经过训练后,从中获取有用的操作和信息,称为推理。与训练不同,推理通常非常有效。如果你更关注老式的计算机科学,而不是机器学习,那么它可以被认为类似于通过从非结构化数据构建B树或其他有效索引来完成的索引,然后找到你想要的结果之间的关系。

当然,在运行推理工作负载时,性能仍然很重要,只是指标和架构不同。同样的神经网络可以在大型超级计算机上训练,同时对预算智能进行推理。在训练阶段,要求每秒执行尽可能多的操作,不用担心任何一个操作的延迟。推理阶段通常是相反的——有人在等待推理查询的结果,而这个人在等待找出照片中有多少只长颈鹿时,很快就会变得不耐烦。

大问题之间需要复杂的答案空

如果你想得到一个单一的MLPerf分数为您的PC,那么你是不走运的。像PassMark这样简单的整体基准可以假设他们测试的CPU在架构和设计上大致相似。当然,AMD的Epyc和Intel的Xeon Scalable各有优劣——但都是x86_64 CPU。您可以对任一CPU的前一个任务和下一个任务之间的一般性能关系做出一些相对安全的假设。例如,在相同的CPU上,浮点性能不太可能比整数性能快几个数量级。

由于Kanter和他的同事希望MLPerf不仅可以应用于广泛的工作负载,还可以应用于大量的架构,他们无法做出类似的假设,因此他们无法对你的机器学习硬件进行评分。成绩先分解为训练工作量和推理工作量,再分解为任务、模型、数据集和场景。因此,MLPerf的输出与其说是分数,不如说是电子表格中特别宽的一行。

任务是图像分类、目标检测和自然语言翻译。每个任务根据四种情况进行衡量:

单流—通过延迟衡量性能

示例:智能相机应用程序一次处理一幅图像

多流-性能通过可能的流的数量来衡量(受延迟限制)

示例:驾驶员辅助算法对多个摄像机和传感器进行采样

服务器—以每秒查询数衡量的性能(受延迟限制)

示例:语言翻译网站或其他大规模并行但实时的应用程序

离线—通过原始吞吐量衡量性能

例如:照片分类和自动相册创建等任务,这些任务不是由用户发起的,在完成之前不会呈现给用户。

MLPerf还将基准测试结果集分为开放和封闭“部门”,对封闭部门设置了更严格的要求;由此,硬件也分为可用、预览和RDO(研究、开发和其他)系统类别。这让基准测试读者知道测试的系统与实际生产有多接近,以及是否可以立即购买。

您可以在这里找到关于推理基准套件的任务、模型、数据集和约束的更多信息。

初步结果

到目前为止,已经有近600个基准测试提交到该项目,这些测试来自云供应商、系统OEM、芯片和软件供应商以及大学。尽管解释这些结果仍然需要大量现实世界的知识,但找到一个能够以有意义的方式并排基准测试智能、超级计算机和超大规模集群的单一集成系统令人印象深刻。

MLPerf的训练基准套件于5月推出,初步结果于2018年12月发布。推理套件于2019年6月24日上线,初步结果于昨日(11月6日)上线。

转载请注明原文地址:https://juke.outofmemory.cn/read/184264.html

最新回复(0)