随着生成式 AI 不断发展,显然需要一套对厂商中立的性能基準。由产业人士和学术界组成的开放工程联盟(MLCommons)自 2018 年推出 MLPerf 基準测试,是衡量机器学习性能、提高科技透明度的常见指标,现在 MLPerf 4.0 版本正式颁布。
最新 MLPerf Inference v4.0 是自 2023 年 9 月发表 MLPerf Inference v3.1 以来,针对推论性能再度更新基準测试,在不同硬体和软体上使用相似资料集和参数进行测试,产生超过 8,500 个性能结果。
这次套件中包含两个新基準测试,其中 Llama 2 70B 模型具 700 亿参数,比 MLPerf Inference v3.1 引进的 GPT-J 大一个量级,被用来代表更大的大型语言模型。还选择 Stable Diffusion XL 代表文字生成图像模型,进行基準测试能够计算延迟、生成量等指标,了解整体性能。
"MLPerf 有助于向买家提供资讯,帮助他们做出决策并了解系统(无论地端系统、云端系统还是嵌入式系统)如何执行相关工作负载。"MLCommons 创办人暨执行董事 David Kanter 表示,"如果想要採购一套系统执行大型语言模型推论,可以使用 MLPerf 帮助你了解这些系统应是什么样子。"
过去一年科技产业发生许多变化,包括 NVIDIA、英特尔在内大型厂商忙于改进硬体和软体,进一步使推论最佳化。透过 MLPerf Inference v4.0,显示 NVIDIA 和英特尔技术皆有显着进步。
使用 NVIDIA 的 TensorRT-LLM 开源推论技术下,能够在 Hopper 架构的 H100 GPU 上使用 GPT-J 大型语言模型,使文字摘要的推论性能比 6 个月前提升近 3 倍。H200 GPU 基準测试首次亮相,使用 Llama 2 进行推论评估时,H200 比 H100 快 45%。至于 NVIDIA 上週在 GTC AI 大会发表新一代 Blackwell GPU,尚未进行基準测试。
(Source:NVIDIA)
英特尔在第二代 Gaudi 深度学习加速器 Gaudi 2 和第五代 Xeon 可扩充处理器也取得最新基準测试成果。Gaudi 2 性能结果虽落后 H100 GPU,但称它提供更好的成本效益。此外,英特尔是唯一提交基準测试的伺服器处理器供应商,第五代 Xeon 可扩充处理器的性能结果比第四代平均增加 1.42 倍。
(Source:VentureBeat)
New AI benchmark tests speed of responses to user queriesNvidia triples and Intel doubles generative AI inference performance on new MLPerf benchmark(首图来源:pixabay)