英伟达Blackwell架构芯片在MLPerf Inference测试中大放异彩

MLPerf Inference最新测试结果的发布再次点燃了AI推理领域的竞争火花，英伟达最新的Blackwell架构芯片在这场与谷歌、AMD等巨头的较量中表现出色，不仅实现了显著的性能提升，还刷新了多项测试纪录。

Blackwell架构首秀惊艳

英伟达Blackwell架构芯片在本次MLPerf测试中首次亮相，便以惊人的性能表现吸引了业界的广泛关注。与上一代H100 GPU相比，Blackwell在Llama270B模型上实现了高达4倍的性能提升，而在数据中心工作负载上，H200相较于H100的性能也提升了1.5倍。此外，通过软件改进，H200在这一轮提交中的性能相比上一轮预览版本提升了27%。

Blackwell架构的成功得益于其多项技术创新。首先，Blackwell采用了4位浮点精度（FP4）运行模型，这是目前业界最低的浮点精度，极大地提高了推理效率。同时，英伟达团队在软件方面进行了重大创新，以确保在低精度下保持模型的准确性。其次，Blackwell的内存带宽几乎翻倍，达到8TB/s，为高速推理提供了有力支持。此外，Blackwell还支持多达18个NVLink同时以100GB/s带宽的连接，进一步提升了多GPU系统的整体性能。

H200 GPU性能再获提升

除了Blackwell架构外，英伟达H200 GPU也在本次测试中表现出色。H200采用了业界最快的AI内存技术——HBM3e，与H100相比，容量提高了1.8倍，带宽提高了1.4倍。这使得H200在内存敏感的应用场景中更具优势。在Llama270B模型测试中，通过TensorRT-LLM的软件改进和定制的散热解决方案，H200的性能得到了显著提升。

MoE模型架构首次评测

本次MLPerf测试还首次涵盖了专家混合（MoE）模型架构的评测结果。MoE模型通过将大型模型分解为多个小型专家模型来降低计算成本和提高推理效率。英伟达提交了H100和H200 GPU使用TensorRT-LLM软件以FP8精度运行Mixtral8x7B MoE模型的结果，展示了MoE模型在推理性能上的优势。

边缘推理性能显著提升

在边缘推理领域，英伟达Jetson AGX Orin平台也取得了巨大飞跃。通过广泛的软件优化，Jetson AGX Orin在GPT-J6B模型的基准测试中吞吐量提高了多达6.2倍，延迟改善了2.4倍。这些性能提升得益于TensorRT-LLM的众多软件优化措施，如运行中批处理和INT4激活感知权重量化等。

AI推理市场竞争白热化

虽然英伟达在AI推理领域仍占据领先地位，但竞争对手们也在迎头赶上。AMD、谷歌、UntetherAI等厂商纷纷推出了自己的高性能AI推理芯片和解决方案，并在MLPerf测试中取得了不俗的成绩。随着AI技术的不断发展和应用场景的不断拓展，AI推理市场的竞争将越来越激烈。

总之，MLPerf Inference最新测试结果的发布再次展示了英伟达Blackwell架构芯片在AI推理领域的强大实力。未来，随着技术的不断进步和市场的不断成熟，我们有理由相信AI推理领域将迎来更加精彩的发展。