研究揭示:英特尔Gaudi2技术在大型语言模型推理中比肩英伟达AI加速器

英特尔Gaudi2技术在大规模语言模型推理中表现强劲,与英伟达AI加速器平分秋色研究揭示:英特尔Gaudi2技术在大型语言模型推理中比肩英伟达AI加速器

根据Databricks的最新研究报告,英特尔的Gaudi2技术在处理大规模语言模型(LLM)推理任务时,展现出了与业界翘楚英伟达AI加速器不相上下的实力。研究显示,在解码延迟方面,Gaudi2与英伟达的H100系统难分伯仲,并且相对于A100更胜一筹。同时,Gaudi2在推理性能上的内存带宽利用率也超过了H100和A100。

尽管英伟达在顶级加速器的训练性能上依旧保持领先,但Gaudi2在单节点LLM训练性能上也有着不俗的表现。使用Databricks的MosaicML LLM工厂进行测试,Gaudi2每芯片的性能超过了260TFLOPS,仅次于英伟达的H100。综合考虑公共云定价因素,Databricks的研究发现,与A100和H100相比,Gaudi2在训练和推理方面提供了最佳的性价比。

英特尔通过MLcommons MLperf基准测试来展示Gaudi2在训练和推理方面的性能,而Databricks的新数据则从第三方角度验证了这一技术的实力。自2019年以20亿美元收购AI芯片初创公司Habana Labs及其Gaudi技术以来,英特尔一直在不断改进和优化这项技术。

在行业标准基准测试中,无论是英伟达还是英特尔都积极参与并展现出强大的竞争力。最新的MLPerf3.1训练基准测试结果显示,英伟达和英特尔都刷新了LLM训练速度记录。而在几个月前的MLPerf3.1推理基准测试中,两家公司同样展现出了卓越的性能。

尽管基准测试结果具有参考价值,但许多客户仍然依靠自己的测试来确保硬件和软件堆栈适用于特定的模型和用例。软件的成熟度对于客户而言至关重要,因为厂商可能会对基准测试进行优化以满足特定要求。因此,客户在做出业务决策时不会完全依赖MLPerf的结果,而是将其作为技术堆栈成熟度的参考指标之一。

随着Gaudi3 AI加速器技术的即将推出,有关Gaudi2的新数据也引起了广泛关注。Gaudi3基于更先进的5纳米工艺,预计将提供4倍的处理能力和双倍的网络带宽。英特尔正在致力于将高性能计算和AI加速器技术相融合,并继续看好其用于AI推理工作负载的CPU技术。最近推出的带有AI加速功能的第五代Xeon处理器就是这一战略的重要体现。

英特尔的总体策略是提供一系列解决方案,以满足不同客户的需求。CPU在推理中仍占据重要地位,甚至在微调方面也可能具有优势。因此,英特尔将继续发挥CPU和Gaudi加速器的协同作用,为客户提供全面的解决方案。

暂无评论

暂无评论...