在AI的漫长历史中,ChatGPT的诞生无疑是一个里程碑式的事件。它不仅引领了大模型概念的兴起,更让AI技术从高高在上的神坛走进了普通人的日常生活。如今,AI已经渗透到我们的工作、生活的方方面面,无论是AI PC、AI手机,还是AI在边缘计算的应用,都在以前所未有的速度改变着各行各业。
据调研数据显示,预计到2026年,AIGC相关投入将突破3000亿美元大关。而到了2028年,将有超过80%的PC转化为AI PC,同时在边缘应用中,AI的普及率也将超过50%。这一切的发展,都离不开高算力的支持,特别是GPU加速器的助力。然而,AI的发展与变革并不仅仅局限于某一方面,CPU通用处理器、NPU神经网络引擎等也在各自的领域发挥着重要作用。
传统的CPU,在面对AI时代的挑战时,并没有选择退缩,而是积极拥抱变革,全方位提升自身能力。Intel的第五代至强处理器(Emerald Rapids)就是一个典型的例子。这款处理器在短短一年内就完成了从第四代(Sapphire Rapids)到第五代的升级,速度之快前所未有。这主要得益于Intel对AI需求的敏锐洞察和快速响应。
第五代至强处理器在多个方面都进行了显著的改进和优化。首先,它拥有更多的核心数量和更高的频率,同时配备了丰富的AI加速器,这些都使得它在性能和能效上有了显著的提升。其次,它的三级缓存容量增加了三倍,这大大减少了对系统内存的依赖,并提升了内存带宽。此外,在软件生态方面,Intel也提供了全方位的开发支持与优化,特别加强了对主流大模型和AI框架的支持,如PyTorch、TensorFlow等。这使得基于第五代至强的AI训练、实时推理、批量推理等性能在不同算法下都有了显著的提升,甚至可以处理参数高达340亿的大模型。
据Intel提供的数据显示,第五代至强在SPECInt整数计算性能上提升了21%,在AI负载性能上提升了最多42%,综合能效也提升了多达36%。在具体的应用场景中,无论是图像分割、图像分类的AI推理性能,还是建模和模拟的HPC性能,亦或是网络安全应用性能,都有了显著的提升。同时,在网络与云原生负载以及基础设施与存储负载的能效方面,也有了明显的改进。
值得一提的是,第五代至强还具有很高的性价比。Intel指出,在BF16、INT8精度下,它可以同时满足8个用户的实时访问需求,且延迟不超过100ms。这一点也得到了合作伙伴的验证。比如阿里云、百度云都验证了第五代至强运行Llama 2 700亿参数大模型的推理能力,其中百度云在四节点服务器上的结果仅为87.5毫秒。再比如京东云,在Llama 2 130亿参数模型上,第五代至强的性能比上代提升了多达50%。
展望未来,Intel的至强路线图依然充满了活力。今年内,Intel将陆续交付Granite Rapids和Sierra Forest两套平台,它们都将采用全新的Intel 3制程工艺。其中,Sierra Forest首次采用E核架构,单芯片最多可达144核心,双芯整合封装则能达到288核心,预计将在今年上半年问世。这款处理器主要面向新兴的云原生设计,旨在提供极致的每瓦性能,并符合国家对设备淘汰换新的要求。由于其内核设计较为精简,因此可以在同等空间内大大提高核心数量。而紧随其后的Granite Rapids则依然是传统P核设计,具备更高频率和更高性能,主要针对主流和复杂的数据中心应用进行优化,尤其是大型程序,可以减少对虚拟机的依赖。
到了2025年,Intel还将带来下一代的至强产品——Clearwater Forest。无论在制程工艺、技术特性还是性能能效方面,它都将再次实现飞跃式的提升。面对如此频繁的更新换代,可能有人会问:第五代至强的生命周期似乎很短,它究竟值不值得采纳部署呢?适合哪些应用市场和场景呢?
要回答这些问题,我们需要从更深层次的价值来审视第五代至强。首先,在制程工艺方面,虽然五代和四代都采用了Intel 7工艺,但五代在关键技术指标上进行了改进和优化,特别是在系统漏电流控制和动态电容方面。这些改进使得五代至强在同等功耗下的整体频率提升了3%。其次,在芯片布局方面,五代至强采用了镜像对称的两部分设计,核心数反而提升到最多64个。这种设计不仅提高了良率和性能,还使得芯片面积得到了更好的控制。同时,通过高速内部互连Fabric MDF和七个SCF可扩展一致性带宽互连的加持,两颗芯片在逻辑上实现了无缝连接。
在性能与能效方面,五代至强的表现同样出色。它采用了与13/14代酷睿同款的Raptor Cove CPU架构,核心数量增加到了最多64个,三级缓存容量也大幅提升至每核心5MB(平均值)。同时,DDR5内存频率也从4800MHz提升到了5600MHz,UPI总线速度也从16GT/s提高到了20GT/s。这些改进都使得五代至强在性能上有了显著的提升。此外,通过全集成供电模块(FIVR)和增强主动空闲模式等技术,五代至强在待机功耗方面也实现了降低。
关于三级缓存的重要性及其挑战,前文已经有所提及。在这里需要补充的是,五代至强通过采用新的编码方式DEC、TED以及强大的数据修复方案,确保了在大容量缓存下的高可靠性和容错性。这使得它在处理大数据集时能够更高效地利用缓存资源,减少了对系统内存的依赖。
在内存IO方面,五代至强将DDR5内存频率从4800MHz提升到了5600MHz。这一提升看似幅度不大,但实际上却需要对芯片到基板的整个线路进行优化匹配,包括供电和噪音控制等方面的改进。为了确保高频下的信号完整性,五代至强还引入了4-tap DFE功能来减少码间干扰(ISI)。这些改进都使得五代至强在处理高速内存访问时能够更加稳定和高效。
最后,让我们再回到AI负载应用的话题上来。虽然AI应用并不仅仅局限于大模型,但大模型无疑是当前最热门的话题之一。对于像基因测序这样的传统非大模型AI应用来说,至强处理器同样表现出色。事实上,自2018年以来,至强在每一代产品中都针对科学计算等应用进行了显著的优化和提升。这主要得益于Intel强大的软件生态支持和基于OpenVINO等工具的模型优化和量化工作。除了硬件上的支持外,Intel还与合作伙伴共同验证了基于至强处理器的AI解决方案在推荐系统、语音识别、图像识别以及基因测序等方面的优异性能。这些解决方案不仅效率高于GPU等其他处理器,而且在系统故障率方面也表现出色。
总的来说,第五代至强处理器以其卓越的性能、能效和可靠性,为AI时代的应用提供了强大的支持。无论是在云原生设计、数据中心应用还是其他高性能计算场景中,它都展现出了出色的实力和潜力。因此,对于那些追求高性能、高可靠性和高可扩展性的用户来说,采纳部署第五代至强无疑是一个明智的选择。