华为推出新技术:支持超万亿参数大模型训练,相当于18000张显卡

华为在全联接大会2023上发布了全新的昇腾AI计算集群Atlas 900 SuperCluster,该集群采用了全新的架构,可支持超万亿参数的大模型训练。

据介绍,新集群使用了华为星河AI智算交换机CloudEngine XH16800,其高密的800GE端口能力可以实现2250节点(相当于18000张显卡)的超大规模无收敛集群组网。同时,新集群还采用了创新的超节点架构,大大提升了大模型训练能力。

此外,华为利用其在计算、网络、存储、能源等领域的综合优势,从器件级、节点级、集群级和业务级全面提升系统可靠性,将大模型训练稳定性从天级提升到月级。

为了推动大模型创新,华为发布了更开放、更易用的CANN7.0,该平台不仅全面兼容业界的AI框架、加速库和主流大模型,还深度开放底层能力,让AI框架和加速库可以更直接地调用和管理计算资源,使开发者能够自定义高性能算子。

华为常务董事、ICT基础设施业务管理委员会主任、企业BG总裁汪涛表示,随着人工智能进入大模型时代,大算力已经成为人工智能发展的核心引擎。华为通过改变传统的服务器堆叠模式,以系统架构创新打造AI集群,实现了算力、运力、存力的一体化设计,突破了大算力瓶颈。

暂无评论

暂无评论...