快科技11月5日报道,摩尔线程近期发布了其大语言模型高速推理框架开源项目vLLM的MUSA移植版本,为开发者提供了在摩尔线程全功能GPU上实施MUSA移植的实践案例。
摩尔线程正全力推进其自主研发的统一系统架构GPU和MUSA软件平台,旨在打造功能全面且用户友好的MUSA应用生态系统。
vLLM作为一款高效且用户友好的大模型推理和服务框架,凭借创新的PagedAttention内存管理、连续批处理请求、CUDA/HIP图的快速模型执行、CUDA核心优化以及分布式推理支持等功能,已显著提升大语言模型(LLM)的推理效率,并在业内得到广泛应用。
此次,摩尔线程基于vLLM v0.4.2版本进行了适配移植,使其能够支持摩尔线程GPU后端Device,并全面开放源代码。开发者可以在此基础上进行二次开发,或将vLLM升级到社区更新的版本。
值得注意的是,摩尔线程的MUSA架构的先进性和软件栈对CUDA的出色兼容性,使得用户能够利用MUSIFY代码自动转换工具,轻松地将原有的CUDA代码迁移到MUSA平台。同时,CUDA相关库的调用也可以迅速替换为MUSA加速库,如muDNN算子库、MCCL集合通信库以及muBLAS线性代数库等。
通过MUSA软件栈对CUDA软件栈接口的兼容,摩尔线程不仅大幅提高了应用移植的效率,缩短了开发周期,还提供了MUSIFY自动代码移植工具等一系列实用工具和脚本。
摩尔线程vLLM-MUSA开源项目的地址为:
暂无评论...