摩尔线程开源vLLM-MUSA，加速国产GPU AI应用，助力CUDA替代

快科技11月5日报道，摩尔线程近期发布了其大语言模型高速推理框架开源项目vLLM的MUSA移植版本，为开发者提供了在摩尔线程全功能GPU上实施MUSA移植的实践案例。

摩尔线程正全力推进其自主研发的统一系统架构GPU和MUSA软件平台，旨在打造功能全面且用户友好的MUSA应用生态系统。

vLLM作为一款高效且用户友好的大模型推理和服务框架，凭借创新的PagedAttention内存管理、连续批处理请求、CUDA/HIP图的快速模型执行、CUDA核心优化以及分布式推理支持等功能，已显著提升大语言模型（LLM）的推理效率，并在业内得到广泛应用。

此次，摩尔线程基于vLLM v0.4.2版本进行了适配移植，使其能够支持摩尔线程GPU后端Device，并全面开放源代码。开发者可以在此基础上进行二次开发，或将vLLM升级到社区更新的版本。

值得注意的是，摩尔线程的MUSA架构的先进性和软件栈对CUDA的出色兼容性，使得用户能够利用MUSIFY代码自动转换工具，轻松地将原有的CUDA代码迁移到MUSA平台。同时，CUDA相关库的调用也可以迅速替换为MUSA加速库，如muDNN算子库、MCCL集合通信库以及muBLAS线性代数库等。

通过MUSA软件栈对CUDA软件栈接口的兼容，摩尔线程不仅大幅提高了应用移植的效率，缩短了开发周期，还提供了MUSIFY自动代码移植工具等一系列实用工具和脚本。

摩尔线程vLLM-MUSA开源项目的地址为：

https://github.com/MooreThreads/vLLM_musa

暂无评论

暂无评论...