用于生成式 AI 工具的大型语言模型通常需要更多的处理器来支持其运算需求。然而,由于处理器价格昂贵且供应受限,即使是使用云资源也不能始终满足企业扩展规模和利用最新生成式 AI 技术的需求。
根据 Gartner Research 副总裁兼杰出分析师 Avivah Litan 的观点,在不久的将来,GPU 芯片的扩展可能无法跟上模型大小的增长,因此仅仅制造更大的模型不是可行的选项。
英伟达作为市场上最大的 GPU 制造商之一,意识到了开源软件在提高 AI 开发效率和效果方面的价值。他们与 Anyscale 合作,将英伟达 AI 技术引入到 Ray 开源和 Anyscale 平台中。此外,英伟达 AI 还将在 Anyscale Endpoints 上运行,该服务能够协助应用程序开发人员将流行的开源模型(如 Code Llama、Falcon、Llama 2、SDXL 等)嵌入到他们的应用程序中。
近期宣布的 Nvidia TensorRT-LLM 将支持 Anyscale 平台和 Nvidia AI Enterprise 软件平台,并可以自动扩展推理以在多个 GPU 上并行运行模型,提供了 8 倍的性能提升,适用于运行 Nvidia H100 Tensor Core GPU 的场景。
此外,英伟达 Triton Inference Server 软件支持在 GPU、CPU 和其他处理器上进行推理,可跨云端、数据中心、边缘计算和嵌入式设备使用。与 Ray 集成后,开发人员可以提高各种框架(如 TensorRT、TensorFlow、PyTorch、ONNX、OpenVINO 等)的 AI 模型效率。
Anyscale 宣称其 Ray 是全球增长最快的可扩展计算统一框架,而英伟达 NeMo 是一个面向云原生应用的框架,可供 Ray 开发人员使用来创建 LLMs 以满足客户需求。
Anyscale 的首席执行官兼联合创始人 Robert Nishihara 在一份声明中表示,与英伟达的合作将为 Anyscale 的产品组合带来更高的性能和效率,以便开发人员能够在不同领域创造出具有前所未有的速度和效率的 LLMs 和生成式 AI 应用程序。