首个基于SSM-Transformer混合架构，开源商业大模型Jamba

近日，知名AI研究实验室AI21在官网宣布开源了其首个基于SSM-Transformer混合架构的商业大模型——Jamba。该模型通过在传统Transformer架构上融入结构化状态空间模型（SSM）技术，实现了性能的大幅提升。具体来说，Jamba结合了Transformer在处理序列数据方面的优势和SSM在计算效率上的长处，从而在吞吐量、上下文容纳能力等方面均展现出卓越性能。

据悉，Jamba的吞吐量是同类知名开源模型Mixtral 8x7B的3倍，同时它也是少数能在单个GPU上容纳高达140K上下文的模型之一。这意味着即使没有庞大的GPU集群支持，小企业和个人开发者也能借助Jamba开发出高性能、低消耗的生成式AI产品。

值得一提的是，Jamba所加入的SSM技术源于2023年12月由卡内基梅隆大学和普林斯顿大学联合发表的论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》。该论文提出了一种使用“选择性状态空间”进行序列推理的方法，该方法在处理离散型数据时具有更高的灵活性和效率。通过借鉴这种方法，Jamba能够在建模过程中根据用户输入的具体情况有选择性地过滤信息，从而更好地适应不同任务需求。

总的来说，Jamba作为一种新型的开源商业大模型，其基于SSM-Transformer混合架构的创新设计不仅提升了模型的整体性能，还为生成式AI领域带来了新的可能性。未来，我们期待看到更多基于这种架构的模型在各个领域发挥出色表现。

AI行业资讯开源商业大模型Jamba

版权声明：AI导航网发表于 2024-03-29 13:34:53。
转载请注明：首个基于SSM-Transformer混合架构，开源商业大模型Jamba | AI导航网

暂无评论

暂无评论...

首个基于SSM-Transformer混合架构，开源商业大模型Jamba

AI漫画自动生成器Al Comic Factory 支持批量生成不同语言的漫画

Jamba官网体验入口最新高性能开源AI语言模型下载使用地址

暂无评论

归档

分类

首个基于SSM-Transformer混合架构，开源商业大模型Jamba

AI漫画自动生成器Al Comic Factory 支持批量生成不同语言的漫画

Jamba官网体验入口 最新高性能开源AI语言模型下载使用地址

暂无评论

归档

分类

Jamba官网体验入口最新高性能开源AI语言模型下载使用地址