首个基于SSM-Transformer混合架构,开源商业大模型Jamba

近日,知名AI研究实验室AI21在官网宣布开源了其首个基于SSM-Transformer混合架构的商业大模型——Jamba。该模型通过在传统Transformer架构上融入结构化状态空间模型(SSM)技术,实现了性能的大幅提升。具体来说,Jamba结合了Transformer在处理序列数据方面的优势和SSM在计算效率上的长处,从而在吞吐量、上下文容纳能力等方面均展现出卓越性能。

据悉,Jamba的吞吐量是同类知名开源模型Mixtral 8x7B的3倍,同时它也是少数能在单个GPU上容纳高达140K上下文的模型之一。这意味着即使没有庞大的GPU集群支持,小企业和个人开发者也能借助Jamba开发出高性能、低消耗的生成式AI产品。

值得一提的是,Jamba所加入的SSM技术源于2023年12月由卡内基梅隆大学和普林斯顿大学联合发表的论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》。该论文提出了一种使用“选择性状态空间”进行序列推理的方法,该方法在处理离散型数据时具有更高的灵活性和效率。通过借鉴这种方法,Jamba能够在建模过程中根据用户输入的具体情况有选择性地过滤信息,从而更好地适应不同任务需求。

总的来说,Jamba作为一种新型的开源商业大模型,其基于SSM-Transformer混合架构的创新设计不仅提升了模型的整体性能,还为生成式AI领域带来了新的可能性。未来,我们期待看到更多基于这种架构的模型在各个领域发挥出色表现。

版权声明:AI导航网 发表于 2024-03-29 13:34:53。
转载请注明:首个基于SSM-Transformer混合架构,开源商业大模型Jamba | AI导航网

暂无评论

暂无评论...