华人AI芯片独角兽挑战英伟达 1.5T内存，8枚芯片支持3个GPT-4，估值达到365亿

AI行业资讯 1年前 (2023) AI导航网

一家初创公司正在成为行业热议焦点，他们计划挑战英伟达，以填补高端GPU持续缺货的空白。

这家名为SambaNova的独角兽企业刚刚发布了一款名为SN40L的全新AI芯片。该芯片采用8枚芯片的配置，能够支持5万亿参数（是GPT-4的三倍）。起名中的"40"表示该产品系列，而"L"代表专为大模型（LLM）优化，具备高达1.5T的内存，并支持25.6万个token的序列长度。

SambaNova的首席执行官Rodrigo Liang表示，根据当前行业标准做法，运行万亿参数的大模型通常需要数百枚芯片，但他们的方法可以将总拥有成本降低至标准方法的1/25。

目前，SambaNova的估值达到了50亿美元（约合365亿人民币），并已经完成了6轮融资，总额达11亿美元。投资方包括英特尔、软银、三星、GV等知名公司。

SambaNova不仅在芯片领域挑战英伟达，还计划在业务模式上超越对手，直接参与帮助企业训练私有大模型。

他们的目标客户十分雄心勃勃，瞄准世界上最大的2000家企业。 | AI芯片型号 | SN40L |
| ----------- | ----- |
| 制造工艺 | 台积电5纳米工艺 |
| 晶体管数量 | 1020亿 |
| 峰值速度 | 638TeraFLOPS |
| 内存系统 | 三层Dataflow |
| - SRAM内存 | 520MB片上 |
| - HBM3内存 | 65GB高带宽 |
| - 外部DRAM内存 | 1.5TB |

与英伟达等竞品相比，SN40L具有更好的内存系统和计算加速优势。

英伟达H100最高拥有80GB HBM3内存，而SN40L的HBM3内存虽然较小，但依靠大容量DRAM进行补充。此外，AMD MI300拥有192GB HBM3内存。

SN40L通过专用的软件编译器智能地分配三个内存层之间的负载，并将多个芯片视为单个系统，实现了更高效的内存管理。

除了硬件指标，SN40L还优化了大模型的计算加速，同时支持密集和稀疏计算。他们发现对于大模型，许多权重设置为0其实是一种浪费，因此在软件层面进行了加速优化。具体的优化细节未公开。

据咨询机构Gartner的分析师Chirag Dekate称，SN40L可能具有多模态AI的优势，但没有提供进一步细节。 SambaNova在GPU架构的基础上做出了一些变革，使其更加适用于处理不同类型的数据，如图像、视频和文本。相比之下，GPU的架构相对较为严格，可能在处理多样数据时灵活性不够。SambaNova可以通过调整硬件来满足各种工作负载的要求。

目前，SambaNova的芯片和系统已经赢得了一些大型客户的青睐。这些客户包括世界排名前列的超级计算实验室，如日本富士岳、美国阿贡国家实验室、劳伦斯国家实验室，以及知名咨询公司埃森哲等。这些客户选择使用SambaNova的芯片和系统，以满足他们的需求。

SambaNova的业务模式相对特别，他们不仅仅销售芯片，还销售定制技术堆栈。这个技术堆栈从芯片到服务器系统，甚至包括部署大型模型，全方位地满足客户的需求。

为了满足各种语言的聊天需求，SambaNova与TogetherML合作开发了BloomChat。BloomChat是一个具有1760亿参数的多语言聊天大型模型。BloomChat是基于BigScience组织开源的大型模型Bloom构建而成，并在来自OpenChatKit、Dolly2.0和OASST1的OIG的基础上进行了微调。在训练过程中，BloomChat利用了SambaNova独特的可重配置数据流架构，并在SambaNova DataScale系统上进行了训练。