"Persimmon-8B：一款开源的8亿参数语言模型，具备卓越的AI能力"

AI行业资讯 1年前 (2023) AI导航网

0 9

9月13日，Anthropic公司宣布开源了一个名为Persimmon-8B的语言模型，这是目前参数量少于10亿的最强大的免许可使用的语言模型。该模型采用Apache许可证发布，代码和权重已在GitHub上开源。

Anthropic公司的目标是开发一款能够协助用户完成各种计算机操作的AI助手。虽然他们并不专注于开发语言模型，但Persimmon-8B是他们模型扩展计划的早期成果，旨在为社区提供一个拥有更强大的8亿参数语言模型，以进行各种创新应用的开发。这款8亿参数量的模型可以在单个GPU上进行微调，可以在现代笔记本电脑上以适当的速度运行，甚至可以在移动设备上使用。

Persimmon-8B具有以下几个显著特点：

1. 这是目前开源且完全免许可使用的参数量少于10亿的最强大语言模型。

2. 使用16K的上下文长度进行从头训练，远超过LLaMA2的4K和***-3等模型的2K。

3. 基础模型的性能甚至超过LLaMA2，尽管训练数据量只有后者的37%。

4. 模型保留了70K个词向量，以便进行多模态扩展，并采用稀疏激活。

5. 提供了灵活快速的推理代码实现，在一块A100GPU上每秒可以生成56个token。

通过直接对长序列进行训练，Persimmon-8B能够捕捉到更长的上下文关系，为各种应用带来独特的优势。Anthropic公司希望社区能够在该模型的基础上进行更多创新，并乐于收听用户的反馈。这只是一个早期小规模的开源项目，他们未来还计划开源更多内容。

"Persimmon-8B AI行业资讯

版权声明：AI导航网发表于 2023-09-13 10:24:16。
转载请注明："Persimmon-8B：一款开源的8亿参数语言模型，具备卓越的AI能力" | AI导航网

暂无评论

暂无评论...