9月13日,Anthropic公司宣布开源了一个名为Persimmon-8B的语言模型,这是目前参数量少于10亿的最强大的免许可使用的语言模型。该模型采用Apache许可证发布,代码和权重已在GitHub上开源。
Anthropic公司的目标是开发一款能够协助用户完成各种计算机操作的AI助手。虽然他们并不专注于开发语言模型,但Persimmon-8B是他们模型扩展计划的早期成果,旨在为社区提供一个拥有更强大的8亿参数语言模型,以进行各种创新应用的开发。这款8亿参数量的模型可以在单个GPU上进行微调,可以在现代笔记本电脑上以适当的速度运行,甚至可以在移动设备上使用。
Persimmon-8B具有以下几个显著特点:
1. 这是目前开源且完全免许可使用的参数量少于10亿的最强大语言模型。
2. 使用16K的上下文长度进行从头训练,远超过LLaMA2的4K和***-3等模型的2K。
3. 基础模型的性能甚至超过LLaMA2,尽管训练数据量只有后者的37%。
4. 模型保留了70K个词向量,以便进行多模态扩展,并采用稀疏激活。
5. 提供了灵活快速的推理代码实现,在一块A100GPU上每秒可以生成56个token。
通过直接对长序列进行训练,Persimmon-8B能够捕捉到更长的上下文关系,为各种应用带来独特的优势。Anthropic公司希望社区能够在该模型的基础上进行更多创新,并乐于收听用户的反馈。这只是一个早期小规模的开源项目,他们未来还计划开源更多内容。
暂无评论...