精简却强大的AI模型:TinyLlama通过仅用90天、3万亿token训练而成,模型占用550MB的空间。

文章概要:

1. TinyLlama是一款小型但功能强大的AI模型,由新加坡科技设计大学的研究团队开发,仅占用550MB内存。

2. 该模型采用了稳定扩散XL技术,并计划在90天内在3万亿代币的数据集上进行训练,旨在适应内存受限的边缘设备。

3. TinyLlama的成功将为实时机器翻译等多种应用提供高性能的AI解决方案。

9月8日消息: 新加坡科技设计大学的研究人员正在进行一个引人注目的项目,他们致力于创建一款小型但功能强大的AI模型,该模型被称为TinyLlama,其采用了紧凑的设计,只需要550MB的内存。

该项目的独特之处在于,团队计划在90天内使用3万亿代币的数据集对模型进行训练。该项目的目标是为内存受限的边缘设备提供高性能的人工智能解决方案。越来越多的开发者希望创建更小的AI模型,因为对于内存和计算能力受限的边缘设备来说,参数更少的模型更加优化。此外,较小的模型还可以辅助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所指出的那样。精简却强大的AI模型:TinyLlama通过仅用90天、3万亿token训练而成,模型占用550MB的空间。

TinyLlama项目由新加坡科技设计大学的研究助理团队领导,他们试图使用三万亿代币的数据集对一个11亿代币的Llama模型进行预训练。该模型仅占用550MB的内存,团队认为它的紧凑性将能够满足多种应用需求,包括需要受限计算和内存占用的实时机器翻译等功能。

TinyLlama的训练于9月1日开始,使用了16个A100-40G GPU,团队计划在90天内完成训练。截止目前,团队已完成了1050亿代币的训练。

构建该模型的研究人员表示,他们正在使用与Meta公司用于训练Llama2的完全相同的架构和分词器,因此它可以轻松应用于基于Llama构建的开源项目。

TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿代币的数据集,这些数据集曾被用于训练一个代码生成模型StarCoder。

一旦完成,TinyLlama将加入越来越多的较小语言模型之列,这些模型由开发者用于构建各种应用。同时,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b也在取得进展。

项目网址:https://github.com/eivindbohler/tinyllama

暂无评论

暂无评论...