首个开源世界模型LWM ：百万级上下文，长视频理解超GPT-4

最近，加州大学伯克利分校的研究团队发布并开源了首个全球模型，名为LWM（LargeWorldModel）系列。该模型采用了丰富的视频和书籍数据集，并运用RingAttention技术，实现了对长序列的可扩展训练，从而将模型的上下文长度扩展到了惊人的1M token。

在各项实验中，LWM系列模型展现出了卓越的多模态性能，尤其在文本图像生成、文本视频生成及基于图像的对话任务中表现突出。

值得一提的是，研究团队在比较中发现，LWM系列模型在多模态能力上超越了当前的商业模型GPT-4V和Gemini Pro，特别是在处理超长视频理解方面显示出了其独特的优势。更为激动人心的是，作为一款基于Llama27B的开源模型，LWM在开源社区中受到了热烈追捧。在短短不到两周的时间内，该模型在GitHub上收获了超过6.2k的star，足见其受欢迎程度。

在模型的训练过程中，研究团队采用了两阶段的训练方法。首先是上下文扩展阶段，利用Books3数据集将上下文长度从32K提升至1M。其次是视觉语言培训阶段，通过联合训练长视频和语言序列，进一步提升模型在多模态任务中的性能。此外，研究团队还对不同长度的文本和视频数据进行了精细化的逐步训练，并在模型设计和训练过程中进行了一系列的调整和优化。

这一开源的全球模型不仅展示了出色的多模态处理能力，还为相关领域的研究和开发提供了宝贵的参考。其卓越的性能和开源的特性，已经吸引了大量开发者的关注和参与，有望为人工智能领域的进步和创新注入新的活力。

相关论文已发布在：论文地址:https://arxiv.org/pdf/2402.08268.pdf
项目源代码及更多详情可访问：项目入口:https://github.com/LargeWorldModel/LWM