腾讯与悉尼大学联合推出GPT4Video,补齐多模态内容生成领域空白
在多模态大型语言模型(MLLMs)领域取得显著进展的同时,尽管在输入端多模态理解方面取得了显著进展,但在多模态内容生成领域仍存在明显的空白。为填补这一空白,腾讯人工智能实验室与悉尼大学联手推出了GPT4Video,这是一个统一的多模态框架,赋予大型语言模型(LLMs)独特的视频理解和生成能力。
在多模态大型语言模型(MLLMs)领域取得显著进展的同时,尽管在输入端多模态理解方面取得了显著进展,但在多模态内容生成领域仍存在明显的空白。为填补这一空白,腾讯人工智能实验室与悉尼大学联手推出了GPT4Video,这是一个统一的多模态框架,赋予大型语言模型(LLMs)独特的视频理解和生成能力。
GPT4Video是对现有多模态大型语言模型(MLLMs)局限性的回应,尽管这些模型在处理多模态输入方面表现出色,但在生成多模态输出方面存在不足。GPT4Video的架构包括三个重要组件:
视频理解模块: 利用视频特征提取器和视频摘要生成器,将视频信息编码并对齐到LLM的词嵌入空间。
LLM主体: 借鉴LLaMA结构,采用参数高效微调(PEFT)方法,特别是LoRA,同时保留原始预训练参数。
视频生成组件: 通过精心构建的指令跟踪数据集,使LLM生成模型库中模型的提示。
团队首先利用冻结的ViT-L/14模型捕捉原始视频特征,然后使用视频抽象模块在时间和空间轴上压缩视频信息。GPT4Video的核心由冻结的LLaMA模型驱动,通过LoRA和自定义的视频中心化、安全对齐数据进行高效微调。这使其能够理解视频并生成适当的视频提示,随后用于从Textto-Video模型库中生成视频。
在各种多模态基准测试中的实验结果,包括开放式问答、视频字幕和文本到视频生成,验证了GPT4Video的有效性和普适性。此外,GPT4Video展示了利用LLMs强大的上下文摘要和文本表达能力为视频生成详细提示的能力。
GPT4Video通过整合先进的视频理解和生成功能,显著提升了大型语言模型的性能。其在多模态基准测试中表现出色进一步强调了其卓越性能。
该项目网址: https://github.com/gpt4video/GPT4Video
论文网址: https://arxiv.org/abs/2311.16511