通义万相视频模型再迎史诗级升级，登顶VBench榜首！

AI行业资讯 3天前 AI导航网

0 27

随着Sora、Veo2的相继发布，AI视频生成领域再次掀起热潮。而就在近日，通义万相视频生成模型迎来了重磅升级，一举推出了2.1极速版和专业版两个版本。刚一上线，便火爆异常，等待时间甚至一度达到1小时。

此次升级，通义万相不仅在架构上取得创新，更以84.70%的总分登顶权威评测榜单VBench榜首，性能一举超越了Gen-3、CausVid等全球顶尖模型。

在实用性方面，通义万相2.1的表现令人惊叹。尤其是在处理复杂运动、还原真实物理规律、提升影视质感、优化指令遵循等方面，都取得了显著提升。以下是我们实测的Demos，足以媲美电影大片！

五大亮点，引领AI视频生成新风尚

首创中文文字生成

中文文字的生成一直是AI视频模型的痛点。然而，通义万相2.1却首次实现了中文文字视频生成，让AI视频文字创作再无门槛。无论是新年宣纸上的“福”字，还是天空中的“新年快乐”云朵，都能轻松生成，充满东方韵味。

更稳定的复杂运动生成

对于AI视频模型来说，复杂运动生成一直是个难题。然而，通义万相2.1却展现出了惊人的“运动天赋”。无论是滑冰、游泳还是跳水，都能轻松驾驭，没有出现任何诡异的肢体动作或不符合物理规律的场景。

更灵活的运镜控制

运镜是视频拍摄中的关键技巧，对于AI来说也是如此。通义万相2.1展现出了专业级的运镜效果，无论是穿着禅衣的小狐狸欢快跳舞，还是海王在暴风雨中驾驭巨浪前行，都能完美呈现，给人一种实时拍摄的感觉。

真实的物理规律模拟

AI视频模型不理解物理世界，一直以来都饱受诟病。然而，通义万相2.1在物理规律理解上得到了显著提升。无论是切西红柿还是切牛排，都能像发生在现实生活中一样自然真实，避免了“一眼假”的情况出现。

高级质感、多种风格、多长宽比

通义万相2.1能够生成“电影级”画质的视频，同时支持各类艺术风格，如卡通、电影色、3D风格、油画、古典等。无论是哥特式电影风格还是中国古典宫廷风格，都能轻松驾驭。此外，还支持5种不同的长宽比，恰好可以匹配电视、电脑、手机等不同终端设备。

核心架构创新，助力通义万相脱颖而出

那么，到底是什么让通义万相能在激烈的AI视频生成竞争中脱颖而出呢？答案就是其核心架构的创新。

通义万相2.1采用了自研的高效VAE和DiT架构，在时空上下文关系建模方面取得了重大突破。通过结合缓存机制和因果卷积，提出了一个极具创新性的视频编码解决方案，支持无限长1080P视频的高效编解码。同时，DiT架构的设计围绕实现强大的时空建模能力和保持高效的训练过程两个核心目标展开，引入了时空全注意机制、参数共享机制以及优化文本嵌入等创新点。

此外，通义万相团队还制定了训练的分布式、显存优化策略，在业界率先实现了100万Tokens的高效训练。同时，建立了一套完整的自动化数据构建系统和覆盖多维的自动化评估系统，为模型的训练和优化提供了有力支持。

AI视频生成的下一个里程碑

随着Sora、Veo2等模型的相继发布，AI视频生成领域的热度再次升温。而通义万相2.1的重大突破，让我们有理由相信，AI视频的GPT-3时刻正加速到来。当AI真正打破现实创作的局限，赋予创意工作者前所未有的想象时，新一轮的行业变革必将随之而来。