2024年末,国产视频生成大模型应用驶入快车道
随着2024年的尾声逐渐临近,国产视频生成大模型的应用突然迎来了加速发展的阶段。在这一时期,各大科技公司纷纷推出了自己的视频生成模型,并加速其商业化进程,尤其是视频生成领域,犹如被点燃的枪管,热度急剧攀升。
12月19日,快手旗下的可灵模型迎来了1.6版本的更新。尽管相较于两周前高调宣布的AI导演共创计划,此次更新显得相对低调,但快手选择在这个时间点进行模型升级,背后或许有着更为深远的考量。
就在前一天,即12月18日,字节跳动在火山原动力大会上首次公开了豆包视频生成大模型。同时,新任剪映掌门人张楠也首次亮相,简短介绍了今年5月推出的即梦视频生成工具,并将其定位为“想象力相机”,与抖音的“现实相机”相呼应。然而,她并未过多透露产品细节,仅播放了两个样片,并强调产品和技术仍处于早期阶段。
张楠的这一举动或许是为了避免将即梦与一周前公布的Sora Turbo进行直接对比。OpenAI在年底的12天直播中,于12月10日揭开了Sora的神秘面纱。经过长达10个月的铺垫,Sora终于亮相,并带来了“故事板”功能,可将提示词直接转化为剧本。此外,新版Sora的视频生成速度更快,编辑功能也更为实用。然而,尽管产品发布当天服务器因海量流量冲击而崩溃,但用户仍需每月支付200美元的成本,这引发了不少吐槽。
在OpenAI这位大模型先锋之后发布产品,无疑面临着巨大的压力。除非能拿出更为惊艳的产品亮点,否则很容易被掩盖在前者的光芒之下。因此,腾讯混元在12月初便抢先一步推出了视频生成大模型,并将其命名为“元宝”。然而,与Sora、可灵、即梦等既能文生视频也能图生视频的工具相比,腾讯混元目前仅能文生视频。
不过,由于当前大模型对语义理解能力的限制,所有文生视频的应用效果都远未达到令人满意的程度,这也使得AGIC创作者对其持谨慎态度。腾讯显然意识到了这一点,因此在产品发布当天便积极释放了开源的信号。
尽管国产视频生成应用已有近10多款,但从过去20天的情况来看,国产视频生成模型仍然主要掌握在大公司手中。这不仅与大模型水平、算力有关,更与视频数据的积累息息相关。此外,大模型早期所弥漫的FOMO情绪(害怕错过)也依然有迹可循。
然而,正如张楠所说,产品和技术仍处于早期阶段。如果你了解现在的AI视频是如何制作出来的,就不会被那些渲染的画面所迷惑。现在仅仅是发令枪响起的时刻,我们还不能过早地下结论。
关于视频生成的主流方式,尽管我们接收到的信息中,大模型生成视频似乎易如反掌,但实际上,制作精良的广告宣传片、短剧类AI视频仍然是少数人掌握的技能。一个2分钟的AI短片往往需要经过脚本创作、分镜细化、静态图生成、图片处理、动态分镜生成等多个步骤才能完成。
目前,我们看到的2-3分钟AI视频,绝大部分都是图生视频,而且原料是经过专业处理的图片,需要多次续写并配合后期剪辑而成。尽管腾讯混元是免费的,但文生视频仍然面临着激励创作者使用的障碍。其中,大模型语义理解能力的局限和一致性问题是主要的挑战。
不过,也有一些创作者进行了新的尝试。例如,《烈焰天街》的作者梦罗浮就使用了文生视频作为主体创作,因为他觉得文生视频的表情和肢体动作比图生视频更为真实。
现在,能够制作出绝美或接近物理现实的AI视频的人,往往是那些懂得设计、审美,并熟练操作各种工具的专业人士。他们也可以被视为AI视频的种子用户。因此,各大应用前期更多是在网罗这些种子用户的参与,激励他们创作更多作品。
从大厂的一些动作也可以看出,他们在引导的用户群体和使用场景上有所不同。例如,可灵从影视专业人员群体入手,意图在影视、广告、游戏等领域嫁接AI;而腾讯混元则明确提出可在工业级商业场景如广告宣传、动画制作等中使用。
尽管即梦和可灵已经占据了一定的用户心智,但对于他们而言,仍然前路漫漫。除了我们所能感知到的产品特征和差异外,国产AI视频应用的底层模型架构也有很大的相似性。因此,在接下来的发展中,各家公司的底层优化能力和数据训练结果将成为决定性因素。
目前,国产AI生成视频应用中,快手旗下的可灵是唯一公布过数据的。其月活用户数和生成视频数量都在快速增长,并已经实现了商业化收入。然而,可灵也面临着抢跑加速的焦虑感,需要不断推陈出新以保持领先地位。
总之,现在只是AI视频发展的起点,我们还不能过早地下结论。未来,随着技术的不断进步和应用的不断深化,AI视频领域或将迎来更加广阔的发展前景。