在短短两年内,随着大型图文数据集如LAION-5B的开放,AI生成图片的方法如Stable Diffusion、DALL-E2、ControlNet和Composer等取得了惊人的效果。然而,与图片生成相比,视频生成仍面临巨大挑战。视频生成需要处理更高维度的数据,并考虑时序建模问题,这需要大量的视频-文本对数据进行驱动。然而,对视频进行准确的时序标注非常昂贵,限制了视频-文本数据集的规模。
为了解决这一问题,华中科技大学、阿里巴巴集团、浙江大学和蚂蚁集团联合研究团队发布了TF-T2V视频方案。该方案另辟蹊径,利用大规模无文本标注视频数据进行视频生成,能够学习丰富的运动动态。
TF-T2V的视频生成效果非常出色,能够根据文本提示生成各种视频。此外,TF-T2V还支持组合式视频生成任务,可以根据文本与深度图或素描草图进行可控的视频生成,并合成高分辨率视频。在半监督设定下,TF-T2V还可以生成符合运动文本描述的视频。
TF-T2V的核心思想是将模型分为运动分支和表观分支,通过联合训练实现文本驱动的视频生成。为了提升生成视频的时序一致性,作者团队还提出了一种时序一致性损失。TF-T2V不仅适用于文生视频任务,还可应用于组合式视频生成任务,如sketch-to-video、video inpainting、first frame-to-video等。
此外,作者团队还将TF-T2V作为教师模型,利用一致性蒸馏技术得到了VideoLCM模型。与之前的视频生成方法相比,基于TF-T2V的VideoLCM方法只需进行大约4步推理去噪即可生成高保真的视频,极大地提升了视频生成的效率。
总而言之,TF-T2V方案为视频生成领域带来了新思路,克服了数据集规模和标注难题带来的挑战。利用大规模的无文本标注视频数据,TF-T2V能够生成高质量的视频,并应用于多种视频生成任务。这一创新将推动视频生成技术的发展,为各行各业带来更广阔的应用场景和商业机会。