一只独特的企鹅,身披醒目的红色围巾,勇敢地踏入了AI视频领域的激烈战场。此刻,腾讯混元震撼发布了其AI视频生成大模型,犹如一颗石子投入平静的湖面,激起了层层波澜。
腾讯混元文生视频的官方网站(https://aivideo.hunyuan.tencent.com)已正式上线,同时,AI文生视频功能也在腾讯元宝App中闪亮登场。用户只需点击“腾讯元宝App-AI应用-AI视频”,即可轻松申请试用。而对于企业客户,腾讯云提供了便捷的服务接入,API内测申请也已同步开放。
混元视频生成模型在多个维度上展现出了卓越的性能。据官方数据显示,在与国内外顶尖模型的评测对比中,它在文本视频一致性、运动质量和画面质量等方面均处于领先地位,尤其在人物、人造场所等场景下,表现尤为突出。
更令人惊叹的是,这个拥有130亿参数的庞大模型,腾讯竟然选择了全面开源!这包括了模型权重、推理代码、模型算法等完整内容,企业和个人开发者可以在Hugging Face和Github上自由使用,并开发生态插件。这无疑为AI视频领域注入了一股强大的新动力。
近几个月来,AI视频模型的竞争愈发激烈,而腾讯混元的开源模型究竟表现如何?从“AI新榜”的最近小范围内测来看,已经上线的文生视频默认生成时长为5秒,支持中英文双语输入,提供了多种视频尺寸和清晰度选择,基本功能一应俱全。
测试案例显示,混元视频模型擅长写实的视觉风格,对提示词的理解能力出色,运动幅度大,画面质量上乘。尤其值得一提的是,它原生支持多镜头切换,能在5秒内保持同一主体自动切镜,为用户带来了更加丰富的视觉体验。
为了更深入地了解混元文生视频的能力,“AI新榜”从视觉风格、语义理解、运动表现、运镜和文字生成五个方面进行了实测。结果显示,混元在呈现特定艺术风格和元素的同时,能保持画面的整体美感与和谐性;对于复杂的提示词理解到位,关键信息表现准确;运动控制方面,动作流畅自然,物理表现力强;运镜效果丝滑流畅,切镜自然;而在文字生成方面,虽然仍有待提升,但已经能够生成较短的英文字母和数字。
腾讯混元此举无疑是在做大AI视频生态的道路上迈出了重要一步。通过开源模型,腾讯旨在吸引更多的开发者和企业加入AI视频领域,共同推动技术的创新和发展。未来,随着更多新能力的上线和应用场景的拓展,混元视频生成模型有望成为AI内容创作的高效工具,为创意视频制作带来无限可能。
想要了解更多关于腾讯混元视频生成开源项目的信息,请访问以下链接:
代码:https://github.com/Tencent/HunyuanVideo
模型:https://huggingface.co/tencent/HunyuanVideo
技术报告:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf
让我们共同期待腾讯混元在AI视频领域创造更多的辉煌!