今晨,OpenAI震撼发布全新扩散模型技术sCM,此技术仅需简洁的两步操作,即可高效产出高质量图片及3D模型,且在处理高分辨率任务时表现尤为卓越,实现了时钟加速的惊人50倍提升。
具体而言,借助sCM技术训练的15亿参数模型,在无需任何推理优化的A100GPU上,仅需0.11秒便能迅速生成内容。
当前,在扩散模型领域,Stability AI开源的SD快速版本以四步生成高质量图片的速度占据领先地位。然而,sCM在确保图像质量的同时,进一步将推理效率翻倍,并简化了连续时间一致性模型的理论公式,为模型在更大规模数据集上的稳定训练与扩展提供了可能。
sCM技术的核心在于其一致性模型的思路,它摒弃了传统扩散模型逐步去噪的渐进路径,而是直接通过噪声向无噪声样本的转换来生成数据。这种方法能够找到一条更为直接的路径,使得模型能够在单步或少数几步内迅速从噪声状态跃迁到数据状态。
此外,sCM采用了连续时间框架,使得模型能够在连续的时间轴上进行操作,从而有效避免了离散时间模型中的离散化误差。在连续时间一致性模型中,模型的参数化、扩散过程和训练目标均得到了重新定义,以适应连续时间的设置。
在网络架构层面,sCM引入了多项创新,包括改进的时间条件、自适应组归一化、新的激活函数和自适应权重,这些创新共同提升了模型的训练稳定性和生成质量。
为了全面评估sCM的性能,研究人员在CIFAR-10、ImageNet64×64和ImageNet512×512等多个数据集上进行了深入测试。结果显示,sCM已成为当前最高效的扩散生成方法。特别是在ImageNet512×512数据集上,sCM的模型取得了1.88FID的优异成绩,同时展现出更高的算力效率和更低的资源消耗。
网友们对此技术充满期待,认为其在视频领域的应用将极大推动实时视频技术的发展,并显著降低Sora等应用的推理负担。
OpenAI此次分享的技术论文由两位华人学者提出,再次展示了华人在人工智能领域的卓越贡献。随着sCM技术的不断推广和应用,我们有理由相信,它将为众多领域带来革命性的变革。
对于Sora而言,sCM技术的引入无疑将加速其公测进程,为用户带来更加流畅、高效的体验。同时,这种简化的模型也非常适合那些需要快速结果而不影响质量的应用场景,展现出广阔的市场前景和无限潜力。