近日,一项名为HyperHuman的新型人工智能框架正式亮相,这一框架开创了生成超逼真人体图像的崭新纪元。其重要突破在于结合了结构扩散技术,成功克服了以往模型在生成人体图像中面临的种种挑战。
与现有的变分自动编码器(VAEs)或生成对抗网络(GANs)等方法不同,HyperHuman无需用户具备专业技能,只需提供文本和姿势等条件,它便能从中生成高度逼真的人体图像。这对于图像动画、虚拟试穿等多种应用具有深远意义。
HyperHuman框架的独特之处在于引入了结构扩散模型(DMs),并成功解决了人体形态的非刚性变形问题。这主要得益于Latent Structural Diffusion Model和Structure-Guided Refiner两个模块的相互协作,使得图像的外观、空间关系和几何在一个统一的网络中协同建模。
HyperHuman的关键在于认识到人体图像在多个层次上都具有结构性质,从粗粒度的身体骨架到细粒度的空间几何。为了实现这一点,研究人员建立了一个名为HumanVerse的大规模人体中心数据集,其中包含340百万张野外人体图像,并进行了详细的注释。基于这个数据集,HyperHuman设计了两个关键模块,分别是Latent Structural Diffusion Model和Structure-Guided Refiner。前者通过增强预训练扩散骨干,同时去噪RGB、深度和法线等方面,确保了纹理和结构的空间对齐。后者则通过空间对齐的结构图为详细、高分辨率的图像生成提供了预测条件。
此外,HyperHuman还采用了强大的调制方案,以减轻两阶段生成流程中错误累积的影响。通过精心设计的噪声计划,低频信息泄漏得以消除,确保了本地区域深度和表面法线值的均匀性。每个分支使用相同的时间步长增强学习,促进了特征融合。这一整套设计保证了模型对于结构性和纹理丰富性的统一处理。
与当前技术的比较结果显示,HyperHuman在生成的图像中展现了卓越的质量。在每行的第一个4×4网格中,展示了由HyperHuman计算的输入骨架、联合去噪法线、深度和粗糙RGB(512×512)。这些图像直观地展示了HyperHuman在生成逼真人体图像方面的优越性。
HyperHuman的出现为生成超逼真人体图像提供了一种全新的方法,突破了以往模型的局限性,为未来的虚拟试穿、图像动画等应用带来了更为广阔的可能性。它的推出将进一步推动人工智能领域的发展,展现出更加广泛的应用前景。