Stability AI全新AI音频模型Stable Audio Open问世:创新实现文本到鼓点、乐器等音效的生成

Stability AI今日正式发布了Stable Audio Open 1.0,这是其在音频领域推出的全新生成式AI模型。尽管Stability AI以其在文本到图像生成AI技术方面的稳定扩散能力而广受赞誉,但此次发布的Stable Audio Open进一步扩展了公司的产品线。Stable Audio,作为该公司2023年首次推出的文本到音频生成工具,经过不断迭代,其最新版本Stable Audio 2.0已显著提升了音频生成的清晰度和长度。Stability AI全新AI音频模型Stable Audio Open问世:创新实现文本到鼓点、乐器等音效的生成

Stable Audio Open的官方入口为:https://top.aibase.com/tool/stable-audio-open-1-0

与面向一般商业用途且能生成长达3分钟音频的Stable Audio完整版不同,Stable Audio Open的应用场景更为精准。其主要目标是生成短音效片段,而非完整的音乐作品。

顾名思义,Stable Audio Open虽非开源模型,但采用了一种开放策略。该模型根据Stability AI的非商业研究社区协议许可证提供给用户,确保模型的开放访问,同时对使用场景做出了一定的限制。

Stability AI音频研究主管Zach Evans表示:“我们发布Stable Audio Open的初衷是希望音频研究人员和制作人能够亲身体验我们的生成音频模型,从而加速这些创新工具在研究和创意领域的应用和发展。”

Stable Audio Open主要专注于音乐制作和声音设计领域,优化了鼓点、乐器乐段、环境声音等音频样本的生成。与商业版Stable Audio相比,Stable Audio Open生成的音频长度虽然限制在47秒,但音质上乘。

Stability AI在模型训练上采取了负责任的态度,使用来自FreeSound和免费音乐档案的音频数据进行训练,确保未使用任何受版权保护或专有材料。

Stable Audio Open的另一大亮点在于其可微调性。用户可以根据自己的自定义音频数据对模型进行微调,例如鼓手可以使用自己的鼓声录音样本微调模型,从而生成独特且新颖的节拍。这一微调功能是通过稳定音频工具库实现的,该库基于开源许可证进行授权。目前,Stable Audio Open的模型权重已在Hugging Face平台上提供。

Evans表示:“我们的音频研究团队一直在努力提高生成音频模型的质量和可控性。我们期待未来发布更多商业和开放模型,以展示我们在这一领域的最新研究成果。”

暂无评论

暂无评论...