谷歌展示首个大模型实时游戏模拟引擎,重塑游戏开发流程

传统的游戏引擎开发方式依赖于繁琐的手动编码,通过不断循环处理用户输入和游戏状态更新来推动游戏进程,这一流程不仅耗时巨大,而且成本高昂。

为了革新这一现状,谷歌的研究团队凭借开源扩散模型Stable Diffusion1.4的坚实基础,打造出了一款名为GameNGen的实时游戏模拟引擎。这款引擎在单个TPU上便能以超过20帧每秒的速度,交互式地模拟出经典射击游戏《DOOM》的精彩场景。

为了验证GameNGen的模拟效果,研究团队邀请了人类玩家对模拟游戏进行评估。令人惊讶的是,人类几乎无法分辨出哪些是AI模拟的游戏画面。GameNGen之所以能达到如此逼真的模拟效果,不仅在于它能精确复制游戏的视觉效果,更在于它能维持复杂的内部游戏状态更新。

具体而言,GameNGen能够准确地计算玩家的生命值、弹药数量,模拟攻击敌人、破坏物体、打开门等动作,并且这些状态变化能够持续多帧,形成连贯且逼真的视觉效果,从而大大增强了模拟的真实性。

在架构和训练方面,GameNGen却表现得相当简洁明了。它的核心由两大阶段构成。在第一阶段,研究团队训练了一个智能体来模拟人类玩家的各种游戏行为。通过与游戏环境的交互,智能体生成了一系列的动作和观察数据,这些数据涵盖了玩家的输入(如按键和鼠标移动)以及游戏的输出(如屏幕上的像素渲染)。这些数据随后被用于训练生成模型,使其学会如何根据玩家的输入和当前游戏状态来预测游戏的下一帧。

为了使智能体更好地执行多种动作,研究团队还巧妙地设置了奖励函数,对玩家的各种行为进行了量化评分。例如,玩家被击中会扣除100分,玩家死亡会扣除5000分,而击中敌人和杀死敌人则会分别获得300分和1000分的奖励。此外,为了鼓励智能体流畅地模拟人类玩法,研究团队还设定了每个动作持续4帧的规则,并人为增加了重复上一个动作的概率。

在第二阶段,研究团队选用了开源的扩散模型Stable Diffusion v1.4作为基础模型,并对其进行了调整以适应游戏模拟的复杂需求。他们通过编码过去的帧和动作来预测下一帧,这一过程涉及将过去的帧编码到潜在空间,并将其与噪声结合来生成新的帧。这种编码和预测的过程正是GameNGen能够实时生成高质量游戏画面的技术秘诀。

为了解决自回归生成过程中可能出现的样本质量快速下降的问题,研究团队引入了“噪声增强”技术。他们在训练时向编码帧中添加不同量的高斯噪声,并在模型输入中包含噪声水平。这样,网络在推理时就能够校正之前帧中的错误信息,从而保持长时间轨迹的稳定性。这也是GameNGen能够持续生成连贯且高质量画面的重要原因。

尽管GameNGen还存在一些技术局限,但它在游戏开发领域已经展现出了巨大的潜力。在游戏关卡设计、游戏测试以及实时场景交互等方面,GameNGen都能够帮助开发人员大大提高工作效率。例如,在创建游戏场景时,传统方法可能需要开发人员逐一编写每个元素的代码,而GameNGen则可以根据训练数据自动生成逼真的场景,包括地形、建筑和道具等。

此外,GameNGen还能够根据玩家的行为和反馈进行实时调整和优化。它能够学习玩家的游戏模式和偏好,从而为玩家提供个性化的游戏体验。如果玩家倾向于某种类型的游戏策略,GameNGen就可以相应地调整游戏难度和内容,以增加游戏的趣味性和挑战性。这一特性无疑将为游戏开发领域带来革命性的变革。

版权声明:AI导航网 发表于 2024-10-29 11:04:48。
转载请注明:谷歌展示首个大模型实时游戏模拟引擎,重塑游戏开发流程 | AI导航网

暂无评论

暂无评论...