在大模型不断取得突破的2023年,具身智能机器人研究也取得了重大进展。谷歌DeepMind推出了第一个控制机器人的视觉-语言-动作(VLA)模型RT-2,让机器人不仅能解读人类的复杂指令,还能看懂眼前的物体并按照指令采取动作。这项技术的飞跃让人们不得不重新考虑机器人制造和编程的方式。
RT-2模型推出后,DeepMind并没有止步,他们进一步提高了这个模型的能力。通过汇集来自22种不同机器人类型的数据,DeepMind创造了Open X-Embodiment数据集,并在之前的RT-1和RT-2模型的基础上,训练出了RT-X模型。RT-X模型在五个不同的研究实验室进行了测试,结果显示与针对每个机器人独立开发的方法相比,新方法在五种不同的常用机器人中平均成功率提高了50%。
这项工作的成果并不是DeepMind单独完成的,而是与33家学术实验室通力合作的结果。他们致力于以开放和负责任的方式开发这项技术,并已经向广泛的研究社区开放了Open X-Embodiment数据集和RT-1-X模型的检查点。
谷歌研究员Karol Hausman表示:“机器人的ImageNet时刻终于到来了。”他指出,这项技术的成功表明了通用机器人的重要性,而不仅仅是针对特定任务进行训练的机器人。通用机器人可以更好地适应不同的环境和任务,并能够从过去的经验中学习新的技能。
英伟达高级人工智能科学家Jim Fan也表示今天可能是机器人的ImageNet时刻。他指出,这项技术的成功类似于ImageNet对于计算机视觉领域的推动,它提供了一个大规模、多样化的数据集,推动了深度学习算法的发展。同样地,Open X-Embodiment数据集也为具身智能机器人研究提供了一个重要的平台,推动了该领域的发展。
总的来说,具身智能机器人研究在过去的一段时间里取得了显著的进展。通过DeepMind等研究机构的努力,通用机器人的能力得到了提升,让人们对于未来机器人的应用前景充满信心。机器人研究正处于令人兴奋的早期阶段。DeepMind 的这项新研究表明,通过利用更多样化的数据和更好的模型进行扩展学习,有可能开发出更有用的辅助机器人。与世界各地的实验室合作并共享资源,对于以开放和负责任的方式推进机器人研究至关重要。DeepMind 希望通过开放数据源和提供安全但有限的模型来减少障碍,加快研究。机器人技术的未来有赖于机器人之间的相互学习,最重要的是,让研究人员能够相互学习。
这项工作证明,模型可以在不同环境下通用,无论是在谷歌 DeepMind 的机器人上,还是在世界各地不同大学的机器人上,其性能都得到了显著提高。未来的研究可以探索如何将这些进步与 RoboCat 的自我完善特性相结合,使模型能够根据自身经验不断改进。未来的另一个方向是进一步探索不同数据集的混合会如何影响跨具身智能体泛化,以及这种泛化是如何是实现的。
如果你想了解有关 RT-X 的更多信息,可以参考 DeepMind 发布的这篇论文:
论文链接:https://robotics-transformer-x.github.io/paper.pdf
项目链接:https://robotics-transformer-x.github.io/
参考链接:https://www.deepmind.com/blog/scaling-up-learning-across-many-different-robot-types