微软新推网页自动化模型，自主AI竞赛再升级

近日，微软突然发布了一款全新的模型，该模型专门用于网页自动化操作。此举标志着微软正式加入了自主人工智能的行列，与智谱AutoGLM等模型展开竞争。

就在前一天，The Information网站还透露了谷歌正在准备一款能够接管计算机的人工智能产品。而上周三，Claude已经率先亮相；周五，智谱AI也推出了AutoGLM；周末，Google的消息又传来；紧接着，微软也加入了战局。短短一周内，已经有四个公司宣布要发布类似的产品，其中三个已经悄然上线：Anthropic的Claude、智谱的AutoGLM和微软的OmniParser。这些产品的实力不容小觑。

虽然谷歌的产品还只是爆料阶段，但预计今年就能面世，显然急于抢占市场先机。此外，据传OpenAI内部也在研发类似产品，只是尚未公布。

二级市场对自主人工智能的反应非常积极。上周五智谱的AutoGLM发布后，在金融圈引发了巨大轰动，甚至出现了智谱AI概念股。自主人工智能仿佛一夜之间点燃了AI圈的热情，新一轮的用户心智抢占战已经打响。

毕竟，在这场竞赛中，谁先发布产品，谁就能占据优势。自主人工智能的热度确实超乎想象，但也在情理之中。毕竟，能够自动化处理任务的AI才符合我们对人工智能的真正期待。

现在的AI虽然具备了一定的智能，但仍然离不开人工干预，远未达到解放双手的目标。而各家AI公司在底层模型上的竞争已经陷入瓶颈，需要更科幻、更新鲜的刺激来推动发展。此时，自主人工智能的接棒无疑是一个明智的选择。

自主人工智能完成任务的大致流程包括理解用户需求、系统规划、调用工具执行任务和目标完成。这个流程看似简单，但实际操作中却面临诸多挑战。一年多前，就有人开始尝试这方面的研究，最经典的项目就是GitHub上狂揽十六万星的AutoGPT。然而，AutoGPT后来逐渐沉寂，主要原因是完全基于大语言模型，存在很多局限性。

直到最近这波新的自主人工智能浪潮涌起，才再次引发关注。我也好奇为何过去一年半的时间里自主人工智能几乎没有消息，直到最近才开始密集发声。经过咨询几家国内AI大厂的朋友，我得知大家都在稳步推进，只是最近刚好到了一个可以拿出来用的时间点，而且大家的进展差异不大。

过去一年半的时间里，自主人工智能之所以没有出现在公众视野中，看起来进展缓慢，主要是因为两个原因：多模态模型不够成熟和缺乏行为数据。多模态模型的训练比纯粹的大语言模型复杂得多，需要消耗大量的数据和资源。而行为数据的缺乏则导致模型无法学习到动态过程，只能处理静态信息。

不过，随着多模态模型的逐渐成熟和行为数据的不断积累，自主人工智能的发展已经迎来了新的突破点。智谱AI的大佬也给出了同样的答案。此外，通过强化学习补充数据的范式也逐渐成为业内共识，为自主人工智能的发展提供了新的思路。

最后，简单说说AutoGLM这种能力的大致实现方式。虽然具体细节没有透露，但可以根据调研结果进行一些猜测。AutoGLM团队最近应该会发布技术报告，可以关注一下。以微信发送消息为例，大模型会一边看当前屏幕的界面，一边利用思维链一步一步推理出如何完成任务。这一切都需要建立在模型能看到屏幕、能理解屏幕上元素的基础上。

虽然目前自主人工智能还存在一些问题，远未达到完美产品的地步，但这毕竟只是开始。当一切路径明确后，或许只需要两个月的时间，一切就可能发生翻天覆地的变化。