近日,微软突然发布了一款全新的模型,该模型专门用于网页自动化操作。此举标志着微软正式加入了自主人工智能的行列,与智谱AutoGLM等模型展开竞争。
就在前一天,The Information网站还透露了谷歌正在准备一款能够接管计算机的人工智能产品。而上周三,Claude已经率先亮相;周五,智谱AI也推出了AutoGLM;周末,Google的消息又传来;紧接着,微软也加入了战局。短短一周内,已经有四个公司宣布要发布类似的产品,其中三个已经悄然上线:Anthropic的Claude、智谱的AutoGLM和微软的OmniParser。这些产品的实力不容小觑。
虽然谷歌的产品还只是爆料阶段,但预计今年就能面世,显然急于抢占市场先机。此外,据传OpenAI内部也在研发类似产品,只是尚未公布。
二级市场对自主人工智能的反应非常积极。上周五智谱的AutoGLM发布后,在金融圈引发了巨大轰动,甚至出现了智谱AI概念股。自主人工智能仿佛一夜之间点燃了AI圈的热情,新一轮的用户心智抢占战已经打响。
毕竟,在这场竞赛中,谁先发布产品,谁就能占据优势。自主人工智能的热度确实超乎想象,但也在情理之中。毕竟,能够自动化处理任务的AI才符合我们对人工智能的真正期待。
现在的AI虽然具备了一定的智能,但仍然离不开人工干预,远未达到解放双手的目标。而各家AI公司在底层模型上的竞争已经陷入瓶颈,需要更科幻、更新鲜的刺激来推动发展。此时,自主人工智能的接棒无疑是一个明智的选择。
自主人工智能完成任务的大致流程包括理解用户需求、系统规划、调用工具执行任务和目标完成。这个流程看似简单,但实际操作中却面临诸多挑战。一年多前,就有人开始尝试这方面的研究,最经典的项目就是GitHub上狂揽十六万星的AutoGPT。然而,AutoGPT后来逐渐沉寂,主要原因是完全基于大语言模型,存在很多局限性。
直到最近这波新的自主人工智能浪潮涌起,才再次引发关注。我也好奇为何过去一年半的时间里自主人工智能几乎没有消息,直到最近才开始密集发声。经过咨询几家国内AI大厂的朋友,我得知大家都在稳步推进,只是最近刚好到了一个可以拿出来用的时间点,而且大家的进展差异不大。
过去一年半的时间里,自主人工智能之所以没有出现在公众视野中,看起来进展缓慢,主要是因为两个原因:多模态模型不够成熟和缺乏行为数据。多模态模型的训练比纯粹的大语言模型复杂得多,需要消耗大量的数据和资源。而行为数据的缺乏则导致模型无法学习到动态过程,只能处理静态信息。
不过,随着多模态模型的逐渐成熟和行为数据的不断积累,自主人工智能的发展已经迎来了新的突破点。智谱AI的大佬也给出了同样的答案。此外,通过强化学习补充数据的范式也逐渐成为业内共识,为自主人工智能的发展提供了新的思路。
最后,简单说说AutoGLM这种能力的大致实现方式。虽然具体细节没有透露,但可以根据调研结果进行一些猜测。AutoGLM团队最近应该会发布技术报告,可以关注一下。以微信发送消息为例,大模型会一边看当前屏幕的界面,一边利用思维链一步一步推理出如何完成任务。这一切都需要建立在模型能看到屏幕、能理解屏幕上元素的基础上。
虽然目前自主人工智能还存在一些问题,远未达到完美产品的地步,但这毕竟只是开始。当一切路径明确后,或许只需要两个月的时间,一切就可能发生翻天覆地的变化。