探索AI新纪元:GLM-PC引领的人机交互革命与AI助手未来展望

探索AI新纪元:GLM-PC引领的人机交互革命AI助手未来展望

当我利用智谱新推出的GLM-PC,向我的电脑发出指令:“在Edge浏览器上打开百度搜索,并搜索打开得到APP的主页”,仅仅二十多秒后,这个页面便跃然眼前。这一瞬间,我仿佛回到了初学编程时,成功运行出“Hello World”的激动时刻。探索AI新纪元:GLM-PC引领的人机交互革命与AI助手未来展望

这一新体验标志着新人机交互时代的加速到来。大模型技术的发展,使得人们能够跨越不同硬件,通过自然语言轻松完成复杂任务。这种日益完善的人机交互体验,正是构建具备执行能力AI助手的关键一环。只有当AI助手拥有了执行力,才能真正发挥其作为人类得力助手的价值。

当前,众多企业正竞相投入到新人机交互体验的开发与升级中。智谱在升级AutoGLM能力的同时,推出了浏览器插件AutoGLM-Web和GLM-PC,进一步拓宽了使用场景。与此同时,Anthropic的computer use也正处于测试阶段,并预计将在未来几个月内大幅提升能力。OpenAI和Google的同类产品也在紧锣密鼓地开发中。

尽管在体验上还存在诸多挑战,但代理执行能力已成为大模型的一种基础能力。人机交互的未来才刚刚露出冰山一角,探索仍处于初级阶段,主要聚焦于利用大模型改良原有的图形界面交互,让大模型能够“看懂”图形界面,代替人类完成机械性重复操作。

展望未来,随着大模型在对话、推理、执行能力上的持续完善,以及原生AI硬件的快速发展,我们有望迎来一场更为彻底的人机交互迭代。“图形界面+应用”的组合或将被“AI助手+Agents”的组合所取代,AI助手将成为AI OS的化身。

使用工具被视为大模型的一次重要迭代。目前,人们已有机会体验到智谱和Anthropic的代理执行产品。其中,Anthropic通过API让Claude能够像人一样操作电脑,实现看屏幕、打字、移动光标等操作;而智谱则通过基于Agent技术的AutoGLM和GLM-PC两款产品,来理解和操作OS系统界面,无论是手机、电脑还是Web端。

从真实体验来看,智谱的产品已能帮助用户完成一些如回复微信消息、在微信内搜索文章等任务,并具备一定的容错率。然而,AutoGLM在执行复杂任务时仍存在一定的局限性,如操作等待时间较长、需要用户输入精准描述等。尽管如此,智谱和Anthropic的尝试仍为行业指明了新的突破方向,让AI具备了进入Agentic AI阶段的可能。

在OpenAI和智谱对AI发展阶段的划分中,使用工具的能力都被视为AI第三阶段的标志。这意味着AI正在从掌握基础技能向实现社会化学习迈进。前者让AI具备了对话、推理和使用工具的能力;后者则让AI开始学习更复杂的知识,并承担更复杂的社会化协作。

智谱CEO张鹏认为,目前AI在语言能力上已达到人类80%至90%的水平,在推理能力上也具备了人类60%的水平(复杂推理能力为30%)。但在行动能力或工具使用能力上,仅具备人类30%至40%的水平。让AI具备使用工具的能力是完成基础技能养成的标志,这将推动AI开发更实用的功能,解决更多实际问题,并对现实世界产生更深远的影响。

从命令行界面到键盘鼠标再到触控,工程师们一直在寻找人与机器交互的最佳方式。而现在,具备对话、推理、执行能力的大模型让人们不再需要迁就机器,而是让机器开始理解人的需求并代替人完成复杂任务。这是一次基础交互逻辑的变化,更符合人类使用自然语言进行交互的习惯。

在未来,Agent或许能够直接连接扫地机器人、电饭煲等硬件设备,实现对硬件能力的调用。人将通过Agent实现与世界的自然语言交互。而Agent也可能成为用自然语言驱动世界的新OS的雏形。只是目前的尝试还停留在对图形界面交互进行改良的阶段。但随着时间的推移和技术的不断进步,我们有理由相信一个由AI助手和Agents构建的全新人机交互时代即将到来。

版权声明:AI导航网 发表于 2024-12-03 13:14:21。
转载请注明:探索AI新纪元:GLM-PC引领的人机交互革命与AI助手未来展望 | AI导航网

暂无评论

暂无评论...