本周一,ChatGPT宣布了一次重要更新,因此它现在拥有全面的多模态能力。这意味着ChatGPT不再只是一个文本模型,而是可以理解和处理图像、音频和视频等多种媒体形式。
今后,如果你在回家的路上发现共享单车的部件有故障,你可以给它拍张照片并直接询问ChatGPT。它将能够根据照片中的信息提供相关建议或解决方案。
此外,如果你回到家后对冰箱里的食材感到困惑,不知道应该做什么菜,ChatGPT也可以为你提供帮助。你可以让它查看冰箱里的食材,然后根据它的建议挑选出适合制作晚餐的食材。
如果你在晚上还没有困意,而你又厌倦了在B站或YouTube上观看相同的ASMR视频,你可以尝试与ChatGPT进行交流。它也可以提供一些ASMR服务,以帮助你放松身心。
回顾人类的发展历史,我们似乎一直都在为如何更清楚地了解我们所生活的世界而努力。从最早的结绳记事到现在的文字、图像和视频等多媒体形式,我们一直在尝试寻找更好的表达方式和工具。
对于ChatGPT来说,它已经具备了强大的处理文本的能力。而现在,随着多模态能力的加入,它也能够理解和处理图像、音频和视频等多种媒体形式。这将为人类带来更加便捷、高效、精准的智能服务。
尽管ChatGPT已经有了非常出色的表现,但它仍在不断学习和进化。随着技术的不断发展,我们可以期待ChatGPT未来将为我们带来更多惊喜和创新。
“多模态升级!ChatGPT带来惊喜,未来可期”
“这组漫画强调了团队沟通、理解和协同的重要性。”ChatGPT在最后做出了这个总结。它的理解能力让曾经在Facebook和Uber工作过的AI工程师Pietro Schirano感到惊艳。
ChatGPT现在不仅有眼睛,还有耳朵和嘴!这次的升级背后,它的语音识别能力基于开源的Whisper模型,而声音生成能力则通过额外的TTS(text-to-speech)模型实现。目前,语音合成支持五种语音,都是由专业配音演员合作制作而成的。
看着两个手机中的ChatGPT自顾自地交谈,讨论着“有没有用户尝试和你一起唱卡拉OK?”尽管不是和你,但它们之间的对话似乎还是超前了一些。
另一方面,ChatGPT似乎也具有成为心理医生的潜力。OpenAI安全团队的成员Lilian Weng在与ChatGPT进行了一次情绪化的私人对话,讨论压力、工作与生活的平衡后,在推特上表示:“有趣的是,我感到被倾听和温暖。”她建议,如果你以前只是将ChatGPT当作一个生产力工具,那么你应该试试它细腻的一面。
对于ChatGPT自身的进化来说,这次将2022年训练完成的多模态能力开放出来,无疑为未来的发展建立了新的基础。
在Pieter Abbeel(John Schulman在加州大学伯克利分校博士期间主攻强化学习时的导师)的一档播客节目中,ChatGPT首席架构师John Schulman表示,他觉得现有数据和模型规模扩展方法能带来的性能提升可能在一段时间后达到极限。在那之后,算法、数据集、数据集大小以及算力的提升将逐渐递减。
“所以添加多模态功能会带来极大的性能提升。这能让模型获得文本中无法获得的知识,并有可能掌握纯语言模型无法完成的任务。例如,通过观看与物理世界甚至是与电脑屏幕互动的视频,模型能获得巨大收益。所有软件都是为人类设计的,如果模型能够观察像素并理解视频,我们就可以使用各种现有软件或帮助人们使用这些软件。为模型赋予新能力,让模型与新事物互动,将大大增强模型的实际能力。”
下个月的ChatGPT又会带来什么样的惊喜?真是让人期待!