OpenAI权力斗争揭秘：Q-Star项目引领AI突破，Altman被解雇引发猜测

在上周的OpenAI权力斗争震惊业界之后，路透社揭露了该公司的一个鲜为人知的秘密项目——Q-Star。据报道，这个项目实现了一个突破，使AI代理能够进行小学级别的数学计算。如果这一说法属实，这将是一个惊人的技术突破，可能会加速创造人工通用智能（AGI）的进程。

在Altman被解雇之前，一些OpenAI的员工向公司董事会写信，称这一突破为“强大的人工智能发现，可能威胁到人类”。这封信被认为是导致Altman被解雇的一系列不满因素之一。路透社的报道中还提到，《The Information》的一篇报道也证实了这一说法。

然而，关于这个所谓的Q-Star项目的细节尚未由公司公开，只留下匿名来源的报道和网络上关于该项目真正性质的猜测。有人猜测，由于其名称，该项目可能与Q学习（一种机器学习形式）有关。那么，Q学习到底是什么，它又如何应用于OpenAI的秘密项目呢？

一般来说，有几种不同的方法可以教授AI程序做某事。其中之一被称为“监督学习”，它通过向AI代理提供大量的“标记”数据，然后用这些数据来训练程序自行执行功能（通常该功能是更多的数据分类）。大体上，像ChatGPT这样的OpenAI内容生成机器人是使用某种形式的监督学习创建的。

与此同时，非监督学习是一种ML形式，其中AI算法被允许筛选大量未标记的数据，以寻找分类的模式。这种人工智能可以部署到许多不同的目的，例如创建Netflix和Spotify这样的公司使用的推荐系统，根据用户过去的消费选择向用户推荐新内容。

最后，还有强化学习，或RL，这是一种激励AI程序在特定环境中实现目标的ML类别。Q学习是强化学习的一个子类别。在RL中，研究人员将AI代理视为他们正在试图训练的狗。如果程序采取某些行动来影响某些结果，它们会得到“奖励”，如果采取其他行动，则会受到惩罚。通过这种方式，程序实际上是“训练”的，在给定情况下寻求最优化的结果。在Q学习中，代理显然是通过反复试验来找到实现其被编程追求的目标的最佳方式。

这一切与OpenAI所谓的“数学”突破有什么关系呢？可以推测，据称能够进行简单数学运算的程序可能是通过某种与Q相关的RL实现的。尽管如此，许多专家对AI程序能否真的解决数学问题持有一定的怀疑态度。其他人似乎认为，即使AI能够实现这些目标，它也不一定会转化为更广泛的AGI突破。麻省理工技术评论报道：研究人员多年来一直试图让AI模型解决数学问题。像ChatGPT和GPT-4这样的语言模型可以做一些数学，但不是很好或可靠。爱丁堡大学的AI讲师Wenda Li表示，我们目前还没有算法甚至没有合适的架构能够使用AI可靠地解决数学问题。深度学习和变换器（一种transformers）这是语言模型所使用的，非常擅长识别模式，但仅此并不足够。

简而言之，我们对Q了解甚少，尽管专家们相信围绕它的热潮可能只是炒作。