GPT-4o超越ARC-AGI基准，挑战“不可能击败”的断言

一度被视为衡量通用人工智能进展的标杆，ARC-AGI基准在近日遭遇了来自GPT-4o的挑战。原本被创造者François Chollets称为“不可能轻易被击败”的ARC-AGI，如今被GPT-4o以公共测试集50%、训练集71%的准确率刷新了记录，成为新的SOTA（当前最佳性能）。

ARC-AGI自诞生以来，就以其独特的视觉问题测试集吸引了全球范围内的挑战者。其创造者曾在2020年的Kaggle上举办了首届竞赛，并自豪地宣称其难以被超越。然而，随着时间的推移，尽管挑战者众多，但ARC-AGI依然屹立不倒，保持着其在AI领域内的“高山”地位。

然而，就在本周二，GPT-4o打破了这一僵局。它在ARC-AGI基准上展现出了惊人的性能，不仅在公共测试集上取得了50%的准确率，更在训练集的保留子集上达到了71%的准确率，这一成绩不仅超越了人类基线，也刷新了此前所有的挑战记录。

值得一提的是，此前有观点认为LLM（大型语言模型）无法解决ARC-AGI基准中的问题。但来自OpenAI的GPT-4o不仅打破了这一观念，更以其卓越的表现证明了自己在解决这类问题上的潜力。这一消息迅速引发了业内的广泛关注和讨论，GPT-4o的出色表现也登上了HN热搜榜。

为了完成这一挑战，来自OpenAI的Ryan Greenblatt放弃了原本的项目，针对ARC-AGI的特点设计了一系列策略。他通过向GPT-4o提供详细的问题描述、多种表示形式以及逐步推理的示例，引导GPT-4o生成可能的解决方案。然后，他利用GPT-4o的生成能力，从大量候选方案中筛选出最佳答案，并通过迭代和调试不断优化结果。

尽管Ryan的解决方案最终并未完全符合ARC-AGI奖项和主要排行榜的资格要求，但他的努力仍为我们提供了一个宝贵的思路。GPT-4o的出色表现也为我们揭示了通用人工智能在视觉和逻辑问题方面的巨大潜力。未来，随着技术的不断进步和应用的不断拓展，我们有理由相信通用人工智能将在更多领域展现出其独特的价值和优势。