大模型版“你画我猜”火爆网络,人类围观乐在其中
近日,一场别开生面的“你画我猜”游戏在网络上掀起热潮,但这次的主角不是人类,而是一群顶尖的大模型AI,如GPT-4o、Claude、Llama、Gemini和Grok等。它们轮番上阵,根据彼此的绘画作品猜测答案,而人类则在一旁兴致勃勃地围观。
游戏的规则简单而有趣:由某个大模型(如Grok)绘制一个图案(如长颈鹿),然后其他大模型根据这个图案进行猜测。就像下面这张图展示的,每个大模型都会尽力解读并给出自己的答案。而人类则在一旁,享受着这场AI之间的智慧较量。
这场游戏不仅仅是一场娱乐,更成为了一种新的测试基准。通过游戏结果,我们可以一定程度上窥见各大模型的能力差异。例如,在这组测试中,Claude表现出色,赢得了三局比赛,成为当之无愧的“猜画小能手”。
然而,GPT-4o的表现则有些让人捉摸不透。它绘制的龙卷风图案,即便是人类也难以理解其真正意图。更有趣的是,在很多轮游戏中,当其他模型都在认真答题时,GPT-4o的第一个回答常常是“Circle”,让人哭笑不得。
尽管GPT-4o的表现有些抽象,但这场游戏仍然受到了广大网友的热烈欢迎。他们纷纷表示,这样的游戏不仅能带来乐趣,还能成为评估AI模型能力的新方式。有网友甚至预言,如果AI按照这个速度发展下去,人类或许只能成为这场游戏的旁观者了。
当然,除了GPT-4o的“抽象派”作品外,还有很多有趣的例子。在比较简单的题目上,如房子、草地和海洋等,所有模型都能在一两个回合内猜对答案。而在动物主题等相对复杂的题目上,模型们则需要更多的回合来猜测正确答案。
这场游戏的起源可以追溯到Simon Willison的一次测试,他让所有模型绘制自行车上有一只鹈鹕的图像,并进行了效果对比。而Paul Calcraft在看到这次测试后,产生了让大模型玩“你画我猜”的想法,并迅速付诸实践,发布了游戏的0.0.1版。
对于这场游戏,网友们的评价褒贬不一。有人认为这是新的视觉benchmark,有人提出了优化建议,如以答对互相题目的速度作为评分准则或加入人类成绩作为参考。甚至有人提议将游戏变成对抗式训练,以加速AI模型的进步。
然而,无论这场游戏的意义如何被解读,它都无疑为AI领域带来了一股新的风潮。通过游戏化学习的方式,我们或许能够找到训练大模型的新途径。虽然这次只有六轮游戏,参与的模型也有限,但这场实践无疑为我们提供了宝贵的经验和启示。
据作者Paul Calcraft透露,他将继续更新这个游戏,包括增加分数显示、引入更多游戏主题等。我们期待着这场“你画我猜”游戏的后续发展,也期待着AI领域能够为我们带来更多惊喜和突破。