研究显示：谷歌Gemini Pro在基准测试中表现逊于免费ChatGPT

虽然谷歌声称Gemini Pro的性能可与或优于OpenAI的GPT-3.5，但卡内基梅隆大学的谷歌的大型语言模型Gemini Pro在基准测试中未能达到预期水平，不仅落后于GPT-3.5，还远不及GPT-4。

这一结果与谷歌在Gemini发布会上所宣传的信息相矛盾。尽管谷歌声称Gemini Pro在性能上可与或优于OpenAI的GPT-3.5，但卡内基梅隆大学的研究显示，在所有基准测试中，Gemini Pro都不如OpenAI的GPT-3.5Turbo。

此外，研究还发现，Gemini Pro在基本数学推理方面表现不佳，这是形式逻辑和初等数学任务所需的能力。在主题类别方面，Gemini Pro仅在安全研究和高中微观经济学方面优于GPT-3.5，而在其他所有类别中都落后。

研究人员还指出，一些基准测试差异可能是由于谷歌的保护机制导致模型在MMLU评估中无法回答一些问题。然而，Gemini Pro在多选题、大数字数学推理、任务提前终止以及侵略性内容过滤导致的失败响应方面表现不佳。

尽管在某些长而复杂的推理任务中，Gemini表现优于GPT3.5Turbo，并在无过滤响应的多语境任务中表现出色，但其模型的准确性与GPT3.5Turbo相当，但略逊一筹，并且远不如GPT-4。

这项研究也可能是GPT-4Turbo的第一个MMLU基准测试。根据这个基准测试，最新的OpenAI模型在重要的语言理解基准测试中明显落后于原始的GPT-4。尽管有这些结果，GPT-4Turbo目前在聊天机器人领域评分最高，显示基准测试的价值有限。

这一研究结果强调了仅仅依赖大公司自我报告的基准测试并不是衡量巨型语言模型性能的可靠手段。同时，它也表明，尽管谷歌竭尽全力，但其在追赶OpenAI方面仍然表现不佳，对整个AI行业而言并非好消息。

暂无评论

暂无评论...