多模态大模型评估新基准发布，华中科技大学等机构共同推动领域发展

近期，华中科技大学等机构联手发布了一项关于多模态大模型（LMMs）的全面评估新基准。这一新基准旨在解决多模态大模型性能评估的难题，覆盖了五大任务和27个数据集，对14个主流多模态大模型进行了深入评估，包括谷歌的Gemini和OpenAI的GPT-4V等模型。

在评估过程中，研究团队特别关注了多模态大模型在光学字符识别（OCR）方面的能力。为了更准确地评估这一方面，研究团队构建了一个名为OCRBench的专门评测基准。OCRBench基于广泛的实验，在27个公有数据集和2个生成的无语义及有语义的数据集上进行了测试，揭示了多模态大模型在OCR领域的局限性。

评估结果显示，多模态大模型在某些任务上表现出色，如文本识别和文档问答等。然而，这些模型在处理语义依赖、手写文本和多语言文本等方面仍面临挑战。在处理缺乏语义的字符组合时，以及手写文本和多语言文本的识别方面，性能尤其不尽如人意。这可能与训练数据的不足有关。此外，高分辨率输入图像在某些任务如场景文本问答、文档问答和关键信息抽取中表现更佳。

这一新基准的发布为多模态大模型的研究者和开发者提供了一个更为准确和全面的工具，以评估和改进模型的OCR能力，为该领域的未来发展提供了指导。这一研究不仅为多模态大模型的性能评估开辟了新思路，更为相关领域的研究和应用奠定了坚实基础。