清华大学新闻与传播学院于近日发布了《大语言模型综合性能评估报告》,对国内外的大模型进行了对比分析。在这份报告中,研究人员从生成质量、使用与性能、安全与合规等三个维度对市场上的7个大型语言模型进行了评估。
根据报告结果,在这7款大模型中,GPT-4荣获第一名的位置。紧随其后的是百度的文心一言,排名第三的是GPT3.5。而Claude、讯飞星火、阿里云的通义千问以及昆仑的天工分别排名第四至第七位。
尽管GPT-4在各个方面表现出色,但对于国内用户来说,更懂中文的大模型才是关键所在。在中文语义理解方面,百度的文心一言以92%的得分率名列榜首,超过了讯飞星火和GPT-4。这一结果与百度的大模型所包含的大量中文文本有关,使得其更加擅长处理与本土文化相关的内容。
总体而言,清华大学的报告为我们提供了有关各大模型在不同领域应用中的性能和限制情况的详细信息。这对于我们评估和选择合适的大模型应用至关重要。
暂无评论...