Mistral推出轻量级模型Ministral3B和Ministral8B,性能超越前辈Mistral7B
在法国AI初创公司Mistral迎来其明星产品Mistral7B诞生一周年之际,该公司再次发力,连续推出了两款轻量级模型——Ministral3B和Ministral8B。这两款模型专为边缘设备设计,性能却出人意料地超越了前辈Mistral7B,甚至在某些方面媲美或超越了其他知名的开源模型,如Gemma2和Llama3.1。
Ministral3B和Ministral8B尽管只有30亿参数,但在指令跟随基准上的表现却十分抢眼。它们不仅在知识、常识、推理、函数调用和效率等方面为低于10B参数的模型设立了新的标杆,还支持高达128k的上下文(目前vLLM上一般为32k)。Ministral8B更是配备了滑动窗口注意机制,以实现更快、更内存高效的推理。
在多项基准测试中,Ministral3B和Ministral8B均展现出了出色的性能。与Gema22B和Llama3.23B相比,Ministral3B在知识、常识、代码、数学和多语言基准上取得了最优成绩。而在与Llama3.18B和Mistral7B的比较中,Ministral8B仅在代码能力上稍逊一筹,其余方面均表现出色。
值得一提的是,这两款新模型在微调后的指令模型性能比较中也占据了优势。在大模型竞技场中,Ministral3B在不同基准上实现了最优,而Ministral8B也仅在Wild bench上略逊于Gema29B。在代码、数学和函数调用方面,两款新模型更是大幅超越了其他模型。
对于边缘计算场景来说,Ministral3B和Ministral8B无疑提供了高计算效率、低延迟的解决方案。它们可以被微调到各种用例中,无论是管理复杂的AI智能体工作流,还是创建专门的任务助手,都能游刃有余。
此外,Mistral还公布了这两款新模型的价格。Ministral8B的输入输出价格为每百万token 0.1美元,而Ministral3B则为每百万token 0.04美元。这样的价格策略使得更多用户能够负担得起使用这些高性能模型的成本。
然而,Mistral今年的发展也引发了一些争议。年初有消息称微软将收购Mistral部分股份并对其进行投资,这意味着Mistral的模型将在Azure AI进行托管。同时,Reddit网友也发现Mistral已从官网中移除了致力于开源的承诺,并在一些模型的调用上开启了收费模式。
尽管如此,Mistral作为一家初创公司,能够持续打造优秀的模型并为用户提供高性能的解决方案仍然值得肯定。未来,随着技术的不断进步和应用场景的不断拓展,我们有理由相信Mistral将继续在AI领域发挥重要作用。
转载请注明:Mistral推出轻量级模型Ministral3B和Ministral8B,性能超越前辈Mistral7B | AI导航网