英伟达开源3400亿巨兽,98%合成数据训出开源通用模型!性能对标GPT-4o

英伟达近日开源了一款名为Nemotron-4 340B的开源通用模型,这款模型拥有3400亿参数,并使用高达98%的合成数据进行训练,展现出强大的性能和广泛的应用潜力。以下是关于Nemotron-4 340B模型的详细概述:

模型参数与训练数据:
参数规模:Nemotron-4 340B拥有3400亿参数,这是一个庞大的模型,具有处理复杂任务的能力。
训练数据:模型使用了高达9万亿个token的训练数据,其中8万亿用于预训练,1万亿用于继续训练以提高质量。值得注意的是,这些训练数据中有高达98%是合成数据,这标志着AI训练方式的重大变革。
模型组成与特点:
Nemotron-4 340B由基础模型(Base)、指令模型(Instruct)和奖励模型(Reward)组成,构建了一个完整的高质量合成数据生成流程。
该模型支持4K上下文窗口、50多种自然语言和40多种编程语言,训练数据截止到2023年6月,体现了其广泛的适用性和强大的语言处理能力。
性能表现:
Nemotron-4 340B在多个基准测试中均取得了显著的成绩。在常识推理任务如ARC-Challenge、MMLU和BigBench Hard中,其性能与Llama-3 70B、Mixtral 8x22B和Qwen-2 72B等当前领先的模型相媲美。
指令模型(Instruct)在指令跟随和聊天能力方面超越了相应的指令模型,而奖励模型(Reward)在RewardBench上实现了最高准确性,甚至超过了GPT-4o-0513和Gemini 1.5 Pro-0514这样的专有模型。
性能对标GPT-4o
Nemotron-4 340B的性能可以直接对标GPT-4o,显示出其强大的竞争力和广泛的应用前景。GPT-4o是OpenAI推出的最新模型,具有强大的文本、音频和图像处理能力。而Nemotron-4 340B通过合成数据训练,同样展现出卓越的性能,尤其是在指令跟随和奖励模型方面。
硬件需求:
在BF16精度下,Nemotron-4 340B的推理需要8块H200,或16块H100/A100 80GB。在FP8精度下,则只需8块H100,显示出其对于高性能硬件的需求。

综上所述,英伟达开源的Nemotron-4 340B模型是一款具有开创意义的开源通用模型,其使用高达98%的合成数据进行训练,性能直接对标GPT-4o,具有广泛的应用前景和深远的影响力。

暂无评论

暂无评论...