腾讯近期震撼发布了其新一代旗舰大模型——混元Turbo,标志着国内AI技术在MoE(Mixture of Experts)结构上的又一次重大突破。作为国内率先采用MoE结构的领航者,腾讯不断在这一前沿领域深耕细作,持续推动技术创新。
分层异构MoE结构:参数万亿,性能飞跃
混元Turbo在结构设计上实现了质的飞跃,采用了全新的分层异构MoE结构,相较于上一代同构MoE的混元Pro,这一创新不仅保持了万亿级的庞大参数规模,更在模型效果上实现了显著提升。通过精细设计的专家数量与激活量控制,结合整体算法升级与训练推理框架的端到端优化,混元Turbo在保持高效果的同时,大幅提升了训练推理效率,降低了部署成本及时延。
业界领先,评测佳绩
在业界公认的benchmark指标上,混元Turbo展现出了强大的竞争力,不仅在国内行业中遥遥领先,即便与国际顶尖模型如GPT-4等相比,也稳居第一梯队。最新发布的国内第三方权威评测结果更是将其推上了国内第一的宝座,进一步证明了其卓越的性能与广泛的应用潜力。
技术揭秘:Pretrain、Postrain与专项能力突破
混元Turbo的成功并非偶然,其背后的技术细节揭示了模型升级的奥秘。在Pretrain阶段,腾讯充分利用了Scaling Law的原理,通过庞大的数据量和精细的参数设计,为模型奠定了坚实的基础。而在Postrain阶段,自研的混元CriticModel和RewardModel构建了高效的自提升pipeline,并采用离线数据与在线采样结合的强化学习策略,进一步提升了模型的可控性和效果上限。
专项能力强化:文本创作、数学、逻辑推理
针对当前大模型普遍存在的文科能力“重而不强”、理科能力偏弱的问题,混元Turbo进行了专项优化。在高质量文本创作方面,通过构建专业评估模型和创作指令约束体系,显著提升了模型的写作能力和指令跟随能力。在数学能力上,通过增训大量数学题、采用强化学习技术等手段,实现了数学推理能力的显著提升。而在逻辑推理方面,通过优化推理问题广度和质量、训练critique模型等手段,大幅提升了模型的推理能力。
AI搜索联网插件:信息获取新体验
作为新一代旗舰大模型,混元Turbo还支持AI搜索联网插件功能。通过整合腾讯优质的内容生态和全网搜索能力,基于Planner+Action Agent架构的混元Turbo AI搜索能够提供更精准、更全面的信息获取体验。这一功能的加入无疑将为用户带来更加便捷、高效的信息查询方式。
自研工程平台:坚实后盾
腾讯混元大模型的成功离不开其全面自研的Angel机器学习平台和强大的算力基础设施。面对万亿级MoE模型参数带来的挑战,AngelPTM训练框架通过一系列优化策略实现了训练性能的大幅提升和成本的显著降低。同时,AngelHCF推理加速框架也为混元Turbo的推理速度和成本优化提供了有力支持。
面向C端用户:元宝APP正式开放
目前,混元Turbo模型已作为新一代旗舰大模型在腾讯云官网API正式上架,并在腾讯元宝APP中面向所有C端用户开放。用户可以在元宝APP中体验到更快的速度、更好的体验以及包括AI搜索、AI阅读、AI写作和AI作画在内的核心功能。基于混元Turbo模型强大的通用内容理解和推理能力以及与腾讯生态体系的全面连接,用户将能够享受到更加丰富、权威的生态优质内容及全网信息。