GLM-4.5全能大模型发布,原生融合推理、编码和智能体能力

   2025-08-06 kongyu810
核心提示:模型架构和预训练 在 GLM-4.5 系列模型中,团队采用了 MoE(专家混合)架构,这种架构能够显著提升训练和推理时的计算效率。在

模型架构和预训练 图片


在 GLM-4.5 系列模型中,团队采用了 MoE(专家混合)架构,这种架构能够显著提升训练和推理时的计算效率。在 MoE 层采用了 loss-free balance 路由和 sigmoid gate 机制。

和 Kimi K2 的设计思路不同,团队选择了"瘦高"的模型结构——减少模型的宽度(包括隐藏维度和路由专家的数量),同时增加模型的深度(层数)。团队发现,更深的模型在推理能力上表现更加出色。在自注意力机制方面,团队采用了 partal RoPE 的分组查询注意力(Grouped-Query Attention)。

另外,团队将注意力头的数量增加到了 2.5 倍(在 5120 的隐藏维度下使用 96 个注意力头)。有意思的是,虽然增加注意力头的数量并没有让训练 loss 更低,但在 MMLU 和 BBH 等推理基准测试中,模型的表现却得到了稳定提升。

GLM-4.5 使用了 Muon 优化器,这个优化器不仅能加快模型收敛速度,还能在更大的 Batch Size 下相比 AdamW 保持更好的收敛效果,从而提升训练效率。团队还引入了 QK-Norm 技术来提升注意力 logits 的数值稳定性。GLM-4.5 和 GLM-4.5-Air 都加入了 MTP(Multi Token Predition)层,用于在推理阶段实现推测解码,进一步提升推理效率。

图片

基础模型经历了几个训练阶段。在预训练期间,模型首先在 15T token 的通用预训练语料库上训练,然后在 7T token 的代码和推理语料库上训练。预训练后,团队引入了 Mid-Training 阶段来进一步提升模型在专有领域上的性能。

基于 slime 的大模型强化学习 图片
图片

为了支持 GLM-4.5 这样的大模型进行高效的强化学习(RL)训练,团队设计、开发并开源了 slime。这是一个在灵活性、效率和可扩展性方面都表现卓越的 RL 框架,欢迎社区使用并参与贡献。

slime 旨在解决强化学习中的常见瓶颈,并针对复杂的智能体任务做了优化。

 
举报收藏 0打赏 0评论 0
 
更多>同类资讯
  • kongyu
    加关注0
  • 没有留下签名~~
推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号