GLM-4.6

模型介绍

与 GLM-4.5 相比,GLM-4.6 带来了几个关键改进:

  • 更长的上下文窗口: 上下文窗口从 128K 扩展到 200K tokens,使模型能够处理更复杂的智能体任务。
  • 更强的代码性能: 模型在代码基准测试中取得了更高的分数,并在实际应用中表现更佳,例如 Claude Code、Cline、Roo Code 和 Kilo Code,包括在生成视觉上更精美的前端页面方面的提升。
  • 更先进的推理能力: GLM-4.6 在推理性能上有明显提升,并在推理过程中支持工具调用,从而带来更强的整体能力。
  • 更强大的智能体: GLM-4.6 在工具使用和基于搜索的智能体方面表现更强,并能更高效地融入智能体框架。
  • 更精细的写作: 更好地符合人类在风格和可读性上的偏好,并在角色扮演场景中表现得更加自然。

我们在涵盖智能体、推理和编程的八个公共基准上对 GLM-4.6 进行了评估。结果显示,GLM-4.6 相比 GLM-4.5 有显著提升,同时在对比 DeepSeek-V3.1-Terminus 和 Claude Sonnet 4 等国内外领先模型时也展现出了竞争优势。

bench

模型推理

GLM-4.5 和 GLM-4.6 都使用相同的推理方法。

你可以查看我们的 github 了解更多详情。

推荐评测参数

在一般评测任务中,推荐使用 采样温度 1.0

在 代码相关的评测任务(例如 LCB)中,进一步推荐设置:

  • top_p = 0.95
  • top_k = 40

验证

  • 有关工具集成推理,请参阅 文档
  • 用于搜索基准测试,我们在 thinking 模式 下为搜索工具调用设计了一种特定格式,以支持搜索代理。详细模板请参阅 此处

原创文章,转载请注明: 转载自诺德美地科技

本文链接地址: GLM-4.6

发表评论