Qwen3-4B-Instruct-2507

亮点

我们推出了Qwen3-4B非思考模式的更新版本,命名为Qwen3-4B-Instruct-2507,具有以下关键改进:

  • 显著提升了通用能力,包括指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用
  • 大幅增加了多种语言的长尾知识覆盖范围。
  • 更好地符合用户在主观和开放式任务中的偏好,使响应更加有用,生成的文本质量更高。
  • 增强了256K长上下文的理解能力。
image/jpeg

模型概述

Qwen3-4B-Instruct-2507 具有以下特点:

  • 类型:因果语言模型
  • 训练阶段:预训练和后训练
  • 参数数量:40亿
  • 非嵌入参数数量:36亿
  • 层数:36层
  • 注意力头数(GQA):Q为32个,KV为8个
  • 上下文长度:原生支持262,144

注意:此模型仅支持非思考模式,在输出中不会生成<think></think>块。同时,不再需要指定enable_thinking=False

原创文章,转载请注明: 转载自诺德美地科技

本文链接地址: Qwen3-4B-Instruct-2507

发表评论