亮点
我们推出了Qwen3-4B非思考模式的更新版本,命名为Qwen3-4B-Instruct-2507,具有以下关键改进:
- 显著提升了通用能力,包括指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用。
- 大幅增加了多种语言的长尾知识覆盖范围。
- 更好地符合用户在主观和开放式任务中的偏好,使响应更加有用,生成的文本质量更高。
- 增强了对256K长上下文的理解能力。

模型概述
Qwen3-4B-Instruct-2507 具有以下特点:
- 类型:因果语言模型
- 训练阶段:预训练和后训练
- 参数数量:40亿
- 非嵌入参数数量:36亿
- 层数:36层
- 注意力头数(GQA):Q为32个,KV为8个
- 上下文长度:原生支持262,144
注意:此模型仅支持非思考模式,在输出中不会生成<think></think>
块。同时,不再需要指定enable_thinking=False
。
原创文章,转载请注明: 转载自诺德美地科技
本文链接地址: Qwen3-4B-Instruct-2507