Qwen3-4B-Instruct-2507

2025年8月8日2025年8月8日作者 illuspas

亮点

我们推出了Qwen3-4B非思考模式的更新版本，命名为Qwen3-4B-Instruct-2507，具有以下关键改进：

显著提升了通用能力，包括指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用。
大幅增加了多种语言的长尾知识覆盖范围。
更好地符合用户在主观和开放式任务中的偏好，使响应更加有用，生成的文本质量更高。
增强了对256K长上下文的理解能力。

image/jpeg

模型概述

Qwen3-4B-Instruct-2507 具有以下特点：

类型：因果语言模型
训练阶段：预训练和后训练
参数数量：40亿
非嵌入参数数量：36亿
层数：36层
注意力头数（GQA）：Q为32个，KV为8个
上下文长度：原生支持262,144

注意：此模型仅支持非思考模式，在输出中不会生成<think></think>块。同时，不再需要指定enable_thinking=False。

原创文章，转载请注明： 转载自诺德美地科技

本文链接地址: Qwen3-4B-Instruct-2507

发表评论取消回复