亮点
Qwen3-Coder 提供多种尺寸。今天,我们很高兴推出 Qwen3-Coder-30B-A3B-Instruct。这个精简的模型保持了出色的性能和效率,具有以下关键改进:
- 在 代理编码、代理浏览器使用 和其他基础编码任务上,在开放模型中表现出显著的性能。
- 具有原生支持 256K 令牌的 长上下文能力,并且可以使用 Yarn 扩展到 1M 令牌,优化了对仓库规模的理解。
- 代理编码 支持大多数平台,如 Qwen Code、CLINE,并具有特别设计的函数调用格式。

模型概述
Qwen3-Coder-30B-A3B-Instruct 具有以下特点:
- 类型:因果语言模型
- 训练阶段:预训练 & 后训练
- 参数数量:总共 30.5B,激活 3.3B
- 层数:48
- 注意力头数(GQA):Q 为 32,KV 为 4
- 专家数量:128
- 激活的专家数量:8
- 上下文长度:原生 262,144。
注意:此模型仅支持非思考模式,在输出中不会生成 <think></think>
块。同时,不再需要指定 enable_thinking=False
。
原创文章,转载请注明: 转载自诺德美地科技
本文链接地址: Qwen3-Coder-30B-A3B-Instruct
文章的脚注信息由WordPress的wp-posturl插件自动生成