Qwen3-Coder-30B-A3B-Instruct

亮点

Qwen3-Coder 提供多种尺寸。今天,我们很高兴推出 Qwen3-Coder-30B-A3B-Instruct。这个精简的模型保持了出色的性能和效率,具有以下关键改进:

  • 在 代理编码代理浏览器使用 和其他基础编码任务上,在开放模型中表现出显著的性能。
  • 具有原生支持 256K 令牌的 长上下文能力,并且可以使用 Yarn 扩展到 1M 令牌,优化了对仓库规模的理解。
  • 代理编码 支持大多数平台,如 Qwen CodeCLINE,并具有特别设计的函数调用格式。
image/jpeg

模型概述

Qwen3-Coder-30B-A3B-Instruct 具有以下特点:

  • 类型:因果语言模型
  • 训练阶段:预训练 & 后训练
  • 参数数量:总共 30.5B,激活 3.3B
  • 层数:48
  • 注意力头数(GQA):Q 为 32,KV 为 4
  • 专家数量:128
  • 激活的专家数量:8
  • 上下文长度:原生 262,144

注意:此模型仅支持非思考模式,在输出中不会生成 <think></think> 块。同时,不再需要指定 enable_thinking=False

原创文章,转载请注明: 转载自诺德美地科技

本文链接地址: Qwen3-Coder-30B-A3B-Instruct

文章的脚注信息由WordPress的wp-posturl插件自动生成

发表评论