欢迎来到 gpt-oss 系列，这是 OpenAI 的开源权重模型，旨在提供强大的推理能力、代理任务和多样的开发人员用例。

我们发布了这两种开放模型：

gpt-oss-120b — 适用于生产环境、通用目的、高推理需求的场景，适合单个 H100 GPU（117B 参数，其中 5.1B 激活参数）
gpt-oss-20b — 适用于低延迟、本地或特殊用途的场景（21B 参数，其中 3.6B 激活参数）

这两个模型都是在我们的和谐响应格式上训练的，并且仅应使用和谐格式，否则将无法正常工作。

NOTE

此模型卡片专门介绍较小的 gpt-oss-20b 模型。请参阅 gpt-oss-120b 以了解更大的模型。

亮点

宽松的 Apache 2.0 许可证： 自由构建，无版权限制或专利风险—非常适合实验、定制和商业部署。
可配置的推理努力： 根据您的具体用例和延迟需求轻松调整推理努力（低、中、高）。
完整的思维链： 完全访问模型的推理过程，便于调试并增加对输出的信任。它不打算展示给最终用户。
可微调： 通过参数微调完全自定义模型以适应您的特定用例。
代理功能： 使用模型的原生功能进行函数调用、网页浏览、Python 代码执行和结构化输出。
原生 MXFP4 量化： 模型在 MoE 层上使用原生 MXFP4 精度进行训练，使得 gpt-oss-120b 可以在单个 H100 GPU 上运行，而 gpt-oss-20b 模型可以在 16GB 内存内运行。

推理示例

Transformers

您可以使用 Transformers 与 gpt-oss-120b 和 gpt-oss-20b。如果您使用 Transformers 聊天模板，它将自动应用和谐响应格式。如果您直接使用 model.generate，则需要手动应用和谐格式，可以使用聊天模板或我们的 openai-harmony 包。

要开始，请安装必要的依赖项以设置您的环境：

pip install -U transformers kernels torch

pip install -U transformers kernels torch

设置完成后，可以通过运行以下代码片段来运行模型：

from modelscope import pipeline
import torch

model_id = "openai-mirror/gpt-oss-20b"

pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

from modelscope import pipeline
import torch

model_id = "openai-mirror/gpt-oss-20b"

pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

或者，你可以通过运行 Transformers Serve 来启动一个与 OpenAI 兼容的 Web 服务器：

transformers serve
transformers chat localhost:8000 --model-name-or-path openai/gpt-oss-20b

transformers serve
transformers chat localhost:8000 --model-name-or-path openai/gpt-oss-20b

了解更多关于如何使用 gpt-oss 与 Transformers 的信息。

vLLM

vLLM 推荐使用 uv 进行 Python 依赖管理。你可以使用 vLLM 启动一个与 OpenAI 兼容的 Web 服务器。以下命令将自动下载模型并启动服务器。

uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

VLLM_USE_MODELSCOPE=true vllm serve openai/gpt-oss-20b

uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

VLLM_USE_MODELSCOPE=true vllm serve openai/gpt-oss-20b

了解更多关于如何使用 gpt-oss 与 vLLM 的信息。

PyTorch / Triton

要了解如何使用此模型与 PyTorch 和 Triton，请查看我们 gpt-oss 仓库中的参考实现。

Ollama

如果你试图在消费级硬件上运行 gpt-oss，可以在安装 Ollama 后运行以下命令来使用 Ollama。

# gpt-oss-20b
ollama pull gpt-oss:20b
ollama run gpt-oss:20b

# gpt-oss-20b
ollama pull gpt-oss:20b
ollama run gpt-oss:20b

了解更多关于如何使用 gpt-oss 与 Ollama 的信息。

LM Studio

如果你正在使用 LM Studio，可以使用以下命令进行下载。

# gpt-oss-20b
lms get openai/gpt-oss-20b

# gpt-oss-20b
lms get openai/gpt-oss-20b

查看我们的 awesome list 以获取更广泛的 gpt-oss 资源和推理合作伙伴集合。

下载模型

你可以直接从 Hugging Face CLI 在 Hugging Face Hub 上下载模型权重：

# gpt-oss-20b
huggingface-cli download openai/gpt-oss-20b --include "original/*" --local-dir gpt-oss-20b/
pip install gpt-oss
python -m gpt_oss.chat model/

# gpt-oss-20b
huggingface-cli download openai/gpt-oss-20b --include "original/*" --local-dir gpt-oss-20b/
pip install gpt-oss
python -m gpt_oss.chat model/

推理级别

你可以根据任务需要调整三个级别的推理水平：

低：快速响应，适用于一般对话。
中：平衡速度和细节。
高：深入且详细的分析。

推理级别可以在系统提示中设置，例如，“Reasoning: high”。

工具使用

gpt-oss 模型非常适合以下用途：

网页浏览（使用内置的浏览工具）
使用定义的模式进行函数调用
浏览器任务等代理操作

微调

两种 gpt-oss 模型都可以针对各种专业用途进行微调。

这个较小的模型 gpt-oss-20b 可以在消费级硬件上进行微调，而较大的模型 gpt-oss-120b 则可以在单个 H100 节点上进行微调。

原创文章，转载请注明： 转载自诺德美地科技

本文链接地址: gpt-oss-20b

亮点