介绍
我们很高兴地宣布正式发布 DeepSeek-V3.2-Exp,这是我们模型的一个实验版本。作为迈向下一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力机制——一种旨在探索和验证在长上下文场景中训练和推理效率优化的稀疏注意力机制。
这个实验版本代表了我们对更高效变压器架构的持续研究,特别关注在处理扩展文本序列时提高计算效率。

- DeepSeek 稀疏注意力机制(DSA)首次实现了细粒度的稀疏注意力,在保持几乎相同的模型输出质量的同时,显著提高了长上下文训练和推理效率。
- 为了严格评估引入稀疏注意力的影响,我们特意将 DeepSeek-V3.2-Exp 的训练配置与 V3.1-Terminus 对齐。在各个领域的公共基准测试中,DeepSeek-V3.2-Exp 表现与 V3.1-Terminus 相当。
基准 | DeepSeek-V3.1-Terminus | DeepSeek-V3.2-Exp |
---|---|---|
无工具使用推理模式 | ||
MMLU-Pro | 85.0 | 85.0 |
GPQA-Diamond | 80.7 | 79.9 |
人类最后的考试 | 21.7 | 19.8 |
LiveCodeBench | 74.9 | 74.1 |
AIME 2025 | 88.4 | 89.3 |
HMMT 2025 | 86.1 | 83.6 |
Codeforces | 2046 | 2121 |
Aider-Polyglot | 76.1 | 74.5 |
代理工具使用 | ||
BrowseComp | 38.5 | 40.1 |
BrowseComp-zh | 45.0 | 47.9 |
SimpleQA | 96.8 | 97.1 |
SWE Verified | 68.4 | 67.8 |
SWE-bench 多语言 | 57.8 | 57.9 |
Terminal-bench | 36.7 | 37.7 |
如何本地运行
我们在 inference 文件夹中提供了一个更新的推理演示代码,以帮助社区快速开始使用我们的模型并了解其架构细节。
首先将 Hugging Face 模型权重转换为我们的推理演示所需的格式。设置 MP
以匹配您的可用 GPU 数量:
cd inference
export EXPERTS=256
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}
启动交互式聊天界面并开始探索 DeepSeek 的功能:
export CONFIG=config_671B_v3.2.json
torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive
开源内核
对于具有更好可读性和研究目的设计的 TileLang 内核,请参考 TileLang。
对于高性能 CUDA 内核,索引器 logit 内核(包括分页版本)可在 DeepGEMM 中找到。稀疏注意力内核在 FlashMLA 中发布。
许可证
此仓库和模型权重根据 MIT 许可证许可。
引用
@misc{deepseekai2024deepseekv32,
title={DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention},
author={DeepSeek-AI},
year={2025},
}
联系方式
如果您有任何问题,请提出一个 issue 或通过 service@deepseek.com 联系我们。
原创文章,转载请注明: 转载自诺德美地科技
本文链接地址: DeepSeek-V3.2-Exp