阿里开源新架构Qwen3-Next，模型训练成本降9成，长文本推理吞吐提升10倍

9月12日，阿里通义发布下一代基础模型架构Qwen3-Next，并“打样”开源 Qwen3-Next系列模型，总参数80B仅激活 3B ，性能就可媲美千问3旗舰版235B模型，实现模型计算效率的重大突破。基于这一架构创新，Qwen3-Next模型训练成本较密集模型Qwen3-32B大降超90%，长文本推理吞吐量提升10倍以上，为未来大模型的训练和推理的效率设立了全新标准。

Qwen3-Next针对大模型在上下文长度和总参数两方面不断扩展（Scaling）的未来趋势而设计，模型结构相较4月底推出的Qwen3的MoE模型，新增采用了多种新技术并进行了核心改进，包括混合注意力机制、高稀疏度 MoE 结构、一系列训练稳定友好的优化，以及提升推理效率的多 token 预测（MTP）机制等。

基于Qwen3-Next 新架构，通义团队现开源了Qwen3-Next-80B-A3B的指令（Insctruct）模型和推理（Thinking）模型。新模型预训练在Qwen3预训练数据的子集15T tokens上进行，仅需 Qwen3-32B 的 9.3% 的 GPU 计算资源，便训练出性能更好的Qwen3-Next-Base基座模型，大幅提升了训练效率；而后又在强化学习训练中解决了长期存在的稳定性与效率难题，实现模型性能的新飞跃。

图说：Qwen3-Next-80B-A3B-Instruct性能评测图（受访者供图）

在编程（LiveCodeBench v6）、人类偏好对齐(Arena-Hard v2)以及综合性能力(LiveBench)评测中，Qwen3-Next-Instruct表现甚至超过了“开源王者”旗舰模型Qwen3-235B-A22B-Instruct-2507，并在包含通用知识（SuperGPQA）、数学推理（AIME25）等核心测评中全面超越了SOTA密集模型Qwen3-32B；Qwen3-Next-Thinking则全面超越了Gemini2.5-Flash-Thinking，在数学推理AIME25评测中斩获惊人的87.8分。而达到如此高水平的模型性能，仅需激活Qwen3-Next总参数80B中的3B。

高稀疏MoE架构是Qwen3-Next面向下一代模型的最新探索。当前，MoE混合专家架构是主流大模型都采用的架构，它通过激活大参数中的小部分专家完成推理任务，计算开销更小，反应速度更快。此前，Qwen3系列的MoE专家激活比约为1比16，Qwen3-Next通过更精密的高稀疏MoE架构设计，实现了1比50的极致激活比，创下业界新高。

展开全文

未来的大模型必须学会高效处理超长上下文，Qwen3-Next表现卓越。Qwen3-Next对经典Transformer核心组件进行了重构，采用基于Gated DeltaNet的线性注意力和通义团队自研的门控注意力机制的混合注意力机制，更省内存，并大幅降低了计算复杂度，更易处理超长上下文。同时，Qwen3-Next在预训练时就采用多Token预测技术MTP（Mutiple-Token Prediction），模型推理速度大幅提升：在处理超32K tokens的长上下文时，Qwen3-Next的推理吞吐量比 Qwen3-32B 高出 10 倍以上。

阿里开源新架构Qwen3-Next，模型训练成本降9成，长文本推理吞吐提升10倍

图说：Qwen3-Next模型结构图（受访者供图）

近期，阿里通义动作频频，推出超万亿参数的Qwen3-Max-Preview、文生图及编辑模型Qwen-Image-edit、语音识别模型Qwen3-ASR-Flash等，并持续推进“全尺寸”“全模态”开源。全球AI开源社区HuggingFace最新数据显示，通义千问Qwen衍生模型数已超17万，稳坐全球第一开源模型。通义千问也是中国企业使用量最多的模型，沙利文报告显示，2025年上半年，在中国企业级大模型调用市场中，阿里通义占比17.7%位列第一。