全新上线
Q
Qwen3 Next 80B A3B Instruct
输入 ¥1/ 百万 tokens | 输出 ¥4/ 百万 tokensQwen3-Next采用高度稀疏的混合专家(MoE)架构设计:模型总参数量达800亿,但每次推理仅激活约30亿参数。实验数据显示,在全局负载均衡机制下,保持激活专家数量不变而持续增加总专家参数量,能有效降低训练损失。相比前代Qwen3的MoE架构(128个总专家,8个路由专家),Qwen3-Next将专家规模扩展至512个,创新采用"10个路由专家+1个共享专家"的组合方案,在最大化资源利用率的同时确保性能无损。
特别值得注意的是,Qwen3-Next-80B-A3B-Instruct版本在性能表现上已接近我们的旗舰模型Qwen3-235B-A22B-Instruct-2507,并在处理超长上下文(最高支持256K tokens)的任务中展现出显著优势。
全新上线
Q
Qwen3 Next 80B A3B Thinking
输入 ¥1/ 百万 tokens | 输出 ¥10/ 百万 tokens
Qwen3-Next采用高度稀疏的混合专家(MoE)架构设计:总参数量达800亿,但每个推理步骤仅激活约30亿参数。实验表明,在全局负载均衡机制下,保持激活专家数量不变而增加总专家参数量,能够持续降低训练损失。相较于Qwen3的MoE结构(128个总专家,8个路由专家),Qwen3-Next将规模扩展至512个总专家,创新性地采用"10个路由专家+1个共享专家"的组合策略——在最大化资源利用率的同时确保模型性能不受影响。
其中,Qwen3-Next-80B-A3B-Thinking在复杂推理任务中表现卓越:其性能不仅超越更高成本的Qwen3-30B-A3B-Thinking-2507和Qwen3-32B-Thinking等模型,在多项基准测试中更胜过闭源的Gemini-2.5-Flash-Thinking,并逼近我们的旗舰模型Qwen3-235B-A22B-Thinking-2507的性能水平。
当前热门
Q
Qwen3 Coder 480B A35B Instruct
输入 ¥15/ 百万 tokens | 输出 ¥15/ 百万 tokensQwen3-Coder-480B-A35B-Instruct 是由Qwen推出的尖端开源编程模型,在智能体编程(Agentic Coding)、浏览器自动化及核心开发任务中达到与Claude Sonnet同等的性能水平。该模型原生支持256K上下文窗口(通过YaRN技术可扩展至1M token),擅长仓库级代码分析,并针对Qwen Code、CLINE等平台设计了专用函数调用协议——使其成为复杂实际开发工作流的理想选择。全新上线
Q
Qwen3 235B A22b Thinking 2507
输入 ¥2/ 百万 tokens | 输出 ¥20/ 百万 tokensQwen3-235B-A22B-Thinking-2507是Qwen3系列最新推出的具备思维能力的突破性模型,在推理能力方面实现了跨越式提升。这款先进AI在逻辑推理、数学运算、科学分析、编程任务以及学术基准测试中均展现出显著增强的性能表现,其水平已达到甚至超越人类专家级别,在开源思维模型中树立了全新的性能标杆。除了卓越的推理能力外,该模型在通用能力方面也有显著提升,包括更精准的指令理解与执行、更复杂的工具调用能力、高度拟真的文本生成效果,以及与人类偏好更契合的输出表现。同时,其增强的256K超长上下文理解能力,使其能够精准把握长篇文档和复杂讨论的深层逻辑关联。全新上线
Q
Qwen3 235B A22B Instruct 2507
输入 ¥1.45/ 百万 tokens | 输出 ¥5.8/ 百万 tokensQwen3-235B-A22B-Instruct-2507 是基于 Qwen3-235B 架构的多语言指令微调混合专家语言模型,每次前向推理激活 220 亿参数。该模型针对通用文本生成任务优化,涵盖指令遵循、逻辑推理、数学计算、代码生成及工具调用等能力。其原生支持 26.2 万 token 的超长上下文窗口,且未采用 "<think>" 思维链显式标注模式。
相较于基础版本,本版本在知识覆盖广度、长文本推理能力、编程基准测试以及开放性任务对齐度等方面实现显著提升。模型尤其擅长多语言理解、数学推理(如美国数学邀请赛 AIME、哈佛-麻省理工数学锦标赛 HMMT),并在 Arena-Hard 综合评测与写作专项评测 WritingBench 中表现优异。D
DeepSeek-R1-0528-Qwen3-8B
输入 ¥0.4/ 百万 tokens | 输出 ¥0.65/ 百万 tokensDeepSeek-R1-0528-Qwen3-8B 是基于 Qwen3 8B Base 模型,通过融合 DeepSeek-R1-0528 的思维链(Chain-of-Thought)优化训练而成的高性能推理模型。在 AIME 2024 评测中,该模型以开源模型身份达到最先进(SOTA)水平,性能较原版 Qwen3 8B 提升 10%,并展现出与 2350 亿参数的 Qwen3-235B-thinking 相当的推理能力。D
deepseek/deepseek-r1-0528
输入 ¥4/ 百万 tokens | 输出 ¥16/ 百万 tokensDeepSeek R1 0528 是派欧云平台提供的最新高性能DeepSeek R1 模型。DeepSeek R1 0528 是DeepSeek团队发布的最新开源模型,具备非常强悍的推理性能,尤其在编程、数学、推理任务上达到了开源模型最先进的水平。满血版全参数D
DeepSeek: DeepSeek R1 Distill Qwen 32B
输入 ¥2.18/ 百万 tokens | 输出 ¥2.18/ 百万 tokensDeepSeek R1 Distill Qwen 32B 是一种基于 Qwen 2.5 32B 的蒸馏大语言模型,通过使用 DeepSeek R1 的输出进行训练而得。该模型在多个基准测试中超越了 OpenAI 的 o1-mini,取得了密集模型(dense models)的最新技术领先成果(state-of-the-art)。以下是一些基准测试的结果:
AIME 2024 pass@1: 72.6
MATH-500 pass@1: 94.3
CodeForces Rating: 1691
该模型通过从 DeepSeek R1 的输出中进行微调,展现了与更大规模的前沿模型相当的竞争性能。推理模型D
DeepSeek: DeepSeek R1 Distill Qwen 14B
输入 ¥1/ 百万 tokens | 输出 ¥1/ 百万 tokensDeepSeek R1 Distill Qwen 14B 是一种基于 Qwen 2.5 14B 的蒸馏大语言模型,通过使用 DeepSeek R1 的输出进行训练而得。该模型在多个基准测试中超越了 OpenAI 的 o1-mini,取得了密集模型(dense models)的最新技术领先成果(state-of-the-art)。以下是一些基准测试的结果:
AIME 2024 pass@1: 69.7
MATH-500 pass@1: 93.9
CodeForces Rating: 1481
该模型通过从 DeepSeek R1 的输出中进行微调,展现了与更大规模的前沿模型相当的竞争性能。推理模型D
DeepSeek R1 Distill Llama 70B
输入 ¥5.8/ 百万 tokens | 输出 ¥5.8/ 百万 tokensDeepSeek R1 Distill Llama 70B是基于Llama3.3 70B的大型语言模型,该模型利用DeepSeek R1输出的微调,实现了与大型前沿模型相当的竞争性能。推理模型D
DeepSeek: DeepSeek R1 Distill Llama 8B
输入 ¥0.3/ 百万 tokens | 输出 ¥0.3/ 百万 tokensDeepSeek R1 Distill Llama 8B 是一种基于 Llama-3.1-8B-Instruct 的蒸馏大语言模型,通过使用 DeepSeek R1 的输出进行训练而得。推理模型B
baidu/ernie-4.5-21B-a3b-thingking
输入 ¥0.5/ 百万 tokens | 输出 ¥2/ 百万 tokensERNIE-4.5-21B-A3B-Thinking 是一个文本 MoE 后训练模型,每个 token 有 21B 总参数和 3B 激活参数,提高了推理任务的性能,包括逻辑推理、数学、科学、编码、文本生成和通常需要人类专业知识的学术基准。具备高效的工具使用能力,达到 128K 长上下文理解能力。