阿里发布Qwen3-Max-Thinking模型,多项性能超越国际顶尖模型
1月28日消息,昨晚,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,总参数量超1万亿,预训练数据达36T Tokens。该模型在19项大模型基准测试中刷新全球纪录,性能超越GPT-5.2-Thinking、Claude Opus 4.5和Gemini 3 Pro。
模型在科学知识测试GPQA Diamond、数学推理IMO-AnswerBench、代码编程LiveCodeBench等关键评测中达到国际领先水平。其中在启用工具的HLE测试中获得58.3分,显著高于GPT-5.2-Thinking的45.5分。
Qwen3-Max-Thinking具备自适应工具调用能力,可自主选择使用搜索、个性化记忆和代码解释器三个核心工具。阿里通义团队通过规则奖励与模型奖励的联合强化学习训练,使模型幻觉大幅降低。
该模型采用全新的测试时扩展机制,通过对历史推理结果的"经验提取"实现多轮自我迭代,在相同计算资源下获得更高效的推理性能。
阿里Qwen大模型的研发始于2022年,已经成为全球排名第一的开源大模型。大模型Qwen3-Max发布于2025年9月,是通义千问家族中最大、最强的基础模型。 26日当天,阿里巴巴美股(NYSE:BABA)跌1.07%收于每股171.38美元,总市值4091亿美元;港股(9988.HK)27日盘前涨超2%。