智东西
作者|江宇
编辑|冰倩
智东西3月20日报道,今日,阿里千问最新旗舰模型预览版Qwen3.5-Max-Preview正式亮相,并登上全球大模型评测平台LMArena。在最新榜单中,该模型拿下1464分,进入第一梯队,同时带动阿里千问跻身全球大模型实验室前五、国内第一。
在强调模型基础能力对比的without style control评测条件下,其整体性能以1470分的成绩,强势进入全球前列,排名全球第六、国内第一。
从Arena Expert专家榜单来看,该模型位列第十,分数为1498,排在GPT-5.4、Claude Opus 4.5系列、Claude Sonnet 4.6以及Gemini 3 pro等模型之后,但已经超过GPT-5.2-chat-latest、Claude Sonnet 4.5(thinking版本)以及Gemini 3 Flash等模型,与头部模型形成贴身竞争。
从分项能力表现来看,Qwen3.5-Max-Preview在数学和文本任务上均进入前列。其数学能力进入全球前五,专家级文本能力进入前十。
从与前代模型Qwen3-Max与Qwen2.5-Max的对比数据来看,这一版本的提升在多个高频文本与推理场景中。
Qwen3.5-Max-Preview在创意写作任务上提升57分,数学能力提升49分,娱乐、体育与媒体类任务提升48分,整体文本能力提升45分,同时在写作、文学与语言相关任务中同样提升45分。整体能力呈现出较为均衡的提升。
从Qwen3-Max的参数规模推测,Qwen3.5-Max很可能是阿里当前参数规模最大的模型,且大概率仍为闭源旗舰模型。
今年以来,阿里已陆续开源发布Qwen3.5系列模型,覆盖从0.8B到397B不同规模,共8款不同尺寸,有较完整的开源梯度。其中,Qwen3.5-Plus采用约3970亿总参数、170亿激活参数的结构,在同尺寸模型中表现较为突出。
结语:第一轮成绩落地,Qwen3.5-Max等待正式版验证
模型层的突破正成为阿里AI转型的第一张王牌。
Qwen3.5-Max-Preview已经先给出了第一轮成绩单,但这一版本仍处于预览阶段。接下来,随着正式版本发布,其能力表现和稳定性是否进一步提升,是这款旗舰模型真正要回答的问题。