【CNMO科技新闻】9月24日,于杭州揭幕的2025云栖年夜会上,阿里巴巴集团旗下通义千问重磅发布了旗舰级年夜模子Qwen3-Max。该模子于多项要害基准测试中体现卓着,综合机能公布跨越GPT-五、Claude Opus 4等国际顶尖模子,正式跻身全世界年夜模子前三阵营,标记着中国于年夜模子技能范畴取患上庞大冲破。
Qwen3-Max为通义千问家族中最年夜、最强的基础模子。该模子预练习数据量达36T tokens,总参数跨越万亿,拥有极强的Coding编程能力及Agent东西挪用能力。于年夜模子用Coding解决真实世界问题的SWE-Bench Verified测试中,Instruct版本斩获69.6分,位列全世界第一梯队;于聚焦Agent东西挪用能力的Tau2-Bench测试中,Qwen3-Max取患上冲破性的74.8分,跨越Claude Opus4及DeepSeek-V3.1。
Qwe乐鱼体育n3-Max-Instrurct测评分数
Qwen3-Max的推理加强版本Qwen3-Max-Thinking-Heavy也揭示出特殊机能,联合东西挪用及并行推理技能,其推理能力创下新高,特别于聚焦数学推理的AIME 25及HMMT测试中,均到达冲破性的满分100分,为海内初次。Qwen3-Max推理模子之以是可以或许取患上优秀成就,缘故原由于在年夜模子于解数学题时晓得调开工具,可以或许写代码做题,同时,增长测试时的计较资源,也让模子体现变患上更好。
Qwen3-Max-Thinking-Heavy 测评分数
年夜模子预练习道理Scaling Law(范围化规则)认为,连续地增加数据及参数范围,是通向 AGI 的可能路径之一。因为天然数据的数目有限,当前有部门学者认为预练习的Scaling Law行将迫近上限,而Qwen3-Max的机能冲破显示,继承增年夜数据、模子参数,依然能铸造出更强的模子,赐与了各人更多的决定信念。今朝,通义千问系列模子已经经实现从0.5B到超万亿的全尺寸笼罩,包罗三百多个年夜模子,可满意差别场景的需求。
本日起,用户可于通义千问QwenChat上免费体验Qwen3-Max,也可经由过程阿里云百炼平台挪用API办事。
版权所有,未经许可不患上转载
-乐鱼体育

