SuperCLUE年榜出炉:海外闭源领跑,国产在单项任务“抢第一”

B.news
2026-02-06 09:14:26
SuperCLUE于近日发布《2025年度中文大模型基准测评报告》,前三仍被海外闭源模型包揽;但国产模型在代码与数学推理等任务上已经开始拿到“第一名的成绩单”。

SuperCLUE近日发布的《2025年度中文大模型基准测评报告》显示,本次共有23个国内外大模型参与,覆盖数学推理、科学推理、代码生成等六大维度。该报告同时给出综合评分与分项成绩,用于对比不同模型在中文场景下的能力结构。

SuperCLUE年榜出炉:海外闭源领跑,国产在单项任务“抢第一” 

(图片来源:SuperCLUE)

在综合榜单上,海外闭源模型仍稳居第一梯队。Anthropic 的 Claude-Opus-4.5-Reasoning 以 68.25分排名第一,Google 的 Gemini-3-Pro-Preview 以 65.59分位列第二,OpenAI 的 GPT-5.2(high) 以 64.32分排在第三。

SuperCLUE年榜出炉:海外闭源领跑,国产在单项任务“抢第一”(图片来源:SuperCLUE)

更吸引讨论的部分来自“分项冠军”。转述信息显示,开源模型 Kimi-K2.5-Thinking 在代码生成任务以 53.33分拿到第一闭源模型 Qwen3-Max-Thinking 在数学推理任务与 Gemini-3-Pro-Preview 并列第一,成绩为 80.87分。

 SuperCLUE年榜出炉:海外闭源领跑,国产在单项任务“抢第一”

(图片来源:SuperCLUE)

在综合名次上,国产模型同样出现了更靠前的站位。媒体转述称,Kimi-K2.5-Thinking 综合得分 61.50分排名第四,Qwen3-Max-Thinking 综合得分 60.61分进入前列(第六名)。这些数字意味着“追分”不再只体现在总分差距缩小,而是开始落在更具体的任务表现上。

从榜单呈现出来的结构看:综合能力上,海外闭源仍有明显优势;但在更贴近落地的分项任务里,国产模型已经能在高频场景里拿到单项第一或并列第一。国产开源在Top序列的存在感更强,形成了“综合强者仍在,但开源追赶更凶”的对照。

这类测评的价值,往往体现在“给选型提供线索”。很多团队并不会只按“总分最高”来决定用谁,而是先看自己的刚需:写代码、做数学推理、做结构化分析、做特定工具链集成,再去比对对应能力是否稳定。分项冠军出现国产模型名字,至少意味着它们更可能进入同一张评估表。

SuperCLUE方面也在官方介绍中强调,其目标是为中文通用大模型提供可对比的测评基准,并持续更新榜单与任务体系。其页面也提到评测体系包含OPEN多轮开放式、OPT客观题等组成,用于从不同角度刻画模型能力。对外界而言,这意味着榜单更适合作为“能力雷达”,而非一次性定论。

这份年榜放到更长的时间轴上,它释放的信号也更偏“趋势”:海外闭源仍守住综合优势,国产模型则在代码、数学推理等硬任务上把差距压到更可见的范围。接下来更关键的,将是这些分项优势能否沉淀为稳定的工程体验、可控的成本与持续的生态供给。

Source:SuperCLUE cluebenchmarks.com

编辑:Vivian