港大经管学院发布中文语境下AI“最强大脑”评测揭晓中美36款大语言模型推理能力排名

港大经管学院发表《大语言模型推理能力测评报告》，针对36 款主流大语言模型（LLM）进行了中文语境下推理能力的基准测试，全面揭示不同模型在推理性能上的差异。报告显示，GPT-o3在基础逻辑能力评测上取得领先，Gemini 2.5 Flash在情境推理能力评测中位列榜首。在综合能力排名上，豆包1.5 Pro（思考模式）排名首位，Open AI近日推出的GPT-5紧随其后，豆包1.5 Pro、通义千问3（思考模式），以及DeepSeek-R1在内的多款来自中国的LLM也均排入前列，展现了中国LLM在中文语境中优越的推理能力。

从OpenAI o1率先推出推理模型，到DeepSeek-R1因解题能力成为公众焦点，大语言模型赛道在不断演化，推理能力逐渐成为新的竞技场。有鉴于此，港大经管学院创新及资讯管理学教授兼夏利莱伉俪基金教授 （战略信息管理学）蒋镇辉率领人工智能评估实验室（AIEL）（https://hkubs.hku.hk/aimodelrankings）研究人员，首次构建了涵盖基础逻辑与情境推理能力的综合评测体系，通过不同难度的测试集，进行LLM在中文语境下的基准测试。测试对象为中美两国36款主流LLM，包括14款推理专用模型、20款通用模型和2款一体化系统。评测结果显示，基础逻辑任务中，推理专用模型与通用模型差距较小；在推理任务中，推理模型的优势逐渐突显。另外，同一公司的模型对比结果亦显示，推理模型在情境推理方面整体表现更优，印证了针对复杂任务设计的模型架构，具有更强的综合竞争力。

蒋镇辉教授表示：“大语言模型的推理能力与其文化和语言环境有千丝万缕的关系。现时，在大模型推理能力备受关注，我们希望能透过这套评测体系，找到中文语境中的‘最强大脑’，推动各大模型持续提升自身的推理能力，进一步促进效率和成本，在更广阔的应用场景中发挥价值。”

评测方法

本次评测中九成的题目为原创或经过深度改编，亦有一成选自中国内地中高考试卷题目及知名数据集，务求真实检验模型的自主推理能力。

题目复杂度上，简易题目占六成，复杂题目占四成；并采取逻辑复杂度逐级递进的能力评测链条，以精准刻画模型的推理能力边界。

模型的推理能力则根据准确性（正确率或合理性）、逻辑连贯性与语言精炼性进行评分。

基础逻辑能力排名

在基础逻辑能力测评中，GPT-o3夺得冠军，豆包1.5 Pro（思考模式）紧随其后。部分模型如Llama 3.3 70B和360智脑2-o1则在基础逻辑领域存在明显不足之处，后者在多前提推导领域正确率不足六成。

排名	模型名称	基础逻辑能力加权得分
1	GPT-o3	97
2	豆包1.5 Pro	96
3	豆包1.5 Pro（思考模式）	95
4	GPT-5	94
5	DeepSeek-R1	92
6	通义千问3（思考模式）	90
7	Gemini 2.5 Pro	88
7	GPT-o4 mini	88
7	混元-T1	88
7	文心一言 X1-Turbo	88
11	GPT-4.1	87
11	GPT-4o	87
11	通义千问3	87
14	DeepSeek-V3	86
14	Grok 3（思考模式）	86
14	日日新 V6推理	86
17	Claude 4 Opus	85
17	Claude 4 Opus （思考模式）	85
19	Gemini 2.5 Flash	84
20	日日新 V6 Pro	83
21	混元-TurboS	81
22	Baichuan4-Turbo	80
22	Grok 3	80
22	Grok 4	80
22	Yi- Lightning	80
26	MiniMax-01	79
27	Spark 4.0 Ultra	77
27	Step R1-V-Mini	77
29	GLM-4-plus	76
29	GLM-Z1-Air	76
29	Kimi	76
32	文心一言4.5-Turbo	74
33	Step 2	73
34	Kimi-k1.5	72
35	Llama 3.3 70B	64
36	360智脑2-o1	59

图表1：基础逻辑能力排名

情境推理能力排名

在情境推理能力排名中，Gemini 2.5 Flash在常识推理和学科推理等多个领域中的优越表现位居榜首；豆包1.5 Pro（思考模式）在常识推理领域表现优异，Gemini 2.5 Pro则在学科与决策推理上尽显优势，两者并列次名。此外，Grok3（思考模式）以及GPT、文心一言、DeepSeek、混元，和通义千问系列模型均表现亮眼。

排名	模型名称	常识推理	学科推理	不确定性下决策推理	道德与伦理推理	最终加权得分
1	Gemini 2.5 Flash	98	93	89	87	92
2	豆包1.5 Pro（思考模式）	97	92	88	87	91
2	Gemini 2.5 Pro	93	94	90	87	91
4	Grok 3（思考模式）	96	88	89	86	90
5	GPT-5	88	98	88	83	89
5	混元-T1	97	95	84	81	89
5	通义千问3（思考模式）	96	89	86	85	89
5	文心一言 X1-Turbo	98	85	86	86	89
9	DeepSeek-R1	94	93	78	82	87
9	通义千问3	97	79	87	86	87
9	文心一言4.5-Turbo	96	76	87	87	87
12	混元-TurboS	96	79	83	84	86
13	豆包1.5 Pro	97	81	86	74	85
13	GPT-4.1	97	70	87	86	85
13	GPT-o3	90	95	73	80	85
13	Grok 3	97	69	87	86	85
13	Grok 4	82	87	82	87	85
17	DeepSeek-V3	95	81	84	77	84
19	GPT-4o	98	65	87	78	82
19	GPT-o4 mini	91	87	72	76	82
21	Claude 4 Opus（思考模式）	96	84	72	71	81
21	MiniMax-01	96	69	83	75	81
21	360智脑2-o1	93	76	81	72	81
24	Claude 4 Opus	95	85	70	70	80
24	GLM-4-plus	93	71	83	73	80
24	Step 2	97	63	82	78	80
27	Yi- Lightning	97	59	82	79	79
27	Kimi	94	61	79	81	79
29	Spark 4.0 Ultra	91	71	75	76	78
30	日日新 V6 Pro	86	58	84	78	77
31	GLM-Z1-Air	90	76	73	64	76
32	Llama 3.3 70B	82	52	83	81	75
33	日日新 V6推理	96	63	68	70	74
34	Baichuan4-Turbo	91	48	77	69	71
35	Step R1-V-Mini	96	80	37	51	66
36	Kimi-k1.5	84	79	42	58	66

图表2：情境推理能力排名

综合能力排名

在综合能力排名上，参与评测的36个模型的表现差异显著。豆包1.5 Pro（思考模式）以在基础逻辑能力和情境推理能力上的综合表现卓越，排名第一，GPT-5紧随其后，GPT-o3和豆包1.5 Pro分列第三、第四。

排名	模型名称	综合得分
1	豆包1.5 Pro（思考模式）	93
2	GPT-5	91.5
3	GPT-o3	91
4	豆包1.5 Pro	90.5
5	DeepSeek-R1	89.5
5	Gemini 2.5 Pro	89.5
5	通义千问3（思考模式）	89.5
8	混元-T1	88.5
8	文心一言 X1-Turbo	88.5
10	Gemini 2.5 flash	88
10	Grok 3（思考模式）	88
12	通义千问3	87
13	GPT-4.1	86
14	DeepSeek-V3	85
14	GPT-o4 mini	85
16	GPT-4o	84.5
17	混元-TurboS	83.5
18	Claude 4 Opus （思考模式）	83
19	Claude 4 Opus	82.5
19	Grok 3	82.5
19	Grok 4	82.5
22	文心一言4.5-Turbo	80.5
23	MiniMax-01	80
23	日日新 V6 Pro	80
23	日日新 V6推理	80
26	Yi- Lightning	79.5
27	GLM-4-plus	78
28	Kimi	77.5
28	Spark 4.0 Ultra	77.5
30	Step 2	76.5
30	GLM-Z1-Air	76
32	Baichuan4-Turbo	75.5
33	Step R1-V-Mini	71.5
34	360智脑2-o1	70
35	Llama 3.3 70B	69.5
36	Kimi-k1.5	69

图表3：综合能力排名

请按此浏览《大语言模型推理能力测评报告》排行榜

综合以上排名，众多来自中国的大语言模型表现亮眼，进步迅速，展现了中国大模型产业在中文语境中的特殊优势和强大潜力。

学院消息

港大经管学院发布中文语境下AI“最强大脑”评测 揭晓中美36款大语言模型推理能力排名

港大经管学院发布中文语境下AI“最强大脑”评测揭晓中美36款大语言模型推理能力排名