港大经管学院发布中文语境下AI“最强大脑”评测 揭晓中美36款大语言模型推理能力排名

港大经管学院发表《大语言模型推理能力测评报告》,针对36 款主流大语言模型(LLM)进行了中文语境下推理能力的基准测试,全面揭示不同模型在推理性能上的差异。 报告显示,GPT-o3在基础逻辑能力评测上取得领先,Gemini 2.5 Flash在情境推理能力评测中位列榜首。 在综合能力排名上,豆包1.5 Pro(思考模式)排名首位,Open AI近日推出的GPT-5紧随其后,豆包1.5 Pro、通义千问3(思考模式),以及DeepSeek-R1在内的多款来自中国的LLM也均排入前列,展现了中国LLM在中文语境中优越的推理能力。

从OpenAI o1率先推出推理模型,到DeepSeek-R1因解题能力成为公众焦点,大语言模型赛道在不断演化,推理能力逐渐成为新的竞技场。 有鉴于此,港大经管学院创新及资讯管理学教授兼夏利莱伉俪基金教授 (战略信息管理学)蒋镇辉率领人工智能评估实验室(AIEL)(https://hkubs.hku.hk/aimodelrankings)研究人员,首次构建了涵盖基础逻辑与情境推理能力的综合评测体系,通过不同难度的测试集,进行LLM在中文语境下的基准测试。 测试对象为中美两国36款主流LLM,包括14款推理专用模型、20款通用模型和2款一体化系统。 评测结果显示,基础逻辑任务中,推理专用模型与通用模型差距较小; 在推理任务中,推理模型的优势逐渐突显。 另外,同一公司的模型对比结果亦显示,推理模型在情境推理方面整体表现更优,印证了针对复杂任务设计的模型架构,具有更强的综合竞争力。

蒋镇辉教授表示:“大语言模型的推理能力与其文化和语言环境有千丝万缕的关系。 现时,在大模型推理能力备受关注,我们希望能透过这套评测体系,找到中文语境中的‘最强大脑’,推动各大模型持续提升自身的推理能力,进一步促进效率和成本,在更广阔的应用场景中发挥价值。”

 

评测方法

本次评测中九成的题目为原创或经过深度改编,亦有一成选自中国内地中高考试卷题目及知名数据集,务求真实检验模型的自主推理能力。

题目复杂度上,简易题目占六成,复杂题目占四成; 并采取逻辑复杂度逐级递进的能力评测链条,以精准刻画模型的推理能力边界。

模型的推理能力则根据准确性(正确率或合理性)、逻辑连贯性与语言精炼性进行评分。

 

基础逻辑能力排名

在基础逻辑能力测评中,GPT-o3夺得冠军,豆包1.5 Pro(思考模式)紧随其后。部分模型如Llama 3.3 70B和360智脑2-o1则在基础逻辑领域存在明显不足之处,后者在多前提推导领域正确率不足六成。

排名模型名称基础逻辑能力

加权得分

1GPT-o397
2豆包1.5 Pro96
3豆包1.5 Pro(思考模式)95
4GPT-594
5DeepSeek-R192
6通义千问3(思考模式)90
7Gemini 2.5 Pro88
7GPT-o4 mini88
7混元-T188
7文心一言 X1-Turbo88
11GPT-4.187
11GPT-4o87
11通义千问387
14DeepSeek-V386
14Grok 3(思考模式)86
14日日新 V6推理86
17Claude 4 Opus85
17Claude 4 Opus (思考模式)85
19Gemini 2.5 Flash84
20日日新 V6 Pro83
21混元-TurboS81
22Baichuan4-Turbo80
22Grok 380
22Grok 480
22Yi- Lightning80
26MiniMax-0179
27Spark 4.0 Ultra77
27Step R1-V-Mini77
29GLM-4-plus76
29GLM-Z1-Air76
29Kimi76
32文心一言4.5-Turbo74
33Step 273
34Kimi-k1.572
35Llama 3.3 70B64
36360智脑2-o159

 

图表1:基础逻辑能力排名

 

情境推理能力排名

在情境推理能力排名中,Gemini 2.5 Flash在常识推理和学科推理等多个领域中的优越表现位居榜首;豆包1.5 Pro(思考模式)在常识推理领域表现优异,Gemini 2.5 Pro则在学科与决策推理上尽显优势,两者并列次名。此外,Grok3(思考模式)以及GPT、文心一言、DeepSeek、混元,和通义千问系列模型均表现亮眼。

排名模型名称常识推理学科推理不确定性下决策推理道德与伦理推理最终加权得分
1Gemini 2.5 Flash9893898792
2豆包1.5 Pro(思考模式)9792888791
2Gemini 2.5 Pro9394908791
4Grok 3(思考模式)9688898690
5GPT-58898888389
5混元-T19795848189
5通义千问3(思考模式)9689868589
5文心一言 X1-Turbo9885868689
9DeepSeek-R19493788287
9通义千问39779878687
9文心一言4.5-Turbo9676878787
12混元-TurboS9679838486
13豆包1.5 Pro9781867485
13GPT-4.19770878685
13GPT-o39095738085
13Grok 39769878685
13Grok 48287828785
17DeepSeek-V39581847784
19GPT-4o9865877882
19GPT-o4 mini9187727682
21Claude 4 Opus(思考模式)9684727181
21MiniMax-019669837581
21360智脑2-o19376817281
24Claude 4 Opus9585707080
24GLM-4-plus9371837380
24Step 29763827880
27Yi- Lightning9759827979
27Kimi9461798179
29Spark 4.0 Ultra9171757678
30日日新 V6 Pro8658847877
31GLM-Z1-Air9076736476
32Llama 3.3 70B8252838175
33日日新 V6推理9663687074
34Baichuan4-Turbo9148776971
35Step R1-V-Mini9680375166
36Kimi-k1.58479425866

 

图表2:情境推理能力排名

 

综合能力排名

在综合能力排名上,参与评测的36个模型的表现差异显著。豆包1.5 Pro(思考模式)以在基础逻辑能力和情境推理能力上的综合表现卓越,排名第一,GPT-5紧随其后,GPT-o3和豆包1.5 Pro分列第三、第四。

排名模型名称综合得分
1豆包1.5 Pro(思考模式)93
2GPT-591.5
3GPT-o391
4豆包1.5 Pro90.5
5DeepSeek-R189.5
5Gemini 2.5 Pro89.5
5通义千问3(思考模式)89.5
8混元-T188.5
8文心一言 X1-Turbo88.5
10Gemini 2.5 flash88
10Grok 3(思考模式)88
12通义千问387
13GPT-4.186
14DeepSeek-V385
14GPT-o4 mini85
16GPT-4o84.5
17混元-TurboS83.5
18Claude 4 Opus (思考模式)83
19Claude 4 Opus82.5
19Grok 382.5
19Grok 482.5
22文心一言4.5-Turbo80.5
23MiniMax-0180
23日日新 V6 Pro80
23日日新 V6推理80
26Yi- Lightning79.5
27GLM-4-plus78
28Kimi77.5
28Spark 4.0 Ultra77.5
30Step 276.5
30GLM-Z1-Air76
32Baichuan4-Turbo75.5
33Step R1-V-Mini71.5
34360智脑2-o170
35Llama 3.3 70B69.5
36Kimi-k1.569

 

图表3:综合能力排名

 

按此浏览《大语言模型推理能力测评报告》排行榜

 

综合以上排名,众多来自中国的大语言模型表现亮眼,进步迅速,展现了中国大模型产业在中文语境中的特殊优势和强大潜力。

Other Events
Professor Jingcun Cao Awarded the Faculty Knowledge Exchange Award 2025
2025 | 学院成就
Professor Jingcun Cao Awarded the Faculty Knowledge Exchange Award 2025
Congratulations to Professor Jingcun Cao on being awarded the Faculty Knowledge Exchange Award 2025!