港大经管学院发布中文语境下AI“最强大脑”评测 揭晓中美36款大语言模型推理能力排名
港大经管学院发表《大语言模型推理能力测评报告》,针对36 款主流大语言模型(LLM)进行了中文语境下推理能力的基准测试,全面揭示不同模型在推理性能上的差异。 报告显示,GPT-o3在基础逻辑能力评测上取得领先,Gemini 2.5 Flash在情境推理能力评测中位列榜首。 在综合能力排名上,豆包1.5 Pro(思考模式)排名首位,Open AI近日推出的GPT-5紧随其后,豆包1.5 Pro、通义千问3(思考模式),以及DeepSeek-R1在内的多款来自中国的LLM也均排入前列,展现了中国LLM在中文语境中优越的推理能力。
从OpenAI o1率先推出推理模型,到DeepSeek-R1因解题能力成为公众焦点,大语言模型赛道在不断演化,推理能力逐渐成为新的竞技场。 有鉴于此,港大经管学院创新及资讯管理学教授兼夏利莱伉俪基金教授 (战略信息管理学)蒋镇辉率领人工智能评估实验室(AIEL)(https://hkubs.hku.hk/aimodelrankings)研究人员,首次构建了涵盖基础逻辑与情境推理能力的综合评测体系,通过不同难度的测试集,进行LLM在中文语境下的基准测试。 测试对象为中美两国36款主流LLM,包括14款推理专用模型、20款通用模型和2款一体化系统。 评测结果显示,基础逻辑任务中,推理专用模型与通用模型差距较小; 在推理任务中,推理模型的优势逐渐突显。 另外,同一公司的模型对比结果亦显示,推理模型在情境推理方面整体表现更优,印证了针对复杂任务设计的模型架构,具有更强的综合竞争力。
蒋镇辉教授表示:“大语言模型的推理能力与其文化和语言环境有千丝万缕的关系。 现时,在大模型推理能力备受关注,我们希望能透过这套评测体系,找到中文语境中的‘最强大脑’,推动各大模型持续提升自身的推理能力,进一步促进效率和成本,在更广阔的应用场景中发挥价值。”
本次评测中九成的题目为原创或经过深度改编,亦有一成选自中国内地中高考试卷题目及知名数据集,务求真实检验模型的自主推理能力。
题目复杂度上,简易题目占六成,复杂题目占四成; 并采取逻辑复杂度逐级递进的能力评测链条,以精准刻画模型的推理能力边界。
模型的推理能力则根据准确性(正确率或合理性)、逻辑连贯性与语言精炼性进行评分。
在基础逻辑能力测评中,GPT-o3夺得冠军,豆包1.5 Pro(思考模式)紧随其后。部分模型如Llama 3.3 70B和360智脑2-o1则在基础逻辑领域存在明显不足之处,后者在多前提推导领域正确率不足六成。
排名 | 模型名称 | 基础逻辑能力 加权得分 |
1 | GPT-o3 | 97 |
2 | 豆包1.5 Pro | 96 |
3 | 豆包1.5 Pro(思考模式) | 95 |
4 | GPT-5 | 94 |
5 | DeepSeek-R1 | 92 |
6 | 通义千问3(思考模式) | 90 |
7 | Gemini 2.5 Pro | 88 |
7 | GPT-o4 mini | 88 |
7 | 混元-T1 | 88 |
7 | 文心一言 X1-Turbo | 88 |
11 | GPT-4.1 | 87 |
11 | GPT-4o | 87 |
11 | 通义千问3 | 87 |
14 | DeepSeek-V3 | 86 |
14 | Grok 3(思考模式) | 86 |
14 | 日日新 V6推理 | 86 |
17 | Claude 4 Opus | 85 |
17 | Claude 4 Opus (思考模式) | 85 |
19 | Gemini 2.5 Flash | 84 |
20 | 日日新 V6 Pro | 83 |
21 | 混元-TurboS | 81 |
22 | Baichuan4-Turbo | 80 |
22 | Grok 3 | 80 |
22 | Grok 4 | 80 |
22 | Yi- Lightning | 80 |
26 | MiniMax-01 | 79 |
27 | Spark 4.0 Ultra | 77 |
27 | Step R1-V-Mini | 77 |
29 | GLM-4-plus | 76 |
29 | GLM-Z1-Air | 76 |
29 | Kimi | 76 |
32 | 文心一言4.5-Turbo | 74 |
33 | Step 2 | 73 |
34 | Kimi-k1.5 | 72 |
35 | Llama 3.3 70B | 64 |
36 | 360智脑2-o1 | 59 |
图表1:基础逻辑能力排名
在情境推理能力排名中,Gemini 2.5 Flash在常识推理和学科推理等多个领域中的优越表现位居榜首;豆包1.5 Pro(思考模式)在常识推理领域表现优异,Gemini 2.5 Pro则在学科与决策推理上尽显优势,两者并列次名。此外,Grok3(思考模式)以及GPT、文心一言、DeepSeek、混元,和通义千问系列模型均表现亮眼。
排名 | 模型名称 | 常识推理 | 学科推理 | 不确定性下决策推理 | 道德与伦理推理 | 最终加权得分 |
1 | Gemini 2.5 Flash | 98 | 93 | 89 | 87 | 92 |
2 | 豆包1.5 Pro(思考模式) | 97 | 92 | 88 | 87 | 91 |
2 | Gemini 2.5 Pro | 93 | 94 | 90 | 87 | 91 |
4 | Grok 3(思考模式) | 96 | 88 | 89 | 86 | 90 |
5 | GPT-5 | 88 | 98 | 88 | 83 | 89 |
5 | 混元-T1 | 97 | 95 | 84 | 81 | 89 |
5 | 通义千问3(思考模式) | 96 | 89 | 86 | 85 | 89 |
5 | 文心一言 X1-Turbo | 98 | 85 | 86 | 86 | 89 |
9 | DeepSeek-R1 | 94 | 93 | 78 | 82 | 87 |
9 | 通义千问3 | 97 | 79 | 87 | 86 | 87 |
9 | 文心一言4.5-Turbo | 96 | 76 | 87 | 87 | 87 |
12 | 混元-TurboS | 96 | 79 | 83 | 84 | 86 |
13 | 豆包1.5 Pro | 97 | 81 | 86 | 74 | 85 |
13 | GPT-4.1 | 97 | 70 | 87 | 86 | 85 |
13 | GPT-o3 | 90 | 95 | 73 | 80 | 85 |
13 | Grok 3 | 97 | 69 | 87 | 86 | 85 |
13 | Grok 4 | 82 | 87 | 82 | 87 | 85 |
17 | DeepSeek-V3 | 95 | 81 | 84 | 77 | 84 |
19 | GPT-4o | 98 | 65 | 87 | 78 | 82 |
19 | GPT-o4 mini | 91 | 87 | 72 | 76 | 82 |
21 | Claude 4 Opus(思考模式) | 96 | 84 | 72 | 71 | 81 |
21 | MiniMax-01 | 96 | 69 | 83 | 75 | 81 |
21 | 360智脑2-o1 | 93 | 76 | 81 | 72 | 81 |
24 | Claude 4 Opus | 95 | 85 | 70 | 70 | 80 |
24 | GLM-4-plus | 93 | 71 | 83 | 73 | 80 |
24 | Step 2 | 97 | 63 | 82 | 78 | 80 |
27 | Yi- Lightning | 97 | 59 | 82 | 79 | 79 |
27 | Kimi | 94 | 61 | 79 | 81 | 79 |
29 | Spark 4.0 Ultra | 91 | 71 | 75 | 76 | 78 |
30 | 日日新 V6 Pro | 86 | 58 | 84 | 78 | 77 |
31 | GLM-Z1-Air | 90 | 76 | 73 | 64 | 76 |
32 | Llama 3.3 70B | 82 | 52 | 83 | 81 | 75 |
33 | 日日新 V6推理 | 96 | 63 | 68 | 70 | 74 |
34 | Baichuan4-Turbo | 91 | 48 | 77 | 69 | 71 |
35 | Step R1-V-Mini | 96 | 80 | 37 | 51 | 66 |
36 | Kimi-k1.5 | 84 | 79 | 42 | 58 | 66 |
图表2:情境推理能力排名
在综合能力排名上,参与评测的36个模型的表现差异显著。豆包1.5 Pro(思考模式)以在基础逻辑能力和情境推理能力上的综合表现卓越,排名第一,GPT-5紧随其后,GPT-o3和豆包1.5 Pro分列第三、第四。
排名 | 模型名称 | 综合得分 |
1 | 豆包1.5 Pro(思考模式) | 93 |
2 | GPT-5 | 91.5 |
3 | GPT-o3 | 91 |
4 | 豆包1.5 Pro | 90.5 |
5 | DeepSeek-R1 | 89.5 |
5 | Gemini 2.5 Pro | 89.5 |
5 | 通义千问3(思考模式) | 89.5 |
8 | 混元-T1 | 88.5 |
8 | 文心一言 X1-Turbo | 88.5 |
10 | Gemini 2.5 flash | 88 |
10 | Grok 3(思考模式) | 88 |
12 | 通义千问3 | 87 |
13 | GPT-4.1 | 86 |
14 | DeepSeek-V3 | 85 |
14 | GPT-o4 mini | 85 |
16 | GPT-4o | 84.5 |
17 | 混元-TurboS | 83.5 |
18 | Claude 4 Opus (思考模式) | 83 |
19 | Claude 4 Opus | 82.5 |
19 | Grok 3 | 82.5 |
19 | Grok 4 | 82.5 |
22 | 文心一言4.5-Turbo | 80.5 |
23 | MiniMax-01 | 80 |
23 | 日日新 V6 Pro | 80 |
23 | 日日新 V6推理 | 80 |
26 | Yi- Lightning | 79.5 |
27 | GLM-4-plus | 78 |
28 | Kimi | 77.5 |
28 | Spark 4.0 Ultra | 77.5 |
30 | Step 2 | 76.5 |
30 | GLM-Z1-Air | 76 |
32 | Baichuan4-Turbo | 75.5 |
33 | Step R1-V-Mini | 71.5 |
34 | 360智脑2-o1 | 70 |
35 | Llama 3.3 70B | 69.5 |
36 | Kimi-k1.5 | 69 |
图表3:综合能力排名
请按此浏览《大语言模型推理能力测评报告》排行榜
综合以上排名,众多来自中国的大语言模型表现亮眼,进步迅速,展现了中国大模型产业在中文语境中的特殊优势和强大潜力。