港大经管学院最新测评:AI高阶推理能力,哪家最强?

港大经管学院最新测评:AI高阶推理能力,哪家最强?

港大经管学院今日发表《AI高阶推理能力测评报告》,针对选定的AI大语言模型(LLM)在中文语境下的高阶推理能力进行测评,以全面检视AI高阶推理能力的发展现状。

2025年以来,AI大语言模型从“能对话”向“会思考”快速演进。 然而在需要复杂推理能力的场景中,AI的推理能力参差不齐,包括对图片和文字等跨模态信息的整合分析能力,或面对非常规性复杂题目时的创新推理能力。 有鉴于此,港大经管学院创新及信息管理学教授兼夏利莱伉俪基金教授蒋镇辉率领人工智能评估实验室(AIELhttps://hkubs.hku.hk/aimodelrankings)研究人员,首次构建多模态推理和奥赛推理综合评测体系,以系统性、定量化的方式针对2025年人工智能技术的核心发展瓶颈——高阶推理能力,进行了全面深入的现状测评。 测评对象覆盖中美两国截止2025年10月中旬发布的共37款大语言模型(含14个推理模型、20个通用模型和3个一体化系统)。

测评结果显示:

  • 在“多模态推理”领域,GPT系列持续领先,以豆包1.5 Pro(思考模式)为首的顶尖国产模型,也已成功跻身全球第一梯队。
  • 在更高难度的“奥赛推理”领域,则由美国模型整体主导,其中GPT-5(思考模式)呈现断层优势,而Gemini 2.5 Pro则紧随其后。
  • 整体而言,此次测评体现了一个清晰的行业趋势:在高阶推理能力领域,“推理模型”表现优于“通用模型”,两者梯度差异明显。 这与人工智能产业的发展规律高度契合——行业正经历从追求“全场景通用能力覆盖”转向聚焦“专用场景突破与深度效能优化”,技术发展也在从“广度扩张”迈向“深度精耕”的新阶段。

蒋镇辉教授表示:“高阶推理能力对AI在教育、科研及商业决策等领域的应用拓展至关重要。 此研究旨在揭示高阶人工智能技术的发展现状,令行业能够精准定位技术瓶颈,加速通用人工智能在高要求领域的落地应用,最终推动AI从对话助手转型成为更加高级的智能伙伴。 ”

测评方法

该研究综合测评了大语言模型高阶推理能力的两个核心 ­– 多模态推理能力和奥赛推理能力。

  • 多模态推理能力是指模型在整合文本、图像、数据图表等多种信息形式进行跨模态关联分析与逻辑推导时展示的能力在教育场景中,它能帮助学生结合教材文本与图标理解科学原理; 在商业分析中,可助力从业者匹配市场文字描述与销售图表,预判消费趋势。 这种能力是AI应对复杂现实任务的“必备素养”。
  • 奥赛推理能力则通过国际数学奥林匹克(IMO)等权威赛事的高难度题目,检验模型在复杂逻辑结构、多步推导与创造性思维上的表现。 这类题目往往没有唯一解法,更考验AI跳出常规、寻找最优解的能力,是衡量其“深度智慧”的试金石。

多模态推理能力排名

根据测评结果,不同大语言模型在多模态推理能力上的表现有明显分层。 其中,GPT系列在85分以上区间的五个头部模型中占据四席,形成完整的顶尖能力链条。 豆包1.5 Pro(思考模式)是唯一进入前五的国产模型,其通用与思考模式差距极小,说明其多模态推理能力已普遍达国际顶尖水平。

从模型类型看,和通用模型相比,同公司的推理模型在复杂任务中展现出一定的优势。

排名模型名称多模态推理能力

准确率得分

1GPT-5(思考模式)91
2GPT-4.190
3GPT-o387
4豆包1.5 Pro(思考模式)85
4GPT-5(自动模式)85
6GPT-4o84
7Claude 4 Opus(思考模式)83
8豆包1.5 Pro82
8Grok 3(思考模式)82
10通义千问381
11Kimi-k1.580
11日日新 V6推理80
11Step R1-V-Mini(阶跃 R1-V-Mini)80
14Grok 479
14GPT-o4 mini79
14混元-T179
17GLM-4-plus(智谱-4-Plus)78
17通义千问3(思考模式)78
19Gemini 2.5 Flash77
19GLM-Z1-Air(智谱-Z1-Air)77
21Llama 3.3 70B76
22日日新 V6 Pro75
22Gemini 2.5 Pro75
23文心一言4.5-Turbo74
24Step 2(阶跃2)73
26混元-TurboS71
26Claude 4 Opus71
28Spark 4.0 Ultra(讯飞星火 4.0 Ultra)68
28MiniMax-0168
30Baichuan4-Turbo(百川4-Turbo)67
31Grok 366
32Kimi63

表 1:多模态推理能力排名

奥赛推理能力排名

根据评测结果,美国大语言模型在正确性、逻辑连贯性、方法创新性、奥赛推理能力上呈现“多维度领先”的特点。 GPT-5(思考模式)和Gemini 2.5 Pro断层领先,GPT-o3,Claude 4 Opus(思考模式)分列第三名及第四名; 国产模型中,通义千问3(思考模式)和Step R1_V_mini表现领先。总体来说,国产模型在复杂推理上仍有很大进步空间。

此外,对比同公司的通用与推理模型版本,我们发现思考模式下的模型在奥赛推理能力各维度的表现普遍更好。

排名模型名称正确性逻辑连贯性方法创新性奥赛推理能力

加权得分

1GPT-5(思考模式)48474448
2Gemini 2.5 Pro48393644
3GPT-o336423938
4Claude 4 Opus(思考模式)30363933
5Gemini 2.5 Flash35283132
5GPT-o4 mini32333332
7通义千问3(思考模式)29252828
7Step R1_V_mini26332228
9GLM_Z1_Air27312227
9日日新 V6推理27282227
11通义千问325311726
12文心一言4.5-Turbo25251924
13Grok 3(思考模式)21282523
14GPT-5(自动模式)22222822
14DeepSeek-V3(深度求索-V3)26142222
16Claude 4 Opus22173121
17豆包1.5 Pro(思考模式)22172220
17DeepSeek-R1(深度求索-R1)17252220
19Grok 320191719
19Grok 419172519
21文心一言 X1-Turbo17191417
21混元-T117171917
21混元-TurboS17171917
21Kimi-k1.517191117
25豆包1.5 Pro16171916
26GLM-4-plus(智谱-4-Plus)1217813
27GPT-4o1381912
27Spark 4.0 Ultra(讯飞星火 4.0 Ultra)13111412
29Baichuan4-Turbo(百川4-Turbo)8191111
29GPT-4.11181711
31Kimi614179
31Llama 3.3 70B71469
33Yi-Lightning(零一-Lightning)611148
33日日新 V6 Pro8868
35MiniMax-0151187
35Step26887
35360智脑2-o17687
Note: 所有分数均为四舍五入得分结果。

表 2:奥赛推理能力排名

按此阅读《AI高阶推理能力测评报告》全文

综合以上评估可知,在地域上,美国模型在多模态和奥赛推理中表现突出,暂时领先; 中国模型仍需在深层语境理解、复杂推理链或创造性解决问题上弥补差距。 此外,推理模型在高端推理能力领域的表现普遍优于通用模型。

展望未来,人工智能需在跨模态深度融合和极端复杂问题的创造性解决上持续实现核心突破。对于中国模型而言,其关键在于依托本土场景的独特优势,精准补齐高阶推理能力上的短板,从而推AI从“能用”向“真智慧”迈进,并应用于更广泛、更复杂的场景中。

图片

港大经管学院创新及信息管理学教授兼夏利莱伉俪基金教授蒋镇辉教授

按此下载高清图片。

Other Events
诺奖泰斗托马斯・J・萨金特教授莅临港大经管学院,解码AI与经济
2025 | 学院新闻
诺奖泰斗托马斯・J・萨金特教授莅临港大经管学院,解码AI与经济
港大经管学院成功举办 2025 年度杰出学者讲座,特邀诺贝尔经济学奖得主托马斯J萨金特(Thomas J. Sargent)教授担任主讲嘉宾。 这场备受瞩目的学术盛宴吸引了线上线下超过1300名观众报名,并有近10,000名观众在线观看直播。
知行共进: 2025年度可持续发展论坛于港大召开,探讨AI与气候治理新格局
2025 | 学院新闻
知行共进: 2025年度可持续发展论坛于港大召开,探讨AI与气候治理新格局
由港大经管学院创办、香港赛马会慈善信托基金捐助的香港大学赛马会环球企业可持续发展研究所主办的“2025年度可持续发展论坛”于11月14日圆满举行。