港大AIEL硬核测评:AI高阶推理(多模态/奥赛)领域,美国模型领跑,中国哪些模型跻身前列?

Sep 2025

Zhenhui (Jack) Jiang1, Yi Lu1 , Yifan Wu1, Haozhe Xu2, Zhengyu Wu1, Jiaxin Li1/ 蒋镇辉1,鲁艺1,吴轶凡1,徐昊哲2,武正昱1,李佳欣1
1HKU Business School, The University of Hong Kong, Hong Kong, 2 School of Management, Xi'an Jiaotong University, P. R. China.


摘要

2025年人工智能技术爆发式发展,大语言模型向“会思考”演进,但高阶推理能力短板凸显。香港大学经管学院人工智能评测实验室针对截至2025年8月的中美30余款大语言模型,开展多模态与奥赛推理能力测评。测评结果显示:多模态推理中,GPT系列强势领跑,豆包 1.5 Pro(思考模式)跻身全球前列;奥赛推理中,GPT-5(思考模式)和Gemini 2.5 Pro表现突出,处于领跑位置。相比之下,国产模型仍存短板。整体来看,美国模型在高阶推理领域整体领先,国产模型在多模态推理中取得突破,但复杂推理能力仍需提升。


查看大语言模型多模态推理能力完整排行榜


查看大语言模型奥赛推理能力完整排行榜