研究摘要

港大AIEL硬核测评：AI高阶推理（多模态/奥赛）领域，美国模型领跑，中国哪些模型跻身前列？

Zhenhui (Jack) Jiang¹, Yi Lu¹ , Yifan Wu¹, Haozhe Xu², Zhengyu Wu¹, Jiaxin Li¹/ 蒋镇辉¹,鲁艺¹,吴轶凡¹,徐昊哲²,武正昱¹,李佳欣¹
¹HKU Business School, The University of Hong Kong, Hong Kong, ² School of Management, Xi'an Jiaotong University, P. R. China.

摘要

2025年人工智能技术爆发式发展，大语言模型向“会思考”演进，但高阶推理能力短板凸显。香港大学经管学院人工智能评测实验室针对截至2025年8月的中美30余款大语言模型，开展多模态与奥赛推理能力测评。测评结果显示：多模态推理中，GPT系列强势领跑，豆包 1.5 Pro（思考模式）跻身全球前列；奥赛推理中，GPT-5（思考模式）和Gemini 2.5 Pro表现突出，处于领跑位置。相比之下，国产模型仍存短板。整体来看，美国模型在高阶推理领域整体领先，国产模型在多模态推理中取得突破，但复杂推理能力仍需提升。

查看大语言模型多模态推理能力完整排行榜

The full report can be accessed HERE.
点击阅读报告全文

查看大语言模型奥赛推理能力完整排行榜

The full report can be accessed HERE.
点击阅读报告全文