Sep 2025
Zhenhui (Jack) Jiang1, Yi Lu1 , Yifan
Wu1, Haozhe Xu2, Zhengyu Wu1, Jiaxin
Li1/ 蒋镇辉1,鲁艺1,吴轶凡1,徐昊哲2,武正昱1,李佳欣1
1HKU Business School, The University of Hong Kong, Hong Kong,
2 School of Management, Xi'an Jiaotong University, P. R.
China.
摘要
2025年人工智能技术爆发式发展,大语言模型向“会思考”演进,但高阶推理能力短板凸显。香港大学经管学院人工智能评测实验室针对截至2025年8月的中美30余款大语言模型,开展多模态与奥赛推理能力测评。测评结果显示:多模态推理中,GPT系列强势领跑,豆包 1.5 Pro(思考模式)跻身全球前列;奥赛推理中,GPT-5(思考模式)和Gemini 2.5 Pro表现突出,处于领跑位置。相比之下,国产模型仍存短板。整体来看,美国模型在高阶推理领域整体领先,国产模型在多模态推理中取得突破,但复杂推理能力仍需提升。