Aug 2025
Zhenhui (Jack) Jiang1, Yi Lu1 , Yifan
Wu1, Haozhe Xu2, Zhengyu Wu1, Jiaxin
Li1/ 蒋镇辉1,鲁艺1,吴轶凡1,徐昊哲2,武正昱1,李佳欣1
1HKU Business School, The University of Hong Kong, Hong Kong,
2 School of Management, Xi'an Jiaotong University, P. R.
China.
摘要
随着大语言模型(LLM)技术的快速迭代,推理能力作为衡量模型智能水平的核心指标,已成为学术界与产业界的研究焦点。现有关于LLM推理能力的评测多聚焦于特定任务(如数学推理、逻辑能力),缺乏覆盖多维推理场景的系统框架,难以全面反映模型在实际应用中的推理效能。
为应对上述挑战,本研究构建了一套系统、客观、公正的人工智能模型推理能力评价体系。我们在中文语境下针对纯文本推理的评测显示,GPT-o3在基础逻辑能力测评上以高分登顶,Gemini 2.5 Flash在情境推理能力测评中拔得头筹;在综合能力排名上,豆包1.5 Pro(思考模式)排名首位,Open Al近日推出的GPT-5(自动模式)紧随其后,豆包1.5 Pro、DeepSeek-R1、以及通义千问3(思考模式)在内的多款国产LLM也均排入前列,展现了国产LLM在中文语境中优越的推理能力。此外,对模型效率的进一步分析发现:多数推理能力优异的模型存在效率短板,而豆包 1.5 Pro不仅推理表现突出,且模型效率较高,堪称兼顾推理能力与运行效率的标杆。