2025 | 研究
港大经管学院发表《大语言模型推理能力测评报告》,针对36 款主流大语言模型(LLM)进行了中文语境下推理能力的基准测试,全面揭示不同模型在推理性能上的差异。 报告显示,GPT-o3在基础逻辑能力评测上取得领先,Gemini 2.5 Flash在情境推理能力评测中位列榜首。 在综合能力排名上,豆包1.5 Pro(思考模式)排名首位,Open AI近日推出的GPT-5紧随其后,豆包1.5 Pro、通义千问3(思考模式),以及DeepSeek-R1在内的多款来自中国的LLM也均排入前列,展现了中国LLM在中文语境中优越的推理能力。











