2025 | 研究
港大經管學院發表《大語言模型推理能力測評報告》,針對36 款主流大語言模型(LLM)進行了中文語境下推理能力的基準測試,全面揭示不同模型在推理性能上的差異。 報告顯示,GPT-o3在基礎邏輯能力評測上取得領先,Gemini 2.5 Flash在情境推理能力評測中位列榜首。 在綜合能力排名上,豆包1.5 Pro(思考模式)排名首位,Open AI近日推出的GPT-5緊隨其後,豆包1.5 Pro、通義千問3(思考模式),以及DeepSeek-R1在內的多款來自中國的LLM也均排入前列,展現了中國LLM在中文語境中優越的推理能力。














