港大經管學院發佈中文語境下AI「最強大腦」評測 揭曉中美36款大語言模型推理能力排名
港大經管學院發表《大語言模型推理能力測評報告》,針對36 款主流大語言模型(LLM)進行了中文語境下推理能力的基準測試,全面揭示不同模型在推理性能上的差異。 報告顯示,GPT-o3在基礎邏輯能力評測上取得領先,Gemini 2.5 Flash在情境推理能力評測中位列榜首。 在綜合能力排名上,豆包1.5 Pro(思考模式)排名首位,Open AI近日推出的GPT-5緊隨其後,豆包1.5 Pro、通義千問3(思考模式),以及DeepSeek-R1在內的多款來自中國的LLM也均排入前列,展現了中國LLM在中文語境中優越的推理能力。
從OpenAI o1率先推出推理模型,到DeepSeek-R1因解題能力成為公眾焦點,大語言模型賽道在不斷演化,推理能力逐漸成為新的競技場。 有鑒於此,港大經管學院創新及資訊管理學教授兼夏利萊伉儷基金教授 (戰略信息管理學)蔣鎮輝率領人工智能評估實驗室(AIEL)(https://hkubs.hku.hk/aimodelrankings)研究人員,首次構建了涵蓋基礎邏輯與情境推理能力的綜合評測體系,通過不同難度的測試集,進行LLM在中文語境下的基準測試。 測試對象為中美兩國36款主流LLM,包括14款推理專用模型、20款通用模型和2款一體化系统。 評測結果顯示,基礎邏輯任務中,推理專用模型與通用模型差距較小; 在推理任务中,推理模型的優勢逐漸突顯。 另外,同一公司的模型對比結果亦顯示,推理模型在情境推理方面整體表現更優,印證了針對複雜任務設計的模型架構,具有更強的綜合競爭力。
蔣鎮輝教授表示:「大語言模型的推理能力與其文化和語言環境有千絲萬縷的關係。 現時,在大模型推理能力備受關注,我們希望能透過這套評測體系,找到中文語境中的『最強大腦』,推動各大模型持續提升自身的推理能力,進一步促進效率和成本,在更廣闊的應用場景中發揮價值。」
本次評測中九成的題目為原創或經過深度改編,亦有一成選自中國內地中高考試卷題目及知名數據集,務求真實檢驗模型的自主推理能力。
題目複雜度上,簡易題目佔六成,複雜題目佔四成; 並採取邏輯複雜度逐級遞進的能力評測鏈條,以精準刻畫模型的推理能力邊界。
模型的推理能力則根據準確性(正確率或合理性)、邏輯連貫性與語言精煉性進行評分。
在基礎邏輯能力測評中,GPT-o3奪得冠軍,豆包1.5 Pro(思考模式)緊隨其後。部分模型如Llama 3.3 70B和360智腦2-o1則在基礎邏輯領域存在明顯不足之處,後者在多前提推導領域正確率不足六成。
排名 | 模型名稱 | 基礎邏輯能力 加權得分 |
1 | GPT-o3 | 97 |
2 | 豆包1.5 Pro | 96 |
3 | 豆包1.5 Pro(思考模式) | 95 |
4 | GPT-5 | 94 |
5 | DeepSeek-R1 | 92 |
6 | 通義千問3(思考模式) | 90 |
7 | Gemini 2.5 Pro | 88 |
7 | GPT-o4 mini | 88 |
7 | 混元-T1 | 88 |
7 | 文心一言 X1-Turbo | 88 |
11 | GPT-4.1 | 87 |
11 | GPT-4o | 87 |
11 | 通義千問3 | 87 |
14 | DeepSeek-V3 | 86 |
14 | Grok 3(思考模式) | 86 |
14 | 日日新 V6推理 | 86 |
17 | Claude 4 Opus | 85 |
17 | Claude 4 Opus (思考模式) | 85 |
19 | Gemini 2.5 Flash | 84 |
20 | 日日新 V6 Pro | 83 |
21 | 混元-TurboS | 81 |
22 | Baichuan4-Turbo | 80 |
22 | Grok 3 | 80 |
22 | Grok 4 | 80 |
22 | Yi- Lightning | 80 |
26 | MiniMax-01 | 79 |
27 | Spark 4.0 Ultra | 77 |
27 | Step R1-V-Mini | 77 |
29 | GLM-4-plus | 76 |
29 | GLM-Z1-Air | 76 |
29 | Kimi | 76 |
32 | 文心一言4.5-Turbo | 74 |
33 | Step 2 | 73 |
34 | Kimi-k1.5 | 72 |
35 | Llama 3.3 70B | 64 |
36 | 360智腦2-o1 | 59 |
圖表1:基礎邏輯能力排名
在情境推理能力排名中,Gemini 2.5 Flash在常識推理和學科推理等多個領域中的優越表現位居榜首;豆包1.5 Pro(思考模式)在常識推理領域表現優異,Gemini 2.5 Pro則在學科與決策推理上盡顯優勢,兩者並列次名。此外,Grok3(思考模式)以及GPT、文心一言、DeepSeek、混元,和通義千問系列模型均表現亮眼。
排名 | 模型名稱 | 常識推理 | 學科推理 | 不確定性下決策推理 | 道德與倫理推理 | 最終加權得分 |
1 | Gemini 2.5 Flash | 98 | 93 | 89 | 87 | 92 |
2 | 豆包1.5 Pro(思考模式) | 97 | 92 | 88 | 87 | 91 |
2 | Gemini 2.5 Pro | 93 | 94 | 90 | 87 | 91 |
4 | Grok 3(思考模式) | 96 | 88 | 89 | 86 | 90 |
5 | GPT-5 | 88 | 98 | 88 | 83 | 89 |
5 | 混元-T1 | 97 | 95 | 84 | 81 | 89 |
5 | 通義千問3(思考模式) | 96 | 89 | 86 | 85 | 89 |
5 | 文心一言 X1-Turbo | 98 | 85 | 86 | 86 | 89 |
9 | DeepSeek-R1 | 94 | 93 | 78 | 82 | 87 |
9 | 通義千問3 | 97 | 79 | 87 | 86 | 87 |
9 | 文心一言4.5-Turbo | 96 | 76 | 87 | 87 | 87 |
12 | 混元-TurboS | 96 | 79 | 83 | 84 | 86 |
13 | 豆包1.5 Pro | 97 | 81 | 86 | 74 | 85 |
13 | GPT-4.1 | 97 | 70 | 87 | 86 | 85 |
13 | GPT-o3 | 90 | 95 | 73 | 80 | 85 |
13 | Grok 3 | 97 | 69 | 87 | 86 | 85 |
13 | Grok 4 | 82 | 87 | 82 | 87 | 85 |
17 | DeepSeek-V3 | 95 | 81 | 84 | 77 | 84 |
19 | GPT-4o | 98 | 65 | 87 | 78 | 82 |
19 | GPT-o4 mini | 91 | 87 | 72 | 76 | 82 |
21 | Claude 4 Opus(思考模式) | 96 | 84 | 72 | 71 | 81 |
21 | MiniMax-01 | 96 | 69 | 83 | 75 | 81 |
21 | 360智腦2-o1 | 93 | 76 | 81 | 72 | 81 |
24 | Claude 4 Opus | 95 | 85 | 70 | 70 | 80 |
24 | GLM-4-plus | 93 | 71 | 83 | 73 | 80 |
24 | Step 2 | 97 | 63 | 82 | 78 | 80 |
27 | Yi- Lightning | 97 | 59 | 82 | 79 | 79 |
27 | Kimi | 94 | 61 | 79 | 81 | 79 |
29 | Spark 4.0 Ultra | 91 | 71 | 75 | 76 | 78 |
30 | 日日新 V6 Pro | 86 | 58 | 84 | 78 | 77 |
31 | GLM-Z1-Air | 90 | 76 | 73 | 64 | 76 |
32 | Llama 3.3 70B | 82 | 52 | 83 | 81 | 75 |
33 | 日日新 V6推理 | 96 | 63 | 68 | 70 | 74 |
34 | Baichuan4-Turbo | 91 | 48 | 77 | 69 | 71 |
35 | Step R1-V-Mini | 96 | 80 | 37 | 51 | 66 |
36 | Kimi-k1.5 | 84 | 79 | 42 | 58 | 66 |
圖表2:情境推理能力排名
在綜合能力排名上,參與評測的36個模型的表現差異顯著。豆包1.5 Pro(思考模式)以在基礎邏輯能力和情境推理能力上的綜合表現卓越,排名第一,GPT-5緊隨其後,GPT-o3和豆包1.5 Pro分列第三、第四。
排名 | 模型名稱 | 綜合得分 |
1 | 豆包1.5 Pro(思考模式) | 93 |
2 | GPT-5 | 91.5 |
3 | GPT-o3 | 91 |
4 | 豆包1.5 Pro | 90.5 |
5 | DeepSeek-R1 | 89.5 |
5 | Gemini 2.5 Pro | 89.5 |
5 | 通義千問3(思考模式) | 89.5 |
8 | 混元-T1 | 88.5 |
8 | 文心一言 X1-Turbo | 88.5 |
10 | Gemini 2.5 flash | 88 |
10 | Grok 3(思考模式) | 88 |
12 | 通義千問3 | 87 |
13 | GPT-4.1 | 86 |
14 | DeepSeek-V3 | 85 |
14 | GPT-o4 mini | 85 |
16 | GPT-4o | 84.5 |
17 | 混元-TurboS | 83.5 |
18 | Claude 4 Opus (思考模式) | 83 |
19 | Claude 4 Opus | 82.5 |
19 | Grok 3 | 82.5 |
19 | Grok 4 | 82.5 |
22 | 文心一言4.5-Turbo | 80.5 |
23 | MiniMax-01 | 80 |
23 | 日日新 V6 Pro | 80 |
23 | 日日新 V6推理 | 80 |
26 | Yi- Lightning | 79.5 |
27 | GLM-4-plus | 78 |
28 | Kimi | 77.5 |
28 | Spark 4.0 Ultra | 77.5 |
30 | Step 2 | 76.5 |
30 | GLM-Z1-Air | 76 |
32 | Baichuan4-Turbo | 75.5 |
33 | Step R1-V-Mini | 71.5 |
34 | 360智腦2-o1 | 70 |
35 | Llama 3.3 70B | 69.5 |
36 | Kimi-k1.5 | 69 |
圖表3:綜合能力排名
請按此瀏覽《大語言模型推理能力測評報告》排行榜
綜合以上排名,眾多來自中國的大語言模型表現亮眼,進步迅速,展現了中國大模型產業在中文語境中的特殊優勢和強大潛力。