港大經管學院發佈中文語境下AI「最強大腦」評測 揭曉中美36款大語言模型推理能力排名

港大經管學院發表《大語言模型推理能力測評報告》,針對36 款主流大語言模型(LLM)進行了中文語境下推理能力的基準測試,全面揭示不同模型在推理性能上的差異。 報告顯示,GPT-o3在基礎邏輯能力評測上取得領先,Gemini 2.5 Flash在情境推理能力評測中位列榜首。 在綜合能力排名上,豆包1.5 Pro(思考模式)排名首位,Open AI近日推出的GPT-5緊隨其後,豆包1.5 Pro、通義千問3(思考模式),以及DeepSeek-R1在內的多款來自中國的LLM也均排入前列,展現了中國LLM在中文語境中優越的推理能力。

從OpenAI o1率先推出推理模型,到DeepSeek-R1因解題能力成為公眾焦點,大語言模型賽道在不斷演化,推理能力逐漸成為新的競技場。 有鑒於此,港大經管學院創新及資訊管理學教授兼夏利萊伉儷基金教授 (戰略信息管理學)蔣鎮輝率領人工智能評估實驗室(AIEL)(https://hkubs.hku.hk/aimodelrankings)研究人員,首次構建了涵蓋基礎邏輯與情境推理能力的綜合評測體系,通過不同難度的測試集,進行LLM在中文語境下的基準測試。 測試對象為中美兩國36款主流LLM,包括14款推理專用模型、20款通用模型和2款一體化系统。 評測結果顯示,基礎邏輯任務中,推理專用模型與通用模型差距較小; 在推理任务中,推理模型的優勢逐漸突顯。 另外,同一公司的模型對比結果亦顯示,推理模型在情境推理方面整體表現更優,印證了針對複雜任務設計的模型架構,具有更強的綜合競爭力。

蔣鎮輝教授表示:「大語言模型的推理能力與其文化和語言環境有千絲萬縷的關係。 現時,在大模型推理能力備受關注,我們希望能透過這套評測體系,找到中文語境中的『最強大腦』,推動各大模型持續提升自身的推理能力,進一步促進效率和成本,在更廣闊的應用場景中發揮價值。」

 

評測方法

本次評測中九成的題目為原創或經過深度改編,亦有一成選自中國內地中高考試卷題目及知名數據集,務求真實檢驗模型的自主推理能力。

題目複雜度上,簡易題目佔六成,複雜題目佔四成; 並採取邏輯複雜度逐級遞進的能力評測鏈條,以精準刻畫模型的推理能力邊界。

模型的推理能力則根據準確性(正確率或合理性)、邏輯連貫性與語言精煉性進行評分。

 

基礎邏輯能力排名

在基礎邏輯能力測評中,GPT-o3奪得冠軍,豆包1.5 Pro(思考模式)緊隨其後。部分模型如Llama 3.3 70B和360智腦2-o1則在基礎邏輯領域存在明顯不足之處,後者在多前提推導領域正確率不足六成。

排名模型名稱基礎邏輯能力

加權得分

1GPT-o397
2豆包1.5 Pro96
3豆包1.5 Pro(思考模式)95
4GPT-594
5DeepSeek-R192
6通義千問3(思考模式)90
7Gemini 2.5 Pro88
7GPT-o4 mini88
7混元-T188
7文心一言 X1-Turbo88
11GPT-4.187
11GPT-4o87
11通義千問387
14DeepSeek-V386
14Grok 3(思考模式)86
14日日新 V6推理86
17Claude 4 Opus85
17Claude 4 Opus (思考模式)85
19Gemini 2.5 Flash84
20日日新 V6 Pro83
21混元-TurboS81
22Baichuan4-Turbo80
22Grok 380
22Grok 480
22Yi- Lightning80
26MiniMax-0179
27Spark 4.0 Ultra77
27Step R1-V-Mini77
29GLM-4-plus76
29GLM-Z1-Air76
29Kimi76
32文心一言4.5-Turbo74
33Step 273
34Kimi-k1.572
35Llama 3.3 70B64
36360智腦2-o159

 

圖表1:基礎邏輯能力排名

 

情境推理能力排名

在情境推理能力排名中,Gemini 2.5 Flash在常識推理和學科推理等多個領域中的優越表現位居榜首;豆包1.5 Pro(思考模式)在常識推理領域表現優異,Gemini 2.5 Pro則在學科與決策推理上盡顯優勢,兩者並列次名。此外,Grok3(思考模式)以及GPT、文心一言、DeepSeek、混元,和通義千問系列模型均表現亮眼。

排名模型名稱常識推理學科推理不確定性下決策推理道德與倫理推理最終加權得分
1Gemini 2.5 Flash9893898792
2豆包1.5 Pro(思考模式)9792888791
2Gemini 2.5 Pro9394908791
4Grok 3(思考模式)9688898690
5GPT-58898888389
5混元-T19795848189
5通義千問3(思考模式)9689868589
5文心一言 X1-Turbo9885868689
9DeepSeek-R19493788287
9通義千問39779878687
9文心一言4.5-Turbo9676878787
12混元-TurboS9679838486
13豆包1.5 Pro9781867485
13GPT-4.19770878685
13GPT-o39095738085
13Grok 39769878685
13Grok 48287828785
17DeepSeek-V39581847784
19GPT-4o9865877882
19GPT-o4 mini9187727682
21Claude 4 Opus(思考模式)9684727181
21MiniMax-019669837581
21360智腦2-o19376817281
24Claude 4 Opus9585707080
24GLM-4-plus9371837380
24Step 29763827880
27Yi- Lightning9759827979
27Kimi9461798179
29Spark 4.0 Ultra9171757678
30日日新 V6 Pro8658847877
31GLM-Z1-Air9076736476
32Llama 3.3 70B8252838175
33日日新 V6推理9663687074
34Baichuan4-Turbo9148776971
35Step R1-V-Mini9680375166
36Kimi-k1.58479425866

 

圖表2:情境推理能力排名

 

綜合能力排名

在綜合能力排名上,參與評測的36個模型的表現差異顯著。豆包1.5 Pro(思考模式)以在基礎邏輯能力和情境推理能力上的綜合表現卓越,排名第一,GPT-5緊隨其後,GPT-o3和豆包1.5 Pro分列第三、第四。

排名模型名稱綜合得分
1豆包1.5 Pro(思考模式)93
2GPT-591.5
3GPT-o391
4豆包1.5 Pro90.5
5DeepSeek-R189.5
5Gemini 2.5 Pro89.5
5通義千問3(思考模式)89.5
8混元-T188.5
8文心一言 X1-Turbo88.5
10Gemini 2.5 flash88
10Grok 3(思考模式)88
12通義千問387
13GPT-4.186
14DeepSeek-V385
14GPT-o4 mini85
16GPT-4o84.5
17混元-TurboS83.5
18Claude 4 Opus (思考模式)83
19Claude 4 Opus82.5
19Grok 382.5
19Grok 482.5
22文心一言4.5-Turbo80.5
23MiniMax-0180
23日日新 V6 Pro80
23日日新 V6推理80
26Yi- Lightning79.5
27GLM-4-plus78
28Kimi77.5
28Spark 4.0 Ultra77.5
30Step 276.5
30GLM-Z1-Air76
32Baichuan4-Turbo75.5
33Step R1-V-Mini71.5
34360智腦2-o170
35Llama 3.3 70B69.5
36Kimi-k1.569

 

圖表3:綜合能力排名

 

按此瀏覽《大語言模型推理能力測評報告》排行榜

 

綜合以上排名,眾多來自中國的大語言模型表現亮眼,進步迅速,展現了中國大模型產業在中文語境中的特殊優勢和強大潛力。

Other Events
港大經管學院「未來領袖獎學金計劃」| 助力逾百名本地優秀學生拓展見聞
2025 | 學院成就
港大經管學院「未來領袖獎學金計劃」| 助力逾百名本地優秀學生拓展見聞
港大經管學院舉辦了第四屆「未來領袖獎學金計劃」(簡稱「計劃」)( Future Leader Scholarship Programme)頒獎典禮,對 104名本科生進行了表彰,助力他們拓展見聞,豐富經驗,提升競爭力,為未來的職業成功做好準備。
HKU x MetaEra: CryptoFi Forum 2025
2025 | 學院新聞
HKU x MetaEra: CryptoFi Forum 2025