港大經管學院發佈中文語境下AI「最強大腦」評測揭曉中美36款大語言模型推理能力排名

港大經管學院發表《大語言模型推理能力測評報告》，針對36 款主流大語言模型（LLM）進行了中文語境下推理能力的基準測試，全面揭示不同模型在推理性能上的差異。報告顯示，GPT-o3在基礎邏輯能力評測上取得領先，Gemini 2.5 Flash在情境推理能力評測中位列榜首。在綜合能力排名上，豆包1.5 Pro（思考模式）排名首位，Open AI近日推出的GPT-5緊隨其後，豆包1.5 Pro、通義千問3（思考模式），以及DeepSeek-R1在內的多款來自中國的LLM也均排入前列，展現了中國LLM在中文語境中優越的推理能力。

從OpenAI o1率先推出推理模型，到DeepSeek-R1因解題能力成為公眾焦點，大語言模型賽道在不斷演化，推理能力逐漸成為新的競技場。有鑒於此，港大經管學院創新及資訊管理學教授兼夏利萊伉儷基金教授 （戰略信息管理學）蔣鎮輝率領人工智能評估實驗室（AIEL）（https://hkubs.hku.hk/aimodelrankings）研究人員，首次構建了涵蓋基礎邏輯與情境推理能力的綜合評測體系，通過不同難度的測試集，進行LLM在中文語境下的基準測試。測試對象為中美兩國36款主流LLM，包括14款推理專用模型、20款通用模型和2款一體化系统。評測結果顯示，基礎邏輯任務中，推理專用模型與通用模型差距較小；在推理任务中，推理模型的優勢逐漸突顯。另外，同一公司的模型對比結果亦顯示，推理模型在情境推理方面整體表現更優，印證了針對複雜任務設計的模型架構，具有更強的綜合競爭力。

蔣鎮輝教授表示：「大語言模型的推理能力與其文化和語言環境有千絲萬縷的關係。現時，在大模型推理能力備受關注，我們希望能透過這套評測體系，找到中文語境中的『最強大腦』，推動各大模型持續提升自身的推理能力，進一步促進效率和成本，在更廣闊的應用場景中發揮價值。」

評測方法

本次評測中九成的題目為原創或經過深度改編，亦有一成選自中國內地中高考試卷題目及知名數據集，務求真實檢驗模型的自主推理能力。

題目複雜度上，簡易題目佔六成，複雜題目佔四成；並採取邏輯複雜度逐級遞進的能力評測鏈條，以精準刻畫模型的推理能力邊界。

模型的推理能力則根據準確性（正確率或合理性）、邏輯連貫性與語言精煉性進行評分。

基礎邏輯能力排名

在基礎邏輯能力測評中，GPT-o3奪得冠軍，豆包1.5 Pro（思考模式）緊隨其後。部分模型如Llama 3.3 70B和360智腦2-o1則在基礎邏輯領域存在明顯不足之處，後者在多前提推導領域正確率不足六成。

排名	模型名稱	基礎邏輯能力加權得分
1	GPT-o3	97
2	豆包1.5 Pro	96
3	豆包1.5 Pro（思考模式）	95
4	GPT-5	94
5	DeepSeek-R1	92
6	通義千問3（思考模式）	90
7	Gemini 2.5 Pro	88
7	GPT-o4 mini	88
7	混元-T1	88
7	文心一言 X1-Turbo	88
11	GPT-4.1	87
11	GPT-4o	87
11	通義千問3	87
14	DeepSeek-V3	86
14	Grok 3（思考模式）	86
14	日日新 V6推理	86
17	Claude 4 Opus	85
17	Claude 4 Opus （思考模式）	85
19	Gemini 2.5 Flash	84
20	日日新 V6 Pro	83
21	混元-TurboS	81
22	Baichuan4-Turbo	80
22	Grok 3	80
22	Grok 4	80
22	Yi- Lightning	80
26	MiniMax-01	79
27	Spark 4.0 Ultra	77
27	Step R1-V-Mini	77
29	GLM-4-plus	76
29	GLM-Z1-Air	76
29	Kimi	76
32	文心一言4.5-Turbo	74
33	Step 2	73
34	Kimi-k1.5	72
35	Llama 3.3 70B	64
36	360智腦2-o1	59

圖表1：基礎邏輯能力排名

情境推理能力排名

在情境推理能力排名中，Gemini 2.5 Flash在常識推理和學科推理等多個領域中的優越表現位居榜首；豆包1.5 Pro（思考模式）在常識推理領域表現優異，Gemini 2.5 Pro則在學科與決策推理上盡顯優勢，兩者並列次名。此外，Grok3（思考模式）以及GPT、文心一言、DeepSeek、混元，和通義千問系列模型均表現亮眼。

排名	模型名稱	常識推理	學科推理	不確定性下決策推理	道德與倫理推理	最終加權得分
1	Gemini 2.5 Flash	98	93	89	87	92
2	豆包1.5 Pro（思考模式）	97	92	88	87	91
2	Gemini 2.5 Pro	93	94	90	87	91
4	Grok 3（思考模式）	96	88	89	86	90
5	GPT-5	88	98	88	83	89
5	混元-T1	97	95	84	81	89
5	通義千問3（思考模式）	96	89	86	85	89
5	文心一言 X1-Turbo	98	85	86	86	89
9	DeepSeek-R1	94	93	78	82	87
9	通義千問3	97	79	87	86	87
9	文心一言4.5-Turbo	96	76	87	87	87
12	混元-TurboS	96	79	83	84	86
13	豆包1.5 Pro	97	81	86	74	85
13	GPT-4.1	97	70	87	86	85
13	GPT-o3	90	95	73	80	85
13	Grok 3	97	69	87	86	85
13	Grok 4	82	87	82	87	85
17	DeepSeek-V3	95	81	84	77	84
19	GPT-4o	98	65	87	78	82
19	GPT-o4 mini	91	87	72	76	82
21	Claude 4 Opus（思考模式）	96	84	72	71	81
21	MiniMax-01	96	69	83	75	81
21	360智腦2-o1	93	76	81	72	81
24	Claude 4 Opus	95	85	70	70	80
24	GLM-4-plus	93	71	83	73	80
24	Step 2	97	63	82	78	80
27	Yi- Lightning	97	59	82	79	79
27	Kimi	94	61	79	81	79
29	Spark 4.0 Ultra	91	71	75	76	78
30	日日新 V6 Pro	86	58	84	78	77
31	GLM-Z1-Air	90	76	73	64	76
32	Llama 3.3 70B	82	52	83	81	75
33	日日新 V6推理	96	63	68	70	74
34	Baichuan4-Turbo	91	48	77	69	71
35	Step R1-V-Mini	96	80	37	51	66
36	Kimi-k1.5	84	79	42	58	66

圖表2：情境推理能力排名

綜合能力排名

在綜合能力排名上，參與評測的36個模型的表現差異顯著。豆包1.5 Pro（思考模式）以在基礎邏輯能力和情境推理能力上的綜合表現卓越，排名第一，GPT-5緊隨其後，GPT-o3和豆包1.5 Pro分列第三、第四。

排名	模型名稱	綜合得分
1	豆包1.5 Pro（思考模式）	93
2	GPT-5	91.5
3	GPT-o3	91
4	豆包1.5 Pro	90.5
5	DeepSeek-R1	89.5
5	Gemini 2.5 Pro	89.5
5	通義千問3（思考模式）	89.5
8	混元-T1	88.5
8	文心一言 X1-Turbo	88.5
10	Gemini 2.5 flash	88
10	Grok 3（思考模式）	88
12	通義千問3	87
13	GPT-4.1	86
14	DeepSeek-V3	85
14	GPT-o4 mini	85
16	GPT-4o	84.5
17	混元-TurboS	83.5
18	Claude 4 Opus （思考模式）	83
19	Claude 4 Opus	82.5
19	Grok 3	82.5
19	Grok 4	82.5
22	文心一言4.5-Turbo	80.5
23	MiniMax-01	80
23	日日新 V6 Pro	80
23	日日新 V6推理	80
26	Yi- Lightning	79.5
27	GLM-4-plus	78
28	Kimi	77.5
28	Spark 4.0 Ultra	77.5
30	Step 2	76.5
30	GLM-Z1-Air	76
32	Baichuan4-Turbo	75.5
33	Step R1-V-Mini	71.5
34	360智腦2-o1	70
35	Llama 3.3 70B	69.5
36	Kimi-k1.5	69

圖表3：綜合能力排名

請按此瀏覽《大語言模型推理能力測評報告》排行榜

綜合以上排名，眾多來自中國的大語言模型表現亮眼，進步迅速，展現了中國大模型產業在中文語境中的特殊優勢和強大潛力。

媒體報導

港大經管學院發佈中文語境下AI「最強大腦」評測 揭曉中美36款大語言模型推理能力排名

港大經管學院發佈中文語境下AI「最強大腦」評測揭曉中美36款大語言模型推理能力排名