Advanced Reasoning Capabilities

Ranking of Large Language Models' Performance in Multimodal and Olympiad-level Reasoning Problems

by Zhenhui(Jack) Jiang¹, Yi Lu¹, Yifan Wu¹, Haozhe Xu², Zhengyu Wu¹, Jiaxin Li¹ / 蒋镇辉¹，鲁艺¹，吴轶凡¹，徐昊哲²，武正昱¹，李佳欣¹
¹香港大学经管学院，²西安交通大学管理学院

The full report can be accessed HERE.
点击阅读报告全文

Select a Leaderboard

排名	模型名称	多模态推理能力准确率
1	GPT-5（思考模式）	91
2	GPT-4.1	90
3	GPT-o3	87
4	豆包1.5 Pro（思考模式）	85
4	GPT-5（自动模式）	85
6	GPT-4o	84
7	Claude 4 Opus（思考模式）	83
8	豆包1.5 Pro	82
8	Grok 3（思考模式）	82
10	通义千问3	81
11	Kimi-k1.5	80
11	日日新 V6推理	80
11	Step R1-V-Mini（阶跃 R1-V-Mini）	80
14	Grok 4	79
14	GPT-o4 mini	79
14	混元-T1	79
17	GLM-4-plus（智谱-4-Plus）	78
17	通义千问3（思考模式）	78
19	Gemini 2.5 Flash	77
19	GLM-Z1-Air（智谱-Z1-Air）	77
21	Llama 3.3 70B	76
22	日日新 V6 Pro	75
22	Gemini 2.5 Pro	75
23	文心一言4.5-Turbo	74
24	Step 2（阶跃2）	73
26	混元-TurboS	71
26	Claude 4 Opus	71
28	Spark 4.0 Ultra（讯飞星火 4.0 Ultra）	68
28	MiniMax-01	68
30	Baichuan4-Turbo（百川4-Turbo）	67
31	Grok 3	66
32	Kimi	63

排名	模型名称	正确性	逻辑连贯性	方法创新性	奥赛推理能力加权得分
1	GPT-5（思考模式）	48	47	44	48
2	Gemini 2.5 Pro	48	39	36	44
3	GPT-o3	36	42	39	38
4	Claude 4 Opus（思考模式）	30	36	39	33
5	Gemini 2.5 Flash	35	28	31	32
5	GPT-o4 mini	32	33	33	32
7	通义千问3（思考模式）	29	25	28	28
7	Step R1_V_mini	26	33	22	28
9	GLM_Z1_Air	27	31	22	27
9	日日新 V6推理	27	28	22	27
11	通义千问3	25	31	17	26
12	文心一言4.5-Turbo	25	25	19	24
13	Grok 3（思考模式）	21	28	25	23
14	GPT-5（自动模式）	22	22	28	22
14	DeepSeek-V3（深度求索-V3）	26	14	22	22
16	Claude 4 Opus	22	17	31	21
17	豆包1.5 Pro（思考模式）	22	17	22	20
17	DeepSeek-R1（深度求索-R1）	17	25	22	20
19	Grok 3	20	19	17	19
19	Grok 4	19	17	25	19
21	文心一言 X1-Turbo	17	19	14	17
21	混元-T1	17	17	19	17
21	混元-TurboS	17	17	19	17
21	Kimi-k1.5	17	19	11	17
25	豆包1.5 Pro	16	17	19	16
26	GLM-4-plus（智谱-4-Plus）	12	17	8	13
27	GPT-4o	13	8	19	12
27	Spark 4.0 Ultra（讯飞星火 4.0 Ultra）	13	11	14	12
29	Baichuan4-Turbo（百川4-Turbo）	8	19	11	11
29	GPT-4.1	11	8	17	11
31	Kimi	6	14	17	9
31	Llama 3.3 70B	7	14	6	9
33	Yi-Lightning（零一-Lightning）	6	11	14	8
33	日日新 V6 Pro	8	8	6	8
35	MiniMax-01	5	11	8	7
35	Step2	6	8	8	7
35	360智脑2-o1	7	6	8	7