|
EN

Ranking of Large Language Models' Performance in Multimodal and Olympiad-level Reasoning Problems

by Zhenhui(Jack) Jiang1, Yi Lu1, Yifan Wu1, Haozhe Xu2, Zhengyu Wu1, Jiaxin Li1 / 蒋镇辉1,鲁艺1,吴轶凡1,徐昊哲2,武正昱1,李佳欣1
1香港大学经管学院,2西安交通大学管理学院

The full report can be accessed HERE.
点击阅读报告全文


Select a Leaderboard
排名 模型名称 多模态推理能力准确率
1 GPT-5(思考模式) 91
2 GPT-4.1 90
3 GPT-o3 87
4 豆包1.5 Pro(思考模式) 85
4 GPT-5(自动模式) 85
6 GPT-4o 84
7 Claude 4 Opus(思考模式) 83
8 豆包1.5 Pro 82
8 Grok 3(思考模式) 82
10 通义千问3 81
11 Kimi-k1.5 80
11 日日新 V6推理 80
11 Step R1-V-Mini(阶跃 R1-V-Mini) 80
14 Grok 4 79
14 GPT-o4 mini 79
14 混元-T1 79
17 GLM-4-plus(智谱-4-Plus) 78
17 通义千问3(思考模式) 78
19 Gemini 2.5 Flash 77
19 GLM-Z1-Air(智谱-Z1-Air) 77
21 Llama 3.3 70B 76
22 日日新 V6 Pro 75
22 Gemini 2.5 Pro 75
23 文心一言4.5-Turbo 74
24 Step 2(阶跃2) 73
26 混元-TurboS 71
26 Claude 4 Opus 71
28 Spark 4.0 Ultra(讯飞星火 4.0 Ultra) 68
28 MiniMax-01 68
30 Baichuan4-Turbo(百川4-Turbo) 67
31 Grok 3 66
32 Kimi 63