Evaluation of Multimodal Reasoning for Large Language Models in the Chinese Contexts / 中文语境下的大语言模型多模态推理评测
by Zhenhui(Jack) Jiang1, Yi
Lu1, Yifan Wu1, Haozhe Xu2, Zhengyu
Wu1, Jiaxin Li1 /
蒋镇辉1,鲁艺1,吴轶凡1,徐昊哲2,武正昱1,李佳欣1
1香港大学经管学院,2西安交通大学管理学院
The full report can be accessed HERE.
点击阅读报告全文
| 排名 | 模型名称 | 多模态推理能力准确率 |
|---|---|---|
| 1 | GPT-5(思考模式) | 91 |
| 2 | GPT-4.1 | 90 |
| 3 | GPT-o3 | 87 |
| 4 | 豆包1.5 Pro(思考模式) | 85 |
| 4 | GPT-5(自动模式) | 85 |
| 6 | GPT-4o | 84 |
| 7 | Claude 4 Opus(思考模式) | 83 |
| 8 | 豆包1.5 Pro | 82 |
| 8 | Grok 3(思考模式) | 82 |
| 10 | 通义千问 3 | 81 |
| 11 | Kimi-k1.5 | 80 |
| 11 | 日日新 V6推理 | 80 |
| 11 | Step R1-V-Mini(阶跃 R1-V-Mini) | 80 |
| 14 | Grok 4 | 79 |
| 14 | GPT-o4 mini | 79 |
| 14 | 混元-T1 | 79 |
| 17 | GLM-4-plus(智谱-4-Plus) | 78 |
| 17 | 通义千问 3(思考模式) | 78 |
| 19 | Gemini 2.5 Flash | 77 |
| 19 | GLM-Z1-Air(智谱-Z1-Air) | 77 |
| 21 | Llama 3 3.70B | 76 |
| 22 | 日日新 V6 Pro | 75 |
| 22 | Gemini 2.5 Pro | 75 |
| 23 | 文心一言-4.5-Turbo | 74 |
| 24 | Step 2(阶跃 2) | 73 |
| 26 | 混元-Turbo8 | 71 |
| 26 | Claude 4 Opus | 71 |
| 28 | Spark 4.0 Ultra(讯飞星火 4.0 Ultra) | 68 |
| 28 | MiniMax-01 | 68 |
| 30 | Baichuan4-Turbo(百川 4-Turbo) | 67 |
| 31 | Grok 3 | 66 |
| 32 | Kimi | 63 |