Evaluating the Reasoning Capabilities of Large Language Models in Chinese-language Contexts / 中文语境下的大语言模型推理能力评测
by Zhenhui(Jack) Jiang1, Yi
Lu1, Yifan Wu1, Haozhe Xu2, Zhengyu
Wu1, Jiaxin Li1 /
蒋镇辉1,鲁艺1,吴轶凡1,徐昊哲2,武正昱1,李佳欣1
1香港大学经管学院,2西安交通大学管理学院
The full report can be accessed HERE.
点击阅读报告全文
Select a Leaderboard
排名 | 模型名称 | 综合得分 |
1 | 豆包1.5 Pro(思考模式) | 93 |
2 | GPT-5(自动模式) | 91.5 |
3 | GPT-o3 | 91 |
4 | 豆包1.5 Pro | 90.5 |
5 | DeepSeek-R1 | 89.5 |
5 | Gemini 2.5 Pro | 89.5 |
5 | 通义千问3(思考模式) | 89.5 |
8 | 混元-T1 | 88.5 |
8 | 文心一言 X1-Turbo | 88.5 |
10 | Gemini 2.5 flash | 88 |
10 | Grok 3(思考模式) | 88 |
12 | 通义千问3 | 87 |
13 | GPT-4.1 | 86 |
14 | DeepSeek-V3 | 85 |
14 | GPT-o4 mini | 85 |
16 | GPT-4o | 84.5 |
17 | 混元-TurboS | 83.5 |
18 | Claude 4 Opus (思考模式) | 83 |
19 | Claude 4 Opus | 82.5 |
19 | Grok 3 | 82.5 |
19 | Grok 4 | 82.5 |
22 | 文心一言4.5-Turbo | 80.5 |
23 | MiniMax-01 | 80 |
23 | 日日新 V6 Pro | 80 |
23 | 日日新 V6推理 | 80 |
26 | Yi- Lightning | 79.5 |
27 | GLM-4-plus | 78 |
28 | Kimi | 77.5 |
28 | Spark 4.0 Ultra | 77.5 |
30 | Step 2 | 76.5 |
30 | GLM-Z1-Air | 76 |
32 | Baichuan4-Turbo | 75.5 |
33 | Step R1-V-Mini | 71.5 |
34 | 360智脑2-o1 | 70 |
35 | Llama 3.3 70B | 69.5 |
36 | Kimi-k1.5 | 69 |