Ranking of Large Language Models' Hallucination Control Ability in Chinese-language Contexts / 大语言模型幻觉控制能力排行榜

by Zhenhui(Jack) Jiang¹, Yi Lu¹, Yifan Wu¹, Haozhe Xu², Zhengyu Wu¹, Jiaxin Li¹ / 蒋镇辉¹，鲁艺¹，吴轶凡¹，徐昊哲²，武正昱¹，李佳欣¹
¹香港大学经管学院，²西安交通大学管理学院

The full report can be accessed HERE.
点击阅读报告全文

Leaderboard

Leaderboard
排名	模型名称	事实性幻觉	忠实性幻觉	最终得分
1	GPT 5（思考模式）	72	100	86

注：该榜单于2025年9月发布

排名	模型名称	事实性幻觉	忠实性幻觉	最终得分
1	GPT 5（思考模式）	72	100	86
2	GPT 5（自动模式）	68	100	84
3	Claude 4 Opus（思考模式）	73	92	83
4	Claude 4 Opus	64	96	80
5	Grok 4	71	80	76
6	GPT-o3	49	100	75
7	豆包1.5 Pro	57	88	73
8	豆包1.5 Pro（思考模式）	60	84	72
9	Gemini 2.5 Pro	57	84	71
10	GPT-o4 mini	44	96	70
11	GPT-4.1	59	80	69
12	GPT-4o	53	80	67
13	Gemini 2.5 Flash	49	84	67
14	文心一言 X1-Turbo	47	84	65
15	通义千问3（思考模式）	55	76	65
16	DeepSeek-V3	49	80	65
17	混元-T1	49	80	65
18	Kimi	47	80	63
19	通义千问3	51	76	63
20	DeepSeek-R1	52	68	60
21	Grok 3	36	84	60
22	混元-TurboS	44	76	60
23	日日新 V6 Pro	41	76	59
24	GLM-4-plus	35	80	55
25	MiniMax-01	31	80	55
26	360智脑2-o1	49	60	55
27	Yi- Lightning	28	80	54
28	Grok 3（思考模式）	29	76	53
29	Kimi-k1.5	36	68	52
30	文心一言4.5-Turbo	31	72	51
31	日日新 V6推理	37	64	51
32	Step 2	32	68	50
33	Step R1-V-Mini	36	60	48
34	Baichuan4-Turbo	33	60	47
35	GLM-Z1-Air	32	60	46
36	Llama 3.3 70B	33	56	45
37	Spark 4.0 Ultra	19	64	41