Ranking of Large Language Models' Hallucination Control Ability in Chinese-language Contexts

by Zhenhui(Jack) Jiang¹, Yi Lu¹, Yifan Wu¹, Haozhe Xu², Zhengyu Wu¹, Jiaxin Li¹ / 蒋镇辉¹，鲁艺¹，吴轶凡¹，徐昊哲²，武正昱¹，李佳欣¹
¹HKU Business School，²The School of Management, Xi’an Jiaotong University

The full report can be accessed HERE.

Leaderboard

Leaderboard
Rank	Model Name	Factual Hallucination	Faithful Hallucination	Final Score
1	GPT 5（Thinking）	72	100	86

Note: This leaderboard was released in Sep 2025

Rank	Model Name	Factual Hallucination	Faithful Hallucination	Final Score
1	GPT 5（Thinking）	72	100	86
2	GPT 5 (Auto)	68	100	84
3	Claude 4 Opus (Thinking)	73	92	83
4	Claude 4 Opus	64	96	80
5	Grok 4	71	80	76
6	GPT-o3	49	100	75
7	Doubao 1.5 Pro	57	88	73
8	Doubao 1.5 Pro（Thinking）	60	84	72
9	Gemini 2.5 Pro	57	84	71
10	GPT-o4 mini	44	96	70
11	GPT-4.1	59	80	69
12	GPT-4o	53	80	67
13	Gemini 2.5 Flash	49	84	67
14	ERNIE X1-Turbo	47	84	65
15	Qwen 3（Thinking）	55	76	65
16	DeepSeek-V3	49	80	65
17	Hunyuan-T1	49	80	65
18	Kimi	47	80	63
19	Qwen 3	51	76	63
20	DeepSeek-R1	52	68	60
21	Grok 3	36	84	60
22	Hunyuan-TurboS	44	76	60
23	SenseChat V6 Pro	41	76	59
24	GLM-4-plus	35	80	55
25	MiniMax-01	31	80	55
26	360 Zhinao 2-o1	49	60	55
27	Yi- Lightning	28	80	54
28	Grok 3（Thinking）	29	76	53
29	Kimi-k1.5	36	68	52
30	ERNIE 4.5-Turbo	31	72	51
31	SenseChat V6 (Thinking)	37	64	51
32	Step 2	32	68	50
33	Step R1-V-Mini	36	60	48
34	Baichuan4-Turbo	33	60	47
35	GLM-Z1-Air	32	60	46
36	Llama 3.3 70B	33	56	45
37	Spark 4.0 Ultra	19	64	41