Aug 2025
Zhenhui (Jack) Jiang1, Yi Lu1 , Yifan
Wu1, Haozhe Xu2, Zhengyu Wu1, Jiaxin
Li1/ 蒋镇辉1,鲁艺1,吴轶凡1,徐昊哲2,武正昱1,李佳欣1
1HKU Business School, The University of Hong Kong, Hong Kong,
2 School of Management, Xi'an Jiaotong University, P. R.
China.
摘要
在人工智能浪潮席卷全球的背景下,大语言模型(LLM)正加速扎根知识服务、医疗诊断、商业分析等专业领域,其应用深度与广度持续拓展。然而,一个关键障碍始终横亘在前:“幻觉”——即输出看似逻辑自洽,实则与事实相悖或偏离语境的现象——已成为制约其可信度的关键瓶颈。为此,香港大学蒋镇辉教授领衔的人工智能评估实验室(AIEL),针对37个中美大语言模型(含20个通用模型、15个推理模型、2个一体化系统),从事实性、忠实性幻觉两方面评估其幻觉控制能力。测评结果显示,GPT-5(思考模式)和GPT-5(自动模式)分别斩获冠亚军,Claude 4 Opus系列紧随其后;字节跳动公司的豆包1.5 Pro系列表现突出,领跑国产模型阵营,但与国际顶尖模型之间仍存在显著差距;整体来看,本次测评模型更擅长于避免产生忠实性幻觉、但事实性幻觉控制能力仍有短板。这项研究揭示了AI可信度需兼顾事实与忠实性幻觉协同提升的必要性,为未来模型的优化提供了明确方向,推动AI从“能生成”向“可信赖”的关键性迈进。