港大經管學院最新發佈: AI大語言模型幻覺控制能力深度評測報告

AI在專業場景中的可信度調查

港大經管學院今日發表《大語言模型幻覺控制能力測評報告》,針對選定的AI大語言模型(LLM)評估其幻覺控制能力。「幻覺」是指AI會輸出看似合理卻與事實相悖或偏離語境的內容。現時,大語言模型(LLM)正積極於知識服務、智能導航、客戶服務等專業應用場景中推進。 然而,「幻覺」現象仍是制約其可信度的關鍵瓶頸。

該研究由港大經管學院創新及資訊管理學教授兼夏利萊伉儷基金教授 (戰略信息管理學)蔣鎮輝教授率領人工智能評測實驗室(AIEL)(https://hkubs.hku.hk/aimodelrankings)研究人員發起,針對 37個中美大語言模型(包括20個通用模型、15個推理模型及2個一體化系統)在中文語境下的幻覺控制能力開展專業評測,揭示不同模型在規避事實錯誤與保持語境一致性方面的真實表現。

評測結果顯示,GPT-5(思考模式)和GPT-5(自動模式)分別位列第一第二,Claude 4 Opus系列緊隨其後;字節跳動公司的豆包1.5 Pro系列表現突出,在中國大語言模型陣營中處於領先地位,但與國際頂尖模型之間仍存在顯著差距。

蔣鎮輝教授表示「幻覺控制能力作為衡量模型輸出真實性與可靠性的核心指標,直接影響大語言模型在專業場景中的可信度。 該研究為未來模型的優化提供了明確方向,推動AI從『能生成』向更關鍵的『可信賴』邁進。 」

評測方法

根據模型生成內容在事實依據或語境契合度上存在的問題,該研究將「幻覺」分為兩類:事實性幻覺和忠實性幻覺。

事實性幻覺是指模型輸出內容與真實世界資訊不符,既包括對已知知識的錯誤調用(如張冠李戴、數據錯記),也包括對未知資訊的虛構(如編造未驗證的事件、數據)。 研究透過訊息檢索類問題、虛假事實識別類問題,以及矛盾前提識別類問題,檢測不同模型針對事實性幻覺的控制能力。

忠實性幻覺是指模型未能嚴格遵循使用者指令,或輸出內容與輸入上下文矛盾,包括遺漏關鍵要求、過度引申、格式錯誤等。 研究透過指令一致性評估問題及上下文一致性評估問題,檢測不同模型針對忠實性幻覺的控制能力。

幻覺控制能力梯隊

根據評測結果,GPT-5(思考模式)和GPT-5(自動模式)分別位居第一名和第二名,Claude 4 Opus系列緊隨其後;字節跳動公司的豆包1.5 Pro系列在中國大語言模型陣營中表現突出,但與國際頂尖模型之間仍存在顯著差距。

排名模型名稱事實性幻覺忠實性幻覺最終得分
1GPT 5(思考模式)7210086
2GPT 5(自動模式)6810084
3Claude 4 Opus(思考模式)739283
4Claude 4 Opus649680
5Grok 4718076
6GPT-o34910075
7豆包1.5 Pro578873
8豆包1.5 Pro(思考模式)608472
9Gemini 2.5 Pro578471
10GPT-o4 mini449670
11GPT-4.1598069
12GPT-4o538067
12Gemini 2.5 Flash498467
14文心一言 X1-Turbo478465
14通義千問3(思考模式)557665
14DeepSeek-V3498065
14混元-T1498065
18Kimi478063
18通義千問3517663
20DeepSeek-R1526860
20Grok 3368460
20混元-TurboS447660
23日日新 V6 Pro417659
24GLM-4-plus358057
25MiniMax-01318055
25360智腦2-o1496055
27Yi- Lightning288054
28Grok 3(思考模式)297653
29Kimi-k1.5366852
30文心一言4.5-Turbo317251
30日日新 V6推理376451
32Step 2326850
33Step R1-V-Mini366048
34Baichuan4-Turbo336047
35GLM-Z1-Air326046
36Llama 3.3 70B335645
37Spark 4.0 Ultra196441

 

圖表 1:幻覺控制能力綜合排名

圖表 2:幻覺控制能力梯隊

是次研究涵蓋的37個模型的幻覺控制能力得分及排名整體呈現出顯著的梯度差異,且在事實性與忠實性幻覺控制上表現出不同的能力特徵。

綜合而言,目前大模型在忠實性幻覺控制上已相當強勁,但在事實性幻覺領域上仍有不足之處反映出這些模型目前普遍存在嚴守指令,但易虛構事實的傾向。

此外,推理模型的幻覺控制能力相對表現較好,例如通義千問3(思考模式),文心一言 X1-Turbo和Claude 4 Opus(思考模式)等推理模型的幻覺控制能力比同系列通用版本更佳。

在中國大語言模型中,豆包1.5 Pro系列位於領先地位,在事實性幻覺控制和忠實性幻覺控制的領域得分均衡,展現出穩健的幻覺控制能力;然而,其綜合能力與GPT-5和Claude系列仍有差距。 相比之下,DeepSeek系列的幻覺控制能力稍顯遜色,有待加強。

按此瀏覽《大語言模型幻覺控制能力深度測評報告》全文。

總括而言,本次評估透過事實性同忠實性的分類框架,深入闡述大語言模型幻覺控制能力的核心理論基礎與模型表現。未來, AI可信度需兼顧控制事實性幻覺與忠實性幻覺兩個領域的能力,以產出更可信賴的內容。

圖片

  1. 港大經管學院創新及資訊管理學教授兼夏利萊伉儷基金教授 (戰略信息管理學)蔣鎮輝教授

按此下載高清圖片。

Other Events
港大經管學院「未來領袖獎學金計劃」| 助力逾百名本地優秀學生拓展見聞
2025 | 學院成就
港大經管學院「未來領袖獎學金計劃」| 助力逾百名本地優秀學生拓展見聞
港大經管學院舉辦了第四屆「未來領袖獎學金計劃」(簡稱「計劃」)( Future Leader Scholarship Programme)頒獎典禮,對 104名本科生進行了表彰,助力他們拓展見聞,豐富經驗,提升競爭力,為未來的職業成功做好準備。
HKU x MetaEra: CryptoFi Forum 2025
2025 | 學院新聞
HKU x MetaEra: CryptoFi Forum 2025