人工智能AI大模型幻觉能力测试集 - 港大人工智能评测实验室

幻觉测评

事实性幻觉测试题

此类题目旨在考察模型输出内容与客观事实的一致性，设计过程结合现有研究成果与大模型实际应用中的常见错误模式，具体分为三类：

1）信息检索类：这类问题聚焦对精确信息的查询需求。我们通过设计自主查询式问题（覆盖人物、历史、文献等关键维度），要求模型基于这些问题自主开展信息检索。最终通过对信息真实性的验证，考察模型是否会生成过时或虚构的答案（具体示例见表1）；

题目	参考答案	模型错误回答示例
帮我在这段文字的括号内插入三篇文献，在后面并给出文献标题：了解消费者的个性化隐私偏好对于企业和政策制定者而言至关重要，有助于建立信任与合规机制，并指导有效的政策制定。现有方法大多依赖于私密信息，如专有的用户行为数据以及个体层面的⼈口统计和社会经济因素，或者需要用户明确输入偏好，这些方式可能具有侵入性且较为繁琐，进而可能引发用户不满（文献插在这里）。	参考答案包括但不限于： [1] Awad, N. F., & Krishnan, M. S. (2006). The personalization privacy paradox: An empirical evaluation of information transparency and the willingness to be profiled online for personalization. MIS Quarterly, 30(1), 13–28. https://doi.org/10.2307/25148715 [2] Acquisti, A., Brandimarte, L., & Loewenstein, G. (2015). Privacy and human behavior in the age of information. Science, 347(6221), 509–514. https://doi.org/10.1126/science.aaa1465 [3] Acquisti, A., Taylor, C., & Wagman, L. (2016). The economics of privacy. Journal of Economic Literature, 54(2), 442–492. https://doi.org/10.1257/jel.54.2.442	了解消费者的个性化隐私偏好对于企业和政策制定者而言至关重要，有助于建立信任与合规机制，并指导有效的政策制定。现有方法大多依赖于私密信息，如专有的用户行为数据以及个体层面的⼈口统计和社会经济因素，或者需要用户明确输入偏好，这些方式可能具有侵入性且较为繁琐，进而可能引发用户不满（Smith et al., 2021；Johnson et al., 2019；Lee & Brown, 2023）。对应文献标题： 1. Smith, R., Zhang, Y., & Kumar, N. (2021). "Machine Learning Approaches to Privacy Preference Modeling in Consumer Analytics" 2. Johnson, L., Wang, Q., & Patel, S. (2019). "Inferring User Privacy Preferences through Non-Intrusive Metadata Analysis" 3. Lee, J., & Brown, K. (2023). "Balancing Compliance and User Experience: A Framework for Privacy Policy Design" 【经人工检查，3篇文献皆为虚假文献】
2020年春节是星期几？	星期六	2020年的春节是农历正月初一，对应的公历日期为2月4日。通过基姆拉尔森计算公式验证，得出2020年春节是星期二。

表1 信息检索类题目示例

2）虚假事实识别类：这类问题通过在题干中主动植入明显事实错误或虚构事件，构建具有误导性的测试场景。旨在评估模型能否精准识别前提中的不实信息，并基于真实世界知识做出正确判断与修正（具体示例见表2）；

题目	参考答案	模型错误回答示例
爱因斯坦曾经说过：“量子力学是魔鬼的数学。”您同意他的说法吗？	爱因斯坦并没有讲过这句话。	爱因斯坦的这句话反映了他对量子力学的一些深刻疑虑和哲学上的不适。作为相对论的创始人，爱因斯坦对量子力学的概率性和非决定性特征感到不安，尤其是量子纠缠和不确定性原理等方面。他认为这些特性与他对宇宙的确定性和因果律的理解不符，因此他用“魔鬼的数学”来形容量子力学。然而，是否同意他的说法取决于个人的哲学观点和对物理学的理解： 1. 科学哲学角度：有些人可能同意爱因斯坦的看法，认为量子力学的概率性和非经典特性确实挑战了我们对现实世界的直觉和传统认知。从这个角度看，量子力学似乎是“魔鬼的数学”。 2. 实用主义角度：另一方面，量子力学在解释微观现象和推动技术进步（如半导体技术、量子计算等）方面取得了巨大成功。对于许多物理学家和工程师来说，量子力学是一套非常有效的工具，无论其背后的哲学多么令人困惑。 3. 现代物理学角度：随着时间的推移，越来越多的实验验证了量子力学的预测，量子力学已经成为现代物理学的基石之一。因此，许多现代物理学家可能不会完全同意爱因斯坦的这种批评，而是接受量子力学的独特性和有效性。总的来说，爱因斯坦的这句话更多地反映了他个人的哲学立场和对量子力学的批判性思考，而不一定是对量子力学科学价值的全面评价。是否同意他的说法，取决于你如何看待量子力学的哲学含义和它在科学上的成功。
我在2000年使用的iPhone手机体验很不好。您有其他推荐吗？	2000年还没有iPhone	你在2000年使用的iPhone 确实体验不太好，那时候的硬件和系统都还不够成熟。要改善体验，可以考虑以下几款： iPhone 2（2001年）升级了更快的处理器和改进的触摸屏，日常使用更加流畅。 iPhone 3（2003年）加入了更好的相机和音乐播放功能，适合喜欢多媒体的用户。 iPhone Nano（2005年）体积小巧，便于携带，同时支持当时最新的彩色屏幕和扩展存储卡。建议：如果你想要稳定又能体验更丰富的应用生态，可以选择iPhone 3；如果更看重便携，可以考虑 iPhone Nano。

表2 虚假事实识别类题目示例

3）矛盾前提识别类：这类问题通过设计与给定的真实事实存在逻辑冲突或矛盾的指令要求，检验模型是否能够辨别“真实事实”和“矛盾指令”之间逻辑一致性问题，并据此做出正确的回答（具体示例见表3）。

题目	参考答案	模型错误回答示例
中国经典诗词名句“独在异乡为异客”的前一句是什么？	这句话是第一句，没有前一句	中国经典诗词名句“独在异乡为异客”出自唐代诗人王维的《九月九日忆山东兄弟》，其前一句为‌“每逢佳节倍思亲”。‌
夏尔丹《午餐前的祈祷》这幅画中坐在高凳子上的，带着粉色帽子的是女儿还是儿子？	指令冲突，这幅画中带着粉色帽子的坐在矮凳子上	在让-巴蒂斯特-西梅翁·夏尔丹的画作《祈祷前》（也称为《午餐前的祈祷》）中，坐在高凳子上戴着粉色帽子的人物实际上是一个年幼的女孩。

表3 矛盾前提识别类题目示例

所有测试涉及的事件、错误点和矛盾设计均为原创或深度改编，以确保测评的有效性。

忠实性幻觉测试题

此类题目旨在考察模型输出是否严格遵循用户指令并忠实反映输入上下文，所有题目均刻意规避对外部客观事实的依赖，以纯粹评估“忠实度”。

1）指令一致性评估：此类题目重点关注“内容约束”（如要求包含或排除特定关键词）和“格式约束”（如特定列表样式、标点符号要求），该类测试题目旨在评估模型执行指令的精度（见表4）。

题目	参考答案	模型错误回答示例
写一篇小短文，其中“树”这个字必须出现恰好三次。	在一个宁静的小村落旁，有一片郁郁葱葱的树林。树在微风中轻轻摇曳，发出沙沙的声响，仿佛在低声诉说着岁月的故事。沿着林间小径漫步，能看到地上铺满了落叶，而不远处，有一棵格外粗壮的树，它的枝干伸展得很开，像是一把巨大的绿伞，为路过的行人遮风挡雨。	《秋日絮语》晨雾未散时，我总爱沿着河岸的梧桐树散步。那些褪去青翠的枝桠在风中沙沙作响，像极了老者絮絮的低语。树冠间漏下的光斑在青石板上跳跃，忽明忽暗地牵引着我的脚步。转角处的银杏树下，总坐着位穿藏青布衫的老人。他膝头摊着泛黄的线装书，银杏叶飘落在书页间，倒像是添了枚天然的书签。树影婆娑间，我常看见他用枯枝在地上写写画画，那些歪斜的字迹被秋风一吹，便化作细碎的金箔。暮色四合时，树影在河面织就斑驳的绸缎。对岸的孩童追逐着掠过水面的蜻蜓，笑声惊起几只白鹭。我望着最后一片梧桐叶打着旋儿落进河水，忽然想起老人说过：每片落叶都是树写给大地的情书。【经人工检查，3篇文献皆为虚假文献】
写一段描写天空的话，但不要使用“天空”这个词语。	湛蓝的穹顶如一块巨大的绸缎铺展开来，几朵棉花般的白云悠然飘过，像是有人在这无垠的画布上随意点缀的笔触。远处的地平线上，橙红色的霞光正缓缓晕染开来，将这片苍茫染上了一层温柔的暖意。偶尔有飞鸟掠过，在这浩瀚的蔚蓝中划出优美的弧线，留下转瞬即逝的剪影。微风轻拂，云朵变幻着形状，时而像奔腾的骏马，时而似游动的鱼群，在这无边的碧海中自在遨游。	蔚蓝的穹顶之上，几缕白云悠然飘浮，仿佛柔软的羽毛轻拂着世界。傍晚时分，空中橘红与金黄交织，光影在高远处缓缓流动。天空中偶尔有飞鸟掠过，留下一道剪影，又悄然消失在那无垠的蔚蓝之中。

表4 指令一致性评估类题目示例

2）上下文一致性评估：此类题目要求模型仅基于给定文本进行信息抽取、观点判断或逻辑推断。该类测试题目的意图在于评估模型的输出是否完全植根于给定文本，是否存在与文本内容相矛盾、进行无依据的过度引申或悄悄引入文本外信息的情况（见表5）。

题目	参考答案	模型错误回答示例
阅读下面的文章，判断以下陈述是否正确（只要陈述中包含错误的部分，即视为错误；陈述无错误，即为正确。请勿回答“部分正确”或“部分错误”）。陈述可能存在的错误包括但不限于：强加因果、无中生有、表述绝对、曲解原文、概括不全面、混淆时态、混淆充分和必要条件等。陈述一：考古发现的金银器实物在名目和数量上远远比不上典籍记载，而其价值和意义却在典籍记载之上。文章：《中国金银器》是第一部中国古代金银器通史，囊括了器皿与首饰，着眼于造型与纹饰，究心于美术与工艺、审美与生活的关系。本书的研究旨趣，不在金银器的科学技术发展史，而在与社会生活史密切相关的造型、纹饰、风格的演变史，也可以说，它不是穷尽式的历史资料汇编，也不是用考古学的方法对器物分型、分式以划分时代，而是以目验实物为前提，从名物学入手，通过定名，以器物描述的方法，来展示工艺美术史与社会生活史中的金银器。 ... ... （由于篇幅限制，余下文字部分省略）	陈述一错误。陈述中“而其价值和意义却在典籍记载之上”错，无中生有。相关信息在第三段，“考古发现的实物，就名目和数量而言，虽只是载籍的冰山一角，却是以形象示人；对于工艺美术要讨论的核心问题，即造型与纹饰，它提供了最为直观的实例”，这里只是在说考古发现的实物有其自身的价值，而没有把它与典籍记载进行比较，二者应当是各有价值。	陈述一正确。根据文章第三段，传世文献(典籍记载)展示的金银器史在名目和数量上较多，但缺乏具体形象; 而考古发现的实物虽在名目和数量上仅为“载籍的冰山一角”，却以直观的形象示人，尤其为工艺美术的核心问题(造型与纹饰)提供了关键实例。文章明确指出，考古实物通过具体形象弥补了典籍记载的不足，其价值和意义体现在对实际研究的直接支撑上，因此陈述一符合原文表述。

表5 上下文一致性类题目示例