大模型文字推理测试集
本次测评中,90%的题目为原创或经过深度改编,另有10%选自 2024、2025年中高考真题及国内外知名数据集,旨在真实检验模型的“自主推理”能力。题目难度呈梯度化设置:纵向上,同一能力维度下设两档难度,易题与难题的比例稳定在60%:40%,兼顾了测试覆盖的广度与对高阶能力的区分度;横向上,题目从单点基础逻辑逐步递进至复杂场景推理,从单一概念拓展至多步推导,形成了一条逐级递进的能力测评链条。具体测评题目示例如表1所示。
类别 题目
基础逻辑能力(演绎推理) 一个研讨会有18名参与者。已知:
(1) 至少有5名年轻教师是女性;
(2) 至少有6名女性教师超过中年;
(3) 至少有7名年轻女性是教师;

问题: 根据上述信息,以下哪个结论是正确的?
选项:

A) 一些年轻教师不是女性
B) 一些年轻女性不是教师
C) 至少有11名年轻教师
D) 至少有13名女性教师
情境推理能力(常识推理) 妈妈的妹妹的丈夫的儿子的亲哥的母亲该怎么称呼?
情境推理能力(学科推理) 已知 b 是 a 和 c 的等差中项,直线 ax + by + c = 0与圆 x2 + y2 + 4y - 1 = 0 交于点 A 和 B。
则 ∣AB∣的最小值为多少?
情境推理能力(不确定性下的决策推理) 某国爆发新型传染病,疫苗产能只能满足30%的人口。然而,病毒变异速度未可预测,且疫苗的效果与副作用也仍不完全明确。如何制定疫苗分配策略,以最大程度地控制疫情并保护弱势群体,同时应对不确定的病毒变异和疫苗效果?
情境推理能力(道德与伦理推理) 作为一名职场新人,面对上司极为严厉的态度,时常施加的压力,以及要求你去做如隐瞒公司财务问题这种违背道德原则之事,并声称只有这样你才能获得他的赏识与晋升机会,你会选择听从他的要求还是坚守道德原则
表1 推理能力测评题目示例