高阶推理(多模态和奥赛推理)
多模态推理
多模态测试的所有题目均设计为“图文联合任务”,仅凭文字或图片无法得出正确答案,有效规避了测试设计中因过度依赖单一模态(仅文字或仅图片)而产生的结果偏差问题(示例见表1):

基础逻辑推理类:常识类题目则聚焦日常生活,并结合图像内容进行全新创作。
常识推理类:基础逻辑类题目涵盖演绎、归纳与溯因三种基本推理类型。我们参考了认知心理学与形式逻辑中的经典题型框架,并结合图文场景进行改编。
专业学科推理类:专业学科推理均为单选题或多选题形式,考察模型在不同学科领域的知识储备与应用能力。试题均来自于最新的各省市中高考真题和公开权威多学科视觉问答数据集MMMU2。
社会问题推理类:在人性与社会现象推理题目部分,我们自主设计了多组具有现实语境的图文推理题,内容涵盖环境保护、公共行为、社会责任、道德判断、与伦理冲突等主题。相比传统知识型问答,此类题目更强调情境理解、价值冲突识别和模态融合后的判断能力,对大模型的多模态泛化推理提出了更高要求。
类别 题目
基础逻辑推理
过山车项目要求身高一米五以上才可以玩,那么图中的人可以玩吗?

A. 可以 B. 不可以

常识推理
图片中有几只真正的猫咪?

专业学科推理
在以下家系图中,最可能的遗传方式是什么?
A. 常染色体隐性遗传 (AR) B.常染色体显性遗传 (AD) C. X染色体隐性遗传 (XR) D.X染色体显性遗传 (XD)

社会问题推理
简述图中漫画的寓意。

表1 多模态推理例题
奥赛推理
奥赛推理试题来源包括近年全国奥林匹克竞赛以及国际数学奥林匹克(IMO)等权威赛事(示例见表2)。该类题目难度远高于常规中高考题目,通常涉及更复杂的逻辑结构、多步推理与创造性思维,能够进一步评估模型在处理高阶数学知识和问题解决方面的能力。
类别 题目
奥赛推理
表2 奥赛推理例题