人工智能推理大语言模型综合评测 - 港大人工智能评测实验室

推理大语言模型

推理模型 (Reasoning Models)是一种通过强化学习进行训练，用于执行复杂的推理任务的大语言模型。推理模型在回答之前会进行思考，先生成一条长的内部思维链，然后再向用户作出回应。它们在复杂问题求解、编程、科学推理以及面向代理工作流程的多步规划方面表现出色。

推理模型 (Reasoning Models)

名称	模型	机构
Claude 4 Opus (思考)	claude-opus-4-20250514（思考）	Anthropic
DeepSeek-R1	deepseek-reasoner	深度求索 (DeepSeek)
Gemini 2.5 Pro	gemini-2.5-pro-exp-05-06	Google
GLM-Z1-Air	glm-z1-air	智谱华章
GPT-o3	o3-2025-04-16	OpenAI
GPT-o4 mini	o4-mini-2025-04-16	OpenAI
GPT-5 (思考)	gpt-5-2025-08-07	OpenAI
Grok 3 (思考)	Grok 3 (思考)	xAI
Kimi-k1.5	Kimi-k1.5	月之暗面
Step R1-V-Mini	Step R1-V-Mini	上阶跃星辰
文心一言 X1-Turbo	ernie-x1-turbo-32k	百度
日日新 V6 推理	SenseNova-V6-Reasoner	商汤科技
混元-T1	hunyuan-t1-latest	腾讯
豆包 1.5 Pro (思考)	doubao-1-5-thinking-pro-250415	字节跳动
通义千问 3 (思考)	qwen3-235b-a22b (思考)	阿里巴巴

排行榜

推理能力排行榜
幻觉排行榜
多模态推理排行榜
奥赛推理排行榜

注：该列表更新于2025年9月