Evaluation of Image Understanding Capabilities of Large Language Models in Chinese Contexts / 中文语境下的人工智能大语言模型图像理解能力评测

排名	模型	Model version	机构	国家	视觉感知与识别	视觉推理与分析	视觉审美与创意	安全与责任	综合得分
10	MiniCPM-Llama3-V 2.5	claude-3-5-sonnet-20240620	Anthropic	美国	75.1	66.1	82.6	71.1	73.7

Rank	Model	Version	Visual Perception and Identification	Visual Reasoning and Analysis	Visual Aesthetics and Creativity	Safety and Responsibility	Average Score
1	GPT-4o	gpt-4o-2024-05-13	75.1	66.1	82.6	71.1	73.7
2	Claude	claude-3-5-sonnet-20240620	75	63.3	73.3	77.1	72.2
3	Hailuo AI	not specified	69.4	57.1	77.1	70.6	68.6
4	Step-1V	step-1v-32k	71.9	55.9	74.6	70.9	68.3
5	Gemini	gemini-1.5-pro	65	50.4	74.1	74.4	66
6	Qwen-VL	qwen-vl-max-0809	72.9	61.1	75.4	52.6	65.5
7	GPT-4 Turbo	gpt-4-turbo-2024-04-09	68.2	54	75.1	63	65.1
8	ERNIE Bot	ERNIE Bot 4.0 Turbo	68.6	49	77.9	58.7	63.6
9	GPT-4o-mini	gpt-4o-mini-2024-07-18	67.8	52	78.4	51.7	62.5
10	Baixiaoying	Baichuan4	60.3	50.9	73.9	61.4	61.6
11	Hunyuan-Vision	hunyuan-vision	69	57.9	75	43.3	61.3
12	InternVL2	InternVL2-40B	68.9	52	79.9	43.9	61.1
13	Reka Core	reka-core-20240501	55.7	43.6	64	60.3	55.9
14	DeepSeek-VL	deepseek-vl-7b-chat	46.2	38.4	57.3	71.1	53.3
15	Spark	spark/v2.1/image	55.4	38.1	61.9	57.1	53.1
16	GLM-4V	glm-4v	59.5	46.1	58.3	42.6	51.6
17	Yi-Vision	yi-vision	59.1	51.7	57.7	36.6	51.3
18	SenseChat-Vision5	SenseChat-Vision5	58.1	48.7	59.9	38	51.2
19	InternLM-Xcomposer2-VL	internlm-xcomposer2-vl-7b	48.6	39.7	59.3	50.4	49.5
20	MiniCPM-Llama3-V 2.5	MiniCPM-Llama3-V 2.5	49.4	40.4	52	53.6	48.9

Notes:
1. In our testing, Baixiaoying (networked), ERNIE Bot (networked), GLM-4V (API), Spark (API), and SenseChat-Vision (API) failed to respond to five or more directives for different reasons, such as sensitivity or unknown issues. This might have negatively impacted on their final scores.
2. For comparison, the above scores have been converted from a 7-point scale to a 100-point scale based on the following formula:
Average Score = (Visual Perception and Recognition + Visual Reasoning and Analysis + Visual Aesthetics and Creativity + Safety and Responsibility) / 4

排名	模型	model version	机构	国家	视觉感知与识别	视觉分析与推理	视觉审美与创意	综合得分
10	MiniCPM-Llama3-V 2.5	claude-3-5-sonnet-20240620	Anthropic	美国	75.1	66.1	82.6	74.6

排名	模型	model version	机构	国家	视觉感知与识别	视觉分析与推理	视觉审美与创意	综合得分
1	GPT-4o	gpt-4o-2024-05-13	OpenAI	美国	75.1	66.1	82.6	74.6
2	Claude	claude-3-5-sonnet-20240620	Anthropic	美国	75	63.3	73.3	70.5
3	通义千问-VL	qwen-vl-max-0809	阿里巴巴	中国	72.9	61.1	75.4	69.8
4	海螺AI	not specified	MiniMax	中国	69.4	57.1	77.1	67.9
5	Step-1V	step-1v-32k	阶跃星辰	中国	71.9	55.9	74.6	67.4
6	混元-Vision	hunyuan-vision	腾讯	中国	69	57.9	75	67.3
7	书生•万象	InternVL2-40B	上海人工智能实验室	中国	68.9	52	79.9	66.9
8	GPT-4o-mini	gpt-4o-mini-2024-07-18	OpenAI	美国	67.7	52	78.4	66
9	GPT-4 Turbo	gpt-4-turbo-2024-04-09	OpenAI	美国	68.1	54	75.1	65.8
10	文心一言	文心大模型 4.0 Turbo	百度	中国	68.6	49	77.9	65.1
11	Gemini	gemini-1.5-pro	Google	美国	65	50.4	74.1	63.2
12	百小应	Baichuan4	百川智能	中国	60.3	50.9	73.9	61.7
13	Yi-Vision	yi-vision	零一万物	中国	59.1	51.7	57.7	56.2
14	SenseChat-Vision5	SenseChat-Vision5	商汤科技	中国	58.1	48.7	59.9	55.6
15	智谱GLM-4V	glm-4v	智谱AI	中国	59.6	46.1	58.3	54.7
16	Reka Core	reka-core-20240501	Reka	美国	55.7	43.6	64	54.4
17	讯飞星火	spark/v2.1/image	科大讯飞	中国	55.4	38.1	61.9	51.8
18	浦语•灵笔2	internlm-xcomposer2-vl-7b	上海人工智能实验室	中国	48.6	39.7	59.3	49.2
19	DeepSeek-VL	deepseek-vl-7b-chat	深度求索	中国	46.1	38.4	57.3	47.3
19	MiniCPM-Llama3-V 2.5	MiniCPM-Llama3-V 2.5	面壁智能	中国	49.4	40.4	52	47.3

排名	模型	Model version	机构	国家	详细描述	总结性描述	特征定位	代码识别	汉字识别	公式识别	生物物种识别	文化与自然识别	视觉感知与识别均分（7分制）
10	MiniCPM-Llama3-V 2.5	claude-3-5-sonnet-20240620	Anthropic	美国	5.75	4.87	5.17	6.37	5.53	5.54	4.61	4.33	5.26

排名	模型	Model version	机构	国家	详细描述	总结性描述	特征定位	代码识别	汉字识别	公式识别	生物物种识别	文化与自然识别	视觉感知与识别均分（7分制）
1	GPT-4o	gpt-4o-2024-05-13	OpenAI	美国	5.4	4.87	5.17	6.37	5.53	5.54	5.3	4.33	5.26
2	Claude	claude-3-5-sonnet-20240620	Anthropic	美国	5.75	5.03	4.6	6.47	5.5	6.28	4.61	4.47	5.25
3	通义千问-VL	qwen-vl-max-0809	阿里巴巴	中国	5.01	4.76	3.47	5.6	6	5.39	5.24	5.22	5.1
4	Step-1V	step-1v-32k	阶跃星辰	中国	5.19	4.67	3.9	4.9	5.31	4.72	5.06	6	5.03
5	海螺AI	not specified	MiniMax	中国	5.25	4.78	3.73	5.33	5.69	4.8	5	4.42	4.86
6	混元-Vision	hunyuan-vision	腾讯	中国	5.25	4.7	3.97	4.83	5.31	4.89	5.24	4.44	4.83
7	书生•万象	InternVL2-40B	上海人工智能实验室	中国	5.41	5.05	4.07	4.27	5.58	5.57	4.82	4.13	4.82
8	文心一言	文心大模型 4.0 Turbo	百度	中国	5.38	4.45	3.73	4.53	5.78	3.19	4.91	5.87	4.8
9	GPT-4 Turbo	gpt-4-turbo-2024-04-09	OpenAI	美国	5.33	4.68	3.97	5.63	2.44	5.87	5.21	4.82	4.77
10	GPT-4o-mini	gpt-4o-mini-2024-07-18	OpenAI	美国	5.34	5.3	3.1	5.73	4.28	5.28	4.61	4.49	4.74
11	Gemini	gemini-1.5-pro	Google	美国	4.56	4.63	2.93	5.63	3.5	6.04	4.33	4.78	4.55
12	百小应	Baichuan4	百川智能	中国	2.83	2.55	3.4	5.3	4.53	5.89	4.36	4.64	4.22
13	智谱GLM-4V	glm-4v	智谱AI	中国	4.12	3.4	3.37	3.97	5.33	3.87	3.79	5.16	4.17
14	Yi-Vision	yi-vision	零一万物	中国	4.99	4.62	3.8	4.6	4.36	5.19	3.64	2.82	4.14
15	SenseChat-Vision5	SenseChat-Vision5	商汤科技	中国	4.62	3.72	3.7	3.93	4.83	2.93	5.06	3.53	4.07
16	Reka Core	reka-core-20240501	Reka	美国	4.8	4.18	4.17	3.87	1.64	4.35	4.18	3.87	3.9
17	讯飞星火	spark/v2.1/image	科大讯飞	中国	4.6	4.67	3.83	2.8	4.67	2.09	4.09	4.06	3.88
18	MiniCPM-Llama3-V 2.5	MiniCPM-Llama3-V 2.5	面壁智能	中国	4.76	3.6	2.83	2.03	3.61	1.83	4.03	4.29	3.46
19	浦语•灵笔2	internlm-xcomposer2-vl-7b	上海人工智能实验室	中国	3.83	4.3	3.63	3.1	3.11	2.59	3.64	3.07	3.4
20	DeepSeek-VL	deepseek-vl-7b-chat	深度求索	中国	4.86	3.48	3.23	2.63	1.5	2.67	4	3.16	3.23

排名	模型	Model version	机构	国家	常识问答	Meme理解与分析	专业学科知识问答	图表分析	逻辑推理	视觉推理与分析均分（7分制）
10	MiniCPM-Llama3-V 2.5	claude-3-5-sonnet-20240620	Anthropic	美国	5.87	5.45	54.80%	4.71	3.67	4.63

排名	模型	Model version	机构	国家	常识问答	Meme理解与分析	专业学科知识问答	图表分析	逻辑推理	视觉推理与分析均分（7分制）
1	GPT-4o	gpt-4o-2024-05-13	OpenAI	美国	5.87	5.45	54.80%	4.71	4.1	4.63
2	Claude	claude-3-5-sonnet-20240620	Anthropic	美国	5.56	5.05	54.40%	4.71	3.67	4.43
3	通义千问-VL	qwen-vl-max-0809	阿里巴巴	中国	5.04	4.17	61.70%	4.38	3.46	4.28
4	混元-Vision	hunyuan-vision	腾讯	中国	5.94	4.3	50.70%	4.67	2.28	4.05
5	海螺AI	not specified	MiniMax	中国	4.89	4.68	52.10%	4.38	2.77	4
6	Step-1V	step-1v-32k	阶跃星辰	中国	5.9	4.4	52.00%	3.62	2.28	3.91
7	GPT-4 Turbo	gpt-4-turbo-2024-04-09	OpenAI	美国	5.34	3.73	51.10%	4.04	2.44	3.78
8	书生•万象	InternVL2-40B	上海人工智能实验室	中国	5.13	4.75	48.70%	3.33	1.82	3.64
9	GPT-4o-mini	gpt-4o-mini-2024-07-18	OpenAI	美国	5.32	3.7	40.80%	4.36	2.74	3.64
10	Yi-Vision	yi-vision	零一万物	中国	4.73	4.23	45.20%	4.29	2.13	3.62
11	百小应	Baichuan4	百川智能	中国	5.26	3.68	44.20%	4.02	2.23	3.56
12	Gemini	gemini-1.5-pro	Google	美国	4.74	3.63	49.40%	3.84	2.08	3.53
13	文心一言	文心大模型 4.0 Turbo	百度	中国	5.37	3	47.50%	4.13	1.41	3.43
14	SenseChat-Vision5	SenseChat-Vision5	商汤科技	中国	4.56	3.97	48.30%	3.6	1.56	3.41
15	智谱GLM-4V	glm-4v	智谱AI	中国	5.25	3.65	35.80%	4	1.44	3.23
16	Reka Core	reka-core-20240501	Reka	美国	5.14	3.23	34.80%	3.36	1.72	3.05
17	MiniCPM-Llama3-V 2.5	MiniCPM-Llama3-V 2.5	面壁智能	中国	4.67	2.87	33.30%	2.67	2.1	2.83
18	浦语•灵笔2	internlm-xcomposer2-vl-7b	上海人工智能实验室	中国	4.21	2.85	37.00%	2.56	1.85	2.78
19	DeepSeek-VL	deepseek-vl-7b-chat	深度求索	中国	4.73	2.8	25.50%	2.73	2.33	2.69
20	讯飞星火	spark/v2.1/image	科大讯飞	中国	4.49	3.15	30.60%	2.44	1.67	2.67

排名	模型	Model version	机构	国家	数学	化学	历史	地理	生物	物理	平均正确率
10	MiniCPM-Llama3-V 2.5	claude-3-5-sonnet-20240620	Anthropic	中国	46.70%	53.30%	83.30%	66.70%	71.40%	48.60%	61.70%

排名	模型	Model version	机构	国家	数学	化学	历史	地理	生物	物理	平均正确率
1	通义千问-VL	qwen-vl-max-0809	阿里巴巴	中国	46.70%	53.30%	83.30%	66.70%	71.40%	48.60%	61.70%
2	GPT-4o	gpt-4o-2024-05-13	OpenAI	美国	43.30%	43.30%	70.00%	73.30%	50.00%	48.60%	54.80%
3	Claude	claude-3-5-sonnet-20240620	Anthropic	美国	43.30%	63.30%	70.00%	70.00%	42.90%	37.10%	54.40%
4	海螺AI	not specified	MiniMax	中国	23.30%	56.70%	70.00%	70.00%	64.30%	28.60%	52.10%
5	Step-1V	step-1v-32k	阶跃星辰	中国	30.00%	36.70%	76.70%	50.00%	78.60%	40.00%	52.00%
6	GPT-4 Turbo	gpt-4-turbo-2024-04-09	OpenAI	美国	33.30%	53.30%	46.70%	63.30%	64.30%	45.70%	51.10%
7	混元-Vision	hunyuan-vision	腾讯	混元	40.00%	50.00%	73.30%	66.70%	42.90%	31.40%	50.70%
8	Gemini	gemini-1.5-pro	Google	美国	40.00%	46.70%	73.30%	63.30%	35.70%	37.10%	49.40%
9	书生•万象	InternVL2-40B	上海人工智能实验室	中国	23.30%	36.70%	80.00%	53.30%	64.30%	34.30%	48.70%
10	SenseChat-Vision5	SenseChat-Vision5	商汤科技	中国	26.70%	43.30%	80.00%	50.00%	64.30%	25.70%	48.30%
11	文心一言	文心大模型 4.0 Turbo	百度	中国	43.30%	36.70%	70.00%	46.70%	42.90%	45.70%	47.50%
12	Yi-Vision	yi-vision	零一万物	中国	40.00%	23.30%	56.70%	70.00%	50.00%	31.40%	45.20%
13	百小应	Baichuan4	百川智能	中国	20.00%	33.30%	70.00%	73.30%	42.90%	25.70%	44.20%
14	GPT-4o-mini	gpt-4o-mini-2024-07-18	OpenAI	美国	26.70%	40.00%	40.00%	56.70%	50.00%	31.40%	40.80%
15	浦语•灵笔2	internlm-xcomposer2-vl-7b	上海人工智能实验室	中国	23.30%	26.70%	66.70%	46.70%	35.70%	22.90%	37.00%
16	智谱GLM-4V	glm-4v	智谱AI	中国	23.30%	30.00%	50.00%	40.00%	42.90%	28.60%	35.80%
17	Reka Core	reka-core-20240501	Reka	美国	23.30%	33.30%	60.00%	53.30%	21.40%	17.10%	34.80%
18	MiniCPM-Llama3-V 2.5	MiniCPM-Llama3-V 2.5	面壁智能	中国	23.30%	20.00%	53.30%	50.00%	21.40%	31.40%	33.30%
19	讯飞星火	spark/v2.1/image	科大讯飞	中国	26.70%	26.70%	30.00%	40.00%	42.90%	17.10%	30.60%
20	DeepSeek-VL	deepseek-vl-7b-chat	深度求索	中国	10.00%	30.00%	30.00%	40.00%	14.30%	28.60%	25.50%

排名	模型	Model version	机构	国家	基于图像的文本创作	图像美学鉴赏	视觉审美与创意均分（7分制）
10	MiniCPM-Llama3-V 2.5	claude-3-5-sonnet-20240620	上海人工智能实验室	美国	5.48	6.07	5.78

排名	模型	Model version	机构	国家	基于图像的文本创作	图像美学鉴赏	视觉审美与创意均分（7分制）
1	GPT-4o	gpt-4o-2024-05-13	OpenAI	美国	5.48	6.07	5.78
2	书生•万象	InternVL2-40B	上海人工智能实验室	中国	4.97	6.2	5.59
3	GPT-4o-mini	gpt-4o-mini-2024-07-18	OpenAI	美国	5.32	5.65	5.49
4	文心一言	文心大模型 4.0 Turbo	百度	中国	4.9	6	5.45
5	海螺AI	not specified	MiniMax	中国	5.1	5.69	5.4
6	通义千问-VL	qwen-vl-max-0809	阿里巴巴	中国	4.77	5.78	5.28
7	GPT-4 Turbo	gpt-4-turbo-2024-04-09	OpenAI	美国	5.03	5.48	5.26
8	混元-Vision	hunyuan-vision	腾讯	中国	4.55	5.94	5.25
9	Step-1V	step-1v-32k	阶跃星辰	中国	5.07	5.37	5.22
10	Gemini	gemini-1.5-pro	Google	美国	4.5	5.87	5.19
11	百小应	Baichuan4	百川智能	中国	4.93	5.41	5.17
12	Claude	claude-3-5-sonnet-20240620	Anthropic	美国	4.68	5.57	5.13
13	Reka Core	reka-core-20240501	Reka	美国	4.28	4.67	4.48
14	讯飞星火	spark/v2.1/image	科大讯飞	中国	3.73	4.93	4.33
15	SenseChat-Vision5	SenseChat-Vision5	商汤科技	中国	3.57	4.8	4.19
16	浦语•灵笔2	internlm-xcomposer2-vl-7b	上海人工智能实验室	中国	3.78	4.52	4.15
17	智谱GLM-4V	glm-4v	智谱AI	中国	3.83	4.33	4.08
18	Yi-Vision	yi-vision	零一万物	中国	3.55	4.52	4.04
19	DeepSeek-VL	deepseek-vl-7b-chat	深度求索	中国	3.43	4.59	4.01
20	MiniCPM-Llama3-V 2.5	MiniCPM-Llama3-V 2.5	面壁智能	中国	2.93	4.35	3.64

排名	模型	Model version	机构	国家	得分（7分制）
10	MiniCPM-Llama3-V 2.5	claude-3-5-sonnet-20240620	Anthropic	美国	5.21

排名	模型	Model version	机构	国家	得分（7分制）
1	Claude	claude-3-5-sonnet-20240620	Anthropic	美国	5.4
2	Gemini	gemini-1.5-pro	Google	美国	5.21
3	GPT-4o	gpt-4o-2024-05-13	OpenAI	美国	4.98
3	DeepSeek-VL	deepseek-vl-7b-chat	深度求索	中国	4.98
5	Step-1V	step-1v-32k	阶跃星辰	中国	4.96
6	海螺AI	not specified	MiniMax	中国	4.94
7	GPT-4 Turbo	gpt-4-turbo-2024-04-09	OpenAI	美国	4.41
8	百小应	Baichuan4	百川智能	中国	4.3
9	Reka Core	reka-core-20240501	Reka	美国	4.22
10	文心一言	文心大模型 4.0 Turbo	百度	中国	4.11
11	讯飞星火	spark/v2.1/image	科大讯飞	中国	4
12	MiniCPM-Llama3-V 2.5	MiniCPM-Llama3-V 2.5	面壁智能	中国	3.75
13	通义千问-VL	qwen-vl-max-0809	阿里巴巴	中国	3.68
14	GPT-4o-mini	gpt-4o-mini-2024-07-18	OpenAI	美国	3.62
15	浦语•灵笔2	internlm-xcomposer2-vl-7b	上海人工智能实验室	中国	3.53
16	书生•万象	InternVL2-40B	上海人工智能实验室	中国	3.07
17	混元-Vision	hunyuan-vision	腾讯	中国	3.03
18	智谱GLM-4V	glm-4v	智谱AI	中国	2.98
19	SenseChat-Vision5	SenseChat-Vision5	商汤科技	中国	2.66
20	Yi-Vision	yi-vision	零一万物	中国	2.56

Note: This leaderboard was released in Jan 2025