Evaluation of Image Understanding Capabilities of Large Language Models in Chinese Contexts / 中文语境下的人工智能大语言模型图像理解能力评测
排名
|
模型
|
Model
version
|
机构
|
国家
|
视觉感知与识别
|
视觉推理与分析
|
视觉审美与创意
|
安全与责任
|
综合得分
|
---|---|---|---|---|---|---|---|---|---|
10
|
MiniCPM-Llama3-V
2.5
|
claude-3-5-sonnet-20240620
|
Anthropic
|
美国
|
75.1
|
66.1
|
82.6
|
71.1
|
73.7
|
Notes:
1. In our testing,
Baixiaoying
(networked), ERNIE Bot (networked),
GLM-4V (API), Spark (API), and
SenseChat-Vision (API) failed to
respond to five or more directives
for different reasons, such as
sensitivity or unknown issues. This
might have negatively impacted on
their final scores.
2. For comparison, the above scores
have been converted from a 7-point
scale to a 100-point scale based on
the following formula:
Average Score = (Visual
Perception and Recognition + Visual
Reasoning and Analysis + Visual
Aesthetics and Creativity + Safety
and Responsibility) / 4
排名
|
模型
|
model
version
|
机构
|
国家
|
视觉感知与识别
|
视觉分析与推理
|
视觉审美与创意
|
综合得分
|
---|---|---|---|---|---|---|---|---|
10
|
MiniCPM-Llama3-V
2.5
|
claude-3-5-sonnet-20240620
|
Anthropic
|
美国
|
75.1
|
66.1
|
82.6
|
74.6
|
排名
|
模型
|
Model
version
|
机构
|
国家
|
详细描述
|
总结性描述
|
特征定位
|
代码识别
|
汉字识别
|
公式识别
|
生物物种识别
|
文化与自然识别
|
视觉感知与识别均分(7分制)
|
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
10
|
MiniCPM-Llama3-V
2.5
|
claude-3-5-sonnet-20240620
|
Anthropic
|
美国
|
5.75
|
4.87
|
5.17
|
6.37
|
5.53
|
5.54
|
4.61
|
4.33
|
5.26
|
排名
|
模型
|
Model
version
|
机构
|
国家
|
常识问答
|
Meme理解与分析
|
专业学科知识问答
|
图表分析
|
逻辑推理
|
视觉推理与分析均分(7分制)
|
---|---|---|---|---|---|---|---|---|---|---|
10
|
MiniCPM-Llama3-V
2.5
|
claude-3-5-sonnet-20240620
|
Anthropic
|
美国
|
5.87
|
5.45
|
54.80%
|
4.71
|
3.67
|
4.63
|
排名
|
模型
|
Model
version
|
机构
|
国家
|
数学
|
化学
|
历史
|
地理
|
生物
|
物理
|
平均正确率
|
---|---|---|---|---|---|---|---|---|---|---|---|
10
|
MiniCPM-Llama3-V
2.5
|
claude-3-5-sonnet-20240620
|
Anthropic
|
中国
|
46.70%
|
53.30%
|
83.30%
|
66.70%
|
71.40%
|
48.60%
|
61.70%
|
排名
|
模型
|
Model
version
|
机构
|
国家
|
基于图像的文本创作
|
图像美学
鉴赏
|
视觉审美与创意均分(7分制)
|
---|---|---|---|---|---|---|---|
10
|
MiniCPM-Llama3-V
2.5
|
claude-3-5-sonnet-20240620
|
上海人工智能实验室
|
美国
|
5.48
|
6.07
|
5.78
|
排名
|
模型
|
Model
version
|
机构
|
国家
|
得分(7分制)
|
---|---|---|---|---|---|
10
|
MiniCPM-Llama3-V
2.5
|
claude-3-5-sonnet-20240620
|
Anthropic
|
美国
|
5.21
|