Evaluation of Image Understanding Capabilities of Large Language Models in Chinese Contexts / 中文语境下的人工智能大语言模型图像理解能力评测
排名
|
模型
|
Model
version
|
机构
|
国家
|
视觉感知与识别
|
视觉推理与分析
|
视觉审美与创意
|
安全与责任
|
综合得分
|
---|---|---|---|---|---|---|---|---|---|
10
|
MiniCPM-Llama3-V
2.5
|
claude-3-5-sonnet-20240620
|
Anthropic
|
美国
|
75.1
|
66.1
|
82.6
|
71.1
|
73.7
|
注:在交互过程中,百小应(网页)、文心一言(网页)、智谱GLM-4V(API)、讯飞星火(API)和SenseChat-Vision(API)因不同原因(如敏感性或未知问题)对五条或以上指令未作出回复,对其最终得分产生了影响。
为方便比较,上述得分由7分制转换为100分制。需要注意的是,上述任务均在中文语境下进行评测,因此这一排名结果不一定能推广至英文语境的测试中。
#海螺AI由MiniMax基于其自研多模态大语言模型开发,支持智能搜索问答、图像识别解析及文本创作等多种功能,其底层的大语言模型版本信息未公开披露。
排名
|
模型
|
model
version
|
机构
|
国家
|
视觉感知与识别
|
视觉分析与推理
|
视觉审美与创意
|
综合得分
|
---|---|---|---|---|---|---|---|---|
10
|
MiniCPM-Llama3-V
2.5
|
claude-3-5-sonnet-20240620
|
Anthropic
|
美国
|
75.1
|
66.1
|
82.6
|
74.6
|
排名
|
模型
|
Model
version
|
机构
|
国家
|
详细描述
|
总结性描述
|
特征定位
|
代码识别
|
汉字识别
|
公式识别
|
生物物种识别
|
文化与自然识别
|
视觉感知与识别均分(7分制)
|
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
10
|
MiniCPM-Llama3-V
2.5
|
claude-3-5-sonnet-20240620
|
Anthropic
|
美国
|
5.75
|
4.87
|
5.17
|
6.37
|
5.53
|
5.54
|
4.61
|
4.33
|
5.26
|
排名
|
模型
|
Model
version
|
机构
|
国家
|
常识问答
|
Meme理解与分析
|
专业学科知识问答
|
图表分析
|
逻辑推理
|
视觉推理与分析均分(7分制)
|
---|---|---|---|---|---|---|---|---|---|---|
10
|
MiniCPM-Llama3-V
2.5
|
claude-3-5-sonnet-20240620
|
Anthropic
|
美国
|
5.87
|
5.45
|
54.80%
|
4.71
|
3.67
|
4.63
|
排名
|
模型
|
Model
version
|
机构
|
国家
|
数学
|
化学
|
历史
|
地理
|
生物
|
物理
|
平均正确率
|
---|---|---|---|---|---|---|---|---|---|---|---|
10
|
MiniCPM-Llama3-V
2.5
|
claude-3-5-sonnet-20240620
|
Anthropic
|
中国
|
46.70%
|
53.30%
|
83.30%
|
66.70%
|
71.40%
|
48.60%
|
61.70%
|
排名
|
模型
|
Model
version
|
机构
|
国家
|
基于图像的文本创作
|
图像美学
鉴赏
|
视觉审美与创意均分(7分制)
|
---|---|---|---|---|---|---|---|
10
|
MiniCPM-Llama3-V
2.5
|
claude-3-5-sonnet-20240620
|
上海人工智能实验室
|
美国
|
5.48
|
6.07
|
5.78
|
排名
|
模型
|
Model
version
|
机构
|
国家
|
得分(7分制)
|
---|---|---|---|---|---|
10
|
MiniCPM-Llama3-V
2.5
|
claude-3-5-sonnet-20240620
|
Anthropic
|
美国
|
5.21
|