22 Jan 2025
Zhenhui (Jack) Jiang1, Jiaxin
Li1, Haozhe
Xu2 /
蒋镇辉1,李佳欣1,徐昊哲2
1HKU Business School,
2Shool of Management, Xi'an
Jiaotong University
摘要
在科技迅猛发展的当下,人工智能技术不断取得突破性进展,OpenAI的GPT-4o、谷歌的Gemini 2.0这类多模态模型以及通义千问-VL、混元-Vision等视觉语言模型迅速崛起。这些新一代模型在图像理解方面展现出强大的能力,不仅具备出色的泛化性,而且还具有广泛的应用潜力。然而,现阶段对这些模型视觉能力的评估与认知仍存在不足。为此,我们提出了一套全面且系统的图像理解综合评测框架,该框架涵盖视觉感知与识别、视觉推理与分析、视觉审美与创意三大核心能力维度,同时还将安全与责任维度纳入其中。通过设计针对性测试集,我们对20个国内外知名模型进行了全面评估,旨在为多模态模型的研究与实际应用提供可靠参考依据。
我们的研究表明,无论是在图像理解三大核心能力的评估中,还是在包括安全与责任的综合评估中,GPT-4o与Claude的表现都最为突出,位列前二。若仅聚焦于视觉感知与识别、视觉推理与分析、视觉审美与创意三大核心能力维度,国产模型通义千问-VL、海螺AI(联网)与Step-1V依次位列第三、第四、第五,混元-Vision紧随其后。当纳入安全与责任维度进行综合评估时,海螺AI(联网)与Step-1V分别位列第三和第四,Gemini位列第五,通义千问-VL则排名第6。