人工智能视觉语言模型 - 港大人工智能评测实验室

视觉语言模型

视觉语言模型 (VLMs)视觉语言模型 (VLMs)是一种能够理解和处理图像及文本的机器学习模型。它们通过将视觉信息与语义信息相结合，能够执行图像描述和视觉问答等任务。

视觉语言模型 (Vision Language Models)

名称	模型	机构
智谱清言	glm-4v	智谱AI
Yi-Vision	yi-vision	零一万物
ChatGLM3	ChatGLM3-6B	清华&智谱
通义千问	qwen-vl-max-0809	阿里巴巴
腾讯混元	hunyuan-vision	腾讯
讯飞星火	spark/v2.1/image	科大讯飞
商汤日日新	SenseChat-Vision	商汤科技
阶跃星辰	step-1v-32k	阶跃星辰
Reka AI	reka-core-20240501	Meta
MiniMax	abab5.5-chat	Reka
Gemini	gemini-1.5-pro-latest	Google
Claude	claude-3-5-sonnet-20240620	Anthropic
海螺AI	海螺AI	MiniMax
百小应	Baichuan4*	百川智能
文心一言	文心大模型 4.0 Turbo*	百度
DeepSeek-VL	deepseek-vl-7b-chat	深度求索
浦语•灵笔2	internlm-xcomposer2-vl-7b	上海人工智能实验室
面壁智能	MiniCPM-Llama3-V 2.5	面壁智能
书生•万象	InternVL2-40B	上海人工智能实验室

排行榜

图像理解能力排名

注：该列表更新于2025年1月