视觉语言模型
视觉语言模型 (VLMs)视觉语言模型
(VLMs)是一种能够理解和处理图像及文本的机器学习模型。它们通过将视觉信息与语义信息相结合,能够执行图像描述和视觉问答等任务。
视觉语言模型 (Vision Language Models)
名称 | 模型 | 机构 |
---|---|---|
智谱清言 | glm-4v | 智谱AI |
Yi-Vision | yi-vision | 零一万物 |
ChatGLM3 | ChatGLM3-6B | 清华&智谱 |
通义千问 | qwen-vl-max-0809 | 阿里巴巴 |
腾讯混元 | hunyuan-vision | 腾讯 |
讯飞星火 | spark/v2.1/image | 科大讯飞 |
商汤日日新 | SenseChat-Vision | 商汤科技 |
阶跃星辰 | step-1v-32k | 阶跃星辰 |
Reka AI | reka-core-20240501 | Meta |
MiniMax | abab5.5-chat | Reka |
Gemini | gemini-1.5-pro-latest | |
Claude | claude-3-5-sonnet-20240620 | Anthropic |
海螺AI | 海螺AI | MiniMax |
百小应 | Baichuan4* | 百川智能 |
文心一言 | 文心大模型 4.0 Turbo* | 百度 |
DeepSeek-VL | deepseek-vl-7b-chat | 深度求索 |
浦语•灵笔2 | internlm-xcomposer2-vl-7b | 上海人工智能实验室 |
面壁智能 | MiniCPM-Llama3-V 2.5 | 面壁智能 |
书生•万象 | InternVL2-40B | 上海人工智能实验室 |
排行榜
- 图像理解能力排名