|
EN
视觉语言模型
视觉语言模型 (VLMs)视觉语言模型 (VLMs)是一种能够理解和处理图像及文本的机器学习模型。它们通过将视觉信息与语义信息相结合,能够执行图像描述和视觉问答等任务。
视觉语言模型 (Vision Language Models)
名称 模型 机构
智谱清言 glm-4v 智谱AI
Yi-Vision yi-vision 零一万物
ChatGLM3 ChatGLM3-6B 清华&智谱
通义千问 qwen-vl-max-0809 阿里巴巴
腾讯混元 hunyuan-vision 腾讯
讯飞星火 spark/v2.1/image 科大讯飞
商汤日日新 SenseChat-Vision 商汤科技
阶跃星辰 step-1v-32k 阶跃星辰
Reka AI reka-core-20240501 Meta
MiniMax abab5.5-chat Reka
Gemini gemini-1.5-pro-latest Google
Claude claude-3-5-sonnet-20240620 Anthropic
海螺AI 海螺AI MiniMax
百小应 Baichuan4* 百川智能
文心一言 文心大模型 4.0 Turbo* 百度
DeepSeek-VL deepseek-vl-7b-chat 深度求索
浦语•灵笔2 internlm-xcomposer2-vl-7b 上海人工智能实验室
面壁智能 MiniCPM-Llama3-V 2.5 面壁智能
书生•万象 InternVL2-40B 上海人工智能实验室
排行榜
  • 图像理解能力排名