多模态大语言模型
多模态大语言模型(MLLMs)是一种能够理解和生成多种形式的内容(涵盖文本、图像、视频、音频等多种模态)的机器学习模型。它们通过融合不同模态的数据,实现了跨模态的信息理解与生成,被广泛应用于虚拟助手、内容创作等领域。
多模态大语言模型 (Multimodal large language models)
名称 | 模型 | 机构 |
---|---|---|
Gemini 1.5 Pro | Gemini 1.5 Pro | Alpha (Google) |
GPT-4o | gpt-4o-2024-05-13 | OpenAI |
GPT-4o-mini | gpt-4o-mini-2024-07-18 | OpenAI |
GPT4-Turbo | gpt-4-turbo-2024-04-09 | OpenAI |
商量 SenseChat | 商量 SenseChat-5 | 商汤科技 |
文心一言4.0 | ERNIE-Bot4.0 | 百度 |
讯飞星火 | 讯飞星火 | 科大讯飞 |
豆包 | 豆包 | 字节跳动 |
通义千问 | 通义千问 V2.5.0 | 阿里巴巴 |
排行榜
- 图像生成能力排名
- 图像理解能力排名