|
EN
多模态大语言模型
多模态大语言模型(MLLMs)是一种能够理解和生成多种形式的内容(涵盖文本、图像、视频、音频等多种模态)的机器学习模型。它们通过融合不同模态的数据,实现了跨模态的信息理解与生成,被广泛应用于虚拟助手、内容创作等领域。
多模态大语言模型 (Multimodal large language models)
名称 模型 机构
Gemini 1.5 Pro Gemini 1.5 Pro Alpha (Google)
GPT-4o gpt-4o-2024-05-13 OpenAI
GPT-4o-mini gpt-4o-mini-2024-07-18 OpenAI
GPT4-Turbo gpt-4-turbo-2024-04-09 OpenAI
商量 SenseChat 商量 SenseChat-5 商汤科技
文心一言4.0 ERNIE-Bot4.0 百度
讯飞星火 讯飞星火 科大讯飞
豆包 豆包 字节跳动
通义千问 通义千问 V2.5.0 阿里巴巴
排行榜
  • 图像生成能力排名
  • 图像理解能力排名