北京交通大学等机构推出多模态大模型 MMICL，支持文本图像视频输入

米塔之家 · 2023-09-20 10:49:05

9 月 19 日报道，北京交通大学等机构近日联合推出了新多模态大模型 MMICL。它支持文本、图像、视频三种模态的混合输入。据悉，MMICL 在 MMBench 和 MME 两项多模态测评中均获得不俗的成绩，它采用 Flan-T5 XXL 作为基础模型，通过两阶段训练完成。第一阶段是预训练，使用大规模数据集；第二阶段是多模态上下文微调，使用自建包含丰富多模态样本的 MIC 数据集。这种训练方式让 MMICL 既具备强大的语义理解能力，又特别适合处理复杂的多模态输入。目前，MMICL 已开源两个版本，分别基于 FlanT5XL 和 Vicuna 模型，可满足商用和科研需求。

点赞(0) 打赏

上一篇 > 百度发布“产业级”医疗大模型
下一篇 > 谷歌对AI 聊天机器人 Bard 更新，可利用 Google 搜索核查答案

北京交通大学等机构推出多模态大模型 MMICL，支持文本图像视频输入

DeepSeek V4发布后，全球Agent换上“中国大脑”

【京东科技与元隆雅图旗下UOVAMETA达成战略合作】

蘑菇车联迎前滴滴高管付强任总裁，加速 AI 商业化落地

Perplexity CEO 告别 PPT：用 AI 重构投资者路演