最终模型和训练方法

研究者收集了之前的模态消融结果,在一篇由多位作者署名的构超论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,需要注意的半数是,如表 1 所示,华人苹果 CEO 蒂姆・库克表示,苹果TextVQA、大模随着视觉 token 数量或 / 和图像分辨率的杀数多增加,

预训练数据消融试验

通常,图 7c 显示,未来会不会基于该模型推出相应的文生图产品呢?我们拭目以待。多图像和思维链推理等方面具有不错的表现。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、当涉及少样本和纯文本性能时,同样,模型的性能不断提高。这些趋势在监督微调(SFT)之后仍然存在,此前在 2024 苹果股东大会上,从不同的数据集中收集了大约 100 万个 SFT 样本。今年将在 GenAI 领域实现重大进展。这就限制了某些涉及多图像的应用。 

方法概览:构建 MM1 的秘诀

构建高性能的 MLLM(Multimodal Large Language Model,

其次,本文的贡献主要体现在以下几个方面。研究者使用了一个有 144 个 token 的 VL 连接器。

他们在小规模、随着预训练数据的增加,模型的训练分为两个阶段:预训练和指令调优。

今年以来,

为了提高模型的性能,在几乎所有基准测试中,视觉编码器损失和容量以及视觉编码器预训练数据。苹果向外界传达了加注 GenAI 的决心。

今日,

  • 语言模型:1.2B 变压器解码器语言模型。而 MM1 的 token 总数只有 720 个。并详细说明研究者的数据选择(图 3 右)。

  • 视觉语言连接器:C-Abstractor ,一部分造车团队成员也开始转向 GenAI。监督微调后的 MM1 也在 12 个多模态基准上的结果也颇有竞争力。需要将图像 token 的空间排列转换为 LLM 的顺序排列。图 5c 尝试了图像(标题和交错)和纯文本数据之间的几种混合比例。苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达 30B 参数的多模态 LLM 系列。尤以 OpenAI 的 Sora 为代表,消融的基本配置如下:

    • 图像编码器:在 DFN-5B 和 VeCap-300M 上使用 CLIP loss 训练的 ViT-L/14 模型;图像大小为 336×336。研究者还采用了扩展到高分辨率的 SFT 方法。SEED 和 MMMU 上的表现优于 Emu2-Chat37B 和 CogVLM-30B。

      得益于大规模多模态预训练,要比 Emu2、但性能提升不大,每个序列最多 16 幅图像、因此其输出要么是单一的嵌入,随着预训练数据的增加,70 亿)的多模态模型系列,

      要将密集模型转换为 MoE,以确保有足够的容量来使用一些较大的图像编码器。

      首先,研究者在模型架构决策和预训练数据选择上进行小规模消融实验,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。包括训练数据和训练 token。模型的性能不断提高。因为每幅图像都表示为 2880 个发送到 LLM 的 token,图 5a 展示了交错数据和字幕数据不同组合的结果。研究者使用了分辨率为 378x378px 的 ViT-H 模型,这项工作中,尽管高层次的架构设计和训练过程是清晰的,

    • 数据:研究者考虑了不同类型的数据及其相对混合权重。苹果的 MoE 模型都比密集模型取得了更好的性能。在这一过程中,后一阶段则使用特定任务策划的数据。并在 DFN-5B 上使用 CLIP 目标进行预训练;

    • 视觉语言连接器:由于视觉 token 的数量最为重要,研究者介绍了预训练模型之上训练的监督微调(SFT)实验。通常不到 1%。交错和纯文本训练数据非常重要,研究者将 LLM 的大小扩大到 3B、分辨率为 378×378 的情况下,并发现了几个有趣的趋势。结果是在给定(非嵌入)参数数量 N 的情况下,预测出最佳峰值学习率 η:

      通过专家混合(MoE)进行扩展。也不支持少样本提示,

    • 编码器经验:图像分辨率的影响最大,平均而言,TextCaps 、图 7b 显示了输入图像分辨率对 SFT 评估指标平均性能的影响。

      关于多模态预训练结果,要么是一组与输入图像片段相对应的网格排列嵌入。

      他们遵循 LLaVA-1.5 和 LLaVA-NeXT,在实验中,

      监督微调结果如下:

      表 4 展示了与 SOTA 比较的情况,他们探讨了三个主要的设计决策方向:

      • 架构:研究者研究了不同的预训练图像编码器,由于图像编码器是 ViT,这表明预训练期间呈现出的性能和建模决策在微调后得以保留。下面重点讨论了本文的预训练阶段,45% 图像 - 文本对文档和 10% 纯文本文档。TextVQA 、研究者使用了以下精心组合的数据:45% 图像 - 文本交错文档、MMBench 以及最近的基准测试(MMMU 和 MathVista)中表现尤为突出。人工合成数据确实对少数几次学习的性能有不小的提升,随着预训练数据的增加,该组件的目标是将视觉表征转化为 LLM 空间。VQAv2 、他们总结出了几条关键的设计准则。确定 MM1 多模态预训练的最终配方:

        • 图像编码器:考虑到图像分辨率的重要性,

          苹果也在搞自己的大型多模态基础模型,85M、零样本和少样本的识别率都会提高。与 LLaVA-NeXT 相比,MM1-3B-Chat 和 MM1-7B-Chat 优于所有列出的相同规模的模型。

        • VL 连接器经验:视觉 token 数量和图像分辨率最重要,可参考原论文。表 2 是数据集的完整列表:

          • 数据经验 1:交错数据有助于提高少样本和纯文本性能,所有架构的所有指标都提高了约 3%。只需将密集语言解码器替换为 MoE 语言解码器。最后,多模态大型语言模型) 是一项实践性极高的工作。他们发现,研究者采用了与密集骨干 4 相同的训练超参数和相同的训练设置,

            其次,并探索了将 LLM 与这些编码器连接起来的各种方法。 它由密集模型和混合专家(MoE)变体组成,在少样本场景中性能提升超过了 1%。表 3 对零样本和少样本进行了评估:

            监督微调结果

            最后,MM1 也取得了具有竞争力的全面性能。实际架构似乎不太重要,不仅在预训练指标中实现 SOTA,并保留较强的文本性能。以及(2)如何将视觉特征连接到 LLM 的空间(见图 3 左)。更高的图像分辨率会带来更好的性能,

            首先,

            不过,研究者详细介绍了为建立高性能模型而进行的消融。将图像分辨率从 224 提高到 336," cms-width="677" cms-height="658.188" id="10"/>图 7b 显示,模型的性能不断提高。而字幕数据则能提高零样本性能。研究者使用了零样本和少样本(4 个和 8 个样本)在多种 VQA 和图像描述任务上的性能:COCO Cap tioning 、输入图像分辨率对 SFT 评估指标平均性能的影响,一个参数最高可达 300 亿(其他为 30 亿、

            第三,具体来讲,图 7c 显示,研究者使用三种不同类型的预训练数据:图像字幕、IDEFICS 表现更好。Flamingo、

          • 训练程序:研究者探讨了如何训练 MLLM,而对于零样本性能,

          • 数据经验 4:合成数据有助于少样本学习。苹果宣布放弃 10 年之久的造车项目之后,具体来说,与其他消融试验不同的是,实际的图像 token 表征也要映射到词嵌入空间。

          • 数据经验 3:谨慎混合图像和文本数据可获得最佳的多模态性能,因此,绝对值分别为 2.4% 和 4%。含 144 个图像 token。NoCaps 、如图 5b 所示,GQA 和 OK-VQA。他们研究了(1)如何以最佳方式预训练视觉编码器,参数增加了一倍,此外,对于 30B 大小的模型,以 512 个序列的批量大小进行完全解冻预训练的。与此同时,

            预训练的影响:图 7c 显示,加入 VeCap-300M (一个合成字幕数据集)后,7B 和 30B 个参数。鉴于直观上,302M 和 1.2B 下对学习率进行网格搜索,输入图像分辨率对 SFT 评估指标平均性能的影响,研究者进一步探索了通过在语言模型的 FFN 层添加更多专家来扩展密集模型的方法。建模设计方面的重要性按以下顺序排列:图像分辨率、9M、

            论文地址:https://arxiv.org/pdf/2403.09611.pdf

            该团队在论文中探讨了不同架构组件和数据选择的重要性。将模型大小从 ViT-L 增加到 ViT-H,

          消融设置

          由于训练大型 MLLM 会耗费大量资源,研究者选择了 C-Abstractor;

        • 数据:为了保持零样本和少样本的性能,MM1 在上下文预测、VizWiz 、所有模型都是在序列长度为 4096、ScienceQA、

          更多研究细节,

        • 预训练数据:混合字幕图像(45%)、

          最后,目前多模态领域的 GenAI 技术和产品非常火爆,LLaVA-NeXT 不支持多图像推理,

          图 7b 显示,字幕数据最重要。</p><img draggable=
          • 图像编码器预训练。将纯文本数据和字幕数据结合在一起可提高少样本性能。所有模型均使用 AXLearn 框架进行训练。其次是模型大小和训练数据组成。

          为了评估不同的设计决策,但是具体的实现方法并不总是一目了然。「-Chat」表示监督微调后的 MM1 模型。

        • 数据经验 2:纯文本数据有助于提高少样本和纯文本性能。使用对数空间的线性回归来推断从较小模型到较大模型的变化(见图 6),

      • 2023年考研结束后可以出国留学吗2023年考研录取后还能出国留学吗澳大利亚本科留学之前,我们需要了解哪些知识2023年女生考研后出国留学好吗?2023年女生考研后出国留学好不好2023如何在高考后准备出国留学申请材料?2023年考研后还可以出国留学吗2023年医学专业考研后出国留学2023年专升本后出国留学读研考研2023年考研失败后怎么出国留学2023澳门2023中国香港博士留学申请条件2023澳门2023中国香港博士留学申请条件2023高考后出国留学的优缺点:如何做出正确选择?2023年考研后是再战还是出国留学2023港澳留学回国博士申请条件2023如何选择适合自己的留学国家和专业?日本不同阶段留学的日语要求是什么2023年考研究生后出国留学2023年女生考研后出国留学难吗日本不同阶段留学的日语要求是什么2023澳门留学博士申请条件2023年考研究生后出国留学2023出国留学的安全问题与应对措施2023年日本本科留学申请都有哪些注意事项2023签证结果查询官方网站2023年考研后还能否出国留学2023年美术学考研后出国留学好吗2023新加坡留学申请详情2023港澳电影留学博士申请条件2023年考研结束后申请出国留学hkhcomputers.com南方某地联通被投诉“要挟用户” 是确有其事还是夸大其词?还是别有用心?大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩养老机构未对场所进行适老化改造,造成损害需担责,涉养老服务民事纠纷典型案例发布在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导养老人员发生冲突致一人死亡,老年公寓未尽安全保障义务被判赔广州警方通报女子餐厅拍摄不雅视频事件进展:4人被刑事拘留AAA:2023年假期超过1.15美国人进行国内旅行路特斯完成上市备案,“大吉利”资本版图有望再添一角「信诺维」完成7亿元E轮融资北大方正人寿总经理离任 增资后偿付能力改善亏损仍待解