[科普贴]关于多模态大型语言模型的简单技术介绍

SARSE

一、概论

简介
多模态大型语言模型（Multimodal Large Language Models，MLLM）已成为当前人工智能领域的焦点研究对象。在国内，诸如百度等行业巨头率先布局，积极投身于自主多模态 AI 大模型的研发工作。MLLM 凭借其广泛而深厚的知识储备，展现出强大的跨行业问题处理能力，能够覆盖众多领域的知识问答需求。当下，多模态大模型的研究已然催生出一个崭新且独立的学科领域，其发展态势契合了人工智能技术演进的前沿趋向，吸引着众多科研力量不断深入探索，在模型架构优化、多模态数据融合机制、语义理解与生成算法创新等多方面持续攻坚，有望为人工智能技术的整体突破提供关键支撑与全新思路。
人工智能发展的里程碑事件
（1）1950年：艾伦·图灵提出了一种可以测试并评估机器是否具备智能的基本方法——图灵测试。
（2）1956年：在美国举行的达特茅斯会议（Dartmouth Conference）是人工智能正式成为一个独立学科的起点。
（3）1960年：人工智能的研究方向从基于对规则的推理，转向了基于符号推理的方法，并尝试通过编写计算机程序来实现机器模拟人类的智能行为。
（4）1966年：魔方计划（Project Dendral）是专家系统开发的先驱之一，他们旨在通过专家知识以此来模拟化学分析。
（5）1970年：人工智能的研究开始关注于知识表示和逻辑推理，语义网络和框架表示等知识表示方法开始出现。
（6）1973年：沃尔特·皮特曼发明了Prolog语言，这是一种基于逻辑推理的编程语言，为逻辑推理的研究和应用奠定了基础。
（7）1980年：专家系统正式成为人工智能的热门研究领域，这是一种将专家知识转化为规则和推理的引擎，实现了部分领域的智能决策。
（8）1987年： Dendral成功模拟了人类对有机化合物的推理过程，引起了人工智能学术界的广泛关注，Dendral是一种决策支持系统。
（9）1980年：专家系统遇到了实际应用上的限制，主要表现在专家系统无法处理复杂的知识表示和逻辑推理问题，这也直接导致了专家系统的衰退。
（10）1990年：神经网络和机器学习技术得到了重新关注和发展。
（11）1997年：IBM的Deep Blue超级计算机战胜了国际象棋世界冠军加里·卡斯帕罗夫，引发了世界对机器智能的关注。
（12）2020年：GPT-3发布，它是在当时最大的语言模型。
（13）2021年：DeepMind的AlphaFold人工智能解决了蛋白质折叠问题。
（14）2022年：Facebook发布了他们的自然语言处理模型RoBERTa。
（15）2024年：世界各国都发布了他们的大模型，它们有着独特的用法，为目前人类社会提供了不小的帮助，并影响着各个行业的发展。
基本原理
人工智能的基本原理涵盖了多方面的复杂体系，在数据层面，涉及数据采集、数据清洗、数据标注等数据预处理流程，以及数据增强技术以扩充数据规模与多样性。机器学习算法领域，除传统的监督学习（如支持向量机、决策树等）、无监督学习（聚类分析、降维算法等）、半监督学习外，还包括强化学习（基于智能体与环境的交互，通过奖励信号来学习最优策略）。深度学习架构方面，卷积神经网络在图像识别等视觉任务中凭借其局部感知野与权值共享特性发挥关键作用；循环神经网络及其变体（如长短期记忆网络 LSTM、门控循环单元 GRU）适用于处理序列数据，例如语音识别与文本生成；Transformer 架构基于多头注意力机制，在自然语言处理领域取得了卓越成果，推动了预训练模型（如 BERT、GPT 系列）的发展。
神经网络构建与训练过程中，涉及到反向传播算法用于计算梯度以更新神经网络的参数，优化算法（如随机梯度下降 SGD、Adagrad、Adam 等）用于调整学习率以加速收敛并避免过拟合。同时，还包括正则化技术（如 L1、L2 正则化、Dropout 等）以提高模型的泛化能力。自然语言处理技术包含更深入的命名实体识别、情感分析、语义角色标注等，并且运用词向量模型（如 Word2Vec、GloVe）将文本转化为低维向量表示以提升处理效率。推理与决策机制则基于贝叶斯推理、模糊逻辑等理论基础，结合模型预测结果与先验知识，在复杂环境下做出合理的判断与决策，实现人工智能系统自动化、智能化以及精准判别能力的信息处理流程，将信息转换为结构化数据存储于数据存储库（如关系型数据库、非关系型数据库如 MongoDB 等）。借助人工标注反馈、交互式学习等干预机制，系统依据大规模数据集与精细调校的算法（如超参数优化技术）达成自然语言的深度语义解析与处理，最终执行决策与判断操作以完成预设的目标任务，例如在智能客服、自动驾驶、医疗诊断辅助等多领域的应用场景中展现其智能效能。
二、主流大模型介绍
榜首
数据来源基于2023年9月至2024年8月访问量排行前十的AI工具，排名第一的是——GPT系列模型。
GPT基本原理介绍
GPT 依托于深度学习模型构建而成，其核心采用了具有革命性的 Transformer 网络架构，此架构在当下多模态 AI 大模型领域占据主导地位，属于一种高度先进且独特的人工神经网络设计范式。Transformer 网络架构显著特征在于其创新性的自注意力机制，该机制赋予模型卓越的长序列文本处理效能，能够动态地聚焦于文本序列不同位置的语义信息，有效捕捉长距离的语义依赖关系，克服了传统神经网络在处理长文本时的局限性。
作为一种典型的预训练模型，GPT 为开发者提供了强大的可扩展性与适应性。通过精细的微调（fine-tuning）技术，可针对特定领域或任务对模型参数进行优化调整。在微调过程中，运用特定任务的数据集对模型进行有针对性的训练，使得模型能够快速适应不同的应用场景与任务需求，包括但不限于文本生成、问答系统、机器翻译、情感分析等自然语言处理任务，在各类场景下均能基于其学习到的知识与模式进行精准的推理与决策，为人工智能在多领域的实际应用提供了坚实的技术支撑与高效的解决方案。
三、多模态大型语言模型
发展
多模态大型语言模型的出现是建立在大型语言模型（Large Language Models， LLM）和大型视觉模型（Large Vision Models， LVM）这两个领域的不断进步的基础之上产生的，不仅有机的结合了这两种大模型，并且有了新的突破。
统一架构
当前，绝大多数多模态大模型均构建于 Transformer based 架构之上。Transformer 作为一种序列到序列（sequence-to-sequence）的模型架构，其核心机制为自注意力机制（self-attention），通过多头注意力机制（multi-head attention）实现对不同位置信息的并行处理能力，即能够在同一时间步内同步聚焦于序列中多个不同位置的自然信息要素，从而有效捕捉序列数据中的复杂关联与语义特征。在自然语言处理（Natural Language Processing, NLP）领域，Transformer 架构的应用极为普遍且深入，在诸如文本生成任务中的语言模型构建、机器翻译任务中的源语言与目标语言语义转换与映射等方面均发挥着关键作用，已然成为推动自然语言处理技术发展与革新的核心驱动力之一，极大地提升了相关任务的处理精度与效率，为众多自然语言处理应用场景提供了强有力的技术支撑与模型基础。
模态编码器的选择和功能
（1）模态编码器的功能
在多模态大型语言模型（MLLM）体系中，多模态信息（涵盖图像、音频、视频等）的原始模态向紧凑表示形式的转换是一项关键任务，此时模态编码器的重要性便得以彰显，其作为 MLLM 的核心组件，在整个模型架构中起着承上启下的关键作用。相较于从零开始训练的编码器，在大规模数字媒体（如图像）与文本信息处理任务中，经过预训练的模态编码器展现出显著优势。行业惯例多倾向于采用此类预处理过的编码器，而非未经过任何数据训练的编码器。以典型的 CLIP 模型为例，其视觉编码器能够对数字媒体文件进行高效的特征提取与处理，将图像信息映射为向量表示形式，并实现与文本特征空间的对齐，从而为跨模态信息交互奠定基础。
然而，鉴于不同 MLLM 模型在架构设计、应用场景以及数据需求等方面存在差异，当前市场上并不存在一种通用的、能完美适配所有模型的编码器。各模型在编码器的选型与优化策略上往往各有考量与权衡，通常会依据自身特定的任务目标、数据分布特点以及性能需求等因素，对编码器进行定制化的设计与调整。从长远来看，探索并研发一种具有高度通用性与卓越性能的多模态大型编码器或许将成为未来模态编码器领域的重要发展趋势，这一突破有望极大地推动 MLLM 整体性能的提升与应用范围的拓展，为多模态人工智能技术的深度融合与创新应用提供更为坚实的技术支撑。
（2）EVA-CLIP 编码器
OpenAI 公司开发的 MiniGPT-4 作为一款性能卓越且轻量化的人工智能产品，采用了特定的编码器。在性能对比方面，基于大量可靠实验数据的验证，EVA-CLIP 编码器相较于传统标准的 CLIP 展现出显著优势，其在多项性能指标上均超越后者，同时在训练成本方面亦大幅降低，具有更高的性价比。
在提升初始性能的策略上，EVA-CLIP 借助 EVA 模型预训练权重对图像编码器实施初始化操作，通过迁移学习的方式有效利用已有的模型知识，从而为模型在初始阶段奠定良好的性能基础。对于多模态大模型及与之适配的编译器而言，由于需要处理大规模数据训练任务，LAMB 优化器成为理想选择。该优化器具备独特的自适应能力，能够在元素级别更新与层级学习率调整过程中，依据训练环境与数据因素动态优化，有效提升大规模数据训练的效率，加速模型的收敛进程，使模型能够更快地达到稳定的性能状态。
此外，该编译器还引入了 FLIP 技术。在训练过程中，FLIP 技术采用随机屏蔽图像标记的机制，屏蔽概率设定为约 50%的图像标记。这种随机屏蔽策略在不损失关键信息的前提下，有效降低了数据处理的时间复杂度，通过减少不必要的计算开销，进一步提升了整个模型训练的效率与速度，增强了模型在多模态数据处理场景下的综合性能表现。
（3）无编码器的架构
Fuyu-8b 采用了纯解码器转换架构，在该架构中，数字媒体图形图像的分块通过线性投影方式直接映射至转换器的首层，此过程巧妙地绕过了嵌入查找步骤。从技术原理层面来看，这一创新设计使得在人工智能领域广泛应用的 Transformer 架构之解码器能够被视作一种专门针对数字媒体图形图像的转换模块。这种独特的设计赋予了模型对于随机、无特定规律输入的分辨率具备高度适应性，在多模态数据处理情境下彰显出卓越的灵活性与兼容性，有力地证明了无编码器架构在多模态大型语言模型体系中亦占据着重要地位，是推动多模态大模型多源异构数据融合与处理能力提升的关键架构选型之一，为多模态大模型在复杂多源数据场景下的高效运行提供了一种创新且有效的技术范式。
（4）基于卷积的ConvNext-L编译器
Osprey 采用了基于卷积的 ConvNext-L 编译器，它是基于 Java 构建的高效且具备良好扩展性的数据处理框架，遵循微服务架构理念，支持数据与水平扩展，能够有效应对 PB 级海量数据处理任务，在多模态大模型领域极具适用性。多模态大模型因需覆盖广泛行业领域以实现对自然语言的深度理解、自然信息处理以及合理推测与决策，往往依赖大规模训练数据，而 Osprey 框架恰能满足此需求。其分布式架构结合流式计算模型，可实现高性能计算，对连续不断的数据流进行实时处理，尤为突出的是能达成低延迟数据处理效果。在多模态大模型与用户交互场景中，低延迟数据处理至关重要，堪称核心环节，这促使其成为机器学习应用中的优选方案，有助于模型开展实时训练与预测任务，在提升模型响应速度、优化用户体验等方面发挥关键作用，为多模态大模型的高效运行与精准决策提供坚实的技术支撑与架构保障。
对于模态编码器的优化策略
在多模态编码器的选型过程中，研究人员通常会综合考量多种关键因素，其中分辨率、参数规模以及预训练数据库等要素尤为重要。从实证研究数据来看，输入数字媒体图形图像的分辨率与模型性能提升呈现显著正相关关系，即分辨率越高，模型在各项任务中的表现越优。然而，要达成高分辨率输入下的性能优化并非易事，针对不同模型架构与特性，需采用多样化的策略对编码器进行精细调校与优化，例如，可通过调整卷积神经网络的步长、池化层参数以适配不同分辨率需求，或者运用图像超分辨率重建技术对低分辨率图像进行预处理，提升其输入分辨率，同时结合模型压缩技术平衡高分辨率输入带来的参数规模增长问题，确保模型在不同分辨率场景下均能实现高效、稳定的运行，从而最大化发挥多模态编码器在多模态大型语言模型中的作用，促进模型整体性能的提升与优化。
（1）使用专家模型（Expert Models）融合
在多模态信息处理领域，诸如 Woodpecker、ChatCaptioner、Caption Anything 以及 Img2LLM 等模型，在将数字媒体图形图像信息转换为语言信息时，高度依赖专家模型。这些模型普遍借助预训练的数字媒体图形图像描述生成器（如 BLIP-2）来达成视觉输入信息的转换与输出。具体而言，BLIP-2 作为数字媒体图形图像信息描述生成器，能够将机器视觉输入精准地转换为文本描述信息，随后将其传输给大型语言模型（LLM）以开展后续的深度处理与生成操作。此技术路径具备显著优势，可实现数据训练的快速集成与高效应用，无需耗费额外的时间成本进行二次训练或人工微调，有效提升了模型的运行效率与轻量化程度。
然而，仅依赖专家模型进行信息融合虽在理想状态下展现出良好的性能表现，但依据可靠的实验研究数据，该方法存在明显弊端。在信息传递与传输环节，信息丢失及安全隐患问题较为突出。在每一轮信息输出与转换描述过程中，难以确保所有信息均能完整、准确地传递、转换，部分语义信息及关键细节不可避免地出现丢失现象。这一漏洞直接致使多模态大模型在生成最终结果时，与原始多模态输入信息存在偏差，导致用户误以为模型错误理解信息而给出偏离正确结果的输出。实际上，这种偏离正是源于信息传递过程中的信息损失问题。
因此，在未来的研究方向中，提升模态对齐程度以及输入与输出信息的对称精确性与可靠性成为关键研究热点。如何在信息融合过程中集中处理信息并减少信息损失，亦成为至关重要的研究课题。总体而言，专家模型方案在现阶段虽具有一定的有效性，但问题显著，尤其在面对高精度、高复杂度以及高时间复杂度任务时，仍存在较大的优化与提升空间，亟待研究人员深入探索与创新，以突破现有技术瓶颈，推动多模态大模型技术的稳健发展。
（2）预训练的LLM
在多模态大型语言模型（MLLMs）领域，依据可靠的数据实证分析，相当一部分模型采用的是 Causal Decoder 架构，此架构与 GPT-3 的设计模式相类似，在当前的多模态语言模型体系中占据重要地位。Flan-T5 系列作为较早应用于 MLLM 的大型语言模型（LLMs）之一，曾在 BLIP-2、InstructBLIP 等相关项目中发挥作用。而开源的 LLaMA 和 Vicuna 系列在当下环境中属于较为常用的 LLMs，有可靠的实验数据表明，适度扩大 LLMs 的参数规模能够显著提升模型性能，为多模态任务处理提供更强大的支撑。
在 Transformer 模型架构中，自注意力机制（self-attention）里的 mask 机制是一项关键技术，其核心作用在于精准调控不同令牌（token）之间的注意力交互情况。Transformer 模型所运用的 mask 机制主要涵盖两种类型：一是 Padding Mask，其本质为布尔掩码矩阵；二是 Sequence Mask，亦称作 Look-Ahead Mask。
Padding Mask 在 Transformer 模型处理长序列信息时扮演着至关重要的角色，它作为标识填充位置（Padding）的掩码，旨在避免模型将填充的零值纳入考量范畴。具体而言，在多头自注意力（Multi-Head Self-Attention）层中，Padding Mask 得以应用，基于可靠的实验验证，通过将填充位置对应的权重设置为负无穷（-∞）这一操作，能确保在 Softmax 运算后，这些位置的权重变为 0，进而有效排除填充位置对模型计算的干扰，保障模型在长序列处理中的准确性与有效性。
Sequence Mask 主要应用于 Decoder 端的自注意力机制（self-attention）之中，其核心功能在于确保模型在生成序列时，不会出现未来信息泄露至当前位置单词的情况，以此维护序列生成的逻辑性与合理性。在不同的预训练 LLMs 之间进行比较时，实际上很大程度上是对 Sequence Mask 的特性及应用方式进行对比分析。事实上，用户所使用的众多 LLMs 执行的任务大多属于 Seq2Seq 任务类型。Seq2Seq 任务源于在类似机器翻译等信息处理场景下，输入和输出的序列长度并不相等，呈现出 N to M 的结构特征，传统简单的循环神经网络（RNN）难以妥善应对此种情况，由此催生了 Seq2Seq 模型，也就是广为人知的 Encoder-Decoder 模型架构。
而前文提及的 Causal Decoder 架构，其最为典型的代表模型当属 GPT 系列大型模型。Causal LM（因果语言模型）作为当前人工智能领域内多数流行模型所采用的架构，其受青睐的原因很大程度上源于 GPT 系列模型作为世界领先 AI 的代表性地位及其内部结构所采用的正是该架构，并且开源界的 LLaMa 同样采用了此种架构。在该架构中，所运用的掩码为单向注意力掩码，此项掩码技术旨在确保在输入每个 token 时，仅允许其关注到过去的 token 以及其自身。无论是输入还是输出的 token，均通过 Decoder 采用相同的方法进行处理。例如，在一个序列中，对于单词“Survery”而言，它能够看到前面的“A”，但受单向注意力掩码的限制，无法看到后续的“of”。从矩阵形式来看，Causal Decoder 的 Sequence Mask 矩阵呈现出典型的下三角形矩阵特征，这种矩阵结构与单向注意力掩码的逻辑相契合，共同保障了 Causal Decoder 架构在序列处理及语言生成任务中的有序性与合理性。
其实对于Causal LM，它只涉及到Encoder Decoder架构当中的Decoder部分，它所采用的模式是自回归（Auto Regressive）模式，自回归语言模型其实就是所谓的根据输入的文本信息的一部分文本信息进行预测，预测该输入的文本信息的下一个词是什么，最常见的运用可以参考我们平时在生活中使用手机输入法，当我们用手机输入法进行输入文本信息的时候，输入法就会根据我们所输入的部分内容进行预测，然后将预测我们可能会输入的下一个词或文本信息显示提醒出来；自回归模型对于用来生成的NLP任务，比如文本摘要，机器翻译等任务，因为生成的内容是从左到右的顺序，这一点于自回归模型完美契合；但是这种模型并不是没有缺点，它的缺点十分明显，它可以结合上文和下文的信息，但是也只能结合上文或者结合下文的信息，并不能够将上下文的信息同时结合在一起并利用起来。
（3）Token级融合
在端到端多模态模型的训练过程中，面临着极高的训练难度与成本挑战。当前，该领域内多数模型主要采用基于模态对齐的策略来应对这一困境，模态对齐方法大体可归为两类：其一为构造可学习的连接器（Learnable Connector），其二是借助前文提及的专家模型，将数字媒体图片图像信息转换为语言文本形式后再输入到大型语言模型（LLM）当中，以此不断缩减不同模态间的差距，助力模型更有效地理解自然信息，并妥善处理多模态信息输入。
Token 级融合作为区别于特征级融合和专家模型融合的一种相对简易的模态对齐方式，其运作机制在于先把编码器输出的特征信息转换为 token，进而在将其发送至 LLM 之前，与文本 token 进行连接整合。值得一提的是，BLIP-2 在全球范围内率先实现了基于查询的 token 提取方式，随后诸多模型纷纷效仿并继承了这一创新方法，诸如 X-llm、Vedio-llama 和 InstructBLIP 等均为典型代表。借助该方法，能够将视觉 token 进行数倍压缩，使其转化为数量更少的表示向量信息，正是得益于这种视觉 token 压缩为少量表示向量的机制，信息传递以及信息处理流程得以大幅简化，显著提升了模型的运行效率与多模态处理能力。
相较而言，还存在一种更为简便的弥合模态差距的途径，即利用多层感知机（MLP）接口来实现。例如在医学图像问答交互场景下应用的 PMC-VQA 模型，便采用了一到两个线性的 MLP 对视觉 token 进行投影操作，使其特征信息维度与词向量嵌入实现对齐，通过这种方式巧妙地解决了模态差异问题，为多模态信息在不同维度上的融合与交互提供了简洁有效的实现方案，在特定领域的多模态应用中展现出良好的实践价值与应用前景。
（4）特征级融合
如前文所述，特征级融合作为模态编码器优化策略里模态接口的模态对齐方法之一，着重于在文本信息与视觉特征之间构建更为深层次的交互机制。从连接器设计相关的权威研究成果来看，在 token 级融合场景下，视觉 token 的数量以及输入的分辨率这两个因素，相较于模态适配器的选型类别，对整体效果有着更为关键的影响。以视觉问答（VQA）任务为例，通过实践对比发现，特征级融合在综合表现方面明显逊色于 token 级融合。
例如，Flamingo 模型通过在大型语言模型（LLM）的 Transformer 层之间插入额外的交叉注意力层，以此实现利用外部视觉线索来强化语言信息特征的目的，为跨模态信息的融合与交互提供了一种有效的实现方式。与之类似，CogVLM 模型则是在每个 Transformer 层之间嵌入视觉专家模块，借助该模块达成视觉特征与语言信息特征之间的双向交互及双向融合，进一步探索并拓展了跨模态融合的实现路径与应用效果。
尽管交叉注意力模型为实现相似性能往往需要历经更为复杂的高复杂度超参数搜索流程，但 token 级融合凭借其简洁性、高效性以及轻量化等显著特性，使其在众多多模态大型语言模型（MLLM）的模态对齐策略选择中脱颖而出，成为诸多模型开发者的首要考量方案，为多模态模型在兼顾性能与实现复杂度平衡方面提供了一种极具优势的技术路径，有力推动了多模态模型在实际应用中的快速部署与广泛应用。
MLLMs的性能评估方法
不管是哪种多模态大型语言模型（MLLMs），在其开发过程中对性能的评估以确保其应用效果是一个十分重要的步骤，与传统的多模态模型的评估方法相比较，MLLMs的评估方法要更为创新，主要体现在对模型多模态的和功能的全面性的评估。
（1）封闭式问题
在封闭式问题评估领域，其评估流程通常基于特定的数据集合展开，评估设置主要涵盖零样本设置与微调设置两大类型。于零样本设置情境下，研究人员一般会选取包含多元任务的数据集，并对其实施分类操作，具体可细分为保留集（held-in）与留出集（held-out）。在此过程中，零样本设置的关键操作要点在于，先对不同任务数据集进行分类，随后针对前者实施适度调整，最终基于后者展开对模型零样本性能的精准评估。而微调设置则主要聚焦于特定领域任务评估应用场景，例如生物医学领域中 LLaVa-Med 在视觉问答（VQA）任务上的应用性能评估。
为有效突破当前方法在少数特定任务及数据集合应用场景下所暴露出的局限性，据可靠信息披露，研究人员精心设计开发了专门适用于多模态大型语言模型（MLLMs）的新型标准。其中，具有代表性的是涵盖 14 个感知与认知任务的综合评估标准 MME。与此同时，MMBench 借助 ChatGPT 强大的语言处理能力，将开放式响应与预定义选项进行有效匹配，进而实现对模型性能更为全面且精准的评估。尤其在视频应用领域，Video-ChatGPT 和 Video-Bench 应运而生，二者专门提供了聚焦于视频任务的评估工具及配套的评估标准体系，为视频领域多模态模型性能评估构建了专业、系统且高效的评估框架，有力推动了多模态模型在视频相关任务场景下的深入研究与应用拓展。
（2）开放式问题
开放式问题的复杂度相较于封闭式问题显著提升，涉及的考量因素更为繁杂，因而针对开放式问题开展评估时需秉持更为灵活的策略。在多模态大型语言模型（MLLMs）与用户进行信息交互，即扮演聊天智能机器人角色的应用场景中，开放式问题的评估应用颇为广泛。鉴于开放式问题的答案并无固定、标准化的限定，其回答具有较高的开放性与多样性，当前领域内对其评判标准主要可归纳为人工评分、GPT 评分以及案例研究这三类评估方式。
人工评分方式着重依托人类的主观判断对模型生成的回答进行评估，通常为考察特定能力维度，会基于人工精心设计的相关问题展开考察工作。例如，构建关于视觉数据的评估集，旨在精准判断多模态模型在自然视觉信息处理、自然图像数据理解以及各类图表图形数据处理与理解等方面所具备的能力水平，通过人工的专业视角与经验积累来衡量模型性能表现。
GPT 评分致力于探索借助 GPT 模型实现自动评分的有效方法。GPT 系列模型作为现阶段全球顶尖的人工智能模型，汇聚了诸多领先的技术优势，在各项性能指标上远超众多同类 AI 模型。故而，此评分方式通常选取 GPT 系列中性能最优的模型，如现阶段常用的 GPT-4，从多个维度对模型回答进行全方位的评估并赋予相应评分。随着人工智能技术的持续演进，未来运用该评分方法时所选用的 GPT 模型亦会依据技术发展动态相应更替，以确保评估的准确性与先进性。
案例研究分析方法作为一种极具补充性的评估手段，具有较强的代表性。其核心操作流程是将既有具体案例问题对应的标准答案与 MLLMs 针对相同问题所生成的回答进行对比分析，进而基于二者的匹配程度、逻辑契合度等多方面因素对 MLLMs 的性能进行综合评估，为全面、客观地衡量多模态模型在开放式问题处理上的能力提供了另一种切实可行的分析视角与评价路径。
三、MLLMs的训练策略和训练数据
想要了解多模态大型语言模型的相关知识，那么必须得知道关于多模态大型语言模型的相关训练策略和数据，了解这些知识是必不可少的，可以帮助我们对MLLMs的原理的理解更加深刻，在以后能够运用大模型的时候可以有针对性的上手并使用。对于多模态大型语言模型的训练主要是由三个主要阶段，分别是预训练、微调和迁移学习。
预训练（Pre-Training）
在多模态大型语言模型所处的人工智能领域中，存在众多不同的模型，如何实现这些模型的对齐，使其能在同一水平时间内学习多模态世界知识，是一项关键任务。在此过程中，往往需要借助大量的数据集（文本配对数据）来达成，此类数据的核心作用在于为模型提供丰富且广泛的上下文文本信息，助力模型对世界知识进行有效学习。
在预训练阶段，对于输入信息数据的格式有着明确要求，通常采用描述性文本与对应的图像数据、音频数据或视频数据进行配对的形式。并且，该预训练过程需运用交叉熵损失函数来驱动，旨在保障不同的大模型能够在各异的知识和模态之间构建起有效的关联，从而促进跨模态知识融合与交互。
预训练技术作为深度学习模型训练的一种重要策略，在处理大规模数据集时应用颇为广泛。其核心目标在于通过设定相关性强且规模庞大的任务对大模型展开训练，使模型在这种大规模、高复杂度的任务学习过程中，能够学习到通用的特征表示。具体而言，模型先通过对大量通用性数据的学习，捕获广泛且具有普适性的有用特征，进而显著提升其在目标任务上的表现以及泛化能力，同时减少对标记数据的依赖，以此优化在有限数据集合上的模型训练效能，为模型后续应用奠定坚实的性能基础。
预训练的方法主要分为两种类型。其一为冻结大型语言模型（LLMs）和视觉编码器，也就是仅针对模态接口进行训练，同时冻结 LLMs 和视觉编码器，如此操作有助于完好地保留模型预训练所习得的知识。采用这种预训练方法的典型代表模型包括 LLaVA、LLaVA-med 和 Detgpt 等。其二是开放视觉编码器的参数，此方法主要应用于在模型对齐过程中需要更多参数参与微调训练的场景，对于那些要求精准、精确对齐的任务尤为适用，应用该方法的多模态大型语言模型主要有 Qwen-VL、mPLUG-Owl 和 VisionLLM 等，这些模型借助参数开放微调的优势，更好地实现跨模态对齐，提升在特定任务场景下的综合性能表现。
预训练模型可被视作是预先利用海量数据完成训练的模型，当需将其应用于特定任务时，可基于已预训练好的模型基础展开进一步训练，无需从零开始，如此便能有效减少训练过程中所需的数据量规模。预训练作为迁移学习的重要基石，主要涵盖两种类型，即无监督预训练与监督预训练。
在无监督预训练方面，模型是在无标签的大规模数据集中开展预训练工作。常见的无监督训练方法包含自编码器、变分自编码器以及对比预训练等，其主要适用于“高度复杂任务且伴有少量标记的大规模数据集”这类场景，也就是在缺乏充足训练集为模型训练提供有力支撑的情况下发挥作用。无监督训练技术乃是由世界权威技术团队 Hinton 团队于 2006 年提出的，名为“A Fast Learning Algorithm for Deep Belief Nets”。该技术的核心思路在于利用自编码器（此前也曾运用限制玻尔兹曼机）对模型各层进行逐层训练，在训练某一层时，除该层外的其余各层均处于冻结状态。待所有层均完成预训练后，再借助监督学习实施微调操作，进而达成训练目标，促使模型参数调整为一种更具效能的表示形式，使大模型能够从输入数据中精准提取出有意义的特征信息，实现对数据特征的有效挖掘与利用。
而监督预训练则是针对特定任务的大模型，在与最终任务相关联的大规模数据集上开展预训练工作，随后将预训练所获权重作为最终任务的初始参数。这种训练策略重点应用于目标任务数据集相对较少的情形，旨在加速针对最终任务的训练进程，提升整体训练效率。
就训练数据处理而言，不同数据集合的质量问题对大模型训练效果有着直接影响。对于存在噪声较大或者描述较为简短这类特征的低质量数据集合，通常会选用低分辨率的数字媒体图片图像数据信息来实施训练，以此加快模型的训练进程。反之，针对描述文本信息较长且干净无冗余的高质量数据信息，则一般采用高分辨率的数字媒体图片图像数据信息对模型进行训练，借此降低模型的“幻觉”现象出现的概率。所谓“幻觉”问题，是指模型生成的答案与实际输入问题不符的情况。例如，依据大量重复性实验数据表明，ShareGPT - 4V 的相关研究发现，仅在预训练阶段采用高质量的数字媒体图片图像数据信息标题数据进行训练，并对视觉编码器的参数予以解锁，便能显著提升模型在对齐以及解决“幻觉”问题方面的效果，增强模型输出结果的准确性与可靠性，使其更好地服务于各类实际应用场景。
指令微调（Instruction-Tuning）
指令微调指的是运用自然语言形式的数据对预训练后的多模态大型语言模型的参数实施微调操作，这一概念由谷歌在 2022 年的 ICLR 论文中率先提出。在部分文献里，该概念也被称作监督微调（Supervised Fine-tuning）或者多任务提示训练（Multitask Prompted Training），本文遵循谷歌的命名，采用“指令微调”这一称谓。
指令微调的流程首先需进行指令化实例的收集与构建工作，随后通过监督方式，依据任务复杂度对多模态大型语言模型的参数开展适度微调，经此操作后，多模态大型语言模型能够展现出较强的指令遵循能力，并且可借助零样本学习方式来处理多种下游任务。借助自然语言处理（NLP）领域的指令数据信息进行微调后，多模态大型语言模型能够习得指令微调所赋予的特定能力，进而有能力解决未曾接触过的 NLP 任务。
作为训练多模态大型语言模型（MLLMs）的关键环节之一，指令微调在助力模型更好地理解用户指令，并执行指令、实现交互方面发挥着不可或缺的重要作用。相较于传统的监督微调方式，指令微调具备更高的灵活性，在自然语言信息处理领域已收获了显著成效，诸如 ChatGPT、InstructGPT 等模型均采用了这一训练策略。
在多模态大型语言模型的训练流程中，数据收集是极为重要的环节，在指令微调阶段其重要性尤为凸显。鉴于指令数据信息格式呈现多样化特点，且用户对任务的描述往往高度复杂，收集此类数据信息作为样本数据通常会面临较高成本。若要实现指令数据信息集的大规模获取，行业内主要运用以下三种方法：数据适配（Data Adaptation）、自我指令（Self-Instruction）以及数据混合（Data-Mixture）。
数据适配的核心在于利用现有的具备高质量特征的任务特定数据信息集，将其转化为指令格式的数据集，以此满足指令微调对数据格式的要求。自我指令则主要借助多模态大型语言模型（MLLMs）自身来生成指令数据，旨在契合实际场景中多样化的人类需求，为模型训练提供贴合实际应用的指令数据支持。
此外，除多模态的指令数据信息外，部分研究还将纯语言的用户交互助手的对话交互数据信息集直接融入多模态大型语言模型的训练过程，通过这种数据整合的方式，进一步提升多模态大型语言模型的对话能力以及对指令的遵循能力，增强模型在实际交互场景中的综合性能表现，使其能够更加精准、高效地服务于各类用户需求。
合成数据构建的方法
在代表性工作（Self-Instruct）中，充分利用多模态大型语言模型自身的数据合成能力，旨在生成海量的指令微调数据，其主要依托不断迭代更新的方式来达成这一目标。针对初始任务池，该方法初始便可构建出多达 175 条指令数据，这些指令数据具备高质量与多样性的特点。后续则通过指令数据生成、过滤和后处理这两大关键步骤来完成指令微调数据的生成流程。
在指令数据生成环节，先是从初始任务池中随机抽取小批量的指令数据作为样例（此处以大型语言模型 GPT 为例），接着依据 GPT 的特性来精心设计更为精准、精细的指令，以此引导大模型生成全新的微调数据指令信息。而过滤和后处理步骤则着重于剔除那些低质量或者高重复度的实例，从而筛选出具备多样性和有效性的指令数据。在相关领域内，常见的过滤方式涵盖以下几种：一是去除与初始任务池中指令数据信息相似度偏高的指令，避免数据冗余；二是筛除多模态大型语言模型难以生成相应回复的指令数据信息，保障数据的可操作性；三是过滤掉数据信息长度过长或过短的指令，确保数据的合理性；四是排除输出与输入存在高度重复情况的实例，提升数据质量。
Evol-Instruct 是鉴于 Self-Instruct 所生成的实例可能存在过于简单且缺乏多样性这一状况而提出的一种指令数据合成方法。作为专注于指令进化的开源项目，Evol-Instruct 能够通过基于广度和深度的演化运算，对多模态大型语言模型复杂性的数据信息的多样性进行扩充，以此优化指令数据的丰富度与复杂度，为模型训练提供更具价值的数据支撑。
Self-Align 精心设计了多种基于人类对齐原则的合成数据信息过滤技术，主要通过构造合适的上下文提示，引导 GPT 对实例数据信息进行高质量的过滤筛选，利用筛选出的数据来训练新的大型语言模型，进而促使新训练的模型能够进一步产出更多可与人类对齐的指令微调数据信息，提升模型在遵循人类指令及交互方面的性能表现，增强模型输出结果与人类期望的契合度。
指令数据信息构建的提升方法
（1）指令数据格式设计
在训练阶段，综合运用少样本（即带示例的指令数据）与零样本（不带示例的指令数据）开展训练，同时将思维链数据引入指令微调数据信息集，并在指令微调过程中纳入包含思维链（CoT）和不包含思维链（CoT）的实例，以此构建混合指令数据信息。然而，需要明确的是，并非指令数据所涵盖的数据量越多，其效果就越佳。例如，若将一些表面上看似具备价值，但实则缺乏有效性甚至存在危险性的信息添加至指令当中，那么不仅难以对指令效果带来显著的提升，反而极有可能对模型产生负面的影响，干扰模型的正常训练以及后续的性能表现，影响其在各类任务场景下的准确应用与稳定输出。
（2）指令的重写与筛选
在指令数据信息的提升方面，由 YuLan-Chat-3 提出的“主题多样性”增强方法发挥着显著作用。具体而言，先是从知乎平台预先收集多达 293 种常见的主题标签（涵盖教育、体育、泛娱乐等诸多领域），随后从所收集的主题标签中随机选取某一主题，并借助 ChatGPT 强大的语言生成能力对指令数据进行重写，以此实现与相应主题的适配对齐。接着，对经过重写的主题数据开展质量筛选工作，进而获取高质量且具备多样性的指令数据信息。
不仅如此，该方法还提出了名为“平衡指令难度”的策略。此策略的核心在于利用多模态大型语言模型的困惑度分数，对指令数据的难度水平实施量化评估，通过将过于简单或者极度困难复杂的指令数据信息予以删除，在一定程度上缓解多模态大型语言模型所面临的不稳定性以及过拟合现象。不过，需要指出的是，当前这一策略尚无法彻底解决大模型的不稳定性和过拟合问题，这也成为了未来该领域重要的研究方向之一，亟待后续研究人员进一步探索创新，以寻求更为有效的解决方案，提升多模态大型语言模型的性能与稳定性，拓展其在各类复杂应用场景下的有效应用范围。
（3）扩展指令数量
在自然语言处理（NLP）任务中，FLAN-T5 通过逐步拓展指令数量，依次将其扩展至 0.18M、5.55M 以及 17.26M，在此过程中，模型性能呈现出持续上升的态势。然而，需着重指出的是，模型性能提升的这一趋势并非会一直保持高速上升状态。当指令数量达到特定阈值，即 7.2M 时，其上升速度便会显著放缓。
并且，前文提及的 FLAN-T5 所采用的指令，依据可靠实验数据可知，其大概率仅针对传统的 NLP 任务发挥作用，对于大模型至关重要的日常用户对话交互能力而言，并未带来明显的提升效果。
当前，越来越多的研究工作借助大量实验数据达成共识，即若要有效激活多模态大型语言模型的语言对话交互能力，必须依托达到一定规模数量的高质量指令数据信息方可实现。当然，达成这一目标的前提是基于一个性能优良且经过预训练的基座模型。总而言之，仅依靠少量的指令数据，很难使模型同时兼顾 NLP 任务与场景对话的用户交互任务，这对模型的综合能力发展存在一定限制，后续仍需进一步探索如何优化指令数据配置，以提升模型在多任务场景下的整体性能表现。
指令微调的训练策略
在大型语言模型的训练体系中，指令微调训练占据着至关重要的地位。指令微调训练与预训练在诸多方面存在相似性，诸如数据组织形式等技术层面，均可参照甚至直接沿用预训练阶段所运用的相关技术。具体而言，在指令微调环节，涉及优化器的设置（如常用的 AdamW 或 Adafactor）、训练技术（涵盖 3D 并行、混合精度训练以及 ZeRO 等先进技术手段）、稳定训练技巧（包含梯度裁剪和权重衰减等操作）等相关训练技术，均可借鉴预训练阶段的对应技术，甚至在部分情况下可完全照搬沿用。不过，需要明确的是，虽存在沿用情况，但指令微调和预训练的训练技术并非完全等同，二者之间仍存在诸多差异，后续将对这些不同之处展开详细介绍，以便更深入地理解二者在模型训练过程中的各自特点与作用机制。
（1）多阶段指令数据微调
在多阶段指令数据微调这一训练策略方面，YuLan-Chat-3堪称典范。其大致训练步骤如下：首先，在对模型开展首次微调时，需运用大规模的自然语言处理（NLP）任务指令数据信息，以此奠定基础。随后，方可采用具备多模态且相对多样的指令数据（涵盖日常的对话交互指令以及合成指令等），对模型进行进一步的微调操作，以此实现模型性能的进阶提升。
值得一提的是，为有效应对大模型的能力遗忘问题，该训练策略摒弃了传统那种将数据全部储存、会耗费高额成本的做法，转而选用成本更低的策略。具体而言，便是在多阶段指令数据微调训练的第二阶段，额外添加部分相关 NLP 任务指令数据，通过这种方式，能够在很大程度上缓解大模型的能力遗忘问题，保障模型在不同阶段训练后仍能保持良好的性能表现。
此外，这种多阶段的微调策略具备较强的通用性，其应用范围不仅局限于指令数据微调训练场景，还可拓展至其他训练设置之中。例如，针对不同的微调阶段，在训练过程中可逐步增加指令的复杂维度与难度综合水平，通过渐进式的训练方式，稳步提升大模型针对复杂指令的遵循及处理能力，使其能够更好地适应各类复杂任务场景，展现出更卓越的性能表现，为多模态大型语言模型在多任务、高复杂度应用场景下的有效应用提供有力的训练策略支撑。
（2）平衡数据分布
平衡数据分布在提升模型综合能力这一任务实现过程中发挥着关键作用，其核心思路在于对现有的多个指令数据信息集加以综合运用。其中，最为常用的操作方法是采取指令数据信息样本比例混合策略，即将所有相关的数据信息集进行整合汇聚，而后运用等概率采样的选择策略，从已混合的数据集中针对每个实例开展采样工作。
依据世界权威研究者们所给出的建议，可将自然语言处理（NLP）任务数据（例如 FLAN-v2）、合成数据（例如 GPT4-Alpaca）以及对话交互数据（例如 ShareGPT）等不同类型的数据进行混合利用，以这些经过混合的数据作为数据样本，针对多模态大型语言模型开展指令微调操作，通过优化数据分布来增强模型在不同任务场景下的适应性与性能表现，助力模型更好地应对多样化的实际应用需求。
（3）结合预训练和指令微调的数据信息集
在指令微调训练进程中，稳定性与有效性是所有训练环节所追求的关键目标。为了使微调过程更具效能和稳定性，可将预训练数据信息集与指令数据信息集相结合，即在指令微调过程中引入预训练的数据信息集和相关任务，这在本质上类似于对指令微调进行正则化处理。然而，需要注意的是，在指令微调期间引入预训练数据并不一定完全有益于训练和生成任务，对于引入的预训练数据信息量必须进行适当把控。例如，OPT - IML在指令微调过程的训练阶段引入了5%的预训练数据信息，这一举措使得模型在分类和生成任务中的表现有了显著提升。这里的5%是一个非常关键的比例，因为进一步增加预训练数据信息量虽然可能对生成任务有利，但同时会导致模型在分类任务中的表现效果有所下降。
此外，将指令数据引入预训练阶段也已成为一种极为常见的训练技术。例如，在训练阶段提前使用指令微调数据，这一操作能够使多模态大型语言模型在预训练阶段对下游任务形成更好的感知，从而促使多模态大型语言模型更有针对性地从预训练数据信息中学习相关多模态知识与能力，进而提升模型完成任务以及增强用户交互任务的能力。根据多种可靠实验数据表明，在这个阶段进行训练时，若能使用高质量的预训练数据和指令微调数据信息集，那么这种训练策略将明显优于先预训练后再进行指令微调的两阶段训练策略，能够为模型性能提升提供更为有效的支持，助力模型在复杂任务场景下展现出更优异的性能表现。