(2025-10-21热点)-幻方发布超强多模态LLM DeepSeek-VL!支持代码,文档OCR等!

zydadmin  23

我们分三个阶段训练DeepSeek-VL,如图3所示:视觉语言适配器预热、联合视觉语言预训练 和监督微调。我们目前专注于视觉理解能力,只计算语言部分的下一个token预测损失。

第一阶段:训练视觉语言适配器

该阶段的主要目标是在嵌入空间内的视觉元素和语言元素之间建立概念联系,从而促进大语言模型(LLM)对图像中所描述实体的全面理解。与LLaVA 和Instruct-BLIP 之前进行的研究一致,我们采用了类似的方法,在此阶段视觉编码器和 LLM都保持冻结,同时仅允许视觉-语言适配器内的可训练参数。我们利用了一个数据集, 其中包括从ShareGPT4V获得的125万张图像-文本配对的标题,以及250万张文档OCR渲染对 来训练VL适配器。然而,与大型语言模型(llm)相比,视觉语言适配器(例如,2层MLP)的参数容量要小得多。模型容量的这种限制限制了在这一阶段可以学习的能力。一个自然的问题出现了:数据缩放 定律在这个阶段是否有效?为了解决这个问题,我们在表8中做了一个简单的实验。结果表明, 在这个阶段扩大数据规模并不能带来好处,甚至可能导致性能下降。因此,我们继续解冻大语言模型(LLM),并在第二阶段研究有效的视觉语言预训练方法。

第二阶段:联合视觉语言预训练

在这一阶段,我们探索了有效的预训练策略,可以将其视为使大型语言模型(llm)能够理解 多模态输入的额外阶段。我们保持视觉编码器冻结,并优化语言模型和VL适配器。

最初,我们尝试用多模态数据直接训练LLM。然而,我们发现,在多模态性能的指标 逐步提高的同时,语言指标出现了明显和严重的下降,如图4所示(multimodal: language = 100%:0%),。这突出了在LLM的基础上直接进行多模态预训练的固有挑战,揭示了增强多模态能力和保持语言熟练度之间的关键权衡。

本文假设观察到的现象源于两个主要因素:首先,大多数多模态语料库过于简单,并 表现出与语言数据的复杂性和分布的显著分歧。其次,在多模态和语言模态之间似乎存在 一种竞争动态,导致了可以被描述为LLM内语言能力的灾难性遗忘。

联合语言-多模态训练为了应对这一挑战,本文设计了一种直接而有效的联合语言-多模态 训练策略。在训练过程中,我们不仅进行多模态数据训练,还将很大比例的语言数据纳入 训练中。这种方法旨在平衡训练重点,减轻观察到的不利影响。我们在图4所示的 DeepSeek-VL 1B模型上进行了实验,以探索不同模态混合比的影响。

对图的分析得出了几个关键结论:(1)整合语言数据显著缓解了语言能力的下降,表明 模型的语言性能有了实质性的提高。(2).纳入语言数据并没有导致多模态性能的显著损失, 表明模型保留了其多模态处理能力。(3).不同模态的表现与其各自在训练数据集中的比例 有很强的相关性,证实了两种模态之间的竞争关系。最终,我们为我们的最终模型选择了 语言与多模态数据的训练比例约为7:3。这个比率使模型能够保持其语言能力,同时在多 模态数据上实现更好的预训练,有效地平衡了语言和多模态熟练度的发展。

缩放视觉-语言预训练然而,模型的预训练阶段会产生大量的计算成本,在7B模型上执行迭代需要过多的计算能力和时间。一个合适的策略是在一个较小的模型上进行实验,特别是1.3B模型,然后将其扩展到7B模型。幸运的是,我们已经观察到,通过利用SFT(例如编 码器设计),从1.3B模型中获得的大部分结果可以有效地转移到7B模型中。然而,在第二 阶段的训练阶段,我们遇到了1.3B模型的生成指标有相当大的波动,这给有效地监督训练过程带来了挑战。而这一点在Schaeffer et al.(2024)中已经讨论过,“即使模型家族的每 token错误率随着规模的增加而平滑、连续和可预测地变化,研究人员的测量选择可能会 导致急剧和不可预测的变化。”随后的实验让我们找到了这个问题的根本原因:1.3B模型的 有限容量和训练数据集中缺乏SFT数据,这两者都阻碍了模型准确遵循指令的能力。即使 模型掌握了正确选项的知识,它也很难精确地生成它们。

为了缓解这些挑战,我们采取了一种双管齐下的方法。首先,我们采用多选择PPL方 法来监测模型的进展。这不仅涉及将提示和图像输入到网络中,还包括与问题相关的所有 答案。随后,我们计算每个答案位置(例如,A, B, C, D)的PPL,并选择模型认为正确的选 项作为最终答案。其次,我们以最小的比例将SFT数据引入训练数据集中,使模型能够熟 练地遵循指令。这两种方法的结合确保了1.3B模型的训练指标保持稳定,并在阶段3之后带 来更好的性能。

第三阶段:有监督的微调

在这个阶段,我们通过基于指令的微调来微调预训练的DeepSeek-VL模型,以增强其遵循 指令和参与对话的能力,最终创建交互式DeepSeek-VL- chat模型。我们优化了语言模型、 VL适配器和混合视觉编码器与视觉语言SFT数据如表2所示,SAM-B由于GPU内存有限而保持冻结状态。我 们只监督答案和特殊令牌,并屏蔽系统和用户提示。为了保证模型在对话方面的全面熟练程度, 我们利用了DeepSeek-LLM中使用的多模态数据和纯文本对话数据的混合。这种方法确保了模型 在各种对话场景中的通用性。

转载请注明原文地址:https://www.lzdww.com/read-201931.html
上一篇下一篇

随机主题
跟女生说晚安的暖心话(高情商回复晚安的句子)跟女生说晚安的高情商文案短句(晚安文案吸引人的句子)跟着优秀的人自己也会变得优秀(为了喜欢的人变得优秀的句子)跟女生说晚安的高情商句子(晚上发朋友圈高情商句子)跟女人道晚安的句子(深夜打动女人暖心的话)跟女生说的晚安很有情调的句子(女孩主动说晚安的意思)给侄儿结婚祝福语高级一点的句子(侄儿结婚祝福语句子)给自己心灵鸡汤的一句励志话(鸡汤句子励志)给团队打气激励的句子开门红(鼓励团队士气的一段话)给情人晚安的暖心句子(让男人动心的晚安话)给女儿生日祝福语(女儿生日简短洋气句子)给女儿舞蹈鼓励句子说说(每一次舞台锻炼和成长的句子)给女生说晚安(晚安暖心的短句子)恭喜别人结婚的句子新婚快乐(结婚的贺词怎么说最好)给女生说晚安的暖心话短句(高情商回复晚安的句子)恭喜别人结婚的句子诗句简短精辟(安慰人的话简短精辟的)宫崎骏最治愈的句子(宫崎骏治愈温柔语录)公子音古风句子(公子音应该如何练)恭喜别人结婚的短句(新婚快乐的幽默句子)恭喜别人搬家的句子简短幽默(祝新婚快乐的句子简短)恭喜别人结婚的句子朋友圈说说(一句简短的结婚祝福语)给团队打气激励的句子霸气搞笑(激励团队精神四个字)恭喜别人结婚的句子闺蜜祝福语(祝福好朋友姐妹结婚的句子)恭喜别人结婚的句子朋友圈说说(嫁对了人的句子发朋友圈的)给自己打气的励志句子(给高考学生加油打气鼓励的话)恭喜闺蜜领结婚证的话(闺蜜领结婚证了祝她幸福的句子)恭喜闺蜜脱单的祝福语(祝闺蜜脱单的句子简短)工作态度和责任心句子简短(个人工作责任心怎么写简短)旅游后发说说的句子(适合发表说说的句子)旅游回来的心情语录(关于旅行的唯美句子)旅游结束发朋友圈的精美句子简短(8个字的旅行唯美短句)旅游后感想唯美句子(旅游感悟经典句子简短)旅游好句子摘抄(旅行文案短句干净)
最新回复(0)