【新智元导读】DeepSeek除夕又放出重磅炸弹:多模态大一统开源模型Janus-Pro系列上线B也只是翻了个倍。
Janus-Pro采用了创新性自回归框架,并实现了多模态理解与生成的统一,是对去年发布的前代模型Janus的全面升级。
它通过将视觉编码解耦为独立的通道,克服了先前方法的局限性,同时仍然使用单一且统一的Transformer架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成方面的固有角色冲突,还显着提升了框架的灵活性。
结果显示,升级后的Janus-Pro在多模态理解和文生图能力上都实现了显着突破,同时文生图的稳定性也得到了提升。
1.5B和7B这两款模型,分别在配备16/32个计算节点的集群上进行,每个节点装配8张Nvidia A100(40GB)GPU,总训练时间约为7/14天。
对于DeepSeek的又一个暴击,有评论道:「Janus-Pro-7B的发布,让它的影响力再次得到扩大的同时,强化了这一叙事——DeepSeek作为创新者,已经颠覆了AI世界的既定秩序。」
网友们纷纷预言,DeepSeek Janus-Pro-7B模型对整个AI世界生态系统来说,又将造成巨震。
具体而言,Janus-Pro在以下三个方面进行了改进:(1)采用了优化后的训练策略,(2)扩充了训练数据集,以及(3)实现了模型规模的进一步扩展。
Janus作为一个创新性模型,最初在1B参数规模上完成了验证。但由于训练数据量受限且模型容量相对不足,导致它存在一些局限性,主要表现在短提示词图像生成效果欠佳以及文本生图质量不够稳定等方面。
针对这些问题,DeepSeek团队推出了升级版本Janus-Pro,在训练策略、数据规模和模型容量三个维度上都实现了重要突破。
Janus-Pro 系列提供了1B和7B两种参数规模的模型,充分展示了视觉编解码方法的可扩展性。
多个基准测试的评估结果表明,Janus-Pro在多模态理解能力和文本生图的指令执行性能方面都取得了显着进展。
Janus-Pro架构的核心设计理念是,实现多模态理解和生成任务中视觉编码的解耦。与Janus保持一致。
具体而言,研究者采用独立的编码方法将原始输入转换为特征,随后通过统一的自回归Transformer进行处理。
这些特征首先从二维网格结构展平为一维序列,然后通过理解适配器将图像特征映射到大语言模型的输入空间。
在视觉生成任务中,他们使用VQ分词器将图像转换为离散ID序列。将这些ID序列展平为一维后,通过生成适配器将对应的码本嵌入映射至大语言模型的输入空间。
除了利用大语言模型内置的预测头外,研究者还在视觉生成任务中引入了一个随机初始化的预测头用于图像预测。
第一阶段专注于适配器和图像头的训练;第二阶段进行统一预训练,期间除理解编码器和生成编码器外的所有组件参数都会更新;第三阶段进行监督微调,在第二阶段基础上进一步解锁理解编码器的参数进行训练。
在第二阶段中,Janus参照PixArt的方法,将文本生图能力的训练分为两个部分:首先使用ImageNet数据集进行训练,以图像类别名称作为提示词来生成图像,目的是构建像素依赖关系;其次使用标准文本生图数据进行训练。
阶段I延长训练时间:增加第一阶段的训练步骤,确保充分利用ImageNet数据集。研究表明,即使在大语言模型参数固定的情况下,模型也能有效建立像素依赖关系,并根据类别名称生成高质量图像。
阶段II集中重点训练:在第二阶段中,摒弃了ImageNet数据,转而直接使用标准文本生图数据来训练模型,使其能够基于详细文本描述生成图像。这种优化策略使第二阶段能够更高效地利用文本生图数据,显着提升了训练效率和整体表现。
此外,研究者还对第三阶段监督微调过程中的数据配比进行了调整,将多模态数据、纯文本数据和文本生图数据的比例从7:3:10优化为5:1:4。
通过适度降低文本生图数据的占比,可以发现,这种调整既保持了强大的视觉生成能力,又提升了多模态理解性能。
在第二阶段预训练中,他们参考了DeepSeekVL2的方法,新增了约9000万个训练样本。这些样本包括图像描述数据集以及表格、图表和文档理解数据集。
在第三阶段监督微调中,他们进一步引入了DeepSeek-VL2的补充数据集,包括表情包理解、中文对话数据和对话体验优化数据集等。
这些数据的引入大幅提升了模型的综合能力,使其能够更好地处理多样化任务,并提供更优质的对话体验。
研究者发现,Janus早期版本使用的真实数据存在质量不高、噪声较大等问题,这往往导致文本生图过程不稳定,生成的图像美感欠佳。
为此,在 Janus-Pro 中,他们引入了约7200万个人工合成的高质量美学数据样本,使统一预训练阶段的线的均衡比例。这些合成数据的提示词来源于公开资源。
实验结果表明,使用合成数据不仅加快了模型的收敛速度,还显着提升了文本生图的稳定性和图像的美学质量。
Janus的前代版本通过1.5B参数规模的大语言模型,验证了视觉编码解耦方法的有效性。在Janus-Pro中,研究者将模型规模扩展至7B参数量。
研究发现,在采用更大规模大语言模型后,无论是多模态理解还是视觉生成任务的损失值收敛速度都较小规模模型有了显着提升。
在表3中,研究者将本文提出的方法与当前最先进的统一模型和专用理解模型进行了对比。结果显示,Janus-Pro实现了整体最优性能。
这主要得益于在多模态理解和生成任务中实现了视觉编码的解耦,有效缓解了两项任务间的冲突。即便与参数规模显着更大的模型相比,Janus-Pro仍展现出强劲的竞争力。
此外,如表5所示,Janus-Pro在DPG-Bench测试中获得了84.19分的优异成绩,领先于所有其他方法。
在图4中,研究者展示了多模态理解的测试结果。实验表明,Janus-Pro在处理不同场景下的输入时展现出卓越的理解能力,充分体现了其强大的性能优势。
尽管输出分辨率仅为384×384,但Janus-Pro-7B生成的图像仍然展现出高度的真实感和丰富的细节表现。
特别是在处理具有想象力和创造性的场景时,Janus-Pro-7B能够准确理解提示词中的语义信息,并生成逻辑合理、内容连贯的图像。
在多模态理解方面,由于输入分辨率被限制在384×384,影响了模型在OCR等需要精细识别的任务上的表现。
在文本生图方面,较低的分辨率以及视觉Token编码器引入的重建损失,导致生成的图像虽然语义内容丰富,但在细节表现上仍有不足。
典型例子是当人脸区域在图像中占比较小时,往往会出现细节欠缺的情况。这些问题有望通过提升图像分辨率得到改善。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。
(责任编辑:)关键词: