多伦多大学与Adobe联手攻克AI作画的“复印机“难题
发布时间:2026/6/2 10:55:54
分类:文化教育
浏览:1234

这项由多伦多大学、Vector研究院与Adobe公司联合开展的研究以预印本形式于2026年5月25日发布在arXiv平台论文编号为arXiv:2605.26111v1。感兴趣的读者可通过该编号在arXiv官网上查阅完整论文。你有没有试过这样一件事把一张自己喜欢的背包照片发给AI让它帮你生成这个背包放在雪地里的图片结果AI给你的是把那张原图直接挪到雪地背景上——背包的角度、摆放方式甚至光影细节和参考图几乎一模一样像是用PS拼接出来的这就是业内人士头疼已久的复印机问题学术上叫做copy-paste artifact即AI生成时对参考图的机械性复制。这个问题的根源在于现有的AI图片生成技术通常把文字描述和参考图片当成两条平行的输入线路分开处理彼此之间缺乏真正的沟通与理解。文字走文字的路图片走图片的路两者在最后关头才被硬拼在一起。这就好比你让两个从未见过面的厨师——一个只负责看菜谱一个只负责看食材——来合作做一道菜他们各做各的最终端上桌的东西往往貌合神离。多伦多大学的研究团队换了一种思路与其让文字和图片各走各的路不如请一个通才大厨——也就是多模态大语言模型Multimodal Large Language Model简称MLLM——同时看菜谱和食材在脑海中将两者融合理解再指挥图片生成引擎去完成创作。这篇研究的核心贡献正是在于提出了一套让MLLM与图片生成扩散模型协同工作的完整方案方案中包含一个名为双层聚合器Dual Layer Aggregation简称DLA的新模块以及一套多阶段去噪推理策略。实验结果表明这套方案在减少复印机问题的同时还大幅提升了AI对复杂指令的理解能力。一、为什么AI总在复印参考图问题出在哪里回到那个厨师的比喻。传统做法中AI处理参考图时主要依赖一种叫做VAEVariational Autoencoder变分自编码器的工具。VAE的强项是忠实地记录图片的视觉细节——颜色、纹理、形状这些它都记得一清二楚。但它有个致命弱点它不懂语言也不懂上下文推理。当你说背包放在雪地里周围有阳光VAE无法真正理解阳光这个词意味着背包应该从雪地上投下一道阴影意味着背包表面的反光应该变强意味着整体色调应该偏暖。它只知道这里有个背包把它挪过去。与此同时近年来崛起的MLLM——比如你可能听说过的GPT-4o、Claude、Gemini这类能看图又能聊天的大模型——拥有很强的跨模态理解能力。它们能同时读懂图片和文字能把戴眼镜的狗这个概念正确拆解为一只狗加上一副眼镜戴在它脸上而不会把眼镜贴到背景墙上。这种理解能力正是解决复印机问题的关键。然而直接把MLLM接进图片生成流程并不是一件简单的事。已经有一些团队尝试过比如DreamEngine、Qwen-Image、EasyRef等系统它们把MLLM的输出接入扩散模型一种主流的图片生成框架。但这些方案大多只使用MLLM最后一层的特征——相当于只听大厨最后的总结意见而忽略了他在烹饪过程中每一步积累的细节判断。结果是文字理解好了一些但图像的细节保真度——也就是这个背包到底长什么样——却变差了。这个矛盾揭示了一个深层问题MLLM在处理图片时越是深层靠后的神经网络层越倾向于保留高层次的语义信息这是个背包而越是浅层靠前的层越倾向于保留低层次的视觉细节背包上有这种花纹、这种缝线。如果只取最后一层细节就丢了如果只取前几层语义理解又不够。这就像一部小说只读最后一页的总结你知道大意但错过了所有精彩的人物细节只读前几页你知道人物长什么样却不知道故事走向。二、双层聚合器让大模型的每一层心声都被听见研究团队设计的DLA模块核心思想是把每一层都纳入考量但文字和图片要分开处理。先说把每一层都纳入考量这部分。DLA的基础单元叫做LAPLayerwise Attention Pooling逐层注意力池化。它的工作原理可以用一个投票机制来理解MLLM有28层神经网络每一层对同一张参考图都有自己的看法——浅层说我看到了红色斜纹布料中层说我看到了一个有拉链的袋子深层说这是个登山背包。LAP模块会给这28层的看法各自分配一个权重然后加权综合成一个统一的表达送进图片生成引擎。这个权重本身也是通过训练学出来的所以模型会自动学会在这个任务里哪几层的意见最值得参考。但研究团队很快发现一个LAP模块同时处理文字特征和图片特征时会出现相互干扰的问题。实验中他们画出了这个矛盾单个LAP训练过程中模型要么在图片保真度上表现好要么在文字跟随度上表现好两者很难同时达到峰值就像天平的两端压低一头另一头就翘起来。进一步分析注意力分布图可以发现文字内容和图片内容在不同层上的活跃模式截然不同——它们需要两套不同的层选策略。于是双层聚合器DLA应运而生两个独立的LAP模块一个专门处理文字特征一个专门处理图片特征。文字LAP专注于这段话的语义在哪几层最完整图片LAP专注于这张参考图的视觉细节在哪几层最清晰。两者互不干扰各司其职。这里有个容易被忽视的妙处虽然两个LAP分开处理但并不意味着文字和图片信息完全隔离。MLLM本身在处理输入时已经让文字和图片的信息在各层之间相互渗透——图片的token信息单元已经吸收了文字的语境文字的token也已经受到了图片内容的影响。所以DLA的两个分支处理的其实是已经互相了解过的文字特征和图片特征不需要再做额外的跨模态融合。这个设计既高效又避免了重复劳动。在实验中研究团队对InternVL3-8B这个MLLM的28层进行了系统分析把它们分为早期层0-9层、中期层10-19层和晚期层20-28层三组逐一测试不同层组合的效果。结果发现对图片特征而言早期层尤为关键——一旦屏蔽早期层图片保真度DINO-I指标会急剧下降幅度高达0.14到0.26分而对文字特征而言晚期层更为重要但即便屏蔽晚期层模型依然能从其他层中召回足够的语义信息下降幅度相对有限。这个发现与直觉一致MLLM的早期层更像是视觉感官晚期层更像是语言理解中枢两者的功能分工明确。三、多阶段去噪让生成过程像写文章一样先立意再雕琢解决了特征提取的问题研究团队还面临另一个挑战如何把MLLM的语义理解能力和VAE的视觉细节保真能力有机结合而不是让两者相互抢戏他们的答案是多阶段去噪策略Multi-stage Timestep-aware Denoising。这个策略的灵感来自扩散模型本身的工作机制——扩散模型生成图片时是从一团随机噪声开始一步一步去噪逐渐浮现出图片的轮廓、颜色最终到精细的纹理细节。这个过程天然是从粗到细的就像写一篇文章先确定主题和结构再填充段落内容最后打磨用词。研究团队把这个去噪过程划分为三个阶段。第一阶段是立意期早期步骤时间步t较大此时图片还是一团噪声最需要的是确定整体构图和语义方向——这张图里有个背包它在雪地里旁边有阳光。这个阶段完全由MLLM的特征来引导因为MLLM最擅长理解这种高层次的意图。第二阶段是充实期中期步骤图片的大致轮廓已经出现需要在保持语义正确的同时开始引入背包的具体外观细节——花纹、材质、颜色。这个阶段MLLM和VAE同时发力共同引导生成过程。第三阶段是雕琢期晚期步骤图片的整体已经成形剩下的是精细化处理——背包的每一根缝线、每一处反光。这个阶段完全交给VAE因为它在捕捉这种低层次视觉细节上无人能及。实验证明这套策略还给用户带来了额外的灵活性提高阈值比如τ?0.97τ?0.90会让MLLM主导更长时间生成图片的背包细节更忠实于参考图但姿态变化较少降低阈值比如τ?0.85τ?0.75则会让VAE更早介入生成图片更有创意、姿态变化更丰富但背包的一些细节可能略有出入。用户可以根据自己的需求自由调节这种可控性在实际应用中非常有价值。四、两阶段训练先学看懂再学画细把MLLM和VAE的特征同时送入图片生成模型还有一个隐患VAE的特征天生是为重建图片优化的信息密度极高一旦和MLLM的特征同台竞争模型很可能偷懒直接依赖VAE提供的视觉信息而忽视MLLM的语义理解能力。结果是MLLM在早期去噪步骤中根本没能学会如何引导生成等到晚期VAE再去补救已经来不及了——图片的整体构图和语义方向在早期就已经跑偏后面怎么细化都无济于事。为了解决这个问题研究团队设计了两阶段训练策略。第一阶段先屏蔽VAE只用MLLM特征来训练整个系统持续25,000步。这个阶段的目标是让模型学会单独依靠MLLM来完成语义理解初步身份识别的任务。经过这个阶段MLLM已经发展出足够强的身份保真能力能够在早期去噪步骤中正确设定图片的方向和主题。第二阶段再引入VAE联合训练所有组件持续10,000步让模型学会把MLLM的高层理解和VAE的低层细节有机配合。训练在8块英伟达H100 GPU上完成学习率固定为1e-5。MLLMInternVL3-8B本身的权重在训练中是冻结的只有接入扩散模型FLUX.1 dev的适配层LoRA秩为512在更新。这意味着整个系统的参数更新量相对可控训练效率较高。消融实验清楚地验证了这个设计的必要性。如果直接把两个信号源放在一起从头训练单阶段训练不论是否开启多阶段去噪效果都明显劣于两阶段训练方案DINO-I指标衡量图片身份相似度的主要指标从0.7482下降到0.7184甚至在单阶段多阶段去噪的配置下进一步跌落至0.5763。这个数字差异背后是生成图片中背包的花纹变得模糊、颜色发生漂移的视觉劣化。五、实验验证数字和图片都说话研究团队在DreamBench这个业内标准测试集上进行了系统评估同时还额外测试了XVerseBench和多主体测试集LAMICBench。在DreamBench上标准评估指标包括三个维度DINO-I用DINO特征衡量生成图片与参考图的主体相似度、CLIP-I用CLIP特征衡量视觉相似度、CLIP-T衡量图片与文字描述的匹配程度。这套指标可以简单理解为DINO-I和CLIP-I测的是背包画得像不像CLIP-T测的是有没有放到雪地里。论文的完整结果表格显示只使用MLLM特征不加VAE的版本DINO-I为0.6788CLIP-I为0.8228CLIP-T为0.2988已经与同样使用公开数据集训练的UNO系统DINO-I0.6860CLIP-I0.8161CLIP-T0.3071相当甚至在某些指标上略有超越。加入VAE的完整版本则进一步提升到DINO-I0.7482CLIP-I0.8443CLIP-T0.3010综合性能与使用私有高质量数据集训练的DreamODINO-I0.7537、USODINO-I0.7478、UMODINO-I0.7481等顶尖方案持平而这些方案的数据优势是本研究所不具备的。为了量化复印机问题研究团队设计了一套新的评估指标。他们使用一个叫做Orient Anything的工具来估计参考图和生成图中主体的方位角和极角然后计算两者之间的平均差异——差异越大说明生成的姿态越多样复印机问题越轻微。此外他们还提出了召回率Recallk°指标在生成的图片中有多大比例的主体与参考图的朝向差异小于k°这部分被认为是复制的。论文中报告的是k分别取5°、10°、15°、20°时的平均召回率数值越低越好。结果是研究团队的方案在方位角差异上达到25.7°极角差异为10.4°平均召回率为0.349明显优于DreamO方位角22.1°召回率0.372、USO方位角20.8°召回率0.401、Qwen-Image方位角17.6°召回率0.460和OmniGen2方位角22.6°召回率0.486。简单说在其他方案里平均约有40%-48%的生成图片与参考图朝向几乎一致而在本方案中这个比例降到了35%主体展现出了更丰富的姿态变化。为了评估多模态推理能力研究团队还专门构建了一个包含350个样本的测试集设计了一批需要跨模态概念绑定的复杂指令。比如参考图是一只戴帽子的猫但指令说一只狗戴着帽子——正确的生成结果应该是生成一只狗并把帽子戴在狗身上而不是生成一只猫只看图或生成一只不戴帽子的狗只看文字。在这个测试集上本方案的CLIP-T得分为0.3208明显高于UNO0.2851、DreamO0.2888和Qwen-Image0.3099。人工评估方面研究团队在DreamBench测试集上引入了七种不同架构和规模的大语言模型打分包括GPT-4o、Gemma 3 27B、Gemini 2.5 Flash、Gemini 3 Flash、Qwen3-VL-30B、Qwen3-VL-235B和Mistral Small 3.2-24B对生成图片在形状、颜色、纹理、面部特征等维度的保真度进行0-4分的综合评定。七个评估模型的平均分中本方案达到3.010高于DreamO的2.838、USO的2.800和UNO的2.539。用户调研方面30名志愿者对从DreamBench和XVerseBench随机抽取的10个样本进行1-10分的主观评分共收集1,500票。结果显示本方案平均得分7.26高于USO6.74、DreamO6.31、XVerse5.75和UMO6.02。六、深挖细节那些让研究更扎实的补充实验论文的附录部分包含了大量额外的实验分析值得单独介绍因为这些分析揭示了方法设计背后更深层的逻辑。关于不同MLLM骨干网络的鲁棒性研究团队测试了InternVL3-2B、Qwen2.5-VL-3B和Qwen2.5-VL-7B三种替代方案。结果显示各方案的性能差异不大Qwen2.5-VL系列在文字跟随上略有优势但视觉理解稍弱InternVL3-2B以明显更少的参数量取得了与8B模型接近的结果是性价比较高的轻量化替代方案。这说明DLA框架具有良好的通用性不强依赖特定的MLLM架构。关于推理时的层屏蔽实验研究团队在已训练完成的模型上逐组屏蔽图片LAP和文字LAP的不同层观察指标变化。实验结果验证了前面提到的层功能分区屏蔽图片LAP的早期层0-9层导致DINO-I骤降0.14屏蔽图片LAP的所有层等于完全关掉图片通道DINO-I下跌0.33图片生成质量严重劣化。相比之下屏蔽文字LAP的晚期层只导致CLIP-T下降约0.05模型能从其他层找补回来。有趣的是当文字LAP被部分屏蔽时图片LAP的DINO-I反而略有提升0.01-0.08这说明两条通路在竞争计算资源减少一方的话语权反而让另一方发挥得更充分进一步印证了DLA分离处理设计的合理性。关于多主体生成的扩展实验研究团队在公开的两主体数据集MUSAR-Gen不足3万张图片对上进行了轻量级微调然后测试多主体场景下的生成效果。结果表明即便在如此有限的多主体数据条件下本方案在多主体DreamBench样本上的表现依然优于UNO、DreamO和UMO尤其在主体身份分离和概念绑定准确性上表现突出——这正是MLLM语义理解能力的直接体现。训练数据的使用方面也值得一提整个实验只使用了公开数据集UNO-1M经过MLLM质量筛选后保留约40万个图片对。相比之下DreamO、USO等方案使用了私有的高质量数据集这在业界被普遍认为是影响最终效果的重要因素。在此约束条件下本方案仍能达到与之相当甚至更高的评分说明方法本身的设计具有较强的数据效率。说到底这项研究做的事情是给AI图片生成这位画师装上了一对真正能读懂意图的眼睛而不是只会翻拍参考图的相机。通过让MLLM的每一层都参与决策、让文字和图片特征在专属通道里各自发光、再用多阶段去噪策略在创作过程中有序调度两种信息源研究团队找到了一条兼顾理解复杂指令与忠实保留主体细节的可行路径。这项技术离普通人的日常并不遥远——电商卖家想生成产品在各种场景下的展示图、设计师想对一个方案进行多角度的视觉探索、游戏开发者想快速生成某个角色在不同场景中的表现这些需求都会直接受益于复印机问题的改善。当然研究本身也坦诚地指出了现有局限MLLM的文字表示空间与扩散模型原本使用的T5文本编码空间之间还存在对齐缺口需要更大规模的文字-图片数据和计算资源来补足多主体生成的系统性研究也因为公开数据稀缺而未能充分展开。不过研究团队相信随着计算资源和数据条件的改善MLLM驱动的图片生成系统有望在文字跟随能力上取得更大突破甚至从根本上改变AI画师与用户意图之间的协作方式。有兴趣深入探索的读者可以通过arXiv编号2605.26111检索完整论文并访问研究团队的项目主页了解更多视觉对比案例。QAQ1copy-paste artifact复印机问题在AI图片生成中具体是什么表现A这个问题指的是AI在根据参考图生成新图片时倾向于直接复制参考图中主体的姿态、角度和视觉细节而不是根据文字指令创造性地调整。比如你给一张背包正面照让AI生成背包在雪地里结果AI只是把那张正面照的背包贴到雪地背景上背包的朝向和姿态与参考图几乎完全一致缺乏真实感和创意变化。Q2双层聚合器DLA为什么要把文字特征和图片特征分开处理合并处理不行吗A研究团队通过实验发现用单个聚合器同时处理文字和图片特征时模型会在图片保真度和文字跟随度之间产生权衡矛盾优化其中一个往往会削弱另一个。分析注意力分布图后发现文字内容和图片内容在MLLM不同层上的活跃模式截然不同说明两者需要不同的层选策略。分开处理后每个模块可以专注于自己最擅长的维度两者最终再合流进入扩散模型效果明显优于合并处理。Q3多阶段去噪中的时间阈值τ?和τ?对生成结果有什么影响用户可以自己调吗A可以调节而且调节效果很直观。提高两个阈值比如0.97和0.90意味着MLLM主导的语义期更长生成的主体外观更忠实于参考图但姿态变化较少降低阈值比如0.85和0.75VAE更早接管生成图片的创意姿态更多样但部分细节可能与参考图有一定出入。研究团队在论文中提供了不同参数配置下的对比图供用户根据自己的需求进行调整整体性能在合理参数范围内保持稳定。