当前位置: 首页 > news >正文

组件可控个性化生成新方法MagicTailor:生成过程中可以自由地定制ID

今天的文章来自公众号粉丝投稿,文章提出了一种组件可控的个性化生成方法MagicTailor,旨在个性化生成过程中可以自由地定制ID的特定组件。

相关链接

论文阅读:https://arxiv.org/pdf/2410.13370

项目主页:https://correr-zhou.github.io/MagicTailor/

论文介绍

文生图(T2I)扩散模型的最新进展使得能够根据文本提示创建高质量图像,但它们仍然难以生成对特定视觉概念进行精确控制的图像。现有的方法可以通过学习参考图像来复制给定的概念,但它们缺乏对概念中的各个组件进行细粒度定制的灵活性。

在本文中,介绍了组件可控的个性化,这是一项新颖的任务,它允许用户在个性化视觉概念时重新配置特定组件,从而突破了 T2I 模型的界限。由于两个主要障碍,这项任务特别具有挑战性:语义污染,即不需要的视觉元素破坏个性化概念;语义不平衡,导致概念和组件的学习不成比例。

为了克服这些挑战,本文设计了MagicTailor,这是一个创新框架,利用动态掩码退化(DM-Deg)来动态扰乱不需要的视觉语义和双流平衡(DS-Bal),为所需的视觉语义建立平衡的学习范例。广泛的比较、消融和分析表明,MagicTailor 不仅在这项具有挑战性的任务中表现出色,而且在实际应用中也具有重大前景,为更细致和更具创意的图像生成铺平了道路。

方法介绍

MagicTailor 使用参考图像作为输入,通过低秩自适应 (LoRA) 微调 T2I 扩散模型,以学习目标概念和组件,从而能够生成将组件无缝集成到概念中的图像。 我们引入了动态掩码退化(DM-Deg),这是一种动态干扰不需要的视觉语义的新技术。这种方法有助于抑制模型对不相关视觉细节的敏感性,同时保留整体视觉上下文,从而有效减轻语义污染。 此外,我们采用双流平衡(DS-Bal),一种旨在平衡视觉语义学习的双流学习范式,来解决语义不平衡的问题。在线去噪 U-Net 执行样本最小-最大优化,而动量去噪 U-Net 应用选择性保留正则化,确保更忠实的个性化。

组件可控的个性化

(a) 个性化插图,展示文本到图像 (T2I) 扩散模型如何从给定的参考图像中学习和再现视觉概念。 (b) 组件可控个性化的图示,描绘了一项新制定的任务,旨在在个性化过程中修改视觉概念的特定组件。 (c) MagicTailor 生成的示例图像,展示了所提出的 MagicTailor 的有效性,MagicTailor 是一种新颖的框架,采用 T2I 扩散模型来实现组件可控的个性化。

组件可控个性化的挑战

语义污染
  1. 不受欢迎的视觉元素可能会无意中扰乱个性化概念。

  2. 简单的屏蔽策略是无效的,会导致意外的合成;

  3. 我们的 DM-Deg 有效地抑制了不需要的视觉语义,防止了这种污染。

语义不平衡

  1. 同时学习概念和组件可能会导致不平衡,导致概念或组件扭曲(这里我们介绍前者的情况)。

  2. 我们的 DS-Bal 确保平衡学习,提高个性化表现。

定性结果

我们展示了由 MagicTailor 生成的图像以及针对各个领域的个性化的 SOTA 方法。 MagicTailor 总体上实现了良好的文本对齐、强大的身份保真度和高生成质量。

定量结果

我们将 MagicTailor 与基于自动指标(CLIP-T、CLIP-I、DINO 和 DreamSim)和用户研究(人类对文本对齐、身份保真度和生成质量的偏好)的 SOTA 个性化方法进行比较。最佳结果以粗体标记。 MagicTailor 可以在这项具有挑战性的任务中取得卓越的性能。


http://www.mrgr.cn/news/57269.html

相关文章:

  • Token的组成部分
  • 搬砖14、Python网络编程入门
  • js实现点击随机点名效果
  • 地图导航平台怎么标注店铺定位?
  • HCIP-HarmonyOS Application Developer 习题(十六)
  • IT运维的365天--017 如何在两台Linux服务器之间快速批量传输文件夹(同时设置免密)
  • libaom 编解码项目编码接口文件介绍
  • MySQL笔试面试题之AI答(2)
  • Docker 基础入门
  • 破四元!一区飞蛾扑火算法+时序卷积+双向单元+注意力机制!MFO-TCN-BiGRU-Attention多变量时间序列预测
  • MySQL优化手段有哪些
  • 好看的动态屏保来了 今年不能错过的视觉盛宴
  • pytorh学习笔记——cifar10(五)ResNet网络结构
  • 万能接口PCIE
  • Linux中Kconfig结构分析
  • 【电子通识】四线电阻屏原理
  • 【高等数学学习记录】无穷小的比较
  • 16天自制CppServer-day02
  • 带权并查集注意事项
  • 华帝携手抖音头部达人,金牌导演李力持量身打造厨电定制微短剧
  • Java避坑案例 - 接口设计_版本控制策略
  • solidworks管理员运行install.bat提示[sC]0penService 失败 5:拒绝访问。请按任意键继续...
  • HTML、CSS 和 JavaScript 的介绍
  • 防火墙概述
  • C++:模板(2)
  • Android 12.0进程保活白名单功能实现