IFAdapter:用于基础文本到图像生成的实例特征控制
腾讯和新加坡国立大学联合提出一种用于基础文本到图像生成的实例特征控制方法IFAdapter,它帮助图像生成模型更好地理解和实现用户的需求。当我们给模型描述一个图像时,IFAdapter会将这些描述分解为更具体的部分,比如颜色、形状和位置。它使用一种叫做“外观标记”的工具,来提取这些细节,使得生成的图像看起来更真实、更符合我们的想法。
同时,IFAdapter还会创建一种“地图”,帮助模型知道每个部分应该放在哪里,避免不同部分之间的混淆。总的来说,IFAdapter就像是为图像生成模型加上了一双更灵活的眼睛,让它能够更精确地捕捉和呈现我们想要的图像。
我们提出了 IFAdapter,这是一种新颖的方法,旨在对预训练扩散模型中的本地化内容生成进行细粒度控制。 (a) IFAdapter 能够精确生成复杂的特征。 (b) IFAdapter 的即插即用设计使其能够无缝应用于各种社区模型。
相关链接
论文链接:http://arxiv.org/abs/2409.08240v1
项目主页:https://ifadapter.github.io/
代码链接:https://github.com/WUyinwei-hah/IFAdapter(即将推出)
论文阅读
IFAdapter:用于基础文本到图像生成的实例特征控制
摘要
虽然文本到图像 (T2I) 扩散模型擅长生成具有视觉吸引力的单个实例图像,但它们难以准确定位和控制多个实例的特征生成。布局到图像 (L2I) 任务通过将边界框作为空间控制信号引入来解决定位挑战,但它在生成精确的实例特征方面仍然存在不足。为此,我们提出了实例特征生成 (IFG) 任务,旨在确保生成的实例中的位置准确性和特征保真度。为了解决 IFG 任务,我们引入了实例特征适配器 (IFAdapter)。IFAdapter 通过合并额外的外观标记并利用实例语义图将实例级特征与空间位置对齐来增强特征描述。IFAdapter 在即插即用模块中指导扩散过程,使其适用于各种社区模型。为了进行评估,我们贡献了一个 IFG 基准并开发了一个验证管道,以客观地比较模型生成具有准确定位和特征的实例的能力。实验结果表明,IFAdapter 在定量和定性评估方面均优于其他模型。
方法
所提出的 IFAdapter 的结构。(a)外观标记的生成过程。为简单起见,我们使用一个实例(柯基犬)的生成过程作为示例。(b)实例语义图的构建过程。
实验
定性结果。比较了模型生成具有不同类型特征的实例的能力,包括混合颜色、多种材料和复杂纹理。
与社区 LoRA 即插即用
IFAdapter 可以与社区传播模型无缝集成。
消融研究
没有外观标记生成的图像表现出实例特征不匹配,进一步证明外观标记主要负责生成高频外观特征。
结论
本文介绍了IFAdapter,以对预训练的稳定扩散模型施加细粒度的实例级控制。我们通过引入外观标记来增强模型生成详细实例特征的能力。通过利用外观标记构建实例语义图,我们将实例级特征与空间位置对齐,从而实现强大的空间控制。定性和定量结果都表明,我们的方法在生成详细实例特征方面表现出色。此外,由于其即插即用的特性,IFAdapter 可以作为插件与社区模型无缝集成,而无需重新训练。