当前位置: 首页 > news >正文

【论文阅读】Face2Diffusion for Fast and Editable Face Personalization

code:mapooon/Face2Diffusion: [CVPR 2024] Face2Diffusion for Fast and Editable Face Personalization https://arxiv.org/abs/2403.05094 (github.com)

论文

介绍 

目标:向 T2I 模型不知道的图像中插入特定概念(例如某人的脸),从而催生出诸如 TextualInversion 和 DreamBooth的个性化方法。这两个方法学习每个概念需要几十分钟的微调,基于此提出了Face2Diffusion (F2D),用于高可编辑性面部个性化。核心思想是从训练pipeline中删除与身份无关的信息,防止过拟合并提高编码面部的可编辑性。

特点:平衡了身份保真度和文本保真度。三个组件:1)多尺度身份编码器 (MSID) ,提供了解耦的身份特征,同时保留了多尺度信息,提高了相机姿势的多样性。 2)表情引导,将人脸表情与身份分离,提高人脸表情的可控性,可以通过文本提示和参考图像来控制人脸表情。 3)分类引导去噪正则化(CGDR) ,鼓励模型学习如何对面部进行去噪,从而增强背景的保真度。

图 1.  Face2Diffusion 满足复杂的文本提示,文本包括多个条件,同时保留输入的面部身份,无需单独的测试时间调整。 

方法

目标:将输入面部表示为 CLIP 文本空间中的面部嵌入 S*,以生成受 StableDiffusion 上文本提示调节的目标对象。

前提:以前的方法存在三种类型的过拟合:背景、相机角度和面部表情。图2显示了[Multi-concept customization of text-to-image diffusion.]的失败案例。可以看出,由于对输入样本的过拟合,该方法往往会生成相似的背景、角度和面部表情。

图 3 可视化了 F2D。由解决过拟合问题的三个重要组件组成:

  • 3.2节多尺度身份(MSID)编码器,通过从面部识别模型 [12] 中移除与身份无关的信息,解耦摄像机角度和面部嵌入。
  • 3.3节表情引导,将面部表情从面部嵌入中解耦,对齐表情与文本,并增加表情的多样性。
  • 3.4节类引导去噪正则化(CGDR),强制面部嵌入的去噪方式遵循其super-class(即“一个人”)的背景去噪方式。

(a) 训练过程中,将人脸图像输入到新型多尺度身份编码器 fid 和现成的 3D 人脸重建模型 fexp 中,分别提取身份和表情特征。连接的特征通过映射网络 fmap 作为词嵌入 S* 投影到文本空间中。输入图像也由VAE的编码器E进行编码,然后添加高斯噪声ε。将去噪后的潜在特征图限制为前景中的原始特征图,并限制为背景中的类引导去噪结果。

(b) 推理过程中,表情特征被替换为无条件向量 ̃ vexp 以使生成图像的面部表情多样化。将人脸嵌入 S* 注入输入文本后,执行 StableDiffusion 的原始去噪循环,以生成由输入人脸身份和文本调节的图像。

实验

 

复现


http://www.mrgr.cn/news/30330.html

相关文章:

  • MySQL数据库
  • Linux服务器本地部署Joplin Server并实现手机电脑多端同步文档
  • Python PDF转图片自定义输出
  • redis为什么不使用一致性hash
  • 算法:双指针题目练习
  • 使用Postman轻松搞定文件上传测试
  • 文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
  • 内部工具使用
  • Vue学习记录之五(组件/生命周期)
  • python sqlite3数据库介绍(如何使用参数化查询防止SQL注入攻击)(直接通过网络让其他主机访问某台主机上的SQLite数据库是不被直接支持的)
  • sed awk 第二版学习(五)—— 高级 sed 命令
  • 利用反射实现动态代理
  • SQL案例分析:美联储降息前后的复利差距
  • 2024ICPC第一场网络赛补题
  • MATLAB系列09:图形句柄
  • 基于SpringBoot+Vue+MySQL的智能物流管理系统
  • CISP备考题库(八)
  • JavaScript Array 数组对象
  • HubSpot Sales Hub 是什么 | HubSpot Sales Hub:推动业务全球化的智能销售引擎
  • 【60天备战2024年11月软考高级系统架构设计师——第21天:系统架构设计原则——高内聚低耦合】