当前位置: 首页 > news >正文

开源EMO再升级!复旦|百度|南大推出Hallo2,可以生成4K,一小时的音频驱动的视频。

在之前的文章中已经和大家介绍过复旦大学开源的Hallo项目,感兴趣的小伙伴可以点击以下链接阅读~

复旦开源Hallo:只需输入一段音频和一张照片就可以让人物说话。

今天给大家介绍Hallo的升级版本Hallo2,该方法处理单个参考图像以及持续几分钟的音频输入。此外,可以以不同的间隔引入可选的文本提示,以调节和细化肖像的表情。最终输出的是高分辨率 4K 视频,该视频与音频同步,并受可选表情提示的影响,确保整个视频的连续性。

相关链接

论文地址:http://arxiv.org/abs/2410.07718v1

项目主页:https://fudan-generative-vision.github.io/hallo2

代码地址:https://github.com/fudan-generative-vision/hallo2

试用地址:https://huggingface.co/fudan-generative-ai/hallo2

论文阅读

Hallo2:长时间、高分辨率音频驱动的肖像图像动画

介绍

基于潜在扩散的肖像图像动画生成模型(例如 Hallo)的最新进展在短时视频合成方面取得了令人印象深刻的成果。在本文中,我们介绍了 Hallo 的更新,引入了多项设计增强功能来扩展其功能。首先,我们扩展该方法来制作长时间视频。为了解决外观漂移和时间伪影等重大挑战,我们研究了条件运动帧的图像空间内的增强策略。具体来说,我们引入了一种用高斯噪声增强的补丁下降技术,以增强长时间内的视觉一致性和时间连贯性。其次,我们实现了4K分辨率的人像视频生成。为了实现这一目标,我们实现了潜在代码的矢量量化,并应用时间对齐技术来保持时间维度上的一致性。通过集成高质量解码器,我们实现了4K分辨率的视觉合成。第三,我们将肖像表达的可调整语义文本标签作为条件输入。这超越了传统的音频提示,提高了可控性并增加了生成内容的多样性。据我们所知,本文提出的 Hallo2 是第一个实现 4K 分辨率并生成长达一小时、音频驱动的人像图像动画并配有文本提示的方法。我们进行了广泛的实验,以在公开数据集(包括 HDTF、CelebV 和我们引入的“Wild”数据集)上评估我们的方法。实验结果表明,我们的方法在长时间肖像视频动画中实现了最先进的性能,成功生成了 4K 分辨率的丰富且可控的内容,持续时间长达数十分钟。

方法

Hallo2的方法主要围绕三个核心技术展开。首先,为了解决生成长时间视频时的外观一致性问题,研究者们采用了补丁丢弃数据增强技术。这一技术通过随机丢弃条件帧中的部分图像补丁,确保模型主要依赖于参考图像的外观特征,同时保留运动信息。这种方法有效防止了前一帧对后续帧外观的污染。其次,为了实现4K视频生成,研究者们扩展了向量量化生成对抗网络(VQGAN),并在代码序列预测中引入了时间对齐机制,确保生成视频的平滑过渡和高分辨率细节。最后,研究者们通过在音频信号的基础上引入可调节的文本提示,增强了对肖像表情和运动的控制能力,使得生成的动画更加生动和富有表现力。


http://www.mrgr.cn/news/55694.html

相关文章:

  • 设计模式的六大原则
  • Android 内存优化——常见内存泄露及优化方案
  • 苹果仍在研发更大尺寸的 iMac | Swift 周报 issue 60
  • Java比较两个Excel是否内容一致
  • WPF实现类似网易云音乐的菜单切换
  • 请解读下面的程序:pat =re.compile(r‘\d+‘)res = pat.search(‘www.ddd996.com‘)res.group()
  • AGV电子地图之贝塞尔曲线
  • 每日OJ题_牛客_[NOIP2001]装箱问题_01背包_C++_Java
  • 面试总结(持续更新~)
  • 100多种【基于YOLOv8/v10/v11的目标检测系统】目录(python+pyside6界面+系统源码+可训练的数据集+也完成的训练模型)
  • pychar社区版下载
  • Leetcode|24. 两两交换链表中的节点 ● 19.删除链表的倒数第N个节点 ● 面试题 02.07. 链表相交 ● 142.环形链表II
  • 01 一篇读懂25机械考研复试超全流程讲解|考研面试经验和面试真题快来背诵!
  • 内网穿透frp部署
  • Spring Boot慢启动?一文带你轻松优化!
  • 【Linux】线程基本概念,线程控制
  • 深度学习--CNN实现猫狗识别二分类(附带下载链接, 长期有效)
  • [while循环]k的幂
  • js实现两个变量交换
  • 座舱软件开发“道与术”
  • 04,perl
  • navigate连接opengauss
  • Linux系统:tac命令
  • 速盾:免费cdn加速节点是什么?
  • 【数学二】多元函数微积分学-多元函数的微分
  • 算法01----移动零(C++)