当前位置: 首页 > news >正文

首个统一生成和判别任务的条件生成模型框架BiGR:专注于增强生成和表示能力,可执行视觉生成、辨别、编辑等任务

BiGR是一种新型的图像生成模型,它可以生成高质量的图像,同时还能有效地提取图像特征。该方法是通过将图像转换为一系列的二进制代码来工作,这些代码就像是图像的“压缩版”。在训练时会遮住一些代码,然后让模型学习如何根据剩下的代码来填补这些空缺。

BiGR不仅能够生成图像,还能在很多视觉任务中表现良好,比如修复损坏的图像或对图像进行编辑,而这些都无需对模型进行特别的调整。这使得BiGR在图像生成领域非常灵活和高效。

相关链接

论文地址:http://arxiv.org/abs/2410.14672v1

项目主页:https://haoosz.github.io/BiGR

代码链接:https://github.com/haoosz/BiGR

论文介绍

BiGR是一种新颖的条件图像生成模型,使用紧凑的二进制潜在代码进行生成训练,专注于增强生成和表示能力。BiGR可以执行视觉生成、辨别、编辑等。

  • 统一性:BiGR是第一个在同一模型中统一生成任务和判别任务的条件图像生成模型。通过对紧凑的二进制潜在代码进行建模,与现有模型相比, BiGR在两个任务中都表现出色。

  • 效率:BiGR以较低的时间成本生成图像,这归因于迭代揭露过程中所需的少量采样步骤,同时仍保持较高的生成质量。

  • 灵活性:BiGR可以灵活地用于各种视觉应用,例如以零样本方式进行修复、去除修复、编辑、插值和丰富,而无需针对特定任务进行结构更改或参数微调。

  • 可扩展性:BiGR在生成任务和判别任务中都表现出可扩展性,这通过对生成质量和线性探测性能的全面评估得到了证明。

方法

BiGR建立在 Llama 主干之上,结合了掩码标记预测和二进制转码器。BiGR 使用加权二进制交叉熵 (wBCE) 损失进行训练,以重建掩码标记。对于图像生成,我们设计了熵序采样。对于视觉表示,我们只需在中间层应用平均池化。

定量比较

图像生成

零样本广义应用

BiGR支持多种零样本应用,而无需特定于任务的结构更改或参数微调。

实验结果表明,BiGR在生成质量上优于现有模型,尤其是在使用二进制目标和掩蔽建模时。此外还比较了BiGR与最新的自回归生成基线LlamaGen的表现,发现BiGR在生成和判别任务上都展现出更强的能力。


http://www.mrgr.cn/news/55629.html

相关文章:

  • 2. 什么是注解?
  • 在Xshell中查看日志文件详情
  • 【CS常见问题】你用的是VS2019,最高支持.NET5.0,但是项目将.NET6.0设为目标无法运行,怎么办?
  • 如何做软件系统的成本估算?
  • 在数据库中,`SELECT`, `FROM`, `JOIN`, `ON`, 和 `WHERE`各自的作用
  • 【ERROR】ubuntu source: not found
  • Qt学习笔记第21到30讲
  • DataWhale10月动手实践——Bot应用开发task04学习笔记
  • MySQL 服务器配置与管理<二>
  • CAS 详解
  • Reverse.Kr—— 前四题
  • 08-流程控制语句
  • 简单汇编教程9 字符串与字符串指令
  • tkintrt.Button位置试炼——计算器“键盘”
  • MySQL—CRUD—进阶—(二) (ಥ_ಥ)
  • 基于springboot的网上服装商城推荐系统的设计与实现
  • BitNet: Scaling 1-bit Transformers for Large Language Models
  • 数据库中常用的函数及函数应用
  • FCITX5的一些小命令
  • Spring Boot:如何实现JAR包的直接运行
  • 静态代码块为什么不能放在构造函数中
  • 在C++中比大小
  • 嵌入式开发学习——c语言完结
  • 10.21 IO进程直接的通信
  • .mkp勒索病毒攻击全攻略:防护、数据恢复与安全建议
  • LC:动态规划-买卖股票