当前位置: 首页 > news >正文

2024年AI图像生成热门模型回顾

2024.01.04 阿里开源 AnyText 中文文字图像生成

2024.01.15 小红书开源 InstantID,  上传真人图片的生成ID一致的AI形象

2024.02.22 字节开源了 SDXL-Lighting (1,2,4,8步快速出图)

2024.03.05  开源了 SD3  (重点,因为有论文)

2024.03.29  PixArt-Σ  (sigma)华为诺亚方舟实验室开源英文4K 文生图模型

2024.04 字节提出了视觉自回归文生图模型 VAR (2024年某顶会最佳论文)

2024.05.22 腾讯发布 Hunyuan-DiT  中国特色文生图模型)

2024.07.09 快手开源 可图 Kolors中英文生图模型 (基于SDXL)

2024.08.01 黑暗森林开源了  FLUX.1  最强文生图模型 

2024.09.17  北京人工智能研究院提出了OminGEN 通用图像合成编辑架构 

2024.10.14 Nvidia和MIT等提出了加速的扩散模型SANA

2024. 10.22    Stability AI 开源了8.1B参数的SD3.5   

2024.10.31 阿里开源了In-Context LoRA(IC-LoRA) ,生成一致性组图 (基于FLUX)

2024.11.22 新加坡国立大学提出 OminiControl 更高效和简单的flux控制模型

2024.12.24  字节开源 Infinity 自回归文生图模型 (文生图新范式,可能打败扩散模型)

2024.01.04 阿里开源AnyText

图片

项目地址:GitHub - tyxsspa/AnyText: Official implementation code of the paper <AnyText: Multilingual Visual Text Generation And Editing>

论文:Multilingual Visual Text Generation And Editing

生成中文等多语言文字与图片,并在04月发布了训练代码和AnyWord-3M数据集

图片

2024.01.15 小红书开源InstantID,  上传真人图片的生成ID一致的AI形象

图片

主页:https://instantid.github.io/

论文:Zero-shot Identity-Preserving Generation in Seconds

图片

2024.02.22 字节开源了 SDXL-Lighting (1,2,4,8步快速出图)

 https://huggingface.co/ByteDance/SDXL-Lightning

图片

解析: https://zhuanlan.zhihu.com/p/685062999

2024.03.05  开源了SD3  (重点)

图片

https://huggingface.co/stabilityai/stable-diffusion-3-medium

论文:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis  —— https://arxiv.org/abs/2403.03206

基于 diffusion transformer architecture  (DiT) 和 flow matchingj架构,具体是提出了Rectified Flow(直方流) +  Multimodal Diffusion Transformer (MMDiT)的方法和架构,8B的模型的生成高分辨率,展示了其在排版、精确提示跟踪方面的能力以及空间推理、对细节的关注以及各种风格的高图像质量。

图片

2024.03.29  PixArt-Σ  (sigma)华为诺亚方舟实验室开源项目

图片

能够直接生成4K分辨率的图像,显著提高了图像的保真度,并能更好地与文本提示保持一致

论文名《PixArt-Σ: Weak-to-Strong Training for Diffusion Transformers to Generate 4K Images》

项目地址:https://pixart-alpha.github.io/PixArt-sigma-project/

2024.04 字节提出了视觉自回归文生图模型VAR (2024年某顶会最佳论文)

VAR: a new visual generation method elevates GPT-style models beyond diffusion🚀 & Scaling laws observed

项目:https://github.com/FoundationVision/VAR

图片

2024.05.22 腾讯发布Hunyuan-DiT  (理解中文文生图模型)

图片

https://github.com/Tencent/HunyuanDiT

侧重中国文化的多语言文生图模型  

首个中英双语DiT架构  (Diffusion transformer)

论文:A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

图片

2024.07.09 快手开源可图kolors中英文生图模型 (基于SDXL)

图片

Kolors 支持中英文,支持长达 256 字符的文本输入,具备英文和中文写字能力

项目主页:https://kwai-kolors.github.io/

论文:https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

Kolors: Effective Training of Diffusion Model forPhotorealistic Text-to-Image Synthesis  

图片

图片

 2024.08.01 黑暗森林开源了FLUX.1 最强文生图模型 

项目主页:https://github.com/black-forest-labs/flux

图片

图片

2024.09.17  北京人工智能研究院提出了通用图像合成架构 

OmniGen

项目地址:https://vectorspacelab.github.io/OmniGen/

图片

图片

2024.10.14 Nvidia和MIT等提出了加速的扩散模型SANA

图片

项目地址:https://nvlabs.github.io/Sana/  

论文名称:Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer

图片

2024. 10.22    开源了8.1B参数的SD3.5   

图片

项目地址:https://github.com/Stability-AI/sd3.5

提升了题词与内容一致性,但是美学评分仍然差与FLUX.1

图片

2024.10.31 阿里开源了In-Context LoRA(IC-LoRA) ,生成组图

IC-LoRA

项目地址:https://ali-vilab.github.io/In-Context-LoRA-Page/

图片

图片

2024.11.22 新加坡国立大学提出 更高效和简单的flux控制模型

OminiControl

源码:https://github.com/Yuanshi9815/OminiControl

图片

解析:OminiControl:更轻量级的通用模态FLux.1控制模型,仅引入0.1%的额外参数

图片

2024.12.24 字节开源 Infinity 自回归文生图模型

Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

https://foundationvision.github.io/infinity.project/

图片


http://www.mrgr.cn/news/82809.html

相关文章:

  • 【通识安全】煤气中毒急救的处置
  • 基于 Boost.Asio 和 Boost.Beast 的异步 HTTP 服务器(学习记录)
  • 5.2 数据库:UPDATE子句
  • Adobe ColdFusion 关键安全漏洞紧急修复
  • 掌握RabbitMQ:全面知识点汇总与实践指南
  • 【Ubuntu】 Ubuntu22.04搭建NFS服务
  • 苍穹外卖 项目记录 day03
  • Requests聚焦爬虫-数据解析
  • 服务器双网卡NCCL通过交换机通信
  • 【学Rust开发CAD】2 创建第一个工作空间、项目及库
  • 【SpringSecurity】二、自定义页面前后端分离
  • 鸿蒙APP之从开发到发布的一点心得
  • 前端实现大文件上传(文件分片、文件hash、并发上传、断点续传、进度监控和错误处理,含nodejs)
  • 每日AIGC最新进展(80): 重庆大学提出多角色视频生成方法、Adobe提出大视角变化下的人类视频生成、字节跳动提出快速虚拟头像生成方法
  • 医学图像分析工具01:FreeSurfer || Recon -all 全流程MRI皮质表面重建
  • ISP图像调优流程
  • Unity中 Xlua使用整理(一)
  • 数组和指针
  • jenkins入门6 --拉取代码
  • 5G学习笔记之SNPN系列之网络选择
  • 在K8S上部署OceanBase的最佳实践
  • <OS 有关> DOS 批处理命令文件,用于创建 python 虚拟机,并进入虚拟机状态执行后继命令 判断虚拟机是否存在,在批处理文件中自定义 虚拟机名字
  • ffmpeg 常用命令
  • day01_ Java概述丶开发环境的搭建丶常用DOS命令
  • selenium合集
  • 【C++】const关键字_运算符重载_继承