当前位置：首页 > news >正文

2024年AI图像生成热门模型回顾

news 2025/12/14 23:52:01

2024.01.04 阿里开源 AnyText 中文文字图像生成

2024.01.15 小红书开源 InstantID, 上传真人图片的生成ID一致的AI形象

2024.02.22 字节开源了 SDXL-Lighting (1,2,4,8步快速出图)

2024.03.05 开源了 SD3 （重点,因为有论文）

2024.03.29 PixArt-Σ （sigma）华为诺亚方舟实验室开源英文4K 文生图模型

2024.04 字节提出了视觉自回归文生图模型 VAR (2024年某顶会最佳论文)

2024.05.22 腾讯发布 Hunyuan-DiT （中国特色文生图模型）

2024.07.09 快手开源 可图 Kolors中英文生图模型（基于SDXL）

2024.08.01 黑暗森林开源了 FLUX.1 最强文生图模型

2024.09.17 北京人工智能研究院提出了OminGEN 通用图像合成编辑架构

2024.10.14 Nvidia和MIT等提出了加速的扩散模型SANA

2024. 10.22 Stability AI 开源了8.1B参数的SD3.5

2024.10.31 阿里开源了In-Context LoRA(IC-LoRA) ，生成一致性组图（基于FLUX）

2024.11.22 新加坡国立大学提出 OminiControl 更高效和简单的flux控制模型

2024.12.24 字节开源 Infinity 自回归文生图模型（文生图新范式，可能打败扩散模型）

2024.01.04 阿里开源AnyText

项目地址：GitHub - tyxsspa/AnyText: Official implementation code of the paper <AnyText: Multilingual Visual Text Generation And Editing>

论文：Multilingual Visual Text Generation And Editing

生成中文等多语言文字与图片，并在04月发布了训练代码和AnyWord-3M数据集

2024.01.15 小红书开源InstantID, 上传真人图片的生成ID一致的AI形象

主页：https://instantid.github.io/

论文：Zero-shot Identity-Preserving Generation in Seconds

2024.02.22 字节开源了 SDXL-Lighting (1,2,4,8步快速出图)

https://huggingface.co/ByteDance/SDXL-Lightning

解析: https://zhuanlan.zhihu.com/p/685062999

2024.03.05 开源了SD3 （重点）

https://huggingface.co/stabilityai/stable-diffusion-3-medium

论文：Scaling Rectified Flow Transformers for High-Resolution Image Synthesis —— https://arxiv.org/abs/2403.03206

基于 diffusion transformer architecture (DiT) 和 flow matchingj架构，具体是提出了Rectified Flow（直方流） + Multimodal Diffusion Transformer (MMDiT)的方法和架构，8B的模型的生成高分辨率，展示了其在排版、精确提示跟踪方面的能力以及空间推理、对细节的关注以及各种风格的高图像质量。

2024.03.29 PixArt-Σ （sigma）华为诺亚方舟实验室开源项目

能够直接生成4K分辨率的图像，显著提高了图像的保真度，并能更好地与文本提示保持一致

论文名《PixArt-Σ: Weak-to-Strong Training for Diffusion Transformers to Generate 4K Images》

项目地址：https://pixart-alpha.github.io/PixArt-sigma-project/

2024.04 字节提出了视觉自回归文生图模型VAR (2024年某顶会最佳论文)

VAR: a new visual generation method elevates GPT-style models beyond diffusion🚀 & Scaling laws observed

项目：https://github.com/FoundationVision/VAR

2024.05.22 腾讯发布Hunyuan-DiT （理解中文文生图模型）

https://github.com/Tencent/HunyuanDiT

侧重中国文化的多语言文生图模型

首个中英双语DiT架构（Diffusion transformer）

论文：A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

2024.07.09 快手开源可图kolors中英文生图模型（基于SDXL）

Kolors 支持中英文，支持长达 256 字符的文本输入，具备英文和中文写字能力

项目主页：https://kwai-kolors.github.io/

论文：https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

Kolors: Effective Training of Diffusion Model forPhotorealistic Text-to-Image Synthesis

2024.08.01 黑暗森林开源了FLUX.1 最强文生图模型

项目主页：https://github.com/black-forest-labs/flux

2024.09.17 北京人工智能研究院提出了通用图像合成架构

OmniGen

项目地址：https://vectorspacelab.github.io/OmniGen/

2024.10.14 Nvidia和MIT等提出了加速的扩散模型SANA

项目地址：https://nvlabs.github.io/Sana/

论文名称：Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer

2024. 10.22 开源了8.1B参数的SD3.5

项目地址：https://github.com/Stability-AI/sd3.5

提升了题词与内容一致性，但是美学评分仍然差与FLUX.1

2024.10.31 阿里开源了In-Context LoRA(IC-LoRA) ，生成组图

IC-LoRA

项目地址：https://ali-vilab.github.io/In-Context-LoRA-Page/

2024.11.22 新加坡国立大学提出更高效和简单的flux控制模型

OminiControl

源码：https://github.com/Yuanshi9815/OminiControl

解析：OminiControl：更轻量级的通用模态FLux.1控制模型，仅引入0.1%的额外参数

2024.12.24 字节开源 Infinity 自回归文生图模型

Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

https://foundationvision.github.io/infinity.project/

http://www.mrgr.cn/news/82809.html

相关文章：

苍穹外卖项目记录 day03

Requests聚焦爬虫-数据解析

服务器双网卡NCCL通过交换机通信

【学Rust开发CAD】2 创建第一个工作空间、项目及库

【SpringSecurity】二、自定义页面前后端分离

鸿蒙APP之从开发到发布的一点心得

前端实现大文件上传(文件分片、文件hash、并发上传、断点续传、进度监控和错误处理，含nodejs)

每日AIGC最新进展(80)：重庆大学提出多角色视频生成方法、Adobe提出大视角变化下的人类视频生成、字节跳动提出快速虚拟头像生成方法

医学图像分析工具01：FreeSurfer || Recon -all 全流程MRI皮质表面重建

ISP图像调优流程

Unity中 Xlua使用整理（一）

数组和指针

jenkins入门6 --拉取代码

5G学习笔记之SNPN系列之网络选择

在K8S上部署OceanBase的最佳实践

＜OS 有关＞ DOS 批处理命令文件，用于创建 python 虚拟机，并进入虚拟机状态执行后继命令判断虚拟机是否存在，在批处理文件中自定义虚拟机名字

ffmpeg 常用命令

day01_ Java概述丶开发环境的搭建丶常用DOS命令

【C++】const关键字_运算符重载_继承