2024年AI图像生成热门模型回顾
2024.01.04 阿里开源 AnyText 中文文字图像生成
2024.01.15 小红书开源 InstantID, 上传真人图片的生成ID一致的AI形象
2024.02.22 字节开源了 SDXL-Lighting (1,2,4,8步快速出图)
2024.03.05 开源了 SD3 (重点,因为有论文)
2024.03.29 PixArt-Σ (sigma)华为诺亚方舟实验室开源英文4K 文生图模型
2024.04 字节提出了视觉自回归文生图模型 VAR (2024年某顶会最佳论文)
2024.05.22 腾讯发布 Hunyuan-DiT (中国特色文生图模型)
2024.07.09 快手开源 可图 Kolors中英文生图模型 (基于SDXL)
2024.08.01 黑暗森林开源了 FLUX.1 最强文生图模型
2024.09.17 北京人工智能研究院提出了OminGEN 通用图像合成编辑架构
2024.10.14 Nvidia和MIT等提出了加速的扩散模型SANA
2024. 10.22 Stability AI 开源了8.1B参数的SD3.5
2024.10.31 阿里开源了In-Context LoRA(IC-LoRA) ,生成一致性组图 (基于FLUX)
2024.11.22 新加坡国立大学提出 OminiControl 更高效和简单的flux控制模型
2024.12.24 字节开源 Infinity 自回归文生图模型 (文生图新范式,可能打败扩散模型)
2024.01.04 阿里开源AnyText
项目地址:GitHub - tyxsspa/AnyText: Official implementation code of the paper <AnyText: Multilingual Visual Text Generation And Editing>
论文:Multilingual Visual Text Generation And Editing
生成中文等多语言文字与图片,并在04月发布了训练代码和AnyWord-3M数据集
2024.01.15 小红书开源InstantID, 上传真人图片的生成ID一致的AI形象
主页:https://instantid.github.io/
论文:Zero-shot Identity-Preserving Generation in Seconds
2024.02.22 字节开源了 SDXL-Lighting (1,2,4,8步快速出图)
https://huggingface.co/ByteDance/SDXL-Lightning
解析: https://zhuanlan.zhihu.com/p/685062999
2024.03.05 开源了SD3 (重点)
https://huggingface.co/stabilityai/stable-diffusion-3-medium
论文:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis —— https://arxiv.org/abs/2403.03206
基于 diffusion transformer architecture (DiT) 和 flow matchingj架构,具体是提出了Rectified Flow(直方流) + Multimodal Diffusion Transformer (MMDiT)的方法和架构,8B的模型的生成高分辨率,展示了其在排版、精确提示跟踪方面的能力以及空间推理、对细节的关注以及各种风格的高图像质量。
2024.03.29 PixArt-Σ (sigma)华为诺亚方舟实验室开源项目
能够直接生成4K分辨率的图像,显著提高了图像的保真度,并能更好地与文本提示保持一致
论文名《PixArt-Σ: Weak-to-Strong Training for Diffusion Transformers to Generate 4K Images》
项目地址:https://pixart-alpha.github.io/PixArt-sigma-project/
2024.04 字节提出了视觉自回归文生图模型VAR (2024年某顶会最佳论文)
VAR: a new visual generation method elevates GPT-style models beyond diffusion🚀 & Scaling laws observed
项目:https://github.com/FoundationVision/VAR
2024.05.22 腾讯发布Hunyuan-DiT (理解中文文生图模型)
https://github.com/Tencent/HunyuanDiT
侧重中国文化的多语言文生图模型
首个中英双语DiT架构 (Diffusion transformer)
论文:A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding
2024.07.09 快手开源可图kolors中英文生图模型 (基于SDXL)
Kolors 支持中英文,支持长达 256 字符的文本输入,具备英文和中文写字能力
项目主页:https://kwai-kolors.github.io/
论文:https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf
Kolors: Effective Training of Diffusion Model forPhotorealistic Text-to-Image Synthesis
2024.08.01 黑暗森林开源了FLUX.1 最强文生图模型
项目主页:https://github.com/black-forest-labs/flux
2024.09.17 北京人工智能研究院提出了通用图像合成架构
OmniGen
项目地址:https://vectorspacelab.github.io/OmniGen/
2024.10.14 Nvidia和MIT等提出了加速的扩散模型SANA
项目地址:https://nvlabs.github.io/Sana/
论文名称:Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer
2024. 10.22 开源了8.1B参数的SD3.5
项目地址:https://github.com/Stability-AI/sd3.5
提升了题词与内容一致性,但是美学评分仍然差与FLUX.1
2024.10.31 阿里开源了In-Context LoRA(IC-LoRA) ,生成组图
IC-LoRA
项目地址:https://ali-vilab.github.io/In-Context-LoRA-Page/
2024.11.22 新加坡国立大学提出 更高效和简单的flux控制模型
OminiControl
源码:https://github.com/Yuanshi9815/OminiControl
解析:OminiControl:更轻量级的通用模态FLux.1控制模型,仅引入0.1%的额外参数
2024.12.24 字节开源 Infinity 自回归文生图模型
Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis
https://foundationvision.github.io/infinity.project/