当前位置: 首页 > news >正文

深入浅出剖析重量级文生图模型Flux.1

24年8月,Flux.1的发布又一次火爆整个AI绘图领域, 号称AI文生图的“新标杆”,刷新AI图像领域的新格局。
在这里插入图片描述
Flux是一款由Black Forest Labs开发的尖端AI图像生成工具,旨在通过先进的技术将文本提示转化为高质量的图像。Flux AI支持多种创作风格,包括现实主义、动漫、幻想和插画,适用于艺术、设计、广告和社交媒体等多个领域。

Flux AI的主要特点包括其出色的视觉质量、对提示的高响应能力以及多样化的输出风格。它采用了混合架构,结合了Transformer网络在文本理解方面的优势和扩散模型在图像生成方面的强大能力,使其在生成逼真图像方面表现出色。此外,Flux AI还能够精确渲染人体解剖结构,解决了早期模型中常见的解剖学错误。

Flux AI提供多个版本,包括Pro、Dev和Schnell,以满足不同用户的需求。Pro版本适用于需要高质量图像生成的专业用户,而Schnell版本则优化了速度和效率,适合需要实时或近实时生成的应用。Flux AI还支持开源模式,为广大用户提供了更多的可能性。

Flux AI不仅在图像生成质量和性能上取得了重大突破,还通过其开源模式和多样化的版本选择,为用户提供了广泛的应用场景和创作自由度

黑森林实验室

Flux背后的主创团队来自由Stable Diffusion 原班人马打造的黑森林实验室BlackForestLabs,2024年8月1日,正式宣布成立,核心成员包括3月宣布从 Stability AI 出走的 Robin Rombach,也是 Stable Diffusion 的两个主要作者之一。

Flux简介

FLUX.1共有专业版、开发者版、快速版三种版本。
在这里插入图片描述

  • FLUX.1 [pro] :最先进

    闭源模型,质量最佳,提供最先进的性能图像生成,具有顶级的提示跟随、视觉质量、图像细节和输出多样性,FLUX.1 [pro] 可以通过API和合作伙伴 Replicate、fal.ai 和 mystic 访问,支持企业方案。

  • FLUX.1 [dev]:非商业应用

    FLUX.1 [dev] 是一个用于非商业应用的开放轻量级模型,直接从 FLUX.1 [pro] 中提炼出来, 获得了和Pro版本类似的质量和及时依从性能力,同时比相同尺寸的标准型号更高效。可以直接在 Replicate、fal.ai、mystic 和 deepinfra 上试用。

  • FLUX.1 [schnell]:最快

    可商用,为本地开发和个人使用量身定制,FLUX.1 [schnell] 在 Apache2.0 许可下公开提供。FLUX.1 [schnell] 也可以通过 Replicate、fal.ai、mystic 和 deepinfra 获得。

在基准测试中,Flux模型在图像合成方面树立了新标准,超越了Midjourney v6.0、Dall-E 3(HD)和SD3 Ultra等模型,在视觉质量、提示遵从性、尺寸/比例变化、字体处理和输出多样性方面表现出色。

  • 视觉质量:Flux 的目标是生成保真度更高、细节更逼真、整体美感更强的图像。

  • 及时跟进:该模型旨在更加紧密地遵循给定的文本提示,生成更准确反映用户意图的图像。

  • 尺寸/外观变化:Flux 支持多种宽高比和分辨率,从 0.1 到 2.0 百万像素,为各种用例提供​​灵活性。

  • 活版印刷:该模型显示出在图像中生成和渲染文本的改进能力,这是许多文本到图像模型的共同挑战。

  • 输出分集:Flux 经过专门微调,可以保留预训练的整个输出多样性,从而提供更广泛的创造可能性。
    在这里插入图片描述
    黑森林实验室的图表显示,其Pro和Dev模型是迄今为止最好的图像生成器,而其较不强大的Schnell版本则位于Midjourney v5和Ideogram之间。
    在这里插入图片描述
    Flux 与 Midjourney比较分析

  • 图像质量和美观度:Flux 和 Midjourney 都以制作高质量、视觉震撼的图像而闻名。Midjourney 因其艺术天赋和创造具有独特审美吸引力的图像的能力而受到称赞。Flux 凭借其先进的架构和更大的参数数量,旨在达到或超过这一质量水平。

Flux 的早期示例展现了令人印象深刻的细节、逼真的纹理以及对光线和构图的出色把握。然而,艺术的主观性使得很难明确宣称在这一领域谁更胜一筹。用户可能会发现,每种模型在不同风格或类型的图像上都有自己的优势。

  • 互动/提示词遵循 :Flux 可能胜出的一个领域是及时遵守。Black Forest Labs 强调了他们专注于提高模型准确解释和执行给定提示的能力。这可能导致生成的图像更符合用户的意图,特别是对于复杂或细微的请求。Midjourney有时会因随意发挥创意而受到批评,这可能会产生美妙但出乎意料的结果。Flux 的方法可能对生成的输出提供更精确的控制。

  • 速度与效率:随着 FLUX.1 [schnell] 的推出,Black Forest Labs 瞄准了 Midjourney 的主要优势之一:速度。Midjourney 以快速的生成时间而闻名,这使得它在迭代创作过程中广受欢迎。如果 Flux 能够在保持质量的同时达到或超过这一速度,那么这可能是一个重要的卖点。

  • 易用性和易用性:Midjourney 之所以受欢迎,部分原因在于其用户友好的界面和与 Discord 的集成。Flux 是较新的,可能需要时间来开发类似的可访问界面。然而,FLUX.1 [schnell] 和 [dev] 模型的开源性质可能会导致社区开发各种工具和集成,在灵活性和定制选项方面可能超越 Midjourney。

  • 技术能力:Flux 的先进架构和更大的模型尺寸表明,它在理解复杂提示和生成复杂细节方面可能具有更强大的原始能力。流匹配方法和混合架构可以让 Flux 处理更广泛的任务并生成更多样化的输出。

  • 道德考虑和偏见缓解:Flux 和 Midjourney 都面临着解决人工智能生成图像中的道德问题的挑战,例如偏见、错误信息和版权问题。Black Forest Labs 强调透明度,并致力于让模型广泛普及,这可能会带来更强有力的社区监督和这些领域的更快改进。

过人之处

💡 擅长生成文字、人手三种模型规模秒级生成

FLUX.1在视觉质量、图像细节和输出多样性等方面性能优越,其具有三大特点:文字生成、复杂构图、人手描绘

  • 文字的生成在图像、视频生成中非常重要,许多模型容易混淆看起来相似的字母。FLUX.1可以处理重复字母的棘手单词。

例如生成一个黑森林Flux Schnell蛋糕:

在这里插入图片描述

  • 构图方面,FLUX.1则表现出来非常擅长遵循复杂的指令,确定图像中事物的位置的能力。

例如:三个魔法巫师站在一张黄色桌子上,每个巫师都拿着一个标志。左边,一个穿着黑色长袍的巫师拿着一个写着“AI”的标志;中间,一个穿着红色长袍的女巫拿着一个写着“is”的标志;在右边,一个穿着蓝色长袍的巫师拿着一个写着“cool”的标志。

在这里插入图片描述

  • 人手一直是多模态生成模型的重灾区。FLUX.1生成的人手图像虽然还称不上是完美,但实现了很大的进步。
    在这里插入图片描述

技术创新

Flux 令人印象深刻的功能的核心在于一系列技术创新,使其有别于其前辈和同时代产品:

大规模变压器驱动的流动模型

所有公开的 FLUX.1 模型均建立在混合架构上,该架构结合了多模态和并行扩散变压器模块,可扩展到令人印象深刻的 12 亿个参数。与许多现有的文本转图像模型相比,这代表了模型大小和复杂性的显著飞跃。

Flux 模型通过结合流匹配(一种通用且概念简单的生成模型训练方法)改进了之前最先进的扩散模型。流匹配为生成建模提供了更灵活的框架,而扩散模型是这种更广泛方法中的一个特例。

为了提高模型性能和硬件效率,Black Forest Labs 集成了旋转位置嵌入和并行注意层。这些技术可以更好地处理图像中的空间关系,并更有效地处理大规模数据。

建筑创新

影响 Flux 性能的一些关键架构元素:

  • 混合架构:通过结合多模态和并行扩散变压器块,Flux 可以有效地处理文本和视觉信息,从而实现提示和生成的图像之间更好的对齐。
  • 流量匹配:这种方法可以更灵活、更高效地训练生成模型。它提供了一个统一的框架,涵盖了扩散模型和其他生成技术,有可能实现更强大、更通用的图像生成。
  • 旋转位置嵌入:这些嵌入有助于模型更好地理解和维护图像内的空间关系,这对于生成连贯且详细的视觉内容至关重要。
  • 并行注意力层:该技术可以更有效地处理注意力机制,这对于理解文本提示和生成的图像中不同元素之间的关系至关重要。
  • 缩放至 12B 参数:模型的庞大规模使其能够捕捉和合成更复杂的模式和关系,从而可能带来更高质量和更多样化的输出。

Flux使用

Flux 在线体验

官方提供了一系列在线体验的地址:

1. fal.ai :https://fal.ai/flux

免费试用,新用户赠送$1,可以试用dev,最多可以生成40张图片
在这里插入图片描述

2. Huggingface (免费):

  • https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev
  • https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell
    在这里插入图片描述
  1. Mystic AI :https://www.mystic.ai/black-forest-labs/

提供免费试用,FLUX.1 [Pro], FLUX.1 [Dev]和FLUX.1 [schnell]均可用

Flux 本地部署使用

Flux云端部署

十分钟学会云部署ComflyUI Flux, 保姆级教程,40s快速出图(附Flux工作流和模型资源)!https://www.aibetas.com.cn/p/4054.html

总结

在这里插入图片描述
在模型架构上,FLUX.1采用基于多模态和并行扩散Transformer模块的混合架构,并将其扩展到12B参数。

团队通过建立流匹配(Flow Matching)来改进最先进的扩散模型,并通过结合旋转位置嵌入(Rotary Position Embedding)并行注意力层,来提高模型性能和硬件效率。

根据FLUX.1团队的测试数据,即便是开源的Schnell版本,在文本语义还原、图片质量、动作一致性、连贯性和多样性等方面,也超越了Midjourney v6.0、DALL·E3(HD)和SD3-Ultra等主流模型。特别是在文本嵌入图片方面,FLUX.1展现出了明显的优势。


http://www.mrgr.cn/news/56258.html

相关文章:

  • Xmind一款极简思维导图和头脑风暴软件,支持PC和移动端,Xmind 2024.10.01101版本如何升级到Pro版?简单操作,最新可用!
  • Qt编程技巧小知识点(4)十进制与十六进制数据转化(升级版)
  • 打包使用pythn编写的maya插件,使用pyeal打包
  • 【Flutter】基础组件:Container
  • 等保测评2.0——Windows系统测评指导书
  • 计算不停歇,百度沧海数据湖存储加速方案 2.0 设计和实践
  • 数据结构图的应用最小生成树-普里姆算法(C语言代码+无向网+有向网+邻接矩阵存储结构)-最低附带图片+终端输入内容方便理解
  • 【Python爬虫系列】_031.Scrapy_模拟登陆中间件
  • 让你的 IDEA 使用更流畅 | IDEA内存修改
  • 常见的加密算法的分类及其原理
  • 利用自定义 ref 实现函数防抖
  • 批量合并同名Labelme标注文件内容
  • freeRTOS中互斥锁与信号量使用?
  • vue3学习记录-v-model
  • Numpy基础02
  • 浏览器控制的无线开关
  • 【03】RabbitMQ核心功能扩展
  • LeetCode718:最长重复子数组
  • [DB] NSM
  • 在线教育(培训+考试)/企业培训-企业培训平台-企业培训平台系统-企业内部培训系统-在线教育-Java语言开发
  • 「AIGC」n8n AI Agent开源的工作流自动化工具
  • php基础:数据类型、常量、字符串
  • 【内信互联】私有化安全性企业远程运维办公解决方案
  • Redis-04 Redis管道
  • 《黑神话:悟空》:又是这只跨界的猴子,诠释了传承与创新的关系
  • 【1】从零开始学习目标检测:YOLO算法详解