“掌握AI绘画技巧:Stable Diffusion高质量图像生成之提示词撰写指南“
前言:
在人工智能飞速发展的今天,AI绘画工具已成为艺术家和设计师的新宠。这些智能助手不仅能理解绘画提示,还能根据用户的想法生成令人惊叹的作品。本文将带你探索AI绘画提示的奥秘,助你轻松驾驭这一神奇工具,开启创意新篇章。
“2023年是AIGC爆发之年,不管是基于文字聊天的ChatGPT,还是基于图像生成的midjourney及stable diffusion,都强大到足以提高我们的工作效率,因此2024年将是AIGC落地之年……”
从趋势来看,AI技术革新当前设计工作流程是不可避免的,从招聘信息上看,国内大厂比如腾讯、网易、百度,早已经将AI技术加入到设计流程中。
既然大势不可挡,与其焦虑,不如将其化为动力,将AI打磨成手中的利剑!!!
之前做过SD出图的文章,相信有人跟着学会发现,出图质量并没有达到满意效果,但是看到网上别人出图质量很高又很捉急~~~
究其原因,其实是对AI的提示词输入不太符合模型要求,因此AI并没有理解你的真正意图~~~
本期跟大家分享下提示的书写规范,介绍Stable Diffusion文生图的操作方法以及提示词编写的语法技巧,保证你看完之后就能轻松成为一名专业的绘图魔法师。
01
—
ai绘画软件基础操作
在Stable Diffusion中,有文生图和图生图2种绘图模式,今天我们主要介绍如何使用文生图来绘制我们想要的图片。
下面是Stable Diffusion文生图界面的基础板块布局,如果你此前更换过主题相关的扩展插件,界面的功能布局可能会有所区别,但主要操作项都是相同的。
Stable Diffusion基础的操作流程并不复杂,一共就分成4步:选择模型—填写提示词—设置参数—点击生成。
通过操作流程就能看出,我们最终的出图效果是由模型、提示词、参数设置三者共同决定的,缺一不可。
其中, 模型主要决定画风、提示词主要决定画面内容,而参数则主要用于设置图像的预设属性。
02
—
提示词_prompt_
如果想成为专业的AI设计师,遵循一套标准的书写规范还是很有必要的:一方面完整且内容丰富的提示词可以让我们更好的控制最终出图效果 ,另一方面在后期微调过程中,也可以快速修改和验证关键词对出图结果影响 。
写提示词的过程中,就好比是甲方给我们布置任务,如果只说要设计一张图,不说图中要什么内容,也不提图片是干啥用,我们会一脸懵逼无从下手。
同理,stable diffusion在绘图时需要提供准确清晰的引导,提示词描述的越具体,画面内容就会越稳定。
提示词公式,有用三段式公式:
画质风格构图 + 主体描述 + 背景 |
也有人用万能公式:
当然网络上也有许多其他博主分享的咒语公式,内容都大同小异,只要能满足出图需求即可。本期文章,我们采用三段式进行讲解。
2.1 画质
画质是增强画面表现力的常用词汇,我们经常在一些惊艳的真实系AI图片中看到比如增加细节、摄影画质、电影感等词,可以一定程度上提升画面细节。
但注意最终图像的分辨率和精细度主要还是由图像尺寸来决定的,而本地运行的Stable Diffusion支持的绘图尺寸很大程度决定于显卡性能。
如果电脑显卡算力跟不上,再多的关键词也弥补不了硬件差距,当然在Stable Diffusion中也有一些实现高清修复的小技巧,后边章节介绍。
常用常用词
英文 | 中文 |
masterpiece | 杰作,大师级 |
best quality | 最佳品质 |
hyper quality | 超级品质 |
8k | 8K分辨率 |
insane details | 疯狂的细节 |
intricate details | 复杂的细节 |
hyperdetailed | 超详细细节 |
high detail | 高细节度 |
ultra detailed | 超详细 |
这些都是通用词,每次生成图片都用得上,可以明显提升画面质量。
2.2 风格参考
风格用于描述画面想呈现的风格和情绪表达,比如加入艺术家的名字、艺术手法、年代、色彩等。还有一些特定风格,比如3D风格、真实风格、卡通风格。
多数情况下都是先选好特定风格的模型,然后根据模型作者提供的触发词强化风格。因为在Stable Diffusion中,图像风格基本是由模型决定的,如果此前该模型并没有经过艺术风格关键词的训练,是无法理解该艺术词含义的。
常用提示词
3D风格
RTX,unity,3D Rendering,3D render,blender,C4D,octane render, |
使用以上词汇可以生成比较好的3D风格
真实风格
Realistic, RAW photo, dslr, soft lighting, film grain,Fujifilm XT3, Screen Space Refraction, high detailed skin, natural skin texture, |
真实的,RAW照片,数码相机,柔和的灯光,胶片颗粒,富士胶片XT3,屏幕空间折射(更真实的光影),高细节的皮肤,自然的皮肤纹理。 |
以上为真实照片常用词汇,下边是示例图:
卡通风格
Anime, Chibi, illustration, minimalism illustrationnordic illustration style, vector-art, CG, cartoon, flatdesign, cute style, Disney style, |
动漫、Q版、插画、极简主义插画、北欧风格插画、CG画、卡通、扁平风、可爱风格、迪士尼风格 |
以上为动漫、Q版、插画常用词汇,下边是示例图:
Anime:是日式动漫的风格。
Chibi:在英文中没有Q版这种说法,一般来讲用Chibi来表现Q版的风格。
Nordic illustration:北欧风格插画,一般来说是比较扁平的风格。
2.3 构图镜头
常用提示词
英文 | 中文 |
from front | 前视角 |
from behind | 后视角 |
from side | 侧视角 |
from above | 仰视视角 |
from below | 俯视视角 |
dynamic angle | 动态视角 |
centered | 居中 |
full body | 全身像 |
half-body | 半身像 |
cowboy shot | 七分身镜头 |
wide shot | 广角镜头 |
close-up | 特写 |
这些词一般用来表现画面的构图和角度,非常好用。
2.4 主体描述
用于描述画面的主体内容,比如说是人或者动物,人物的着装、表情,动物的毛发、动作等,物体的材质等。如:
1girl, long white hair,light green dress, smiling at the camera, |
一个女孩,白色长发,浅绿色连衣裙,对着镜头笑, |
一般同一画面中的主体内容不要超过2个,Stable Diffusion对多个物体的组合生成能力较弱,如果对画面内容有特定要求,可以先挨个生成主体素材进行拼合,然后用controlNet插件约束进行出图。
2.5 环境背景
主要是设定画面周围的场景和辅助元素等背景描述,比如天空的颜色,四周的背景,环境的灯光,画面色调等。常见的如:
black background, white background, gradient background, simple background, complex background, |
黑色背景,白色背景,渐变背景,简单的背景,复杂的背景, |
当然除了以上简单背景背景词汇,也可以加入背景主题,这一步是为了渲染画面氛围,凸显图片的主题,比如:
indoors, outdoors, In the forest, In the forest, Insidethe mountains, science fiction, City Streets, Blue skyand white clouds, landscape, christmas, DaytimeNight, |
室内,室外,森林中,山里面,科幻场景,城市街道,蓝天白云,风景,圣诞节,白天,夜晚, |
背景可以根据画面想要传达的内容去选择。
2.6 反向提示词negative prompt
反向提示词指不需要在画面中出现的内容,一般来讲是比较通用的,如:
NSFW, nude, naked, porn, (worst quality, low quality:1.4), deformed iris, deformed pupils, (deformeddistorted, disfigured:1.3), cropped, out of frame,poorly drawn, bad anatomy, wrong anatomy, extralimb, missing limb, floating limbs, cloned face, (mu-tated hands and fingers:1.4), disconnected limbs,extra legs, fused fingers, too many fingers, longneck, mutation, mutated, ugly, disgusting, amputa.tion, blurry, jpeg artifacts, watermark, water-marked, text, Signature, sketch, |
NSFW,裸体,裸露,色情,(差的质量,低质量 :1.4)变形的虹膜,变形的瞳孔,(变形,扭曲,毁容 :1.3),裁剪画框外,画得不好,糟糕的结构,错误的结构,多余的肢体,缺失的肢体,漂浮的肢体,克隆的脸,(变异的手和手指 :1.4),断开的肢体,额外的腿,融合的手指,多余的手指,长脖子,变异,突变的,丑陋,恶心,截肢,模糊jpeg 伪影,水印,有水印,文字,签名,草图 |
除了这些通用的提示词,也可以根据画面需要去添加,比如生成的画面中出现了猫,而你这个图并不想要猫出现在画面里面,那么可以把“cat”加到反向提示词中。
03
—
提示词的高阶玩法
看到这里,你已经掌握了Stable Diffusion提示词的基础书写规则。但WebUI的强大并不止于此,作者“贴心”的为我们预设了很多更加高阶的玩法。
掌握这些技巧可以让你更高效的控制模型出图,下面就是本篇文章的高能部分,记得做好笔记哦~
上图中我为大家整理汇总了Stable Diffusion常用语法的格式和功能说明,WebUI的高阶语法包括:强调关键词、分步绘制、停止绘制、打断提示词、链接提示词、交替绘制、提示词转义。
3.1 强调关键词
强调关键词是依赖括号和数值来控制特定关键词的权重,当权重数值越高,说明模型对该关键词更加重视。
在运行过程中模型就会着重绘制该部分的元素,在最终成像时图片中就会体现更多对应信息。反之数值越低,则最终图片中对应内容会展示的更少。
控制关键词的括号共有三种类型:圆括号()、花括号{}和方括号[] ,分别表示将括号内关键词的权重调整到原有的1.1倍、1.05倍和0.9倍。其中花括号{}平时很少会使用, 一般都是用圆括号()和方括号[] 。
需要注意的是,这里括号是支持多层叠加的,每层括号都表示乘以固定倍数的权重。
以下面这张图为例,默认情况下女孩的发色会是红色和金色结合成的橘红色,而当【blonde hair】加上表示提高权重的圆括号时,模型对金发部分的绘制会加强,最终图像里就出现更多金色的头发。
反之,【blonde hair】加上表示降低权重的方括号时,金发部分被减弱,模型在绘制时就会优先关注剩下的关键词【red hair】,所以最终图像里出现更多红色的头发。
除了直接加括号外,还有一种更常用的控制权重方法,那就是直接填写数值。
举个例子,下图默认情况下头发是呈现白、金、红三种颜色,如果我们在【white hair】后面设置权重为0.9,表示白发部分的权重降低为原来的0.9倍,则最终图像里白发部分的绘制会明显降低。
同理,我们增加红发和金发关键词的权重时,对应发色就会被加强。
虽然强调关键词语法支持的权重范围在0.1~100之间,但是过高和过低的权重都会影响出图效果,因此建议大家控制在 0.5~1.5 范围即可。
这里还有个快捷操作的小技巧,就是选中对应关键词后,按住 ctrl+⬆️ / ⬇️ ,可以快速增加和减少权重数值,默认每次修改0.1,可以在设置中修改默认数值。
3.2 分步绘制
分步绘制在官方文档中的称呼是渐变绘制,但实际体验下来感觉叫做分步绘制会更好理解。该语法的原理是 通过参数来控制整个绘制过程中用于绘制特定关键词的步数占比 ,语法格式如下:
这里大家可以通过下面的例子来理解分布绘制语法的功能。
分布绘制可以控制画面中不同元素的融合比例,在上面的图片中可以看到,随着沙漠在采样迭代步数中占比的提升,接着绘制的森林元素已很难影响画面主体内容,基本都是沙漠元素。
3.3 停止绘制
停止绘制和分步绘制的原理相同,都是控制模型运行时绘制特定内容的步数占比。两者的区别在于:停止绘制只针对画面中单个关键词,并且是先绘制特定元素再移除,字符用的是2个冒号。
同样,我们结合下面的案例中来理解停止绘制语法的效果。
结合分步绘制和停止绘制的案例来看, 在SD中模型绘制图像内容并非按照完美百分比的步骤进行绘制,画面内容在前面20步左右时已基本定型,后续的迭代步数更多是丰富细节,基本不会再添加或减少主体内容。
因此,对于需要优先展示的重要内容,大家尽量控制在迭代前期便开始绘制,否则后续很难在画面中体现。
3.4 打断提示词
打断的语法非常简单,也很好理解,就是在提示词之间加上关键词【BREAK】,它的作用时打断前后提示词的联系,在一定程度上减少提示词污染的情况。
Stable Diffusion模型在理解提示词时,并非像人类一样逐字逐句的阅读,而是会结合上下文内容来统一理解,这就导致在运行过程中有时候会出现前后关键词相互影响的情况,也就是我们俗称的污染。
通过加入【BREAK】,可以打断前后提示词的联系,模型会将前后内容分为2段话来理解,以下面这张图为例,可以看到我们在对女孩的服装进行了颜色指定,其中裤子的颜色被领带污染成了红色。
而当我们在中间加入【BREAK】后,污染就被解除了,裤子呈现了正确的蓝色。
3.5 融合提示词
融合语法和打断正好相反,是将前后提示词的内容联系起来,模型在绘制时就会关联前后的元素特征,最终呈现出具备融合图像的特征。它的关键词是【AND】
到这里有的朋友可能会问,模型本身就是将一段提示词结合起来理解,为什么要额外加上【AND】呢?
看完下面这个例子就很好理解了,可以发现如果只是通过逗号分隔,模型绘制时只是简单将黄色和绿色进行填充拼接,而加上【AND】后,模型会将黄色和绿色当作一个词来理解,最终绘制出草绿色。
我们都知道黄色和绿色融合会呈现出草绿色,而模型在训练时有针对该内容进行深度学习,因此当【AND】链接前后关键词后就会将其以草绿色来理解,最终呈现出融合颜色的效果。
融合语法是非常强大的功能,颜色混合是其中一个方面的应用,大家在日常使用时可以灵活尝试。
3.6 交替绘制
除了融合外,还有一种语法也可以实现关键词融合的效果,那就是交替绘制。语法格式如下:
这里我们直接使用官方的案例来理解该语法的效果。通过观察迭代过程中的图像效果可以发现,模型在绘制时每一步迭代后都会切换用于绘制的关键词,而在这个过程中图像内容也被逐渐固定,最终呈现出又像牛又像马的融合怪。
虽然同样是融合元素特征,但在原理上交替绘制和融合有本质区别:【交替】每步绘制时只理解单独的关键词,而【融合】是将前后的关键词一起来理解,因此交替最终呈现的效果更多是融合主体内容的画面特征,而无法像融合一样深度理解关键词之间的联系。
我们平时在使用时一般主要也是使用融合语法【AND】居多,交替绘制更多是用于绘制比较猎奇的克苏鲁风格图像等。
3.7 矩阵排列
最后就是矩阵排列的语法,该语法主要用于实现批量出图的效果,提高绘图效果。语法格式如下:
需要注意的是,该语法需要配合提示词矩阵Prompt matrix来使用,开启后按语法输入,模型会将关键词进行矩阵排列,每个组合的提示词都会生成一张对应的图像,若没有开启则会随机生成其中一张。
在下面的案例中可以看到,通过矩阵排列的提示词会依次组合生成多张图片。
以上就是我们平时常用的高阶语法,当然还有一些偏代码层的语法内容,不过平时用的不多,这里就不过多介绍,感兴趣的小伙伴文末扫码获取更多AI学习籽料~
写在最后
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
这份完整版的SD整合包已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【
保证100%免费
】
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
这份完整版的SD整合包已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【
保证100%免费
】