Midjourney V6 发布：细节拉满，叫板 DALLE3,重新定义提示词规则【附 V6 提示词指南】

2023-12-2117:05

AIGC研修社

2023-12-21 17:05

AIGC研修社

2023-12-21 17:05

收藏文章

订阅专栏

今天中午 MJ 终于发布了它训练了 9 个月的第六代文生图模型 V6，这段时间里 SD 都开始卷 AI 视频了，但是 MJ 却慢吞吞的不知道在干嘛。这段时间里 dalle3 给了惊人的自然语言式文生图，完全摒弃了提示词那套。SD 在开源和可控性上遥遥领先切入了文生图的商业化落地领域。那么一直号称秉持 “中道” 的 MJ 在这半年里没有太多的动作。

这次的 V6 可以给大家带来些什么呢？

官方通告

大家好，我们将在寒假期间让社区测试我们的 V6 模型的 Alpha 版本，从今晚（我是说现在）开始。

要启用它，请在 /settings 下的下拉菜单中选择 V6，或在您的提示后输入 --v 6。

V6 基础模型有什么新变化？

更准确的提示跟随以及更长的提示。
改进了一致性和模型知识。
改善了图像提示和混合。
轻微的文本绘制能力（您必须将文本放在“引号”中，并且 --style raw 或较低的 --stylize 值可能有帮助）。/imagine 将文字“Hello World!”用马克笔写在便利贴上的照片 --ar 16:9 --v 6
这个文本提示我尝试了，确实只有在低 --stylize 的时候才管用，在默认值的情况下文字的绘制能力并不好：
这是在默认情况下绘制的 “ MJ V6”这样简单的文字，但是四张图里几乎没有一张可用的
但是在修改--stylize 到一个非常低的值之后就好了很多。
改进的放大器，有'subtle'（微妙）和'creative'（创意）两种模式（分辨率提高 2 倍）。（点击 U1/U2/U3/U4 后，您将在图片下方看到这些按钮）

以下功能 / 参数在发布时支持

--ar, --chaos, --weird, --tile , --stylize, --style raw , Vary (subtle) ,Vary (strong), Remix, /blend ,/describe ( 仅 v5 版本 )

尝试了 /blend 和图像提示的功能，基本都支持，以下是混了了香水和一个美少女的图。细节很好，虽然可控性还是不太行。

这些功能尚未支持，但应该在未来一个月内推出

Pan, Zoom, Vary (region), /tune, /describe ( 一个新的 v6 版本 )

V6 的风格和提示

使用 V6 的提示与 V5 大不相同。你需要“重新学习”如何提示。
V6 对您的提示更加敏感。避免“垃圾”提示，如“获奖，逼真，4k，8k”。
明确表达你想要的。可能不那么有趣，但如果你明确表达，它现在更擅长理解你。
如果你想要更摄影性 / 更客观 / 更字面的东西，你可能应该默认使用 --style raw。
较低的 --stylize 值（默认 100）可能有更好的提示理解，而较高的值（最高 1000）可能有更好的美学效果。
请在 ⁠prompt-chat 中与其他人交流，了解如何使用 v6。
简单的说就是之前的那套提示词规则没用了，白学了。这也是我觉得提示词工程最大的问题，每次模型的更替会让所有的规则推倒重来，之前的累积变得毫无意义，从这个角度上讲 dalle3 的自然语言交互，和 SD 的高可控性会更靠谱些。不过本文的第二部分会附带 MJ 官方给的一些 V6 提示词指南。

请注意

这是一个 alpha 测试。事物将频繁且无预告地改变。
不要依赖这个确切的模型在未来可用。随着我们将 V6 推向完全发布，它将发生重大变化。
速度、图像质量、一致性、提示跟随和文本准确性将在未来几周内改善。
V6 比 V5 慢 / 更昂贵，但随着我们的优化，它会变得更快。支持放松模式！（大约每分钟 1 个 GPU/ 每想象一次，每放大一次 2 个 GPU/ 分钟）

社区标准

这个模型可以生成比我们之前发布的任何东西都更逼真的图像。

确实很逼真了，现在的真实人物图基本上都是照片质量的，完全没有之前 AI 生成的那种僵硬感。

我们已经加强了审核系统，并将以更严格和严谨的方式执行我们的社区标准。不要做混蛋，或制造引起争议的图片。

关于 V6 的更多信息

V6 是我们在 AI 超级集群上从头开始训练的第三个模型。它已经开发了 9 个月。

V6 不是最后一步，但我们希望大家都能感受到一些深刻的进展，这些进展与我们集体想象力的力量密切相关。

V6 提示词入门模板

这是一个探索 V6 的入门模板，适用于多个主题。

如果你愿意，你可以将 V6 视为有四个可选部分。这完全取决于你的提示内容以及对你作为艺术家来说什么是有意义的。

`[典型场景] [回调细节] [设置细节] [氛围或美学]`

1️⃣ `[典型场景]`

在合适的情况下，使用第一句话中的原型概念来概括地设置场景。这里有一个对具体性的恰当平衡点。句子不必很长。你稍后会添加细节。

✅ 好的：三个朋友坐在公园的长椅上。

✅ 更好的：三个不同的朋友坐在公园的长椅上。 ( 没有用“不同的”，Midjourney 会决定他们的一般外观，他们可能看起来相似。)

✅ 最佳，具体化：三个不同的最好的朋友紧挨着坐在公园的长椅上。 ( 没有“最好的朋友”和“紧挨着坐”，我们得到的是更通用的氛围。)

2️⃣ `[回调细节]`

在适合的提示中，使用对场景设置中使用的同一词语的回调来添加细节。这意味着字面上重复这些词语，以在你在第一句中设置的内容和你现在正在写的细节之间创建联系。

❌ 不太好，没有使用回调：詹妮弗在中间，一个穿着牛仔裤和背心的金发白人女性。

❌ 不太好，没有使用简单句子：中间，穿着牛仔裤和绿色背心的是那位白人朋友。

✅ 更好，它使用了简单句子和对“朋友”的回调：中间的朋友是一个快乐的金发白人女性，穿着牛仔裤和绿色背心。

3️⃣ `[场景 / 背景 / 背景 / 环境的细节]`

在合适的情况下，添加有关设置或背景的细节，放在提示的末尾。

❌ 不太好，对于 V6 来说有点模糊，可能有效：有活橡树和鸽子。

✅ 更好，更清晰一些：人行道上有一些鸽子。背景中有一些活橡树。

✅ 最佳，具体化：长椅前的人行道上有两只鸽子。在背景中，空荡荡的公园里有一些古老的活橡树。

如果你开始看到事物变得不连贯，准备好将具体内容回退或从提示中删除。..

4️⃣ `[氛围或美学]`

在提示的最后添加有关图像氛围 / 美学的细节。它可以随你喜欢的长度。请注意，没有太多视觉语义内容的词在画布上不会有任何作用。

摄影：

❌ 不太好：照片。

✅ 更好：彩色摄影。

✅ 最佳，具体指出灵感来源，如摄影师的名字或出版物：受《南方生活》杂志启发的彩色摄影。

非摄影：

❌ 不太好：艺术。

✅ 更好：数字艺术。

✅ 最佳，使用形容词并具体指出灵感来源，如艺术家或艺术类型 / 流派 / 体裁 / 媒介：受 Krenz Cushart 和 Tom Bagshaw 启发的时尚数字艺术。

⭐ 示例结果

如果对你来说探索它是有意义的，这里有一个使用模板的示例结果。由于 V6 对自然语言非常聪明，没有强制性的指导原则，但在编写复杂的提示时，有些人可能会喜欢将模板作为他们自己的发现和探索的起点。

三个不同的最好的朋友紧挨着坐在公园的长椅上。中间的朋友是一个快乐的金发白人女性，穿着牛仔裤和绿色背心。右边的朋友是一个严肃的非洲裔美国男性，穿着燕尾服。左边的朋友是一个笑着的印度女性，穿着橙色的印度传统服饰。由 Krenz Cushart 和 Tom Bagshaw 创作的时尚数字艺术。--v 6.0

V6 是 Midjourney 提示的一场革命

V6 运行在语义和自然语言上，每个/imagine与之前版本相比都有巨大的内存容量，这意味着提示可以长且详细。你可以控制构图，设置多个主题，并添加文本。

要激活 V6，请输入/settings并从版本下拉菜单中选择它。

Midjourney V6 常见问题解答

1️⃣ 现在提示长度可达 350+ 词。

画布上的连贯性与提示使用可用内存的方式有关。在 V5 中，只有前 15-20 个词对画布有强烈的影响，在我们用尽内存并看到词语影响下降之前。

在 V6 中，我们获得了大量额外的内存，所以可以说我们有 350 到 500 个词，甚至更多。提示如何使用可用内存似乎与词语的语义内容有关。

例如，这个 15 个词的短语 - "the the the the the an an an an an this this this this this" - 没有特定的语义内容，看起来使用了我们可用内存的很小一部分。但同样的 15 个词用来生动描述三个牛仔意味着，鉴于我们剩余的内存，渲染第四个牛仔将是一个挑战。

所以，V6 并没有一个固定的提示长度，而是有一个“语义上限”，这将对每个提示有不同的影响。让我们探索一下！

2️⃣ 你可以指定颜色和其他细节。

在 V5 中，我们倾向于使用原型。我们让 Midjourney 选择它想要呈现图像的方式，因为它自己的决定会更连贯，而我们试图控制的尝试会被忽略。

在 V6 中，我们仍然给 Midjourney 一个原型，但现在我们努力用自然语言表达的细节来控制 Midjourney 的渲染。

3️⃣ 你可以使用语言来控制构图，在画布上放置想要的东西。

在 V5 中，介词短语通常不被理解。在 V6 中，它们几乎总是被理解。这令人震惊。现在我们有了可靠的介词短语，很容易将事物相互定位以及与摄像机的关系。

我们如何控制构图？这里有一个起点：更可靠的方法是用短语描述一个通用图像，然后从画布的焦点开始填充细节。在确定了焦点之后，围绕它填充细节。

厨房桌子上有三个装满水果的篮子。中间的篮子里装着绿苹果。左边的篮子装满了草莓。右边的篮子里满是蓝莓。背景是一面空的蓝绿色墙，上面有一个圆形窗户。

4️⃣ 你可以在你的图像中添加文字。

这真是太酷了。要在你的图像中添加文字，把你想要打印的词放在“引号”里，并确保你的提示包含一个语义上合理的地方来打印这些文字。

使用像这样的短语：说，印在...上，标题为，铭刻着，标记为，标记着，品牌着，压花着，雕刻着，盖章着，装饰着，用脚本书写着，用字母书写着等。
你也可以在事物上印刷文字，如：演讲气泡，便利贴，书籍封面，海报，标志，T 恤，杯子，广告牌，报纸，杂志，贺卡，信封，车牌，日历，票据，产品包装，名片等。
要让文字或字母单独出现，有时添加“typography design”（字体设计）短语到提示中会有帮助。如果你想要画布其他地方为空白，可以探索使用“isolated on a white background”（孤立在白色背景上）这样的短语。

用马克笔在便利贴上写的“Hello World!”

5️⃣ 你可以提示多于一个主题。

在 V5 中，一个主题可以被漂亮地渲染，但两个主题会混合……而三个主题对我们大多数人来说是遥不可及的。但在 V6 中，一个和两个主题都可以被漂亮地渲染，三个主题开始混合但可以控制。

6️⃣ 如果细节泄露到整个图像上，我该怎么办？

在 V6 中，泄露不会那么容易发生，但它确实可能发生。

在提示的前面建立的图像比在提示末尾建立的图像更容易融入到其余的提示中。例如，提示开头部分建立的传统服装印度女性的形象可能会将印度珠宝和其他细节添加到其他主题上。

如果你观察到这种混合效果，开始一个新的/imagine，并将容易混合的图像移动到提示的末尾。

处理混合的第二种方法是替换细节。如果你看到一个不希望出现的细节，指定应该在那里的东西。你的细节将压倒因混合而出现的细节。

但嘿，在对混合感到沮丧之前，仔细看看你的网格。记住，如果网格中有 1 或 2 张可用的图片，意味着你有一个好的提示！

7️⃣ 如果我的图像看起来模糊或不协调，我该怎么办？

在 V6 alpha中，如果你的提示相当复杂，你可能会注意到细节模糊或不连贯。

以下是探索解决连贯性问题或缺乏清晰度问题的三种策略。在对连贯性感到绝望之前，检查你的网格是否有成功的结果。记住，如果网格中有 1 或 2 张可用的图片，意味着你有一个好的提示！

最可靠的方法，去掉细节。 连贯性问题有时与提示用完内存有关。因此，检查提示并重写它，去掉不必要的细节。
有时，添加关键细节。 有时添加具体性有助于提高连贯性。给不协调的手和胳膊一些事情做，比如手放在臀部上，或手拿着咖啡杯。给不协调的脸一个情绪，比如笑或看起来平静。同时做 A 和 B 更强。
如果你有足够的 GPU 分钟数，追求连贯性。 找到网格中最连贯的图像，多次放大它，直到你找到一个具有你想要的连贯性的图像。同时做 A + B + C 是最强的方法。

8️⃣ 如果画布上没有出现某些东西，我该怎么办？

在 V6 中，细节丢失的可能性较小，但当提示相当复杂时，这种情况仍可能发生。有三种策略可以探索解决缺失细节的问题。在对 Midjourney 的不服从感到绝望之前，检查你的网格是否有成功的结果。记住，如果网格中有 1 或 2 张可用的图片，意味着你有一个好的提示！

最可靠的方法，去掉其他细节来腾出空间。 缺失的细节有时与提示用完内存有关。因此，检查提示并重写它，去掉不必要的细节。
有时，将缺失的部分移动到提示的前面会有所作用。 将缺失的图像向上移动。从提示的前端到末端有一个逐渐减少的影响力斜坡，所以将事物移动到提示的前端可能有助于给它一个微妙的影响力提升。
有时，换一种方式表达可能有效。 探索用另一种短语替换可能有帮助。例如，如果“两只鸽子”不起作用，试试“一对鸽子”。这对每个提示的效果都不同。
有时降低风格化参数有效。 降低风格化的风险是失去连贯性，但对于带有自己氛围 / 美学内容的提示，这是值得探索的。
⚠️ 重复单词和短语可能不会按预期工作。 在 V5 中，我们依赖重复单词和短语来确保它们在画布上有一些效果。但在 V6 中，重复不总是有同样的效果。作为一个社区，我们可以探索这一点。
⚠️ 在 V6 中，使用小权重强调短语不起作用。 在 V5 中，将一个词或短语添加到多重提示中并为其赋予小权重以强调是一种很好的方法，可以促使缺失的细节出现在画布上。这种技术在 V6 中不起作用。作为一个社区，我们可以探索多重提示的新用途。