Midjourney 迎来最大挑战，OpenAI 打出 DALL·E 3 + ChatGPT 王炸组合

2023-09-2119:47

AGI创新实验室

2023-09-21 19:47

AGI创新实验室

2023-09-21 19:47

收藏文章

订阅专栏

在 ChatGPT 诞生之前，OpenAI 就已经凭借文生图大模型 DALL·E 在 AI 领域崭露头角。

撰文：Kyle

在 ChatGPT 诞生之前，OpenAI 就已经凭借文生图大模型 DALL·E 在 AI 领域崭露头角。ChatGPT 擅长对话，但不专注绘画，而 DALL·E 擅长绘画，但需要提供好的图像描述。

现在，OpenAI 将 ChatGPT 和 DALL·E 结合到了一起。OpenAI 宣布了其生成式 AI 视觉艺术平台 DALL·E 的第三个版本 DALL·E 3。OpenAI 研究人员表示，最新版本可以更好地理解上下文。

DALL·E 3 的特点：

对细节的把控实现飞跃
ChatGPT 原生
ChatGPT 负责生成 Prompt，消除 Prompt 门槛

01. 对细节的把控实现了飞跃

相比上一代 DALL·E 2 模型，DALL·E 3 对图像的细微差别和细节方面的把控变得更好，使您可以轻松地将您的想法转化为极其准确的图像。

现代文本到图像系统倾向于忽略文字或描述，迫使用户学习提示词工程。DALL·E 3 代表了一种生成完全符合您提供的文本的图像的能力的飞跃。

使用相同的提示，对比 DALL·E 2，DALL·E 3 提供了显着的改进。

DALL·E 2 与 DALL·E 3 生成效果对比，DALL·E 3 明显在细节把控上表现更好

DALL·E 3 原生构建于 ChatGPT 之上，让您可以使用 ChatGPT 作为集思广益的合作伙伴并完善您的提示。只需询问 ChatGPT 您想看到什么图像，可以是简单的句子，也可以是详细的段落描述。

通过使用 ChatGPT，用户不必自己想出详细的提示来指导 DALL-E 3；他们只需要求 ChatGPT 提出提示，聊天机器人就会写出一个段落（DALL-E 对于较长的句子效果更好）供 DALL-E 3 遵循。如果其他用户对 DALL-E 有特定的想法，他们仍然可以使用自己的提示。如果你喜欢某个特定的图像，但它不太正确，你可以要求 ChatGPT 只需几句话就可以进行调整。

OpenAI 表示，与聊天机器人的这种联系让更多的人能够创作 AI 艺术，因为他们不必非常擅长提出提示。

An illustration of an avocado sitting in therapist's chair, saying "I just feel so empty inside" with a pit-sized hole in its center. The therapist, a spoon, scribbles notes（插图显示一个牛油果坐在治疗师的椅子上，说「我只是感觉内心很空虚」，牛油果的中心有一个坑大小的洞。一个勺子摸样的治疗师，写下着笔记。）

A vibrant yellow banana-shaped couch sits in a cozy living room, its curve cradling a pile of colorful cushions. on the wooden floor, a patterned rug adds a touch of eclectic charm, and a potted plant sits in the corner, reaching towards the sunlight filtering through the window.（舒适的客厅里摆放着一张充满活力的黄色香蕉形沙发，其曲线支撑着一堆色彩缤纷的靠垫。木地板上，有图案的地毯增添了一丝不拘一格的魅力，一盆盆栽坐落在角落里，迎向透过窗户的阳光。）

A minimap diorama of a cafe adorned with indoor plants. Wooden beams crisscross above, and a cold brew station stands out with tiny bottles and glasses.（装饰有室内植物的咖啡馆的小地图立体模型。木梁在上方纵横交错，冷萃咖啡站里摆满了小瓶子和玻璃杯。）

An illustration of a human heart made of translucent glass, standing on a pedestal amidst a stormy sea. Rays of sunlight pierce the clouds, illuminating the heart, revealing a tiny universe within. The quote 'Find the universe within you' is etched in bold letters...（一幅由半透明玻璃制成的人类心脏的插图，矗立在波涛汹涌的大海中的基座上。阳光穿透云层，照亮心灵，露出里面的小宇宙。「找到你内心的宇宙」这句话被用粗体字刻着......）

由此看出，DALL·E 3 对细节的把控已经上升到在图像上呈现具体的文字，这是很多绘画工具都不能完美呈现的，例如 Midjourney：

02. ChatGPT Plus 和企业客户率先体验

DALL·E 于 2021 年 1 月首次发布，先于 Stability AI 和 Midjourney 等其他文本到图像生成 AI 艺术平台。当 DALL·E 2 于 2022 年发布时，OpenAI 在 DALL·E 倍批评可以生成逼真的露骨图像并在生成照片时表现出偏见后，开设了一个候补名单来控制谁可以使用该平台。不过该公司于去年 9 月取消了候补名单，并向公众开放了 DALL·E 2。

DALL·E 3 将于 10 月初向 ChatGPT Plus 和 Enterprise 客户提供。与 DALL·E 2 一样，DALL·E 3 创建的图像可供您使用，无需我们的许可即可重印、出售或销售它们。

03. 检测 AI 生成图像

最近出现了很多有关如何判断图像是否由 AI 生成的讨论，谷歌在 8 月份发布了一个 AI 水印工具，可以为 AI 生成看不见的数字水印，并且能够进行检测。

OpenAI 内部也正在研究此类工具，研究帮助人们识别图像何时由 AI 创建的最佳方法。OpenAI 正在尝试构建一个来源分类器，可以帮助识别图像是否是由 DALL·E 3 生成的。

总结

DALL·E 3 本身生图质量的提升，加上 ChatGPT 的加持，一些头部 AI 绘画工具想必将迎来压力，尤其是 Midjourney。以前需要同时需要 ChatGPT 和 Midjourney 的用户，如今可能只需要 ChatGPT 就够了。

此外，这同样是 OpenAI 为实现 ChatGPT 的真正多模态而迈出的一步。OpenAI 正在面临谷歌等强势竞争对手，谷歌即将发布的大模型据传会比 GPT-4 强大数倍。GPT-5、多模态，这些都是 OpenAI 的下一阶段发展。

参考资料：

https://openai.com/dall-e-3

https://www.theverge.com/2023/9/20/23881241/openai-dalle-third-version-generative-ai

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

一起「遇见」未来

DOWNLOAD FORESIGHT NEWS APP

App Store

Android

01. 对细节的把控实现了飞跃

02. ChatGPT Plus 和企业客户率先体验

03. 检测 AI 生成图像

总结

推荐专栏

一起「遇见」未来