Midjourney 迎来最大挑战,OpenAI 打出 DALL·E 3 + ChatGPT 王炸组合
AGI创新实验室
2023-09-21 19:47
订阅此专栏
收藏此文章
在 ChatGPT 诞生之前,OpenAI 就已经凭借文生图大模型 DALL·E 在 AI 领域崭露头角。


撰文:Kyle


在 ChatGPT 诞生之前,OpenAI 就已经凭借文生图大模型 DALL·E 在 AI 领域崭露头角。ChatGPT 擅长对话,但不专注绘画,而 DALL·E 擅长绘画,但需要提供好的图像描述。

现在,OpenAI 将 ChatGPT 和 DALL·E 结合到了一起。OpenAI 宣布了其生成式 AI 视觉艺术平台 DALL·E 的第三个版本 DALL·E 3。OpenAI 研究人员表示,最新版本可以更好地理解上下文。


DALL·E 3 的特点:


  • 对细节的把控实现飞跃
  • ChatGPT 原生
  • ChatGPT 负责生成 Prompt,消除 Prompt 门槛


01. 对细节的把控实现了飞跃


相比上一代 DALL·E 2 模型,DALL·E 3 对图像的细微差别和细节方面的把控变得更好,使您可以轻松地将您的想法转化为极其准确的图像。


现代文本到图像系统倾向于忽略文字或描述,迫使用户学习提示词工程。DALL·E 3 代表了一种生成完全符合您提供的文本的图像的能力的飞跃。


使用相同的提示,对比 DALL·E 2,DALL·E 3 提供了显着的改进。


DALL·E 2 与 DALL·E 3 生成效果对比,DALL·E 3 明显在细节把控上表现更好


DALL·E 3 原生构建于 ChatGPT 之上,让您可以使用 ChatGPT 作为集思广益的合作伙伴并完善您的提示。只需询问 ChatGPT 您想看到什么图像,可以是简单的句子,也可以是详细的段落描述。


通过使用 ChatGPT,用户不必自己想出详细的提示来指导 DALL-E 3; 他们只需要求 ChatGPT 提出提示,聊天机器人就会写出一个段落(DALL-E 对于较长的句子效果更好)供 DALL-E 3 遵循。 如果其他用户对 DALL-E 有特定的想法,他们仍然可以使用自己的提示。如果你喜欢某个特定的图像,但它不太正确,你可以要求 ChatGPT 只需几句话就可以进行调整。


OpenAI 表示,与聊天机器人的这种联系让更多的人能够创作 AI 艺术,因为他们不必非常擅长提出提示。



An illustration of an avocado sitting in therapist's chair, saying "I just feel so empty inside" with a pit-sized hole in its center. The therapist, a spoon, scribbles notes(插图显示一个牛油果坐在治疗师的椅子上,说「我只是感觉内心很空虚」,牛油果的中心有一个坑大小的洞。 一个勺子摸样的治疗师,写下着笔记。)



A vibrant yellow banana-shaped couch sits in a cozy living room, its curve cradling a pile of colorful cushions. on the wooden floor, a patterned rug adds a touch of eclectic charm, and a potted plant sits in the corner, reaching towards the sunlight filtering through the window.(舒适的客厅里摆放着一张充满活力的黄色香蕉形沙发,其曲线支撑着一堆色彩缤纷的靠垫。木地板上,有图案的地毯增添了一丝不拘一格的魅力,一盆盆栽坐落在角落里,迎向透过窗户的阳光。)



A minimap diorama of a cafe adorned with indoor plants. Wooden beams crisscross above, and a cold brew station stands out with tiny bottles and glasses.(装饰有室内植物的咖啡馆的小地图立体模型。木梁在上方纵横交错,冷萃咖啡站里摆满了小瓶子和玻璃杯。)



An illustration of a human heart made of translucent glass, standing on a pedestal amidst a stormy sea. Rays of sunlight pierce the clouds, illuminating the heart, revealing a tiny universe within. The quote 'Find the universe within you' is etched in bold letters...(一幅由半透明玻璃制成的人类心脏的插图,矗立在波涛汹涌的大海中的基座上。阳光穿透云层,照亮心灵,露出里面的小宇宙。「找到你内心的宇宙」这句话被用粗体字刻着......)


由此看出,DALL·E 3 对细节的把控已经上升到在图像上呈现具体的文字,这是很多绘画工具都不能完美呈现的,例如 Midjourney:



02. ChatGPT Plus 和企业客户率先体验


DALL·E 于 2021 年 1 月首次发布,先于 Stability AI 和 Midjourney 等其他文本到图像生成 AI 艺术平台。 当 DALL·E 2 于 2022 年发布时,OpenAI 在 DALL·E 倍批评可以生成逼真的露骨图像并在生成照片时表现出偏见后,开设了一个候补名单来控制谁可以使用该平台。 不过该公司于去年 9 月取消了候补名单,并向公众开放了 DALL·E 2。


DALL·E 3 将于 10 月初向 ChatGPT Plus 和 Enterprise 客户提供。与 DALL·E 2 一样,DALL·E 3 创建的图像可供您使用,无需我们的许可即可重印、出售或销售它们。


03. 检测 AI 生成图像


最近出现了很多有关如何判断图像是否由 AI 生成的讨论,谷歌在 8 月份发布了一个 AI 水印工具,可以为 AI 生成看不见的数字水印,并且能够进行检测。


OpenAI 内部也正在研究此类工具,研究帮助人们识别图像何时由 AI 创建的最佳方法。OpenAI 正在尝试构建一个来源分类器,可以帮助识别图像是否是由 DALL·E 3 生成的。


总结


DALL·E 3 本身生图质量的提升,加上 ChatGPT 的加持,一些头部 AI 绘画工具想必将迎来压力,尤其是 Midjourney。以前需要同时需要 ChatGPT 和 Midjourney 的用户,如今可能只需要 ChatGPT 就够了。


此外, 这同样是 OpenAI 为实现 ChatGPT 的真正多模态而迈出的一步。OpenAI 正在面临谷歌等强势竞争对手,谷歌即将发布的大模型据传会比 GPT-4 强大数倍。GPT-5、多模态,这些都是 OpenAI 的下一阶段发展。


参考资料:
https://openai.com/dall-e-3
https://www.theverge.com/2023/9/20/23881241/openai-dalle-third-version-generative-ai

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

AGI创新实验室
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开