主打一个张张封神，看 AIGC 特种兵 Midjourney 如何做到以假乱真

2023-04-1308:24

元宇宙之心

2023-04-13 08:24

元宇宙之心

2023-04-13 08:24

收藏文章

订阅专栏

生成式 AI 图像工具已经能碾压人类画师了吗？

撰文：元宇宙之心

2022 年 8 月，在美国科罗拉多州博览会艺术比赛上，一幅名为《太空歌剧院》的作品夺得了数字艺术类别冠军。这幅作品由游戏设计师 Jason Allen 使用 AI 绘图工具 Midjourney 完成，古典与科幻的巧妙融合让人很难相信这是由 AI 自动生成的图像，此前一直处于不温不火状态的 Midjourney 就这样迅速走进了大众视野。

随后，在以 ChatGPT 为代表的聊天机器人搅得科技圈满城风雨之时，Midjourney 作为 AIGC 的重要分支，也完全没闲着，它最新迭代的 V5 版本，就是一次堪称「碾压人类画师」的更新。

今年 3 月，由 Midjourney 生成的一对中国情侣的照片再次火爆全球。照片里的情侣穿着夹克和牛仔裤，身后是上个世纪的中国建筑，整张照片弥漫着属于 90 年代的复古氛围，其以假乱真的程度让人大吃一惊，生成式 AI 图像工具竟然已经进化到这种程度了吗？

还有更多神图在网上引起轩然大波：特朗普被捕、国足夺冠、马斯克进工厂……只要你敢想，AI 就敢画。对比几年前的 AI 绘图效果，Midjourney 的生成效果依然达到商业化水平，当 Midjourney 日趋代替人工制作的时候，它的商业价值就愈发不容小觑。

生成式 AI 图像龙头

过去几年里，机器学习系统从文本提示生成图像的能力，在质量、准确性和表达能力方面都得到了显著提高。这些画作在互联网上流传，给人们带来了一种新奇感，越来越多具有前卫品味的艺术家和设计师也正在把这些软件集成到工作流程中。

可以说文生图赛道是 AIGC 概念下商业模式较成熟的领域，这些 AI 生成工具可以在几分钟内使用用户提供的文本描述创建图像，并且人工智能可以生成不同艺术形式的图像，从超写实到立体主义，AI 都熟稔于心。

而 Midjourney 是其中最具竞争力的选手，是将 AIGC 技术成功产品化的代表。创始人 David Holz 在描述 Midjourney 时说：「我们只是希望它易于使用，我们希望图片足够好看。」与 Dall-E 2 或其他竞争对手不同，Midjourney 使用简单的命令，不需要编码经验就可以生成更具梦幻艺术风格的图像。

Midjourney 没有任何巨头的重金支持，是一个自筹资金的独立研究实验室，它的发起人为曾两次拒绝苹果收购的 Leap Motion 公司的创始人 David Holz，目前全职员工仅有 11 人。就是这么一个超小型团队，却是当前 AI 绘图领域最炙手可热的明星，甚至将 OpenAI 的 DALL-E、Stable Diffusion 等同类工具都甩在了身后。

Midjourney 在 AI 公司 Value Chain 上占据了多个位置，拥有数据层、模型层、应用层整个技术栈。它参考 CLIP 及 Diffusion 构建了自己的闭源模型，抓取公开数据进行训练，并构建了 Discord 中的 Midjourney bot 应用，用户通过与 Midjourney bot 进行对话式交互，提交文本提示词来快速获得想要的图片。

2022 年 7 月，Midjourney 开放 Openbeta 版本；2022 年 8 月，使用 Midjourney 创作的画作 Théâtre D’opéra Spatial（太空歌剧院）获得了美术竞赛数字艺术类别的一等奖，人们对于 Midjourney 的关注达到高峰。

虽然文生图领域应用层出不穷，但 Midjourney 保持住了在人们心目中的地位，目前仍是使用最广泛、最受用户喜爱的文生图应用。Midjourney 用户数量飞速增长，并具有很强的盈利能力。截止 2023 年 3 月，Midjourney Discord 频道拥有了超 1300 万社区成员，是目前用户最多的服务器，年营收约为 1 亿美元。

Midjourney 创始人坚持 AI 不是现实世界的复刻，而是人类想象力的延伸，塑造了充满科幻色彩的产品定位。然而并不是所有人都能轻易认可 AI 生成艺术，自 Midjourney 面世以来，这款 AI 绘画工具几度因为艺术深度伪造问题被推上舆论的风口浪尖，更有甚者认为其生成的图片纰漏百出。

Midjourney 并没有否认以上观点，它一直相信 AI 工具是想象力的发动机，「人类和计算机之间存在的某些障碍阻止了我们进行最基本的交换。」Midjourney 想要加强人类与计算机的连接，将「探索思想的新载体，扩展人类想象力」作为目标，为未来艺术创作开拓史无前例的康庄大道。

为了实现这个目标，该公司一直致力于改进算法，每隔几个月就会发布新版本的模型。Midjourney 的迭代速度相较于 OpenAI 可以说是有过之而无不及。去年 3 月份第一版本首次上线，4 月份便火速更新第二版本，接着 7 月份上线 Open Beta V3 版本首次向公众开放，Midjourney V4 版本去年年底几乎跟 ChatGPT 同期上线，而就在 GPT-4 推出的时候，Midjourney 也在 3 月 18 日飞速推出了 V5 版本，而这一次的更新堪称「炸裂」。

逼真到颤抖的飞速迭代

V5 版本的诞生昭示着由 Midjourney 创造的平行世界正在慢慢拉开序幕，一些由人类构思、AI 主导的作品也逐渐对数字营销市场描绘着全新的商业轮廓。那最新升级的 V5 和之前的版本相比，到底强在哪里呢？以下几个方面的对比或许可以让我们窥得 Midjourney 的升级为何会如此让人惊艳。

密铺功能实现无缝纹理制作

Midjourney V5 重新引入了曾在 V4 中停止使用的无缝平铺功能。在 Promt 中添加参数（--tile），对元素进行重复、旋转等处理后，可以轻松实现织物、壁纸等无缝纹理图案的制作。

长宽比限制取消

V5 版本解除了 V4 版本中的不高于 1:2 或不宽于 2:1 的自定义纵横比，可以实现任意「宽度: 长度」比，这意味着你可以利用其生成电影 2.39：1 的纵横比，Midjourney 的应用空间进一步打开。

图像与文字指令权重可自定义

V5 可以实现自定义 Prompt 中的图像参照权重（--iw），参数范围为 0.5-2.0，数值越高，意味着上传的图片越多地影响最终生成的图像，满足用户垫图更加个性化、多元化的需求，而在前一版本中则是默认图像权重。

除以上四点，V5 版本可以让人们通过更精准、细致的 Prompt 输出更符合要求的图像。在此前版本，Midjourney 根据文本提示即可输出具有创造性的图片，且多为卡通或超现实风格，但 V5 版本可以容纳真实、抽象等更广泛风格的选择，图像解像度比上个版本提高 2 倍。

而让人意想不到的是它终于解决了此前 AI 绘画行业内无法很好完成的「画手」问题，告别了手部畸形，Midjourney V5 终于可以画出正常的五个手指了。除此之外，V5 版本创作的玻璃及其反射的光影也都更加真实。

技术的升级让 Midjourney 真正实现了从图像到照片的跨越，从抢画师的饭碗进阶为抢摄影师的饭碗。只要能掌握 Prompt 的精髓，便可手握科技黑武器，惊喜的是 V5 的升级里就推出了 describe 功能。

只需上传一张图片，使用 describe 功能，Midjourney 便会自动分析图片并生成 4 条对应的 Prompt，点击下方对应的按钮便可直接生成类似的图片，当然也可以对这些 Prompt 进行调整。这样一来，获取更符合自己要求的 Prompt 就更容易。

从图像反推 Prompt，Midjourney 通过自行闭环推动人类不断去拥抱这项伟大的技术，大量用户的涌入也让 Midjourney 官方不得不暂停免费使用功能。

可以看到，Midjourney 的发展用飞速来形容也毫不为过，英伟达 AI 科学家 Jim Fan 曾猜测，Midjourney 是根据人类反馈 RLHF 进行大规模的强化学习，并且这可能是有史以来规模最大的文本到图像强化学习，用户反馈越多，它的学习效果就越好。

历史上每一次具有革命意义的技术更新，都将会迎来最终大范围落地应用的曙光。在 AI 科技飞飚的高速公路上，我们将会一直观望这家图片 AI 龙头如何秀出精彩车技，又将驶向何方。

将来的路会怎么走？

动一动手指头，打几个关键字，Midjourney 的绘图到了张张「封神」的程度，这无处安放的硬实力和软魅力，追根究底，无疑归功于其底层模型技术的更新迭代和发展进步。

2015 年，谷歌开源创建了首个通过算法生成艺术图像的机器学习应用 DeepDream，使 AI 文生图应用开始走进大众的视野。而后的 2021 年至今, 文生图应用出现了突破性的进展，生成的图像质量得到了迅速提高。从初级的氛围感草图到可以刻画细节、生成精致五官的精致艺术图，从以生成性对抗网络 GAN 转变至以 Diffusion 模型为核心，这其中经历了无数次的技术变革。

Midjourney 在参考 CLIP 及 Diffusion 的基础上构建了自己的闭源模型，抓取公开数据进行训练，并构建了 Discord 中的 Midjourney bot 应用。不仅如此，它还在收集用户反馈数据的基础上，不断迭代模型，以提供更好的体验。2023 年 3 月，在经历多次更新后的 Midjourney V5 版本闪亮登场，解决了一些技术难题和完成了跨越性的突破。

如今，Midjourney 替代了 Pinterest、Google Images、Getty Images 等传统图库平台，用户不再需要花费更多的时间，而是直接生成，甚至可以将一个月的工作量降低至一星期就可以完成。这对于用户而言，无疑是提高工作效率的加速器。

虽然 Midjourney 目前已经在 AIGC 领域是佼佼者的存在，但是它从未想过就止步于此。Discord 每周都会有它的公开会议，通过对其会议的相关内容的总结，关于它未来的几个发展方向，可以简单概括为以下几个方面：

更高的图片质量和更极致的图片库功能：图片修改编辑、图片扩展功能及在 V6 算法中的更高分辨率；
V7/V8 版本中，支持在图片中写文字；
告别 Discord，提供移动端的服务，可能有自己的 APP，或将功能迁移到网站；
实现实时绘图功能；
发布 API 用于工具的构建。

Midjourney 作为功能单一的应用，未来是否会被集成变成多功能产品的一个环节，或是被技术的快速进步颠覆，目前我们还无法看清行业的终局，但 Midjourney 作为当前 AI 图片生成的龙头，观其用户口碑和产品技术的迭代速度，都让人无比期待它的未来发展。

元宇宙的「梦幻编辑器」

伴随着数据、算法等核心技术的不断更新与突破，AIGC 正在推动虚实共生趋势下的内容创作的范式转变，有望成为数字内容创新发展的新引擎。

按照 AIGC 的发展逻辑，其应用场景主要分为三个阶段：一是 AIGC 内容生产技术不断完善，能够实现文本、视频、图片等生成以及跨模态转换；二是具有多模态生成技术的聚合应用——虚拟人；三是 AIGC 内容生态聚合体——元宇宙。

元宇宙是一个虚拟的世界，它由数字资产、虚拟现实和区块链等技术构成，可以用来实现各种场景和应用，例如虚拟交易、虚拟社交、虚拟旅游等。一个公认的事实是内容生产上的不足已成为制约元宇宙相关产业发展的重要瓶颈，而 AIGC 在生成效率方面的优势，让其有望成为元宇宙建设的最佳生产力工具之一。

在提高内容生产效率的同时，华泰证券也指出：「AIGC 也有助于生成开放内容，满足用户个性化、开放性的需求，持续提升元宇宙的内容丰富度。」以 Midjourney 等为代表的的 AI 生成工具或可以成为元宇宙的梦幻编辑器。

长期来看，AIGC 与各行业的融合将会创造更多的应用场景，而 Midjourney 作为文生图领域的重要参与者，有很多人已经在尝试将将其应用于自己的工作中，主要包括创意设计、工业设计、室内家居设计、广告设计、Web3 & NFT 等。可以预见的是，人工智能增强下的创造力涌现只是 AI 商业化应用的一个开端。