AI 新智界丨每日必读：Midjourney 正式开放 V6 测试版；Stability AI 开启会员订阅计划

2023-12-21 17:47

巴比特

2023-12-21 17:47

来源链接

订阅此专栏

收藏此文章

摘要：Midjourney 正式开放了 V6 的 alpha 测试版本。V6 新版本拥有更准确的提示词跟随以及支持更长的提示词，同时提高了连贯性和模型知识，并且改进了图像提示词和重新混合；

Stability AI 近日发布新闻稿，宣布旗下文本生成图片模型 Stable Diffusion 推出会员订阅计划，其中非商业级会员，可免费使用核心模型，供个人和研究使用。

图片来源：由无界 AI 生成

热门资讯

Midjourney 开放 V6 模型 alpha 版本测试

12 月 20 日，Midjourney 在 discord 社区宣布开放 V6 模型的 alpha 版本测试。V6 新版本拥有更准确的提示词跟随以及支持更长的提示词，同时提高了连贯性和模型知识，并且改进了图像提示词和重新混合。V6 的提示与 V5 的提示词逻辑有显着不同，用户将需要“重新学习”如何输入提示词。V6 对提示词更加敏锐，用户应避免使用无用的提示词。

谷歌推出 TpuGraphs 训练数据集：用于优化编译器，可强化 AI 模型深度学习能力

12 月 21 日消息，谷歌日前推出一款名为 TpuGraphs 的“学习成本模型”训练数据集，主要用于“优化编译器”、“提升 AI 深度学习能力”。

谷歌指出，当下 AI 深度学习系统通常使用 TensorFlow、JAX、PyTorch 等框架训练而成，这些框架主要通过底层编译器的启发式算法（Heuristic Algorithm）优化模型，而在相关编译器中运用“学习成本模型”，即可改善编译器的性能，并提升最终输出模型的深度学习能力。与业界竞品相比，谷歌 TpuGraphs 数据集“平均图大小”相比业界训练集大了 770 倍、“图数量”则是对了 25 倍。谷歌声称，为编译器应用 TpuGraphs 数据集可有效解决最终输出的模型“可扩展性”、“效率”和“质量”等问题。

Runway 推出两项新的视频 AI 功能和一项“通用世界模型”研究计划

据 The Decoder 12 月 20 日报道，视频 AI 初创公司 RunwayML 宣布推出了两项新功能和一项“通用世界模型”研究计划。

首先是“文本到语音”功能，Runway 在视频编辑器中提供了不同的声音供用户选择，如年轻、成熟、女性、男性等。该功能适用于所有用户。另一项新功能为比例功能，只需点击，就能将创建的视频转换成不同的格式，如 1:1 或 16:9。

此外，Runway 还宣布了一项新的研究计划。该公司希望开发所谓的“世界模型”，旨在通过能够理解和模拟视觉世界的系统来推动人工智能的发展。Runway 写道，像 Gen-2 这样的视频模型可以被视为“非常早期和有限的”世界模型，因为它已经对物理和运动有了基本的理解，可以生成视频。然而，据该公司称，它的能力仍然有限，在处理复杂的摄像机或物体运动时存在问题。

Stable Video Diffusion 现可在 Stability AI 开发者平台 API 上使用

12 月 20 日，Stability AI 宣布将视频生成模型 Stable Video Diffusion 添加到开发者平台 API 中。据悉，该模型可在平均 41 秒的时间内生成 2 秒钟的视频，包括 25 个生成帧和 24 个 FILM 插值帧。

亚马逊创始人贝索斯：ChatGPT 不是“发明”，而是“发现”

12 月 21 日报道，亚马逊创始人贝索斯在著名科技播客 Lex Fridman Podcast 上分享了自己对生成式 AI 的见解。

对于 ChatGPT 等生成式 AI，贝索斯提出了相当有趣定义：“如今形式的大语言模型并不是发明，它们是发现。”在贝索斯看来，只有我们刻意设计，并清晰了解其运作原理的东西才是发明。譬如，望远镜是发明，但通过望远镜看到木星，知道它有自己的卫星，这是一个发现。大语言模型更像是发现。我们经常为它们的能力感到惊奇。它们并不是设计出来的产物。

Stable Diffusion 推出商业付费订阅计划

Stability AI 近日发布新闻稿，宣布旗下文本生成图片模型 Stable Diffusion 推出会员订阅计划，其中非商业级会员，可免费使用核心模型，供个人和研究使用；

专业版月费 20 美元，适用于创作者、开发者和初创公司；企业版主要面向大型企业，可以为大规模运营量身定制，价格根据定制情况而定。

智谱 AI 开源视觉语言模型 CogAgent，支持 GUI 图形界面问答

12 月 21 日消息，智谱 AI 开源了 CogAgent，它是一个视觉语言模型，拥有 180 亿参数规模。该模型在 GUI（图形用户界面）理解和导航方面表现出色，在多个基准测试上取得了 SOTA 的通用性能。此外，它还支持高分辨率的视觉输入和对话问答，并且可以针对任意 GUI 截图进行问答。

OpenAI 推出聊天内容存档功能

12 月 21 日，OpenAI 推出聊天内容存档功能，用户可通过设置浏览自己已经存档的聊天内容。目前，存档功能在 OpenAI 网站和 iOS 可用，后续将在安卓系统推出。

投融资

知情人士：Anthropic 正洽谈在 Menlo Ventures 牵头的一轮风投中融资 7.5 亿美元

12 月 21 日报道，两位知情人士透露，Anthropic 正在洽谈在 Menlo Ventures 牵头的一轮风险投资中融资 7.5 亿美元，不包括这笔投资在内，这家成立两年的人工智能初创公司的估值为 150 亿美元，是其今年春季估值的三倍多。本轮投资尚未最终敲定。据第三位知情人士透露，最终价格可能高达 180 亿美元。

好文荐读

《大模型应用落地：兴奋，问题和最终解》

就在一年前的 11 月 30 日，ChatGPT 发布的夜里，一位软件创业者不禁感慨：「过去 20 年白干了，我感觉全部都可以丢掉。」

但技术的变化从来挡不住有人顺势而为地向前走。一年之后，已经有尝到大模型「甜头」的软件开发者「凡尔赛」起来：「做好了产品，客户不知道从哪就突然冒出来。」

上半年所有人的注意力都在关注大模型本身，下半年开始，第一批试水大模型应用的创业者，已经在各自的场景中迭代出了一些有效的路径。

https://www.aixinzhijie.com/article/6841676

《2024 年 AI 六大预测：OpenAI 转身、苹果入局...AI 战场将迎来大洗牌》

2023 年，由 OpenAI 的 GPT 大模型所引领的人工智能浪潮，以前所未有的速度席卷了商业世界。一年过去，市场已经渐渐看清了 AI 的威力与局限性，而 2024 年，将是把炒作全面落地为现实的一年。

https://www.aixinzhijie.com/article/6841638‌

‌

2024 年 1 月 5 日，【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】将在杭州举行。目前，大会正在征集优秀演讲嘉宾和观众，点击下方文章，欢迎加入我们~

AI 新智界园区开放合作啦！