RUNWAY 发布 Gen-3 Alpha,AI 视频 DiT 时代来了
2024-06-17 22:39
AIGC研修社
2024-06-17 22:39
订阅此专栏
收藏此文章

最近的 AI 视频又开始热闹起来了,在 Sora 发布四个月后,大家并没有等到 Sora,但是 Sora 背后的技术框架 DiT( Diffusion Transformers)开始被广泛应用。并且有逐渐成为主流的趋势。

一开始是快手发布了可灵,第一个最接近 Sora 的文生视频大模型。

然后是 Luma 发布了他们的Dream Machine 视频模型,并且成为第一个可以使用文生视频的 DiT 架构的 AI 视频工具。

我很奇怪,Runway 这段时间过于安静了,一定是在憋大招。果不其然,它终于发布了 Gen-3 Alpha,从案例上看很明显用的是 DiT 的技术。

官方宣传页面上也提到了世界大模型。我们没有等来 Sora,但是等来了世界大模型的全面开花,Openai 一直以来都在给大家指明技术方向。

无论是可灵,luma 还是这一次的 Gen-3,在视频的真实性,连贯性上都得到了大幅的提升,并且这次的 Runway 发布的 Gen-3,之前一系列可控性的功能将会全部应用到上面去,包括图生视频,以及运动笔刷和相机运动等,视频的可控性 runway 相对于其它产品会更加丰富。

接下来是官方发布的一些 Demo,并且承诺会在几天后正式发布给所有人。



介绍 Gen-3 Alpha:Runway 的新一代视频生成基础模型。

Gen-3 Alpha 可以创建细节丰富的视频,包含复杂的场景变化、多种电影化选择和详细的艺术指导。

https://runwayml.com/blog/introducing-gen-3-alpha/


Gen-3 Alpha 是即将推出的一系列模型中的首个由 Runway 在一个为大规模多模态训练构建的新基础设施上训练而成,代表了我们迈向构建通用世界模型目标的重要一步。

提示:日本城市中一辆高速行驶的火车窗户上,隐约映出一位女性的倒影。


经过视频和图像的联合训练,Gen-3 Alpha 将为 Runway 的文本生成视频、图像生成视频和文本生成图像工具提供支持,并将现有的控制模式如 Motion Brush、高级摄像控制和导演模式,以及即将推出的工具,提供更加细致的结构、风格和运动控制。

Gen-3 Alpha 还将发布一套新的安全措施,包括新的改进的内部视觉审核系统和 C2PA 溯源标准。

提示:一个宇航员在里约热内卢的小巷中奔跑。


Gen-3 Alpha 从零开始为创意应用而训练。这是由跨学科团队,包括研究科学家、工程师和艺术家们共同努力的成果。

提示:第一人称视角穿越森林到达一座废弃的房子,再到达海浪。


作为 Gen-3 模型家族的一部分,我们一直与领先的娱乐和媒体组织合作,创建 Gen-3 Alpha 的定制版本。
Gen-3 模型的定制化允许对风格更有控制力和一致性的角色设计,满足特定的艺术和叙事要求。
提示:一个老年男人在侧光下弹钢琴。

提示:在 1980 年代的厨房中,一只鸵鸟慢慢地以电影镜头推进的方式站着。

提示:一个中年秃头的悲伤男子在一顶卷发假发和一副太阳镜突然落到他头上时变得开心。

提示:一尊巨大的古代战士雕像矗立在悬崖边上。摄像机慢慢地转了一圈,捕捉到了战士的侧影。

提示:一个空的仓库,镜头逐渐拉近,地面上涌现出一个奇妙的丛林。

提示:手持相机快速移动,手电筒的光照在一个老巷子的白色旧墙上,墙上有黑色涂鸦拼写出“Runway”。

这十个 Demo 一个字都没提 Sora,但是处处能看到 Sora 的影子😂。AI 视频的第一赛季基本上是 PPT 动画,第二赛季现在正式拉开了,上一代的技术以 Runway 的发布可以基本上算是彻底淘汰了,但是 DiT 会是 AI 视频的重点么?取代它的又会是什么?

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

AIGC研修社
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开