最近的 AI 视频领域真的挺热闹的,Runway 发布 Gen3 的同时,Luma 也发了个视频编辑功能的预告。大家都戏称 AI 视频代有人才出,各领风骚三五天。 但是这些纷繁复杂的新闻其实只需要关注两个点,一个是是否用上了最新的 DiT 架构,特点就是视频流程逻辑性强,还有一点就是它是否具备一些附加的可控性。
可控性这点所有的 AI 视频产品里最强的要属 Runway 了,不过在 Runway 的 Gen3 发布之前我们也可以来看看 Luma 的这个视频编辑功能都对可控性做了哪些努力,截止到今日在 AI 视频领域并没有出现类似 AI 绘画领域 Controlnet 这样的相对专业的控制功能。不过在未来一年,如果 Dit 可以解决视频生成的逻辑性和连贯性,那么下一步一定是可控性了。
那么接下来我会逐帧解读它的宣传视频。
提示词辅助延展
看起来是可以根据你给的提示词去探索一系列不同的场景和人物。自动提取一句话里的名词主体来做延展。这个有点像 MJ 的一次给你四张图,然后你来选择自己喜欢的那个。
五个视频编辑功能
生成结果这里高亮的五个按钮官方并没有详细说明,不过最后一个应该是改变视频的尺寸,倒数第二个图标可能是改变视频的配色,宣传视频里详细演示了第二个 “ * ” 图标的作用,那就是用来精准对画面的人物和场景进行改动。
看起来改动的原理是通过提示词和画面内容的一一对应,然后提取其中的关键词来修改画面的内容,这个操作有点像是 MJ 里的 Inpainting 功能。现在的生成模型对于语义的理解都不够精准,所以很难通过改动提示词来定向改动画面的内容,如果 Luma 真的做到了,并且做的很好,需要他们在大模型的文和图上训练强关联的模型。
演示视频里点击 forest 就可以出现不同的场景选项来给你选择,不清楚是否目前还不支持自行输入。
不过视频接下来就展示了可以通过输入提示词精准控制人物的生成,比如这里把男孩改成一些奇幻角色,并且也是一次性可以生成 4 个不同的结果给你选择。
视频扩展功能
除了上面即将推出的视频编辑功能,Luma 还发布了现在就可以使用的视频扩展功能,这个功能其实就是以生成视频的最后一帧作为图生视频的图来继续生成 5s 的视频,通过这个尾帧生成可以生成非常长的连贯视频,并且没有时长的限制。其实之前 Sora 的长视频估计多半也是这个原理制作出来的。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。