AI 生成视频,且看 Pika&W.A.L.T | 北拓研究
2023-12-21 17:58
AI 视频领域,竞争愈发白热化。前有科技巨头 Adobe Systems 收购了 Rephrase.ai,Meta 推出了 Emu Video,Stability AI 发布了 Stable Video Diffusion,Runway 对 RunwayML 进行了更新。今天小编带读者一起比较阅读 Pika&W.A.L.T。
Runway Gen-2 最强竞品 Pika,暌违半年忽然放出大招——Pika 1.0 正式发布。仅成立六个月,Pika 就结束了测试版,正式发布了第一个产品,能够生成和编辑 3D 动画、动漫、卡通和电影。Pika 是一个视频制作平台, 可以直接生成视频或通过上传已有图片并添加提示字生成自定义视频。官网:https://pika.art/loginPika 可以在一秒钟内生成动画版的人物形象,大大提高了视频制作的效率。用户只需输入相关信息,即可快速获得所需的视频内容。Pika 支持生成各种风格的视频,包括 3D 视频、卡通风格、写实风格等。用户可以根据需求选择适合的风格,丰富视频的表现形式。通过先进的 AI 模型和技术,Pika 可以生成高质量的视频内容,细节丰富、色彩鲜艳,给观众带来更好的视觉体验。PIKA 提供了丰富的编辑功能,用户可以对生成的视频进行剪辑、调整音效、添加字幕等操作,打造出个性化的视频作品。PIKA 具有简洁直观的操作界面,用户可以轻松上手并快速掌握使用方法。无需专业的视频制作技能,即可创作出令人惊艳的视频作品。Pika 是一个可持久化的大容量 redis 存储服务,解决了 redis 由于存储数据量巨大而导致内存不够用的容量瓶颈。Pika 可以通过 slaveof 命令进行主从备份,支持全同步和部分同步。DBA 团队提供了迁移工具,用户不需要修改任何代码就可以将服务迁移至 Pika,保证了迁移的平滑进行。目前,Pika 已经获得了 5500 万美元融资(估值近 2 亿美元),这使得这家仅有四人的初创公司,具备了和 Meta、Adobe、Stability AI 等巨头一搏的实力。一连串投资人名单非常豪华,几乎所有 AI 领域的知名公司都参与了此轮融资,名单包括但不限于——前 Github CEO Nat Friedman、Quora 创始人 Adam D'Angelo、OpenAI 创始成员 Karpathy、Perplexity CEO 等等,堪称是集齐了硅谷的半壁江山。Pika 的诞生,是又一个从斯坦福退学、成为 CEO 的故事。创始人郭文景(Demi Guo)和联合创始人兼 CTO Chenlin Meng,都是斯坦福大学 AI Lab 博士生。Pika CEO Demi Guo(左)从小喜欢诗歌和创意写作,联合创始人兼首席技术官 Chenlin Meng(右)希望成为一名动画师机缘巧合,Pika 的创立,竟还是竞品 Runway 提供的契机。郭文景和同学曾在去年参加 Runway 的首届 AI 电影节,发现 Runway 和 Adobe Photoshop 的工具并不好用,自己的作品也并未获奖。今年四月,郭文景决定从斯坦福退学,开发更好用的 AI 视频工具,Pika 由此诞生。目前官方的视频效果具有电影质感,动画级特效,Pika 1.0 效果炸裂。一句话,「elon musk in a space suit,3d animation」,马斯克瞬间进入二次元。炸裂的是,3D 动画版的马老板不但神形兼备,而且背景和动作都非常合理连贯,面部一致性也惊人的完美。对比 Gen-2 和 Pika Labs 之前的视频效果,Pika 1.0 的惊艳,带有划时代的意义。让人瞬间感受到:真·每个人都能成为自己的视频导演。而真正引发全网欢呼的,是 Pika Labs 1.0 能够支持对于视频实时编辑和修改。这些连 AI 生图领域都才刚刚获得的能力,Pika Labs 就能把它们扩展到 AI 视频中来。类似于 Midjourney 对于图片的「外画」功能,Pika 1.0 可以根据已有的素材直接扩展视频,生成不同高宽比的内容。Pika 1.0 可以直接在视频中添加想要的素材。只要用鼠标框一下,输入「一副酷酷的太阳镜」,马上就能给视频中的狒狒精确地带上墨镜,和原视频完美契合。而对于视频中人物的着装,也只要简单框一个范围,文字输入想要的效果,就能一键换装。支持三种模态的提示输入,让 Pika Labs 1.0 直接「对齐」了 runway 家族的几乎所有的功能。总结一下,全新的模型 Pika 1.0 的新功能包括:- 文本生成视频 / 图像生成视频:输入几行文本或上传图像,就可以通过 AI 创建简短、高质量的视频。
- 视频 - 视频不同风格转换:将现有视频转换为不同的风格,包括不同的角色和对象,同时保持视频的结构。
- 扩展(expand):扩展视频的画布或宽高比。将视频从 TikTok 9:16 格式更改为宽屏 16:9 格式,AI 模型将预测超出原始视频边界的内容。
- 更改:使用 AI 编辑视频内容,比如更换衣服、添加另一个角色、更改环境或添加道具。
- 扩展(Extend):使用 AI 扩展现有视频剪辑的长度。
- 全新 Web 界面:Pika 将在 https://pika.art 的 Discord 和 Web(移动和桌面)上提供。
现在 Pika 1.0 开启了申请试用,我们再看看实际试用效果:4)要求越多,例如运镜等要求,特别吃算力,相信未来视频效果还可以有非常大的提升空间Pika前两轮融资由前 GitHub 首席执行官 CEO Nat Friedman 领投,而最新一轮的 3500 万美元 A 轮融资由 Lightspeed Venture Partners 领投。Friedman 表示,自己对 Pika 团队使用单 GPU 就制作出的初期 demo,印象非常深刻。Friedman 与投资人 Daniel Gross 共同拥有一个包含 2500 多个 GPU 的超级计算集群,名为 Andromeda(仙女座)。他们投资的初创公司,都会得到这个资源的支持。得到仙女座超算集群的助力,Pika 的 AI 视频模型飞速地进步。OpenAI 科学家 Karpathy 本人是非常关注图像 - 视频生成领域的新动向。并且也在 Pika Labs 的本轮融资中参投。- 你知道图像生成是如何在极短时间内,从模糊的 32x32 纹理块,变成难以在与真实图像区分的高分辨率图像的吗?
- 现在,同样的事情正在同时间发生,已经延伸到视频,其影响令人难以置信。每个人都成为多模态梦想的导演,就像《盗梦空间》中的建筑师一样。
- 暂时回到现实,图像 / 视频生成与数据饥渴的神经网络完美匹配。
- 因为数据丰富,每个图像或视频的像素是网络参数的巨大比特(软约束)来源。当你在数据监督的环境中训练巨型神经网络时,你的训练损失=验证损失,生活是多么美好。
随着新一轮资金的到位,Pika 在明年团队将扩展到大约 20 人,大部分是工程师和研究人员。目前 Pika 的产品还是免费的,并不着急赚钱,未来公司可能最终会推出分层订阅模式,让付费用户享用更多功能。李飞飞携斯坦福联袂谷歌,推出了用于生成逼真视频的扩散模型 W.A.L.T
2023 年 12 月 12 日,李飞飞携斯坦福联袂谷歌,用 Transformer 生成了逼真视频,效果媲美 Gen-2 比肩 Pika,正式推出了用于生成逼真视频的扩散模型 W.A.L.T。2023 年俨然已成 AI 视频元年。这是一个在共享潜在空间中训练图像和视频生成的,基于 Transformer 的扩散模型。(论文:https://walt-video-diffusion.github.io/assets /W.A.L.T.pdf)首先,研究人员使用因果编码器在共享潜在空间中压缩图像和视频。其次,为了提高记忆和训练效率,研究人员使用基于窗口注意力的 Transformer 架构来进行潜在空间中的联合空间和时间生成建模。研究人员的模型可根据自然语言提示生成逼真的、时间一致的运动:A Teddy bear skating carefully in Times Square,Slow Motion/ 一只泰迪熊在时代广场上优雅的滑冰,慢动作Pouring chocolate sauce over vanilla ice cream in a cone, studio lighting/ 将巧克力酱倒在香草冰淇淋甜筒上,工作室灯光An stronaust riding a horse/ 一名宇航员骑着马Two knights dueling with lightsabers, cinematic action shot,extremely slow motion/ 两个骑士用光剑决斗,电影动作镜头,极其慢动作An asteroid collides with Earth, massive explosive, slow motion/ 小行星撞上地球,大规模爆炸,慢动作Cameraturns around a cute bunny, studio lighting, 360 rotation/ 相机围绕一只可爱的兔子旋转,工作室灯光,360 度旋转首先,研究者使用因果编码器在统一的潜在空间内联合压缩图像和视频,从而实现跨模态的训练和生成。其次,为了提高记忆和训练效率,研究者使用了为空间和时空联合生成建模量身定制的窗口注意力架构。通过这两个关键决策,团队在已建立的视频(UCF-101 和 Kinetics-600)和图像(ImageNet)生成基准测试上实现了 SOTA,而无需使用无分类器指导。最后,团队还训练了三个模型的级联,用于文本到视频的生成任务,包括一个基本的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒 8 帧的速度,生成 512 x 896 分辨率的视频。
W.A.L.T 的关键,是将图像和视频编码到一个共享的潜在空间中。Transformer 主干通过具有两层窗口限制注意力的块来处理这些潜在空间——空间层捕捉图像和视频中的空间关系,而时空层模拟视频中的时间动态,并通过身份注意力掩码传递图像。而文本调节,是通过空间交叉注意完成的。
Transformer 是高度可扩展和可并行的神经网络架构,是目前最当红的构架。这种理想的特性也让研究界越来越青睐 Transformer,而不是语言 、音频、语音、视觉、机器人技术等不同领域的特定领域架构。这种统一的趋势,使研究人员能够共享不同传统领域的进步,这样就造就了有利于 Transformer 的模型设计创新和改进的良性循环。然而,有一个例外,就是视频的生成建模。扩散模型已成为图像和视频生成建模的领先范例。然而,由一系列卷积层和自注意力层组成的 U-Net 架构一直是所有视频扩散方法的主流。这种偏好源于这样一个事实:Transformer 中完全注意力机制的记忆需求,与输入序列的长度呈二次方缩放。在处理视频等高维信号时,这种缩放会导致成本过高。潜在扩散模型可以通过在从自动编码器派生的低维潜在空间中运行,来降低计算要求。在这种情况下,一个关键的设计选择,就是所使用的潜在空间的类型:空间压缩 ( 每帧潜在 ) 与时空压缩。空间压缩通常是首选,因为它可以利用预训练的图像自动编码器和 LDM,它们在大型成对图像文本数据集上进行训练。然而,这种选择增加了网络复杂性,并限制了 Transformer 作为骨干网的使用,尤其是由于内存限制而生成高分辨率视频时。另一方面,虽然时空压缩可以缓解这些问题,但它排除了配对图像文本数据集的使用,后者比视频数据集更大、更多样化。因此,研究者提出了窗口注意力潜在 Transformer (W.A.L.T) :一种基于 Transformer 的潜在视频扩散模型 (LVDM) 方法。该方法由两个阶段组成。首先,自动编码器将视频和图像映射到统一的低维潜在空间中。这种设计能够在图像和视频数据集上联合训练单个生成模型,并显著减少生成高分辨率视频的计算负担。随后,研究者提出了一种用于潜在视频扩散建模的 Transformer 块的新设计,由在非重叠、窗口限制的空间和时空注意力之间交替的自注意力层组成。这种设计有两个主要好处——首先,使用局部窗口注意力,可以显著降低计算需求。其次,它有利于联合训练,其中空间层独立处理图像和视频帧,而时空层致力于对视频中的时间关系进行建模。虽然概念上很简单,但团队的方法让 Transformer 在公共基准上潜在视频传播中表现出了卓越的质量和参数效率,这是第一个经验证据。具体来说,在类条件视频生成 (UCF-101) 、帧预测 (Kinetics-600) 和类条件图像生成 (ImageNet) 上, 不使用无分类指导,就取得了 SOTA。最后,为了证明这种方法的可扩展性和效率,研究者还生成了逼真的文本到视频生成效果。他们训练了由一个基本潜在视频扩散模型和两个视频超分辨率扩散模型组成的级联模型,以每秒 8 帧的速度生成 512X896 分辨率的视频,并且在 UCF-101 基准测试中,取得了 SOTA 的 zero-shot FVC 分数。英伟达高级科学家 Jim Fan 转发评论道:2022 年是影像之年,2023 是声波之年,而 2024,是视频之年。
结语
Pika 的闯入和 W.A.L.T 的推出,无疑再次搅动了 AI 视频领域的格局,战场上已经硝烟滚滚。AI 视频的未来发展趋势涉及多个方面,包括技术进步、应用场景扩展以及市场竞争格局等:- 更高级的视频生成和编辑技术:随着深度学习和生成模型的不断发展,预计会有更先进、更逼真的视频生成技术。这可能包括更精细的图像合成、更智能的视频编辑和更自然的语音合成。
- 增强现实(AR)和虚拟现实(VR)应用:AI 视频将在 AR 和 VR 领域发挥关键作用,为用户提供更沉浸式的体验。这可能包括虚拟现实培训、虚拟旅游和虚拟会议等应用。
- 个性化内容生成:AI 视频有望推动个性化内容的生成,根据用户的兴趣和偏好,为他们定制特定内容。这可能包括个性化广告、电影和在线教育等领域。
- 实时视频处理:随着计算能力的提高,未来 AI 视频系统可能更加注重实时处理,以满足对实时反馈和互动性的需求。这对于在线直播、视频会议和实时事件报道等场景具有重要意义。
- 自动化和协作:AI 视频在制作、编辑和发布过程中的自动化将继续增加。多个 AI 系统可能协同工作,共同完成视频内容的创作和优化。
AI 视频未来的竞争格局可能涉及到技术领导者、创新型初创公司以及传统的媒体和技术巨头。争夺关键技术专利、拥有大规模训练数据、拓展应用场景和提供稳定性可靠的解决方案都将是竞争的关键因素。在不同的市场细分领域,可能会涌现出一系列专业化的解决方案。需要注意的是,AI 技术的发展伴随着伦理和隐私等问题,因此相关政策和规范的建立也将对竞争格局产生影响。算力将会是影响 AI 视频服务的一个重要因素,特别是在 C 端(面向消费者)服务中。以下则是与算力相关的影响因素:- 实时性和互动性:高算力可以支持更快的实时处理和更高的互动性。在视频通话、实时直播以及虚拟和增强现实应用中,快速的算力可以确保流畅的体验。
- 高质量的生成和处理:高算力对于生成高质量、高分辨率的视频内容至关重要。这对于视频编辑、特效添加以及其他创意性的应用非常重要。
- 大规模数据处理:针对大规模数据的训练和处理需要强大的算力。这对于训练复杂的深度学习模型、提高视频识别和分析的准确性以及支持大规模的用户请求都至关重要。
- 云服务的影响:对于 C 端用户而言,云服务中的高算力可以提供更强大的视频处理和存储能力。这使得用户可以享受到云端处理的便利性,而无需担心本地设备的性能限制。
- 成本和可扩展性:算力的成本和可扩展性也是重要考虑因素。成本高昂的算力可能导致服务费用的增加,而可扩展性差则可能限制了服务的用户规模。
总体而言,随着技术的不断进步,算力在 AI 视频服务中的重要性将继续增加。创新性的解决方案和对算力的有效利用将有助于提高服务的竞争力,并为用户提供更出色的体验。相信随着未来算力的进一步提升,AI 视频领域的推陈出新一定更加令人期待。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。