Sora 会“杀死”剪映吗?
2024-02-20 17:30
巴比特
2024-02-20 17:30
订阅此专栏
收藏此文章

图片来源:由无界 AI 生成


Sora 的横空出世,对张一鸣来说,亦喜亦忧。


被 OpenAI 的 ChatGPT 震撼过一轮的 AI 大模型行业,又一次被这家公司推出的首个视频生成模型 Sora 震撼了一把。


不同于 Runway、Pika 等仅能生成不足 10 秒,且镜头视角单一、内容高度失真的视频,Sora 的视频生成长度不仅突破到了 60 秒,且能实现单视频的多角度镜头切换,还能最大限度还原现实世界的真实场景。


在 ChatGPT 上被验证过的模型性能缩放法则(scaling laws),被 OpenAI CEO 阿尔特曼移植到视频领域后,被证明其“大力出奇迹”的策略仍然有效,即增加模型的大小将继续提高性能。ChatGPT 所为人称赞的“智能涌现”特征,再一次出现在 Sora 身上。


OpenAI CEO 阿尔特曼


面对来自 Sora 的“降维打击”,AI 视频领域的创业者中,有的如 Runway CEO 克里斯托瓦尔·巴伦苏埃拉一样,做好了“Game On”的准备,有的如 Pika 创始人郭文景一样,开始筹备对标 Sora 的新产品,也有人如 Stability AI CEO 埃马德·莫斯塔克一样,不由感慨“阿尔特曼真是一个魔术师”,并将 Sora 视为 AI 视频界的 GPT-3 时刻。


但对字节跳动来说,这未必是个好消息,因为 Sora 所处的视频生成赛道,正是眼下字节跳动旗下剪映所瞄准的 AI 创新方向。2 月份从抖音转岗剪映后,据界面新闻报道,抖音前 CEO 张楠即将推出一个 AI 生图和视频的产品。


正打算在 AI 生成视频领域大干一番的张楠,还没等到产品落地的那一刻,其内部再创业的计划,便率先遭遇了 Sora 的当头一击。


OpenAI 是张楠决心押注 AI 再创业的催化剂。2022 年 OpenAI 旗下文生图模型 DALL-E 2 的发布,让张楠首次直观感受到 AI 图像生成,给传统内容创作方式所带来的颠覆式变革威力,这既是字节跳动全球 CEO 梁汝波口中“会产生新的创作平台”的机会,也是促成张楠转岗剪映的原因之一。


生成式 AI,还是打开字节跳动增长天花板的一次必要尝试。2023 年公开信中,张一鸣提到,字节跳动无法错过 AGI(通用人工智能),并指出 AGI 是抖音、TikTok 在全球发现新的增长机遇不可或缺的伙伴,“它可以解决字节跳动的第二曲线增长困境。”


2019 年剪映的出现,帮助抖音内容生态从偏向 PGC(专业机构生产内容)转向 UGC(用户生产内容),大大降低用户创作门槛。如今,随着平台内容生态转向 PUGC 融合态,其对用户创作视频的成本和整体质量,又提出了新的要求。AI 生成视频产品的出现,则对尽可能拉低每一个普通人创作视频的门槛,提供了一种现实可能性,抖音乃至 TikTok,都有望借此在内容创作者数量上迎来新的爆发。


值得一提的是,AI 视频生成更是一个颇具前景的创业赛道。截至 2023 年底,该赛道已经涌现出一批独角兽公司:Midjourney 估值 100 亿美元,Stability AI 估值 40 亿美元,Runway 估值 15 亿美元。年初爆火出圈的新贵 Pika,成立时间不足一年,其估值已经达到 2.5 亿美元。


但在 Sora 的突然袭击之下,留给张一鸣和张楠孵化下一个 AI 视频生成独角兽的时间,越发紧张了。


01



Sora 亮相之前,字节内部也在研发 AI 生成视频产品。


1 月份,字节跳动研究人员在 arXiv 上发表了一篇论文,其中介绍了字节正在开发的一款文本生成视频的模型,被命名为 MagicVideo-V2,其通过集成多个模块,包括文本到图像模型、视频运动生成器、参考图像嵌入模块和插值模块,实现从文字到视频的自动化生成。


MagicVideo-V2 想要解决的问题,是 Runway、Pika 等在生成视频中所表现出来的保真度不高、运动不自然、分辨率不高、风格不多样等。


字节旗下产品剪映原有的“图文成片”功能模块,在进行文生视频转换过程中,同样面临上述难题的拷问。


在等待 MagicVideo-V2 完善研发,从 demo 走向量产上线之际,张楠在过去一个月多的用户访谈中,收集到了更多来自一线创作者对 AI 生成视频产品的不满和期待,其中之一就包括部分创作者“为了更好表达自己的想法,几乎无法用一个产品完成所有的创作,要横跨几个产品之间,用复杂的编辑和交互流程,才能完成他们的表达。”


去年 8 月,UP 主数字生命卡兹克制作的一条爆款视频《流浪地球 3 预告片》,便先后运用了 MidJourney 和 Runway 等多款产品,且经历了长达 5 天的后期剪辑拼接。


造成 UP 主数字生命卡兹克创作困难的主要原因,便出在 AI 软件不够智能和便捷上。Sora 出现之前,业内文生视频的默认方式是,只能输出单一、且往往是静止视角的短视频片段,画面背景还多呈现赛博朋克风。


Sora 出现之后,文生视频领域的旧识被打破,不管多么复杂的视角、场景切换,都只用通过单一提示词便可生成,在兼顾便捷性的同时,最大限度保证了生成内容与真实物理世界的相关性。


Sora 提示词示例 图源:官网截图


字节和张楠规划中 AI 视频所应具备的更高保真度生成效果、更清晰生成画面、更顺畅自然的逻辑理解能力等,率先被 Sora 一一实现。


需要注意的是,尚未对外开放测试的 Sora,眼下还存在诸多不完善之处,按其官方说法,“仍然处于世界模型研究应用的初期阶段。”


Meta 首席科学家杨立昆便直接质疑 Sora:“仅凭能够根据提示生成逼真的视频,并不能说明系统真正理解了物理世界。”


OpenAI 在官网介绍中也提醒道,Sora 可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系,还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。这些缺陷可能导致 Sora 生成一些不合逻辑的视频,如一个人在跑步机上跑错方向。


这些尚未解决的 Bug,是 OpenAI 决定暂未全面开放 Sora 的原因之一。如今,OpenAI 正选取部分用户展开内测,以评估关键领域的潜在危害或风险,以期获得宝贵反馈,进而推动模型进步。


02



ChatGPT 发布后,外界开始意识到 AGI 时代有了实现的可能性,Sora 等视频生成模型,无疑是推动 AGI 到来的重要加速器。


OpenAI 直接在官网上写道:“Sora 为能够理解和模拟真实世界的模型提供了基础,我们相信这一能力将是实现 AGI 的重要里程碑。”


想要借助视频生成模型,推动 AGI 带来的不止 OpenAI 一家公司。去年 12 月,Runway 提出要开发通用世界模型(General World Model),用旗下的视频生成 Gen-2 来模拟整个世界,“我们相信,人工智能的下一个重大进步将来自理解视觉世界及其动态的系统,这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作。”


理解现实世界的物理法则,成为通往 AGI 的必经之路。360 创始人周鸿祎在点评 Sora 时直言,一旦 AI 接上摄像头,把现存所有视频都看一遍,其对世界的理解能力将远远超过文字学习。“这就离 AGI 真的不远了,不是 10 年 20 年的问题,可能一两年很快就可以实现。”



正是在 AGI 相关概念刺激之下,AI 生图和视频领域的垂类大模型公司,估值迎来飙升,出现了 Midjourney、Stability AI、Runway 等一批明星独角兽创业公司。


具体到字节跳动的业务层面,图片 / 视频生成还能帮助提效字节的商业化需求,如帮助字节广告客户低成本、便捷地制作视频。有字节人士告诉晚点 PostLate,字节广告客户投放总成本里有 10%-20% 为视频制作成本,从去年开始,字节已在开发一些相关产品帮广告客户压缩这部分投入。


尽管在推出类似文生视频产品方面落后一步,但对张楠来说,反过来也迎来了一个摸着 Sora 过河的机会。


ChatGPT 亮相之前,算法方面的短板,一度是行业研发对话大模型的主要障碍之一。人工智能专家丁磊博士解释道,部分大模型创业公司“还不是那么会训练大模型……如果训练方法错的话,你有再多的 GPU 也没用。”


在追赶 Sora 过程中,Pika 创始人郭文景提到,目前生成式视频发展的一个重要限制是算法的成熟度,“语言对话模型大家已经知道大概的方法,算法相对比较成熟了。但视频之前还没有很好的算法。”


Sora 的发布,无疑再次给行业提供了一个行之有效的解题思路,也给郭文景和张楠这样的同领域创业者,提供了一条成熟的算法借鉴路线。


03



随着 Sora 正式亮相,在上一波语言对话模型上落后的字节,在视频领域再次陷入被动追赶窘态。


2022 年 11 月 ChatGPT 发布之后,百度、阿里等国内大厂相继在去年三四月份推出自研大模型文心一言和通义千问,但直到 8 月份,字节才对外亮相了云雀大模型。


动作迟缓的后果之一是,当文心一言月活已经破亿后,字节同类产品“豆包”的月活,还不足千万。


在 1 月底的新一期 All Hands(员工面对面)上,梁汝波着重以 AI 进展缓慢说明公司正在变得迟钝的现况,称 “公司层面的半年度技术回顾,直到 2023 年才开始考虑 GPT,而业内做得比较好的大模型创业公司,都是在 2018 年至 2021 年创立的。”


字节关注大模型并不算晚。据晚点 LatePost 报道,2020 年 6 月 OpenAI 发布 GPT-3 后,字节曾训练了一个数十亿参数的生成式语言大模型,由于参数规模有限,该模型生成能力一般,字节当时看不到它的商业化可能性,“ROI(投资回报率) 算不过来”,这次探索便浅尝辄止。


如今选派张楠这样一员大将用 AI 改造剪映,被外界视为是字节内部希望提速 AI 发展的一个信号。


张楠


但在完成内部调兵遣将之后,留给张楠的挑战不只是追赶时间上的紧迫,还有外部芯片断供所带来的算力荒难题。


去年 10 月份,英伟达旗下 A100、A800、H100、H800 和 L40S 等五种 GPU 芯片禁令正式生效。对于一众国内大模型厂商而言,英伟达芯片的断供,在客观上成为其追赶 ChatGPT 乃至 GPT-4 的最大阻力。


在缩放法则(scaling laws)指导下,阿尔特曼提出了芯片需求每三四个月就要翻一番的大模型时代“摩尔定律”。这无疑再次拉高着张楠追赶 Sora 的门槛。


“对于国内厂商而言,这种大力出奇迹的模式跑通之后,硅谷会进入更为狂热的算力军备竞赛。字节们的算力短板会进一步放大。”招商证券研究员刘枋说道。



参考资料:


《剪映全员信》张楠


《揭秘字节 AI 版图:调集多位高管参战,数款重磅产品内测》Tech 星球


《大厂大模型:久违的一把手工程》晚点 LatePost


《“今天,所有 VC 的会上都在谈 Sora”》投中网


《Sora 发布后,Pika 创始人独家回应钛媒体:很振奋,我们将直接冲》钛媒体





2024 年 1 月 5 日,【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】在杭州未来科技城会议中心举行。


大会汇集行业资深专家及领军企业,共同聚焦 AIGC 领域,围绕当下热点话题进行深度延展,探讨行业激烈竞争下的运营新思路、发展新模式!点击文章,回顾精彩内容~










AI 新智界园区开放合作啦!



【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

巴比特
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开