深度｜AIGC 视频应用的突破口在 3D？文生视频发展技术路径辨析

2024-04-1908:28

有新Newin

2024-04-19 08:28

有新Newin

2024-04-19 08:28

收藏文章

订阅专栏

OpenAI 推出 Sora 在业界掀起了巨大的波澜，引发了科技圈内的激烈讨论与交锋。图灵奖得主、Facebook 首席 AI 科学家杨立昆公开质疑 Sora 仅停留在生成像素的层面，缺乏对物理世界的深入理解。而 360 董事长周鸿祎与猎豹 CEO 傅盛也在这一话题上产生了不同看法。

不仅仅是海外，国内也有不同技术路径的文生视频产品推出。今年 3 月，魔珐科技推出了有言 AIGC 一站式 3D 视频平台，这款产品以其独特的技术路径和成熟的产品形态，引发了行业的关注。文生视频赛道，注定将成为整个 2024 年科技圈讨论的焦点话题，正如 ChatGPT 在 2023 年所引发的热潮。

01. AI 视频生成的进步与待突破的卡点

去年初，OpenAI 发布的大语言模型 ChatGPT 掀起了一轮人工智能的热潮。ChatGPT 上线后，几乎所有全球科技大厂都全速投入 AI 领域，发布了自己的大语言模型，影响着人们日常搜索信息、查找资料的方式发生改变。

而文生视频模型 Sora 的发布，更直观地呈现了 AI 技术正在以何种速度飞速发展。作为一种扩散模型技术，sora 的底层技术与 GPT 模型相类似，使用了 Transformer 架构。可以说相对于去年的文生视频产品来说，sora 是对原有产品能力的升级，比如提升了时长，在单一空间内解决了时空一致性问题。

与 sora 类似的产品，如 Pika、Runway、Genmo、Stable Video Diffusion 等近十款产品，本质都是一种技术路径下的产物。他们的底层技术核心都是基于互联网上海量的视频进行大模型训练，再基于大模型 AIGC 生成视频。

这一技术路径的优势在于，在于网络上海量的视频素材多，很容易拿到训练数据，这也符合 OpenAI 一贯信奉的以海量数据投喂模型从而实现突破的“暴力美学”。

但这种技术路径有诸多局限性和悬而未解的问题，AI 视频路径当前存在的问题包括：

1）时空的一致性（人，镜头，场景）：如何使角色、物体和背景在帧之间保持一致而不变形或扭曲，或者数量保持一致？这是所有公开可用模型中常见问题。从技术角度来说，现阶段模型还很难理解物理世界的时空规律。在单一空间或者镜头可以实现，但跳出单一空间后，很难保证人、镜头、场景的时空一致性。

2）可控性、可编辑以及确定性：控制场景中发生的事情。例如，如果你提示“男子向前走”，运动是否如所描述的那样？再比如画面中出现各内容元素（场景、灯光、人物、表演、台词、镜头、素材等）是否能够按照提示词保证确定性的内容输出，或者可以控制和修改。

3）时长：能否制作更长的视频。60s 的时长显然还不足以支持视频实际应用。而这一瓶颈很可能与时间一致性密切相关。许多工具限制生成的视频的长度，是因为无法确保几秒钟后的全部一致性。更长的时长，生成完整的视频依然是挑战。

4）产品的完整性：是否可以一站式满足创作者的需求，比如是否可以编辑镜头，动作，或者加后期包装，从产品的角度来说，一站式，不用在不同产品之间跳来跳去，这对创作者来说是很重要的。

5）产品化以后的成本以及商业化的可行性：产品化需要考虑性价比，而目前的算力成本高昂，如何降低成本实现规模化应用，恐怕也是不得不面对的问题。

这种技术路径，在视频生成的想象力方面还是有着不错的表现，非常适合创意类视频生成。

但对大多数创作者来说，视频需要能够精准的画面、镜头以及视频内容的精准呈现。比如我们需要一段冬日街道的视频素材，视频中呈现的应该是飘雪的街景和身着冬装的行人。但从 sora 的 demo 视频来看，人们却衣着单薄的走在白色的街道，街边还出现了盛开的樱花。这种细节的不可控，让素材的可用性大打折扣。

此外，在商业视频场景中，不论是产品发布会，知识分享，种草视频，还是教育培训视频，都需要内容的“高信息密度”和”精准控制“。如何实现可控性、可编辑性将成为 AI 生成视频技术路径最需要突破解决的问题。

02. 已商用落地的曙光 —— 文生 3D

实际上，早在 Sora 出现前，全球唯一一款可商业落地的 AIGC 3D 视频生成产品就已经诞生。这是一款名为“有言”的产品，今年 3 月正式面向所有用户开放。根据企业公开采访显示，这款产品在正式向公众开放前，已经服务了各行各业的近 50 家头部客户。

根据公开采访显示，有言在官网正式面向公众前，就有近 50 家各行业的头部客户付费购买了企业旗舰版产品，其中包含东吴证券、中金财富、央视网、广州广电、苏州广电、海尔集团、方太集团、老板电器、斯凯奇、中伦律所、爱尔眼科、自然堂、金巴厘集团等头部企业，行业覆盖金融、广电、 3C、美护、文旅、政务、律所、酒水、教育、培训、医美等各领域。

事实上，3D 视频的 AIGC 技术热度早已不是资本圈的秘密。今年年初，美国 AI 3D 创业公司「Luma AI」近日完成 4300 万美元 B 轮融资，由大名鼎鼎的 A16Z 独家投资。无独有偶，3 月初，一份由中泰证券公布的研报认为，多模态已经成为了业界普遍认同的发展趋势。该研报认为，继文本、代码、图片和视频之后，3D 有望成为下一个有望实现技术突破的重要模态。

而有言这款产品之所以备受关注，原因在于其具备了可商用的产品成熟度，并且对 AI 视频生成路径的一些卡点实现了突破。当 3D 技术落地于产品，令人惊叹的同时，也展示了一条独特的 3D 内容 AIGC 的技术路径。

通俗来说，这种技术路径是借助 3D 内容 AIGC 技术，实现了包含 3D 场景、灯光、3D 人物表现、3D 镜头的 AIGC 生成，然后再基于实时引擎技术（渲染 + 物理解算）生成 2D 视频。从本质上讲，这种技术生成得其实是 3D 视频, 也就是说可以通过实时渲染引擎直接生成各个视角的视频，其生成视频可直接显示在各类 AR/VR 终端, 比如 Vision Pro。

我们把内容的生成过程拆分，可以发现主要有两个维度：

1）3D 内容生成：与现实世界视频拍摄一致，视频中包含角色、场景、运镜、灯光、屏幕内的素材等视频要素，而 3D 视频生成，也可以将其拆解为 3D 人物、3D 场景、3D 镜头、素材（屏幕）等要素。通过这些 3D 视频要素的的 AIGC 化，从而实现 3D 视频的 AIGC 生成。

2）后期包装：在完成视频生成环节（替代拍摄），用户往往需要进入视频后期包装的环节，因此代表产品有言为用户提供了包含镜头剪辑、素材编辑、音效配乐、字幕包装、片头片尾等各个环节的产品功能。

这条技术路径的好处是，视频的创作过程就是对现实 3D 世界的“模拟”。通过实现从 3D 资产到视频各要素的 AIGC 生成，从而保证了与现实世界的一致性。这种技术路径不会出现 AI 对世界的错误理解，能够解决时空一致性问题，并且不会出现时空错乱等物理错误。

此外，由于整个生成过程都可以编辑，因此可控性很强。在保证 AIGC 高效率生成的同时，还可以加入 3D 内容编辑的能力，规避了 AI 生成不可控的问题，也不受视频时长的限制。

与真实世界视频生产过程一致的方式，以代表产品有言为例，后期包装等功能的融入，解决了 AI 视频生成路径下难以实现一站式的视频制作的难点。

这条路径的代表产品，有言是全球唯一一款高质量、高效率、低成本、低门槛、规模化的 3D 视频生成产品。也是全球唯一一款被应用落地的 3D AIGC 3D 内容产品。由于 3D 视频的生产过程就是对真实物理世界的还原，也是对视频拍摄、视频后期两大环节的还原。因此，有言很好的解决了时空一致性问题。

有言可以实现视频要素的 AIGC，并开放了部分环节的人工编辑，因此解决了视频生成的可控性问题。此外，视频的时长也完全能够用户的需求调整，完全不受视频时长限制。

此外，有言融入了视频创作的全部环节，除替代拍摄的视频生成外，还将视频包装后期的全部环节融入，相当于将视频创作的工作流全部融入了视频创作。创作者从此无需借助单点 AI 工具，而是可以借助有言一站式完成所有视频创作的工作环节。

有言是一款具备时空一致性、内容可控、可任意时长、可生成确定视频内容的一站式视频创作工具。

当然，以有言为代表的这条技术路径虽然具备优势，但同时也面临着比较大的壁垒和挑战：

首先是，底层需要依托于高质量的 3D 数据。首先是高质量 3D 数据的积累。很多业内的公司依然依靠软件和制作人员手工打造，由于 3D 内容的难度大，目前市面上的公司生产的内容也参差不齐。而很多技术公司，由于缺乏底层的高质量 3D 训练数据，因此进入这一领域的门槛非常高。

其次，需要具备全栈的 AIGC 能力。由于视频的各要素都需要实现 AIGC，这也意味着这一技术路径不是单纯的文本 AIGC，或者图片 AIGC，而是具有文本、声音、动画各个维度的生成技术突破。而从视频来看，文本、素材、场景、包装的全维度 AIGC 其实非常难。

再次，AIGC everything。以有言为例，实现产品化，并在产品化过程中先将最难的要素先 AIGC，比如说动画。未来逐渐实现全面的 AIGC 化，这条路径同样面临着技术的挑战。

但在 demo 的畅想和已经落地可用可控的产品之间，文生 3D 的技术可行性与价值毋庸置疑。

03. 技术变革来袭视频生成拐点已至？

无论是 OpenAI 推出的创意内容产品 Sora，还是以有言为代表的 AI 视频生成产品，视频生成类应用的广泛落地，对各个行业而言，一定是机遇。

但如果冷静的从技术视角来看，两种技术路径的发展都面临着各自的挑战。

今年 3 月初，Sora 核心团队三位负责人接受采访时曾提到过，Sora 目前还处于反馈获取阶段，还不是一个产品，短期内不会向公众开放。对 sora 而言，AI 视频生成领域的难点在于，即实际生产和技术研究之间存在的距离。

行业内人士认为，真正的难点是技术是否能真正满足视频制作者的需求，并与其实际工作流程相契合。只有当技术足够越靠近生产的时候，它才会产生更大的经济价值。

这点与有言得以产品化的初衷非常相似，如魔珐创始人兼 CEO 柴金祥认为的，所有科技企业来说最重要的还是 PMF（Product Market Fit 产品市场匹配度），即能不能找到更契合市场的产品，多长时间能得到验证。

给企业与个人提供一款真正可商用的规模化产品，具备产品化形态、可商用落地，正是有言今天在做的事情。不仅仅是视频的生成，而是以成熟的产品化形态，真正契合企业的工作流需求，以实际场景出发解决企业问题，或许才是技术生产力提升带来的真正价值。

视频全流程的 AIGC 对企业技术综合能力有着更高的要求。与 AI 视频生成路径相比，文生 3D 的技术路径的产品化进程更快，但走向 AIGC 化的终局同样面临着巨大的挑战。

24 年的开年，是属于视频生成的。成熟产品化形态的产品已经出现，AI 视频生成技术也迎来了巨大的突破，一切都令人欣喜与期待。

虽然长路皆有挑战。但好在，一场视频生成的变革已经开启，落成和实现或许就是时间问题了。

PS：回顾 2023 年至今，大部分 AI 炒作都集中在基础模型的横向能力上，但 AI 的真正机会在于 AI 以及 Agent 如何重新配置与创造 B2B 价值链，112 家顶尖 VC 评选出 2024 年 Top30 科技初创公司，接近 50% GenAI，SaaS 不到 1/4。

Newin 行业交流群

下方扫码加入“有新 Newin”读者交流群👇

2、「AI 天使汇」联合 150 家顶级基金 / 站投将举办新一轮 AI 创业项目路演活动，征集优秀创业者报名参与，报名方式如下：

最新资讯

近期精选

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

一起「遇见」未来

DOWNLOAD FORESIGHT NEWS APP

App Store

Android

PS：回顾 2023 年至今，大部分 AI 炒作都集中在基础模型的横向能力上，但 AI 的真正机会在于 AI 以及 Agent 如何重新配置与创造 B2B 价值链，112 家顶尖 VC 评选出 2024 年 Top30 科技初创公司，接近 50% GenAI，SaaS 不到 1/4。

推荐专栏

一起「遇见」未来