3D AIGC- 迈向下一代内容生成方式还有多远?| 北拓研究
2023-08-1718:00
北拓资本
2023-08-17 18:00
北拓资本
2023-08-17 18:00
收藏文章
订阅专栏


谁拥有先进的 3D 内容生产技术,谁就掌握下个数字世界的入口

01

3D 内容 - 未来十万亿级市场


3D 内容因其在展现事物结构、复杂多维的领域极其出色的表现,使得在多种领域具有独特的优势,可以说谁拥有先进的 3D 内容生产技术,谁就掌握下个数字世界的入口,谁解决了目前 3D 内容生产的技术、商业瓶颈,谁就掌握是下一代内容生产的核心钥匙。


随着硬件设备的不断迭代,苹果首款设备 Vision Pro 发布,基于空间计算的三维生态开始商业化,带来全新的三维内容应用生态。因此,3D 内容迎来十万亿级新蓝海。


3D 内容市场规模预测,数据来源:公众号 VR 陀螺

3D 内容之前仅应用于部分游戏、3D 电影中,随着三维内容应用生态不断拓展,在 C 端逐渐普及和商业化,将带动大量的 3D 内容需求,预计 2030 年达到数十万级别。



02

3D 内容生产现状以及痛点


3D 内容生产目前主要有两种方式:人工建模和三维扫描。人工建模 3D 内容生产属于大难题,也是未来三维生态开发最困难、最昂贵的环节。一个应用可能会涉及多个甚至数十个 3D 模型,但 3D 模型生产周期在数小时到数天,生产成本平均高达千元以上。不同的模型、不同的精细度、不同的生产方法,价格和生产时间均不一样。

 全球生产 3D 模型的费用,数据来源:Sketchfab

而不同复杂性的模型对于建模人员的要求也非常高,这导致 3D 模型的成本一直居高不下,根据不同模型的复杂度,通常在几十到几百美金之间,耗时也从几小时到数十小时。


因此高质量高效率的 3D 内容生产方式成为目前各大厂商竞争的核心。



03

AIGC 为 3D 内容生产带来新的可能性


3D AIGC 是指利用深度神经网络学习并生成物体或者场景的三维模型,2018 年前受限于技术发展,仅有原生三维型人工智能三维生成应用,使用的模型有 VAE 模型、流模型、GAN 模型、EBM 模型、扩散模型等,其中 GAN 模型在生成效果方面的优势使其在 2022 年前一直是人工智能三维生成的主流模型,但由于训练难度极大,对硬件要求极高等问题,产业级应用发展十分受限。由于二维图像生成技术的快速进步与应用的蓬勃发展,因此二维升维型是目前人工智能三维生成研究与应用的关注重点。因此三维生成技术也经过了几个关键阶段:


1)2018 年 -2020 年:二维升维萌芽期

2018 年,将三维内容表达为神经网络参数的神经场诞生。虽然神经场表达的仍然是三维数据,且由于缺乏学习数据在 2018 年至 2020 间其发展速度十分缓慢,但为二维升维派奠定了技术基础。


2)2020 年 -2022 年:二维升维技术发展期

2020 年,伯克利、谷歌与加大圣地亚哥分校的联合团队提出神经辐射场(NeRF)算法。神经辐射场算法可以从静态二维图像中感知其三维属性,生成内容统一但视角不同的二维图像,即具备三维感知的图像。由于生成的图像精度高且可以生成大场景的三维感知图像,因此受到广泛关注且出现大量相关研究,加速二维升维技术发展。在应用方面,由于训练难度大、对硬件要求高、生成效率低等问题,仅能进行试验性与娱乐性的小范围应用。在产业应用方面,虽然出现将显性表达与隐性表达相结合的相关研究,但除以上问题外,在与传统三维生成工作的衔接和满足产业应用要求方面仍然存在诸多问题,因此产业应用发展缓慢。


3)2022 年 - 至今:二维升维应用探索期

2022 年中,以 Stable Diffusion、Dall·E 为代表的二维图像生成应用快速发展,生成的二维图像质量与想象力迅速提升。得益于此,二维升维型三维生成应用的商业化价值进一步提升,产业界对其关注度因此迅速提升,技术发展再次提速。目前,二维升维型三维生成的训练难度、对硬件要求、生成效率等仍然是其应用商业化的巨大阻碍,但产业界公司加强了其与传统三维生成工作的衔接性,并尝试开发产业级应用,二维升维型三维生成应用的商业化仍然有待探索。



04

主流模型实现原理以及优缺点


1)Dream Fields 模型

2021 年末,Dream Fields 模型首次将 CLIP¹模型与 NeRF 模型相关联,利用 CLIP 从文本到二维图像的生成能力,结合 NeRF 从二维图像学习三维结构与纹理渲染的能力,实现从自然语言到三维的生成。


Dream Fields 模型证明了 CLIP 模型可以与 NeRF 模型结合应用,并突破了以往三维生成模型在想象力方面的限制。但 Dream Fields 模型生成的三维内容的结构仍然较为简单,因此不能生成大规模的三维场景,且其三维渲染效果较差。此外,Dream Fields 模型的生成效率很低,与传统三维生成工作的衔接性也较差,因此并不具备商业化价值。


2)CLIP-NeRF 模型

与 Dream Fields 同一时期提出的 CLIP-NeRF 模型同样将 CLIP 模型与 NeRF 模型进行关联,与 Dream Fields 模型不同的是,CLIP-NeRF 模型更加注重以自然语言或二维示意图对生成的三维模型与三维渲染效果进行调整。但在生成效果与商业化价值方面,CLIP-NeRF 模型与 Dream Field 模型存在同样的问题。


虽然存在种种缺陷,Dream Fields 模型与 CLIP-NeRF 模型展示了人工智能三维生成的应用潜力,验证了以自然语言进行三维生成的技术可行性,且探索了以自然语言改进生成结果的可能性。


3)DreamFusion 模型

2022 年 9 月,Google 提出的 DreamFusion 模型以 Dream Fields 模型为基础,用扩散模型得出概率密度蒸馏损失函数以替代 CLIP 模型,提升了从自然语言到三维内容的内容统一性,且证明可从单张二维图像生成三维模型具备可行性。


虽然 DreamFusion 提升了三维模型的结构准确性与渲染的真实性,提升生成效率的同时降低了对硬件的要求,但其生成的三维内容在规模、渲染与结构细节方面仍然不满足产业级应用的要求,且 Dream Fusion 模型在原理上即与传统三维生成工作的衔接性差,因此仍然难以进行商业化。


4)Magic3D 模型

2022 年 11 月,英伟达(Nvidia)提出的 Magic3D 模型在 DreamFusion 的基础上提出了两步优化策略:首先用与 DreamFusion 相似的扩散模型生成低分辨率、简单渲染的哈希网格三维模型,之后再采用与传统计算机图形学相似的方法对三维模型进行更高质量的渲染。


与 DreamFusion 相比,Magic3D 模型生成的三维模型分辨率更高,且渲染效果更好,生成效率也有了显著的提升。由于 Magic3D 模型的渲染方式与传统计算机图形学有非常紧密的关系,且其生成结果可以直接在标准的图像软件中进行查看,因此 Magic3D 模型可以更好地与传统三维生成工作进行衔接。鉴于各方面优势,Magic3D 模型已经具备进行产业应用的能力基础。


在 Magic3D 模型之后,学界与业界也提出了更多三维生成模型,在生成质量、生成效率、硬件需求、场景应用等方面均进行了更深入的探讨,也有着较为明显的优势与缺陷。



05

3D 内容生成产业应用场景丰富,影响商业化应用的关键因素成为赛道机会


3D 内容生成应用场景非常丰富,比如游戏开发中,游戏开发者可以使用三维生成技术快速地创建逼真的三维场景和虚拟角色,提高游戏的真实感;比如建筑、包装、工业等设计工作中,设计师可以使用生成技术快速地创建模型和可视化效果,提升设计的效率,应对更多定制化的需求,降低生产成本等。


决定 3D 内容商业化应用的关键因素主要在内容生成的质量、生成效率以及可控性三个方面。


1)生成质量:三维生成的内容质量包括三维模型的精细度、模型的准确性、三维渲染的分辨率、渲染的色彩与光影的准确性、渲染对材质的表达等多个方面,在应用中对三维内容的质量有较高的要求。相比于传统三维生成,目前人工智能三维生成的生成质量仍然存在一定差距。


2)生成效率:与生成二维图像不同,三维生成由于维度的增加,生成过程中所需计算量呈指数级上升。由于庞大的计算量,目前人工智能三维生成的效率较低,多数模型的生成效率难以满足实际应用中的要求。且模型在训练与推理过程中需要占用大量存储空间,因此目前多数人工智能三维生成成本较高。


3)可控性:对三维内容的可控性主要包括是否可以生成符合要求的三维内容、是否可以根据要求对生成的三维模型与三维渲染效果进行修改。目前人工智能三维生成模型在三维内容方面可以满足应用的基本要求,但是在修改方面的表现仍然差强人意。


满足应用中修改功能要求的方法有两种,一种是继续加强模型对自然语言指令与图像指令的理解能力,这种方法主要需要技术上的持续突破。但由于技术突破的不确定性,使模型可以与传统三维生成工作进行衔接的方法则更有可行性,这要求模型可以将三维建模工作与三维渲染工作分离,且生成的三维模型必须为网格数据。


因此我们认为,高质量的 3D 内容和数据、高效率和可控制的生成技术是赛道中令人期待的环节和机会点。



06

3D AIGC players 重点追踪


1)3D 内容数据资产公司

以往 3D 内容生产主要有人工建模和三维扫描两种方式,其中核心看好三维扫描中的图像建模、结构光技术。三维扫描,又称 3D 数字化、3D 建模,指通过机器扫描、配套软件处理,人工修复生产出具有三维立体数据、色彩、纹理、各种几何面的 3D 数据模型。机器扫描又分为激光、结构光、图像建模三种细分领域,各有优缺点,具备核心竞争力。


国外传统 3D 公司以激光为主。海外是从上世纪 80-90 年代开始进行研发和商业化,以服务汽车、机械、建筑、医疗等行业应用为主,绝大部分采用激光雷达扫描,价格十分昂贵,且扫描后的模型无色彩纹理,无法用于互联网、AR/VR 的消费端。


中国军团厚积薄发具备全球竞争力。我国几乎与国外同步开展相关研发和产业化培育,产研学一体,自主研发,在图像建模、结构光技术研发、商业化、工程实践上取得一定进展。能解决未来十年数十万亿级别的 3D 内容,主要是依赖图像建模、结构光技术的发展。


3D 扫描公司在过往几年中通过高技术能力的硬件切入市场,拥有沉淀了大量的 3D 素材和资产,尤其是成像精度较高设备,高质量的模型库是未来 3D 世界的基础设施和素材,拥有核心资产。这类公司从数据层切入,逐步搭建软件平台,构筑商业壁垒


2)底层模型公司

在 2D 图片领域有 Midjourney 作为典型创业投资代表,底层模型公司主要构建通用的 3D AIGC 模型,例如 OpenAI、英伟达、谷歌、微软等,他们在底层模型上大资金的投入和研发技术能力以及商业化场景的探索,技术路径的多样性和不确定醒使得创业公司拥有技术上弯道超车的可能性,而和大厂相比十分有限的训练推理的成本资源等也使得创业公司异军突起难点重重。


3)垂直应用公司

这类公司通常专注于一个垂直细分赛道,用 AIGC 的能力赋能整个产业链,包括各个垂直行业的设计平台,都陆续在发布自己的 AI 产品,尝试去生成 3D 模型,但是目前还处于比较简单的状态。值得关注的是,其中设计的提效,也取决于产业链中设计能力的附加值,更多仍应该重点关注商业化逻辑本身。



07

小结与展望


从目前看来,虽然 3D 内容生成不确定性依旧很大,但是人们对于从二维世界到三维世界的追求是确定的,也正是这些追求带来更多高效的体验和工具,使得人从繁琐重复的工作中脱离出去,去做更多有创造性地工作。我们仍旧坚定相信一个属于未来的 3D 世界,高质量的模型数据资产以及 AIGC 的技术赋能,一定会加速那一天的到来。


本文数据以及内容参考源于媒体平台以及行业报告、公开资料北拓资本整理。




部分交易 

黑芝麻智能ClickPaaS第四范式讯能集思探维科技不停科技 PROPHESEE本末科技开为科技华瑞指数云 群脉科技云蝠智能九四智能盎锐科技大麦地星辰空间星测未来星空动力九天微星范特科技薪人薪事优蓝国际颐圣智能超维知药知行合一微密医疗乐准智芯硅基智能极芯通讯恒百锐信迈医疗博志研新诺领科技新通药物普罗亭零犀科技深蓝航天达利凯普九天微星瑞莱生物三盟科技驭势科技江行智能


北拓研究 




【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

专栏文章
查看更多
数据请求中

推荐专栏

数据请求中

一起「遇见」未来

DOWNLOAD FORESIGHT NEWS APP

Download QR Code