圆桌 | 阿联酋 Terra Nova ：AI 数据需求的三个类别

2024-11-16 07:00

爆米花独角兽

2024-11-16 07:00

来源链接

订阅此专栏

收藏此文章

本文由爆米花独角兽独家翻译

前言

爆米花独角兽独家整理了 16 家来自全球范围内的 VC 发表关于他们对 AI 赛道投资的理解。

这是第五篇《阿联酋 Terra Nova ：AI 数据需求的三个类别》

前面几篇：

《圆桌 | 德国 Cherry Venture 的 AI 投资理念》

《圆桌 | 美国 Flybridge 投资理念：人工智能的未来》

《圆桌 | 中东欧 Movens Capital 的 AI 投资理念》

《圆桌 | 印度 Pentathlon 谈 AI SaaS 的愿景》

💡Terra Nova Research 简介💡

Terra Nova Research总部位于阿联酋，Terra Nova Research 致力于提供对变革性新兴技术和颠覆性初创公司的专家覆盖。除了我们自己的观点文章，我们还与顶级风险投资家合作，推广他们的思想领导力和行业专业知识。

Terra Nova Research 的使命是挖掘关键知识和新兴趋势，帮助创始人、投资者和企业高管在快速变化和技术进步的世界中导航。同时，通过聚合我们在风险经济中深厚网络的专家见解，我们旨在提升下一代投资者在创新生态系统中的声音。

在与我们的有限合伙人、创始人及风投界的同行交流中，我们团队识别出了一系列围绕人工智能的关键趋势，认为在投资人工智能公司时，关注这些趋势至关重要。我们密切跟踪这些趋势，确保我们的投资策略在这个快速发展的人工智能领域中始终稳健且具备高度适应性。

人工智能领域正以惊人的速度变革，并持续深入渗透到商业和消费领域的众多应用中。我们已经并将继续看到大量资本涌入这个领域。在这样的环境下，甄别具有持久竞争力的人工智能公司，区分其与可能难以在这一高速变化领域中存续的初创企业显得尤为重要。

OpenAI 最近的开发者活动展示了许多新功能，包括允许开发者创建能够检索信息的人工智能助手的 API，以及无需编程即可导入外部数据、定制训练 GPT 的功能。这些新特性为许多风险投资支持的人工智能初创公司带来了生存压力，因为这些公司的核心价值主张正是围绕类似功能构建的。然而，这类初创公司往往缺乏足够的技术优势来构建持久的商业模式。在许多情况下，这些初创公司依赖于 OpenAI 的 ChatGPT API 包装器来构建核心产品，因而难以在企业价值方面形成有意义或可持续的竞争力。

为确保我们的投资理念在这一快速变化的人工智能领域中始终保持稳健，我们持续密切关注领域内的最新动态，聚焦于具备显著市场潜力和企业价值创造能力的有竞争力公司。

值得注意的是，我们认为 Terra Nova 投资组合中的人工智能公司并未受到 OpenAI 最近功能更新或领域内其他企业扩展努力的显著影响。原因之一在于，我们大多数具备人工智能功能的投资项目并非仅仅围绕独立人工智能产品而构建。

例如，我们投资组合中的公司 Wellplaece 就利用人工智能服务其特定的医疗健康市场平台。Wellplaece 的竞争力不仅来自其人工智能模型功能与现有技术相媲美的能力，更在于该平台能够充分利用人工智能技术进步来推动其自身的产品发展路径。

我们对人工智能的投资理念和观点

我们将对人工智能的投资理念和观点分为以下三个部分：

我们对人工智能初创公司进行分类的框架。

我们从业内人脉中发现的新兴趋势，这些趋势可能会影响人工智能初创公司的持久性。

我们如何区分那些具有持久性和创造企业价值的人工智能公司与面临激烈竞争或技术挑战的其他参与者。

第一部分：人工智能初创公司分类框架

我们对人工智能初创公司进行了细分，依据它们在数据需求层次结构中的位置来分类。这一分类十分关键，因为人工智能企业的成功高度依赖于其有效利用数据的能力。

人工智能的竞争优势很大程度上取决于对独特数据集的访问。对于人工智能服务提供商，特别是那些训练或优化模型的公司，大量专有数据集的可用性至关重要。数据的作用不仅限于支持个性化用户体验，还构成了企业人工智能运营的基石。简单而言，数据质量直接影响了人工智能价值链中所有参与者的表现。

因此，我们认为根据新兴人工智能解决方案与公司数据基础设施的互动方式来对其进行分类是最合适的方式。

我们的评估模型围绕“数据价值积累金字塔”展开。随着在数据层次结构金字塔中每上升一层，价值积累和市场机会会逐渐减少。这个框架将数据需求及其相关的价值创造分为三个不同的层次：

第一层 - 主要数据需求：金字塔的底层是数据存储层，是所有数据活动的基础。在这一层，稳定和持久的价值更为显著，代表性公司如 Snowflake 和 Google BigQuery。

第二层 - 次要数据需求：这一层是操作层，包括数据管道及人工智能模型训练等操作。Databricks 和 Alteryx 等公司提供了将数据转化为可操作见解的工具，推动了该层的增长。许多人工智能初创公司也在这一层构建创新解决方案，提升数据处理的能力。

第三层 - 三级数据需求：金字塔的顶端为终端用户应用层，人工智能的影响在此最为直观。该层的代表性应用包括聊天机器人、推荐引擎，以及用于报告、总结、信息检索等功能的工具。例如，Adept.ai 和 Otter.ai 提供的服务展示了此层的创新。

依据这一框架，我们可以更清晰地分析哪些人工智能初创公司具备进入高价值市场的潜力，同时也能识别出新公司可能面临的挑战。

第二部分：数据金字塔内的潜在机会

主要的存储层

在存储层，大部分存储问题已经得到解决，因此在这一层中崭露头角的初创公司相对较少。尽管如此，我们会关注潜在的范式转变，可能带来颠覆性的市场机会。

次级的操作层

操作层是数据金字塔的核心，负责将数据转化为实际业务成果。未来两到三年内，我们认为该层对人工智能生态系统中的创新公司最具吸引力。目前在这一层运营的公司（如 Databricks 和 Snowflake）提供了强大的数据处理和分析能力，对人工智能模型的开发与部署至关重要。表现优异的数据操作初创公司可能成为下一代人工智能驱动创新的催化剂。

三级的应用层

这是人工智能领域中最为显眼的部分，主要涵盖直接面向企业和消费者的应用程序和服务。这个领域中的初创公司众多且竞争激烈，许多公司都难以保持相关性，尤其是在 OpenAI 等大型基础模型进一步扩展功能的情况下。

第三部分：区分优劣

许多应用层的人工智能初创公司构建于 OpenAI 的表层之上，依赖调用 ChatGPT API 的包装器组合，来开发信息检索或总结类产品。我们认为，随着 OpenAI 扩大其功能范围，无论是自身提供这些功能，还是通过与微软、Salesforce 等合作伙伴的集成（这些合作伙伴具备强大的分销能力，并托管了大量人工智能用户数据），这类初创公司将会面临更大挑战。当同样的功能可以直接集成到 Salesforce 等平台中时，很少有企业会选择将客户关系管理或其他核心业务功能交给尚未广为人知的初创公司。。

另一方面，应用层中仍然存在一些能够持续创造价值的商业模式，其优势来源于以下两方面：（1）创新的数据收集方法；（2）创建多模态能力。具体如下：

创新的数据收集方法，为人工智能开发和训练积累专有数据集。

我们观察到，许多应用层的初创公司通过创新方法帮助客户获得专有数据，为特定用例开发高性能解决方案。在评估潜在投资时，数据积累和专有数据使用的优势一直是我们投资理念的关键。我们与 2022 年 EVC List 投资者群体合作开发的人工智能论文简报文章中，也重点分析了这一数据差异化的重要性。

正如丰田风险投资公司高级副总裁 Chris Abshire 在他的简报《理解生成式人工智能》中所提到的：“顶尖公司正在创造性地抓取数据，并与科技巨头合作——在网络规模数据上进行训练的成本非常高，因此这些巨头的计算资源至关重要。拥有专有数据的公司具备显著优势，因为它们能够为特定应用对现有模型进行微调。”

这种策略在 3D 生成式人工智能领域得到了充分体现。许多在这一领域取得进展的初创公司通过简化用户从手机或相机捕获并上传 3D 模型的过程，克服了 3D 数据的缺乏问题（相比之下，3D 数据量比训练如 Midjourney 等文本到图像模型的 2D 数据少很多）。Polycam 和 CSM 是此领域的典型代表，它们依赖用户提交的数据来改进模型训练。

创建多模态能力，将应用层的多种特性结合，为客户群体提供粘性且持久的解决方案。

我们投资组合中的人工智能初创公司 Tavus 就是一个利用数据层模型的例子。Tavus 的平台运用音频和视频生成技术，为用户提供个性化的视频复制服务。这种对音频和视频输入的多模态运用，使 Tavus 能够构建一个受基础模型提供商干扰较小的解决方案，并通过用户数据输入建立了先发优势。

第四部分：影响初创公司竞争力的趋势

基础设施层内的几项更广泛的趋势表明该领域的价值正在逐渐趋同，尽管并非所有趋势都会在同一时间框架内实现。

趋势 1：绝大多数计划部署人工智能的公司缺乏所需的数据基础设施，这凸显了当前在操作和基础设施层面加速人工智能采用的必要性。

只有少数技术先进的公司具备足够复杂的数据基础设施，能够部署有效利用内部数据的人工智能解决方案。大多数企业依然依赖传统基础设施供应商，并缺乏搭建小规模模型或基本数据管道的专业知识。可惜的是，这些企业仍然在数据金字塔的第二层停滞不前。

此外，人工智能技术发展如此迅速，以至于公司不得不投入资源去开发很快就会过时的技术能力。目前，公司有两种主要选择来适应这一变化：（1）采用可以跟上创新步伐的平台，或（2）组建内部团队应对技术变化。

选择组建内部团队的公司可能会落后于那些将资源投入到获取竞争优势上的企业。支持数据平台和人工智能运营的公司可能会在这方面成为赢家。

某些行业可能会因优化数据基础设施而实现显著的生产力提升。例如，供应链物流在各个环节中产生大量数据，但目前对这些数据的利用率依然很低。制造业是另一个例子，通过改进设备和机器产生的数据基础设施，可以开拓预测性维护模型等机会。

趋势 2：从长远来看，市场主导地位可能会从少数几个大型通用模型（如 GPT）转向由更小、更个性化模型构成的分散格局。

目前，人工智能模型的主导地位集中在少数几家能够承担训练大型模型高昂成本的公司手中，如 OpenAI、Anthropic、谷歌和 Meta。支持未来分散化生态系统基础设施的初创公司可能找到并创造具有竞争力的价值积累机会。然而，我们认为这一分散化过程可能需要数年时间，因为当前的大型基础模型满足了大多数用户的需求和成熟度要求。

我们对长期分散化趋势的看法部分源自通用基础模型的规模优先化导致的性能回报递减。人工智能模型开发者发现，随着模型规模的增大，性能提升的效果在逐步减弱。近年来，通过增大模型（即增加参数数量）提升性能的策略已达到一个临界点。

近期的研究表明，相较于继续增大模型规模，扩展训练数据更易带来改进效果。我们预计短期内不会出现大量能够替代 ChatGPT 或其他大型基础模型的更小、更垂直化的模型。目前，训练 GPT 或 Anthropic 规模的模型成本超出了初创公司能力范围——尽管这种情况可能很快改变。

然而，随着较小的模型在精选且个性化的数据集上表现出更优异的能力，我们预计未来几年中对更小、更个性化模型的偏好将增加。这一观点在过去一年中始终是我们投资理念的重要部分。我们与 EVC List 合作讨论了这一趋势的前景，迦南合伙人 Rayfe Gaspar-Asaoka 在他的简报《下一代人工智能技术栈》中提到：

“我看到基于人工智能和机器学习的应用程序将高度垂直化，聚焦特定用例，而构建这些应用所需基础设施的公司将成为拥有真正横向、粘性平台的行业巨头……”

最近几周，我们也从其他人工智能投资者处听到了类似观点。我们团队密切关注应用层最终实现分散化的可能性，以及这一转变将如何使基础设施提供商受益。

最近的项目采购中显示出初创公司试图构建架构以支持多样化模型生态系统的趋势，这一生态系统可以为每次推理请求提供多种选择。目前，这些初创公司的主要障碍是缺乏足够的模型多样性以支持市场扩展。目前，开源解决方案如 LangChain 尚可满足此需求。

我们正在积极关注基础设施解决方案在价值潜力方面的变化，这些解决方案将有助于未来连接更广泛的人工智能应用生态系统。目前，我们认为，推动数据基础设施广泛采用的解决方案最有可能创造企业价值。

写在最后

敬请期待。

除此之外，如果在阅读本篇时，略有困难，那是因为您尚未阅读他的前述文章，

第一篇《AI 算法分析 94 家海外 AI 独角兽》，我们分析了 2015 年后成立的 6500 家 AI 公司, 并且整理出了 94 家海外 AI 独角兽。
第二篇团队分析《原创研究 | AI 创业：团队决定命运？》。
第三篇机构分析《AI 投资新格局：科技巨头主导，VC 退居二线》。
第四篇，OpenAI 分析《原创研究 | OpenAI 黑帮使命：从邪恶的 OpenAI 手中拯救人类》。
第五篇中美技术对比《原创研究 | 大国竞争之中美 AI（一）技术篇》。
第六篇中国独角兽分析《大国竞争 | 中美 AI 对比（二）独角兽篇》。
第七篇中国 AI 独角兽点评《人工智能：爆米花独角兽与数字庞氏的交响》。
第八篇国内创业方向分析《大国竞争 | 中美 AI 对比（三）创业方向和人才来源》。

推荐专栏