巨型 AI 模型时代已结束？这家 AI 初创公司再获 2.5 亿美元融资

2023-05-1107:57

元宇宙之心

2023-05-11 07:57

元宇宙之心

2023-05-11 07:57

收藏文章

订阅专栏

作为加拿大的一家初创企业，Cohere 何以突出重围，斩获众多投资者的青睐？

撰文：元宇宙之心

随着 OpenAI 推出 ChatGPT 在人工智能领域掀起的千层浪，生成式 AI 开始被普罗大众所熟知。《日本经济新闻》在此前报道中指出，全球 100 多家大规模生成式 AI 企业总市值达 480 亿美元，约为 2020 年的 6 倍，OpenAI 的确引领了市场对生成式 AI 企业的投资热潮。

实际上，除了 OpenAI，AI 的发展浪潮中还有 Jasper、DeepMind、Stability、Cohere 等竞争者。5 月 3 日，《纽约时报》报道称，两名知情人士透露 Cohere 已获 2.5 亿美元融资，估值约 20 亿美元，投资者包括互联网软件巨头 Salesforce、芯片制造商 Nvidia、多伦多风投公司 Inovia Capital 和硅谷公司 Index Ventures。这是自 2022 年 ChatGPT 发布后在生成式 AI 领域的最新重大投资。而此前，Cohere 筹集的总资金已达 1.7 亿美元，包括 2022 年由 Tiger Global 领投的 1.25 亿美元 B 轮融资。

「百舸争流，奋楫者先；千帆竞发，勇进者胜」。作为加拿大的一家初创企业，Cohere 何以突出重围，斩获众多投资者的青睐？了解该企业的发展历程、其产品区别于 ChatGPT 的独特优势后，相信我们会对投融资市场风向的选择理由与生成式 AI 的发展动向有所理解。

一篇著名的论文

创立于 2019 年的 Cohere 是一家自然语言处理 (NLP) 公司，基于大型 NLP 模型为外界提供 API 服务，从而提高计算机理解和生成文本、阅读和写作的能力。该公司由艾丹·戈麦斯 (Aidan Gomez) 与两个朋友 Nick Frosst 和 Ivan Zhang 一起创办，它的总部位于加拿大多伦多，在美国旧金山、英国伦敦均设有办事处。自合作以来，他们组建了一支约 135 人的团队，目前还在继续扩建以更好的提供相关 API 服务。

两位联合创始人 Aidan Gomez 和 Nick Frosst 曾担任过谷歌研究员，其中 Aidan Gomez 是大名鼎鼎的《Attention Is All You Need》论文的作者之一。该论文提出了一种新的、被誉为 ChatGPT 的「祖师爷」的网络架构「Transformer」，ChatGPT 通过 Transformer 模型进行了序列建模，并通过自回归方式进行训练，使得大语言模型能够根据前文内容和当前输入，生成符合语法规则和语义逻辑的拟人化内容，这使得国内外都掀起了一波未平一波又起的大规模语言模型训练的热潮。

Cohere 提供了与 ChatGPT 类似的产品，目前主要包括：搜索文本（多语言嵌入、神经搜索、搜索排名）、分类文本和生成文本三大类产品，帮助企业快速部署对话式 AI 聊天机器人、生成式搜索引擎、文本摘要总结、增强向量搜索等，是为数不多在技术层面具备与 OpenAI 进行竞争的 AI 企业之一，这也是其受到资本市场青睐的重要原因之一。

Cohere 曾在 2021 年 9 月获得 4000 万美元 A 轮融资；2022 年 2 月获得 1.25 亿美元 B 轮融资，投资者包括老虎环球基金、「AI 教父」 Geoffrey Hinton、斯坦福大学教授李飞飞、深度学习专家 Pieter Abbeel 等。在 2022 年 10 月，Cohere 便开始与谷歌、Salesforce、Nvidia 进行融资谈判，如今，Cohere 获得巨额融资将继续与 OpenAI 展开激烈竞争，继续加快类似 ChatGPT 产品的技术创新和更新迭代。

资本为何青睐？

实际上，在 OpenAI 发布 GPT-4 之后的一段时间内，大部分人都将目光聚焦于 AI 大模型，包括 Anthropic、 AI21、 Cohere 和 Character.AI 在内的众多资金充足的初创公司都在投入大量资源来构建更大的算法和模型，以期待努力赶上 OpenAI 的技术。

但就在 AI 竞赛如火如荼开展之时，OpenAI 的首席执行官 Sam Altman 却表示巨型 AI 模型的时代已结束，「未来新一步的进化，将不会来自于巨型模型」。那同属该领域的 Cohere 又为何会获得资本的青睐呢？

Cohere AI 将其模型分为两类：生成模型和嵌入模型。生成模型通过对互联网上大量的数据进行训练，而嵌入模型是多语言支持的，可以支持超过 109 种语言。Cohere 的模型有不同的规格，公司的指令模型每周都在进步，而同类领域的其他提供商通常要几个月或甚至一年才会发布重要的模型更新。

尽管 Cohere AI 与谷歌合作获取其硬件能力，但其并不仅限于 Google Cloud。例如，Cohere 在 AWS SageMaker 上运营，并计划在其他云服务提供商上提供服务。Cohere AI 的方法非常开放，并以客户为中心，他们通过在任何云供应商上运行以使客户获得最佳体验和服务。

相较于 GPT-4，Cohere AI 尚未采用多模态方法。Cohere AI 的高级副总裁 Saurabh Baji 表示，「我认为图像和视频非常令人兴奋。但从商业角度来看，这也是一个不同的问题。我们并不关注 AGI，而是专注于客户实际面临的问题。很多客户的需求都非常以语言为中心。」

从 AI 竞争格局的角度来看，Cohere AI 和 OpenAI 都是目前 AI 领域的重要参与者。虽然两家公司都专注于大型语言模型，但它们的重点和方法略有不同。OpenAI 在一系列领域都有所涉猎，包括自然语言处理、计算机视觉和强化学习等。此外，OpenAI 也吸引了大量的资本，其中包括像微软、谷歌和亚马逊这样的科技巨头。

相比之下，Cohere AI 专注于提供易于使用和部署的大型语言模型，为企业客户提供更好的商业解决方案。尽管 Cohere AI 在规模和影响力上与 OpenAI 存在一定的差距，但其在语言模型方面的专注度和灵活性使其成为一个非常有前途的公司。

另外，在资本方面，Cohere AI 也获得了很多青睐。除了几个知名风险投资公司的支持，该公司还获得了加拿大政府和 Google 等科技巨头的支持。这些资金的注入有助于 Cohere AI 继续扩展其业务和规模，并在 AI 市场上取得更大的份额。

总的来说，虽然 Cohere AI 和 OpenAI 在 AI 竞争格局中处于不同的位置，但它们都是这个领域中非常有前途的公司。Cohere AI 在语言模型方面的专注度和灵活性使其成为一个与 OpenAI 进行竞争的关键因素之一，而资本的支持也给了 Cohere AI 更多的机会来发挥其潜力，并在市场上取得更大的份额。

实用角度看大语言模型

大语言模型（Large Language Models，简称 LLMs）是一类基于深度学习技术的自然语言处理（NLP）模型，它们具有大量的参数，并能够理解和生成人类语言。这类模型通常采用神经网络架构，尤其是 Transformer 架构。

近期，一篇综述论文《在实践中利用大模型的力量》在 AI 学术圈爆火，而其中一张名为「大预言模型进化树」的图片引起了不小的轰动，其梳理了 2018 年到 2023 年的大预言模型代表作。

相较于 Open AI 不断深耕至今走向 AI 的前沿，曾经颇具影响力的谷歌 BERT 似乎从一开始就走向了「岔路」。当我们以年为单位看 LLM 发展史的时候，忍不住唏嘘「在大模型没有成功之前，一切都是场赌局」。

大语言模型发展进化史

2017 年的时候，谷歌研究员在《Attention is all you need》一文中介绍了 Transformer 架构——这也是目前最常用到的架构之一，是 BERT、GPT 等预训练模型的基础。时至今日，Transformer 架构仍是 GPT 模型的基础架构。

Transformer 架构的提出和预训练的方法将大语言模型推向了新的阶段——以谷歌为首的科技大公司在 2017 年后聚焦于研发能够处理多种自然语言任务的大模型。

2018 年 6 月，OpenAI 采用 Transformer 架构发布了它们的模型——GPT-1。紧接着，谷歌正式向世界介绍了全新预训练模型——BERT。

时间来到 2019 年，微软宣布与 OpenAI 达成 10 亿美金的合作。次年 9 月，OpenAI 授权微软使用 GPT-3 模型，微软成为全球首个享用 GPT-3 能力的公司。

科技巨头 Meta 当然也不甘示弱，于 2022 年推出有着「开源版本的 GPT-3」之称的 OPT，并于今年推出能在单个 GPU 上运行的大语言模型 LLaMA。

如今 GPT-4 也已发布，更强的文本生成能力与详细的逻辑判断能力让 OpenAI 在四年内快速崛起，并成功「破圈」。

Cohere 的联合创始人 Nick Frosst 对 Altman 认为大模型不会永远奏效的观点也是表示认同的，他表示「有很多方法可以让 Transformer 变得更好、更有用，而且很多方法并不涉及向模型添加参数」。Frosst 还说，新的 AI 模型设计或架构，以及基于人类反馈的进一步优化，将会是许多人工智能研究人员已经在探索和有前途的方向。

一些有前景的 LLM 用例

利用 LLM 大模型可以做许多「很酷」的事情，但我们必须承认，基于人类实际需求的创新发展方向才是最根本的逻辑，所以「实用主义」是我们考量 LLM 应用的重要指标。

对于到底是选择只经过预训练的大模型 LLM，还是在此基础上经过特定数据集微调后的较小模型问题，《在实践中利用大模型的力量》这篇论文给出的答案是具体情况具体分析，我们可以参照这张决策流程思维导图来获得一些启示。

各种基于 LLM 构建的应用程序在不断刷新我们的认知，计算机科学家 Chip Huyen 在其文章《为生产构建 LLM 应用程序》中为我们提供了一些有前景的 LLM 用例：

人工智能助手：针对不同用户群体来构建不同的任务，比如安排日程、做笔记、预订航班、购物等。但是，最终目标是打造一个可以帮助你做任何事情的智能助手。

聊天机器人：聊天机器人在 API 方面类似于人工智能助手。如果说人工智能助手的目标是完成用户交给它的任务，那么聊天机器人的目标更多的是成为一个伴侣。例如，你可以让聊天机器人像名人、电影角色、作家等一样说话。

学习：ChatGPT 不仅可以生成问题，还可以评估学生输入的答案是否正确，以及对论文进行评分和反馈。同时，它也很擅长在同一个辩论话题上采取不同的立场，可以成为学生很好的辩论伙伴。

搜索引擎优化：如今，许多公司都依赖于创造大量内容，希望在谷歌上排名靠前。但在未来，搜索引擎优化可能会变得更像一场猫捉老鼠的游戏：搜索引擎会想出新的算法来检测人工智能生成的内容，而公司则会更好地绕过这些算法。人们可能也会减少对搜索的依赖，而更多地依赖品牌（例如，只相信某些人或公司创造的内容）。

除此之外，大语言模型可以帮助生命科学研究人员更好地理解蛋白质、分子、DNA 和 RNA，帮助信用卡公司进行异常检测和欺诈分析以保护消费者，帮助法律团队进行法律释义和抄写等。

在未来的模型面前，或许现在我们看到的大模型只是蝼蚁。但我们可以期待，未来更加强大的语言模型将会更彻底改变人们的生活方式。

现在，我们可以看到越来越多的企业涌入 AI 的洪流，个体也不可避免地主动参与或者被席卷进去，我们永远不知道明天会发生什么。未来的另一个五年又会有多少大语言模型出现，谁又将冲在行业最前端呢？让我们拭目以待。

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。