速递|AgentGPT 团队新作,四个人用 AI Agent 爬取整个公开网络,获 YC 和 AI Grant 等数百万美元投资
2024-07-2606:50
有新Newin
2024-07-26 06:50
有新Newin
2024-07-26 06:50
收藏文章
订阅专栏

去年,Reworkd 创始人凭借 AgentGPT 在 GitHub 上爆红,这款免费工具在一周内吸引了超过 10 万名日活用户,使他们成功入选了 2023 年夏季 YC 的项目。

不过,创始人很快意识到,构建通用 AI Agent 的范围过于广泛。因此,Reworkd 现在专注于网络抓取,特别是构建 AI Agent 以从公共网络中提取结构化数据。

▍AgentGPT 曾在 1 周吸引 10 万用户

AgentGPT 为用户提供了一个简单的浏览器界面,可以创建自动化 AI Agent。很快,大家纷纷赞叹 Agent 是计算的未来。

当工具爆火时,Asim Shrestha、Adam Watkins 和 Srijan Subedi 还住在加拿大,Reworkd 尚未成立,海量用户的涌入让他们措手不及。

目前,Subedi 担任 Reworkd COO,他表示该工具每天的 API 调用成本高达 2000 美元。出于这个原因,他们不得不迅速创建 Reworkd 并获得融资。

Reworkd 刚刚从 Paul Graham、AI Grant( Nat Friedman 和 Daniel Gross 初创加速器)、SV Angel、General Catalyst 以及 Panache Ventures 等投资者那里筹集了 275 万美元的种子资金。

此外,Reworked 去年还从 Panache Ventures 和 YC 筹集了 125 万美元的前种子投资,总计融资 400 万美元。

此前,AgentGPT 最受欢迎的应用之一是创建网络抓取工具,这是一项相对简单但高频的任务,因此 Reworkd 将其作为唯一的重点。

▍什么是公共网络数据?

尽管网络抓取工具已经存在了几十年,但在 AI 时代引发了争议。大规模抓取数据导致 OpenAI 和 Perplexity 陷入法律纠纷:新闻和媒体组织声称这些 AI 公司从付费墙后提取知识产权,并广泛传播,未支付报酬。

Reworkd 正在采取预防措施以避免这些问题。Reworkd 联合创始人兼 CEO Shrestha 表示,团队认为这是提升公开信息可访问性的一种方式,只允许公开可用的信息,不会通过登录墙或类似方式获取数据。

进一步来说,Reworkd 表示它完全避免抓取新闻,并对其合作对象进行选择。此外,CTO Watkins 表示,聚合新闻内容有更好的工具,他们的重点不在此。

举个例子,Reworkd 描述了他们与 Axis 的合作,Axis 是一家帮助政策团队遵守政府法规的公司。Axis 使用 Reworkd AI 从欧盟多个国家的数千份政府法规文件中提取数据,然后基于这些数据训练和微调 AI 模型,并作为产品提供给客户。

▍Reworked 如何做?

在 AI 时代,网络抓取工具变得无比重要。据 Bright Data 最新报告显示,2024 年组织使用公共网络数据的首要原因是构建 AI 模型。

问题在于,传统的网络抓取工具由人类构建,必须针对特定网页进行定制,成本高昂。但 Reworkd 的 AI Agent 可以在更少人力介入的情况下抓取更多网络内容。

客户可以给 Reworkd 一份包含数百甚至数千个网站的列表,然后指定他们感兴趣的数据类型。接着,Reworkd AI Agent 使用多模态代码生成将这些数据转化为结构化数据。

Agent 生成独特的代码来抓取每个网站,并提取客户所需的数据。例如,如果你想获取每个 NFL 球员的统计数据,但每个球队的网站布局都不同。

与其为每个网站构建抓取工具,不如让 Reworkd Agent 在提供链接和数据描述后为你完成这一任务。对于 32 支球队,这可能节省数小时;但如果有 1000 支球队,这可能节省数周时间。

在成立 Reworkd 并搬到旧金山后不久,团队聘请了 Rohan Pandey 作为创始研究工程师。他目前住在 AGI House SF,这是湾区最受欢迎的 AI 时代黑客之家之一,一位投资者形容 Pandey 是 Reworkd 内部的“单人研究实验室”。

Pandey 表示,他们自认为这是 30 年语义网梦想的顶点,指的是万维网发明者蒂姆·伯纳斯 - 李的愿景,即计算机可以读取整个互联网。尽管一些网站没有标记,但 LLM 可以像人类一样理解这些网站,这样我们基本上可以将任何网站暴露为 API。从某种意义上说,Reworkd 就像是互联网的通用 API 层。

Reworkd 表示,它能够捕捉客户数据需求的长尾,即其 AI Agent 特别擅长抓取大竞争对手常常忽略的数千个较小的公共网站。

Bright Data 等其他公司已经为 LinkedIn 或 Amazon 等大型网站构建了抓取工具,但为每个小网站构建抓取工具可能不值得人工成本,Reworkd 解决了这个问题,但也可能带来其他问题。

▍YC 和 AI Grant 等为什么投资?

Reworkd 吸引了许多知名投资者,从 Y Combinator 和 Paul Graham 到 Daniel Gross 和 Nat Friedman。

一些投资者表示,这是因为 Reworkd 的技术有望改进,并且随着新模型的出现变得更便宜。

Reworked 表示,OpenAI GPT-4o 目前在其多模态代码生成方面表现最佳,而且很多 Reworkd 的技术在几个月前还无法实现。

General Catalyst 投资人 Viet Le 表示,Reworkd 的思维模式是基于技术进步的速度。如果试图与技术进步的速度竞争,而不是在其基础上构建,那么作为创始人,将面临困难。

Reworkd 正在创建 AI Agent,以解决市场上的特定空白;公司需要更多数据,因为 AI 正在迅速发展。随着越来越多的公司构建特定于其业务的定制 AI 模型,Reworkd 有望获得更多客户。微调模型需要高质量、结构化的大量数据。

Reworkd 表示,其方法是“自我修复”的,这意味着其网络抓取工具不会因网页更新而失效。

此外,Reworkd 称其 Agent 生成的代码可以避免 AI 模型传统上的幻觉问题。AI 可能会犯错误,从网站上抓取错误的数据,但 Reworkd 团队创建了 Banana-lyzer,一个开源评估框架,以定期评估其准确性。

目前,Reworkd 团队只有四人——但其 AI Agent 运行需要承担相当大的推理成本。Reworked 预计,随着这些成本的下降,其定价将变得越来越有竞争力。

传统 VC 模式还能继续么?IPO 以及并购都是卡点,硅谷创投圈再次提出质疑BVP 投资人谈 SaaS 融资趋势:一二级市场估值脱节以及 IPO 延后,创始人、员工以及投资人需要关注的......






【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

专栏文章
查看更多
数据请求中

推荐专栏

数据请求中

一起「遇见」未来

DOWNLOAD FORESIGHT NEWS APP

Download QR Code