SenseAI 专访｜最近刷屏的具身智能李飞飞团队背后的故事

2023-07-2613:35

深思圈

2023-07-26 13:35

深思圈

2023-07-26 13:35

收藏文章

订阅专栏

“

具身智能一直是 SenseAI 非常关注的方向，不只是在未来原子世界里替代大量劳动力的机器人，在虚拟世界里具有具身感知和行动能力的智能，也会成为我们习以为常的存在。通俗来讲就是将机器人接入到大模型中，大家可以直接通过自然语言就给机器人下达指令，并且无需经过提取训练，机器人就能理解这个指令，并执行相关的操作，这可以说是为实现科幻世界中跟人类日常相处的机器人奠定了重要的基础。

最近一篇名为 VoxPoser: Composable 3D Value Mapsfor Robotic Manipulation with Language Models 的论文备受关注，并在国内媒体上被很多人转发刷屏了，此篇论文由李飞飞和吴佳俊老师指导，提出的 VoxPoser 系统展现了强大的自然语义理解和零样本执行性能。

SenseAI 也在第一时间访谈了论文的第一作者黄文龙，一窥冰山下具身智能的深刻思考和未来延展。

“

后续我们会访谈更多海内外 AI Native 创业公司 / 技术专家，如果你也是一名 AI Hacker/ 创业者 / 技术专家，欢迎添加后台回复【微信】加好友约聊，

我们期待听到你的声音。

AI Native 访谈录

VoxPoser

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

1. 论文：VoxPoser: Composable 3D Value Mapsfor Robotic Manipulation with Language Models

2. 访谈嘉宾：黄文龙（第一作者），毕业于加州大学伯克利分校，现在为斯坦福博士研究生

3. 技术介绍：将模型接入机器人，使得机器人可以零样本即可完成复杂指令和行动规划

4. 出处：SenseAI

1. SenseAI：优秀的研究总是水滴石穿的过程，文龙一路以来，在 LLM 大语言模型和机器人方向的研究路径是怎样的？

我在这个方向的探索起始于，2021 年的暑假，开始与我在伯克利期间的导师 Deepak Pathak, Igor Mordatch 和 Pieter Abbeel 一起，我们开始研究探究大语言模型在机器人中上的应用。当时的大语言模型远没有今天的强大，但是已经展现出令人惊讶的对世界的认知的能力。

这点在任务规划方面尤其明显，比如我们可以问这些大语言模型“如何做早餐”以及“如何做一杯咖啡”，即使无需任何额外的训练，它们已经可以给出非常合理的逐步的步骤。基于这点发现，我们系统地测试了当时已有的数个大模型在 100 个任务上的表现，并发表了论文“Language Models as Zero-Shot Planners”。随后语言模型有很多对于世界的认知，有任务规划的能力，展现出了知识能力，当时认为在机器人领域会很有作用，随后发表了论文 Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents，将大模型用于任务规划。

之后 Google 谷歌的机器人团队发表了有相似的工作 SayCan，在大模型上引入了 Affordance（意指机器人在环境中可能的操作）的概念，将大模型真正用于实体机器人上。Google 是有很长期的投入的。但当时仅限于 high level 的规划，即将任务分成很多步骤，但没有细化到每一步的执行，当时 Google 的做法是通过造很多的机器人和让人提供每一步的 demonstration 供神经网络去学习，大语言模型可以很好的把步骤串联起来。

方向的高度吻合让我有幸能加入 Google 谷歌的团队实习，并合作参与了这个方向上的多个后续工作，比如了 Inner Monologue: Embodied Reasoning through Planning with Language Models、Code as Policies: Language Model Programs for Embodied Control、Grounded Decoding 和 Guiding Text Generation with Grounded Models for Robot Control，同时也参与了 PaLM-E。

但是在这个方向上深耕后我也逐渐发现，相比于大模型具备的广泛任务规划能力，机器人的底层控制的通用性仍然是目前最大的瓶颈，比如即使它知道做各式早餐需要哪些步骤，简单的技能例如打开冰箱反而是对机器人更难的事情。

结束了谷歌的实习后，我开始在斯坦福就读博士研究生，出于对通用家务机器人的向往，我加入了斯坦福视觉与学习实验室（SVL）跟李飞飞和吴佳俊教授合作。组里的一个著名的项目叫 BEHAVIOR，目标是能让家务机器人完成 1000 个任务，这对机器人的通用能力提出了一个非常大的挑战。虽然大模型在通用知识以及高层次的任务规划上已经取得了很大进展，当前常见的底层控制方法却远远没有如此通用，因此我也开始思考如何把大模型的通用知识也带到机器人底层控制上。

随着大模型的迅速发展，我们发现它对很多常见任务具有了粗略的 Affordance 和 Constraint 的理解（比如开抽屉的时候要找抽屉的把手，以及有花瓶的时候要额外小心因为花瓶比较易碎），同时因为它也非常精通写代码，它可以操作 3D 体素图（3DVoxel Maps）给不同的地方给予不同的价值，比如把手的位置就会是高价值的，而花瓶的周边则是低价值的。通过这个 3D 价值图（3D Value Maps），机器人无需训练也可以实现十分通用的底层控制。基于这个发现，我们发表了我们最新的工作 VoxPoser。

2. SenseAI：这 1000 个任务的目标非常有趣，是李飞飞教授的长期目标吗？这 1000 个任务又是如何定义的呢？

这个是李飞飞教授多年前就提出的目标，李飞飞教授认为当下制约具身智能发展的关键就是缺少一个大规模的系统性标准来评判不同算法的有效性。

之前由李飞飞领导的工作 ImageNet 在计算机视觉领域就很好地证明了一个通用的标准可以最大程度的推动领域发展。此外李飞飞教授也注意到了具身智能与传统研究领域的区别，具身智能是一个与人类生活紧密联系的学科，需要从人类的需求和喜好出发，去定义一个以人为核心的研究标准。

为此 BEHAVIOR 项目组通过大量的问卷调研之后，根据用户的需求排名归纳了 1000 个人类最希望机器人解决的家庭任务，并开发了整套模拟器系统让各种算法在其中测试有效性。

3. SenseAI：VoxPoser 是否能代表控制底层控制的开发范式，形成运动规划的标准化合集，未来可以在上端嫁接不同的高层次的任务规划（high level planning）吗？

高层次的任务规划是这些大模型所擅长的领域，随着这个方向的持续发展，机器人在这个方向上的能力应该会有很大的进展。但是对于底层控制来说，目前仍然难以确定什么是最好的开发范式，因为机器人与 CV 或者 NLP 等不同，NLP 这些领域已有很多的数据，之前只是不知道如何进行学习，但已有数据的情况下发展是可以遇见的，但机器人没有数据，且需要有机器人后才能采集数据，如果没有很通用好的神经网路去控制机器人底层控制方法，也就难以部署机器人，这是个鸡生蛋和蛋生鸡的问题，所以目前没有形成统一的认知。

现在的重要研究方向是，如果没有机器人的数据，是否有其他方式和渠道可以得到类似的数据和知识，现我们这篇论文中的方式是利用语言和视觉大模型在三维空间中帮助对机器人完成任务进行引导，这也许是从基础模型中提取知识可能是比较有前景的方向在解决数据问题上的一种新的尝试。

但是仅从模型中提取知识是远远不够的，因为这些模型并不具备很好的无法用语言表达的物理知识，这些仍需要通过在机器人执行任务的过程中收集更多的数据完善行为，类似自动驾驶也是循序渐进的，先通过学习人类的驾驶行为后再从慢慢在实际部署中逐渐提升。

4. SenseAI：那现阶段看到的一些局限有哪些，是否有算力和延迟的问题？

算力长远来看可能不是问题，因为语言模型迭代很快，有很多方式可以提高效率，长远来看算力不会是问题。

最大的问题局限是大模型机器人不理解完成任务过程中的物理细节（physics），如一些瓶盖需要先按下去再打开，比如关微波炉门最后一下需要加大力气等细节问题，即使语言模型有相关知识，这些只是也很难准确用语言所形容，因此对细节动作上的帮助是微乎其微的，所以未来如何将这种物理操作知识与大语言模型的知识结合也是值得研究的。

5. SenseAI：那对于更多 sensor 传感器的加入，类似力传感等，以及热度很高的多模态模型，是否能带来更多的突破？

更多的传感器必然是有用的是很有用的途径，但仍会有数据的问题，现很多传感器缺乏数据因为我们并没有很多这些模态的大量数据，所以又回到了鸡生蛋，蛋生鸡的问题，没有数据就无法训练好的模型，没有好的模型就做不出机器人去收集数据。

6. SenseAI：VoxPoser 里的 LLM 和 VLM 语言模型和视觉模型是如何协作的，怎么想到这样的交互机制？

是通过代码实现交互的，我们这篇最新的工作并不是第一个使用代码实现语言模型和视觉模型之间的交互的，我当时在谷歌参与的 Code as Policies 是更早提出将代码作为交流媒介的，但是我们在那个项目中并没有探索这套方法对于实现 low-level skills（底层技能）的可能性，而是假设这些是已知的。

未来多模态模型一定程度上可以减少对语言模型和视觉模型之间交互的需求，现在通过代码交流就类似通过喊话的方式理解环境和任务，但很多场景的形容难以仅通过语言或代码实现，相比之下多模态模型可以直接观测整个环境，就可以直接写出更好的 3D 价值图。

7. SenseAI：代码的精确性起到了怎样的贡献？是不是一个不可替代的媒介？

代码相对于自然语言是有更好的精确性的，同时它也可以表达严谨的逻辑关系，比如当我们让机器人打开“最上面的抽屉”，在代码层面“最上面”指代的就是若干个抽屉中 Z 轴上排序最高的值，可以让机器人以精确的形式完成模糊的任务。

对于是否不可替代，我觉得仍然是一个开放的问题。因为相比于一个更高维的媒介例如图像，代码作为一个传输媒介它所携带的信息量是有限的，相比之下一张图可以表达丰富得多的信息；未来的研究方向可以是如何把不同模态的优缺点结合起来，让他们实现互补。

8. SenseAI：目前研究中使用的语言和视觉模型分别是什么？

现论文中使用的是 GPT-4 的公开接口，使用的是仅有文字的版本，多模态的版本目前还没有对外公开。

视觉模型使用了多个模型的结合，用了 OWL-ViT 做物体的探测，用了 SAM 做物体分割，以及 XMEM 做追踪。

9. SenseAI：研究中对人类提出任务的精确性要求有多高，如果没有精确给出细节上的要求，模型是否能自己进行定义？

我们在论文中对 VoxPoser 的实现目前是依赖人给出的具体的语言指导，例如“要小心那个花瓶”。但是大模型必然是具备这些知识的，例如看到一个易碎的花瓶时就应该额外小心，而不需要人来告诉它。我相信未来当大模型具备更好多模态的信息后，这上面应该会有比较大的进展。

10. SenseAI：论文中主要为单一 affordance，未来是否能解决多 affordance、多限制（constraint）的问题，是否也会有很多边角案例（corner case）？

VoxPoser 的一个优势就是能将多种 affordance 以及限制（constraint）结合到一个 3D Value Map（3D 价值图）中来指导机器人完成任务。

关于边角案例（corner case），由于我们使用的是纯文本的语言模型，而机器人中很多 corner case 需要通过更全面的视觉感知才能解决，这点我相信未来使用多模态语言模型也会得到长足的进展。

11. SenseAI：Constraint 需要做到多高的颗粒度，是否可以通过微调实现细节要求？

细粒度对于通过代码实现的 3D Value Map 一般并不是瓶颈，瓶颈更多是在这个 Value Map 是否正确，例如不同的抽屉可能有不同的打开方式，因此大模型直接通过“想象”生成的 Value Map 有时可能会是错的。关于微调 Value Map，也许可以通过在仿真中或者视频数据中进行学习。

12. SenseAI：我们关注到设计中有一个概念是“Entity of Interest”，任务过程中是否会动态调整，以及是否有检测和控制？

是的，“Entity of Interest” 指的是在当前的这个任务中，是什么需要被移动（比如是机器人、物体、或者物体的一部分），这个是由语言模型决定的。取决于具体任务，如果是让机器人从点 A 移动到点 B，要被移动的就是机器人；而如果是将垃圾扫到垃圾桶里，被移动的就是垃圾这个物体。

我们之所以这么划分是因为对于许多复杂任务，想让大模型直接控制机器人（例如它抓取物体的朝向等）是不现实的，这时它可以去形容物体该如何运动，而机器人的动作可以通过真实懂得物理的动态模型（ Dynamics Model）而给出。但是目前想要实现一个通用的 Dynamics Model 仍然是很大的挑战，这也是未来非常有意义的研究方向。

13. SenseAI：在商业化探索的道路上，未来底层控制是否有可能标准化、可用于做不同任务的机器人，能成为机器人领域通用的操作系统？

如果能实现底层控制的标准化，这必然是对机器人能广泛商业化的一大突破，但我们很可能需要除了大模型外更大的进展才能实现这个目标。之所以底层控制很难，是因为很多对人类来说简单的事情，对机器人反而很难，而对人类很难的事情，对机器人反而简单，这是机器人领域一个著名的说法叫“Moravec's Paradox”。

这不仅仅体现在高层次的任务上，例如机器人底层控制相比于精通各类语言要难得多，更体现在那些往往被人类认知所忽视的在同一任务中的细微变化上，比如各式各样的门需要不一样的打开方式。这些我们人类习以为常的能力，往往是对机器人最难的。

一个可能解释是：人在进化的过程中，物理角度能完成的工作与猩猩类似，只是猩猩没有语言能力，现语言模型补足的是猩猩和人之间的差距，但没有补齐蚂蚁与猩猩或人之间的差距，从蚂蚁发展到猩猩是漫长的过程，而猩猩到人的进化时间是更短的，说明物理意义上的进化有很多难点。因此即使我们这篇工作迈出了一小步让机器人可以零样本实现一系列基础任务，未来在物理层面能让机器人高效稳定地实现这些任务也许还需要走很长一段路。

14. SenseAI：不禁让人期待，您未来是否会有产业化的规划？

我未来是十分期待能见到机器人被广泛部署的一天的。当然，前提是我们能否在机器人底层控制上取得长足的进展，如果不能解决这个问题，就难以在开放世界中部署，只能在特定合适的领域中实现，如物流机器人、分拣机器人等。但即使是这些相对较小的领域，如果能成功部署，我相信必然也会对各个产业产生十分积极的影响。

Sense 说

通过和黄文龙的探讨，我们看到了研究团队极强的洞穿未来、定义核心问题的能力；而对于创造性解决问题的思考，简单而优美。期待更多优秀的研究和突破，带我们一起探索具身智能的未来。

后续我们会访谈更多海内外 AI Native 创业公司 / 技术专家，如果你也是一名 AI Hacker/ 创业者 / 技术专家，想要向大家讲述你的产品故事，欢迎后台回复【微信】加好友约聊，我们期待听到你的声音。

之前创建的深思圈信息分享群已经运行快半年了，里面会实时分享最新有用和有趣的信息，特别是 AIGC 和出海运营增长这块，群里的信息密度和新鲜度非常高，交流氛围也很好，大家一块在群内讨论和学习。目前 8 个群都已经 500 人满员了，我刚刚新建了 9群，欢迎感兴趣的朋友可以后台回复关键词【信息】，扫码入群。

往期阅读

作者：Vela，Yihao，Leo

转载请联系公众号后台

欢迎关注我们

关注全球 AI 前沿，走进科技创业公司，提供产业多维深思，我们是创业者 / 产品 / 投资人，这里是最有 AI-sense 的 SenseAI。

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

一起「遇见」未来

DOWNLOAD FORESIGHT NEWS APP

App Store

Android

推荐专栏

一起「遇见」未来