AI 大模型:人形机器人的理想大脑 | 北拓研究
2023-12-14 18:00
北拓资本
2023-12-14 18:00
订阅此专栏
收藏此文章

2022 年以来,人形机器人概念已经被市场多次追捧,行业内也涌现出一批优秀的创业公司,但目前产业距离大规模商业化还有较大差距,本文尝试探讨:人形机器人打开通用性的突破点在哪,AI 大模型如何打开人形机器人的通用性,以及未来发展方向的展望。

01
人形机器人距离大规模商业化仍有较大差距
人形机器人诞生已有 30 余年,由技术验证期向初步商业化过渡,产品行动能力随技术突破不断提高。人形机器人的发展历程主要分为三个阶段:
  • 第一阶段 (1973-2000 年 ) 技术起步期:以早稻田大学加藤一郎团队仿人机器人为代表的早期发展阶段,机器人实现双足行走,但动作缓慢;

  • 第二阶段 (2001-2015 年 ) 技术突破期:以本田仿人机器人 ASIMO 为代表的系统高度集成发展阶段,机器人的功能和性能大幅突破,具有初步的行动能力,期间 NAO 机器人实现在高校教育场景的商业化落地;

  • 第三阶段 (2016 年至今 ) 产业化尝试期:以波士顿动力 Atlas 为代表的高动态运动发展阶段,机器人技术具备一定基础,能 完成“跑酷”等动作,并开启探索人机交互、运输等落地场景。

2023 年特斯拉已从概念进化到可完成复杂动作的实体,引领行业进入新发展阶段。近日,特斯拉发布了 2 代 Optimus,拥有灵活的双手,手指伸展灵活得像个真人,2 个自由度的脖子可以让机器人在一定幅度内转头,特斯拉从行业新进入者快速成长为行业产品翘楚。
1:特斯拉发布 2 代 Optimus
资料来源:特斯拉官网

虽然目前人形机器人的技术和产品有了飞速的突破,但是通过对市面上最前沿的人形机器人进展的梳理,目前人形机器人未能大规模商业化应用,普遍处在早期研发阶段。

图 2:人形机器人商业化落地情况
企业项目商业化情况
特斯拉Optimus最快两年内做到小规模应用 尚未实现商业化
波士顿动力Atlas尚未实现商业化
本田ASIMO尚未实现商业化
Agility RoboticsDigit目前原型机在亚马逊进行测试
1X TechnologiesEVE已成功应用于巡逻安保场景
优必选Walker X成功出口到沙特 NEOM 新未来城
小米Cyberone尚无法实现量产
傅利叶智能Fourier GR-1开启预售
智元机器人远征 A1最快 24 年切入工业智能制造场景
资料来源:公开信息整理

02
通用性是限制人形机器人商业化落地的关键因素

我们认为,人形机器人追求极致的运动性能意义有限,真正限制人形机器人大规模商用的核心原因是通用性受限,主要体现在机器人对用户主体专业要求高和应用场景局限。

(1)用户主体:传统人形机器人偏向于是一种可编程的专用设备,需要高级算法工程师进行编码设定才能正常运控,普通用户难以直接参与。如果普通用户能与人形机器人实现交互,将会大大降低使用门槛,进而促进人形机器人走向大规模应用;

(2)应用场景:人形机器人的应用场景需要在开放式的复杂环境中完成各种任务。目前的人形机器人在用户主体和应用场景方面均有欠缺,要么需要机器人工程师进行控制,普通人难以直接使用,或者只针对简单场景和简单活动,缺乏通用性。


03
软件能力是解决通用性的核心要素

从结构上看,硬件端类似大脑决策层的执行机构,决定机器人类人运动能力的实现程度,而软件端能力构成机器人的底层技术,在于软件能力的运控和感知算法以及语言模型,类似人类的大脑,而硬件端负责执行来自大脑决策层(软件端)的命令,是机器人实现类人运动功能的保障。

依托于工业机器人的快速发展,执行类零部件的成本在人形机器人大规模放量后有望显著下降,因此硬件成本并不是人形机器人最终商业化受限的根本原因,软件阻碍机器人通用性的提升,软件升级是实现人形机器人发展的突破口

图 2:波士顿动力 Altas 可实现通过平衡木等高难度动作

资料来源:波士顿官方官网


04
机器人的大脑和小脑

机器人控制软件可分为 5 个层级,任务级为最高层级。机器人控制框架一般采用层级控制 (Hierarchical Structure) 方法,机器人控制层级分为任务级、 技能级、动作级、基元级和伺服级。任务级包括任务定义与描述、任务分解与动作拆分等; 技能级负责将拆分后的动作转化为符号指令;动作级、基元级和伺服级属于传统工业机器人的范畴,包括控制、执行、反馈等环节。

实现任级级交互可大大提高人形机器人通用性。以“去接一杯水”为例,实现这一动作需要在不同层级上实现不同的任务。

任务级:(1)任务定义与描述:去接一杯水;(2)任务分解与动作拆分:把从拿杯子、打开水龙头到接水的过程拆分为一个个的细小动作;

技能级:(1)生成符号指令:将一系列动作用计算机编程语言表示;动作级 / 基元级 / 伺服级;(4)控制 - 执行 - 反馈:根据符号指令完成一系列动作。

在传统机器人中,前三步由机器人工程师完成,只有第四步是机器人自主完成,实现任务级交互后,前三步可由机器人自主完成,用户只需要发送任务指令即可,用户主体从工程师变为普通用户。同时,传统机器人需要根据不同场景进行特定编程,实现任务级交互后,人形机器人可以在开放式场景中自主完成各类任务。

图 3:实现任级级交互可大大提高人形机器人通用性
 资料来源:珞石机器人 CTO 韩峰涛

类比人体结构,“大脑”是实现机器人任务级交互的主力军。在人体结构中,大脑主要负责抽象思维和感知协调,与机器人任务级交互的功能相似;小脑和脑干主要负责维持躯干平衡、控制姿态和步态,与动作级、基元级和伺服级的功能相似。以智元机器人为例,其 EI-Brain 可分为云端超脑、大脑、小脑、脑干,其中大脑负责完成任务级和技能级的调度,小脑负责指令级的调度,脑干负责伺服机的调度。

图 4:大脑负责任务级交互的实现,小脑负责低层级运控
资料来源:智元机器人公众号

05
大模型为人形机器人理想大脑,可提升人形机器人通用性

大模型的能力与任务级交互的要求相匹配,为人形机器人理想“大脑”。以 LLM 大语言模型为例,其具备多个领域的基础知识、强大的内容生成能力、良好的上下文理解、自然语言连续对话能力和强大的小样本学习能力,可以与任务级交互中的任务描述、任务分解、运行代码生成和任务过程交互等要求相匹配。我们认为,大模型为人形机器人理想的“大脑”。

图 5:大模型的能力与机器人任务级交互要求匹配
资料来源:珞石机器人 CTO 韩峰涛

大模型较传统 AI 模型有更强的泛化能力,可提高人形机器人通用性。在算法中,整个世界及规律犹如一座山脉,而小模型只是其中的一个小山包,无法看到小山包之外的东西。大模型提供了整个山脉的抽象信息,而不是具体的地理数据,这些抽象信息基于自然语言和符号进行训练,因此大模型可以解决边角场景、OOD 泛化性问题。以往的 AI 模型多是特定领域的专用模型,拓展新场景应用需要再经过一边“数据收集 - 标注 - 训练 - 部署 - 应用”的流程,很难应用在周围环境频繁变化的场景下。而大模型的出现,让成本较高的垂直领域 AI 开发,变成了“训练大模型 + 特定任务微调”的形式,大幅提高了开发速度,可提高人形 机器人在不同场景和任务下的执行成功率,从而提高人形机器人的通用性。

图 6:大模型解决任务的一般范式
资料来源:《On the Opportunities and Risks of Foundation Models》(Rishi 等,2022)

06
机器人大模型的核心能力

机器人大模型的最终目标是提升机器人在不同场景和任务下执行的成功率。人形机器人作为具身智能的理想载体,不仅需要在“任务层”上将一项具体的任务拆解为一项项具体的子任务,还需要切实地执行这些子任务,实现与物理世界的交互,因此机器人大模型的执行成功率是衡量机器人智能化程度的重要指标。

为了提升执行成功率,大模型需要具备以下 3+2 种能力:

一、对于限定的应用场景和任务,需要具备:

  1. 自主可靠决策能力:大模型需要结合任务基础和物理基础,自主地将高层级的任务分解为可执行 / 可靠的子任务。任务基础提供了任务的目标和方向,包括大模型对高层级语言指令的理解,对完成该任务一般步骤的掌握,需要具备强大的语言理解能力和常识积累;物理基础用于判断完成子任务的可能性,包括大模型对外部环境的感知、对自身状态的监控和对物理规则的理解,需要具备强大的感知能力和物理理解能力。
  2. 多模态感知能力大模型需要具备丰富的外部感知(视觉、听觉、触觉等)和内部感知(力矩、IMU 等),以便获取外部环境和自身状态等信息,并基于获取的信息,做出正确的决策。同时,感知的获取不是静态的,在运控的过程中,需要实时实地获取、理解和关联这些感知信息,才能更好的完成与环境的物理交互。
  3. 实时精准运控能力:大模型需要以任务目标为导向,结合动态反馈的多模态感知信息,实时精准地完成运动控制。人形机器人运动控制需要具备实时性和精准性,两者共同决定人形机器人运动控制的效率和质量。实时性是指机器人接收到控制指令后,能够在极短时间内做出反应并完成动作,例如人形机器人在执行任务时,若遇到障碍物,需要及时做出规避动作;精准性是指机器人执行动作的精准度,包括位置精度、速度精度和力矩精度等,需要大模型具备较强的计算能力。

二、面对多样复杂的应用场景和任务,需要具备:
  1. 泛化能力:泛化是指模型在新的对象、背景和环境下的适应能力,例如机器人在一个环境中学会了如何开门,之后即使门的形状、大小和开门方式不同,也能够完成开门这一动作。大模型预训练的数据集是在限定场景中收集的,不可能包含现实世界中所有的应用场景,因此大模型需要具备泛化能力,来面对纷繁复杂的现实世界。

  2. 涌现能力:涌现是指模型表现出机器人训练数据之外的任务执行能力,例如在 RT-2 中符号理解、推理和人类识别三类不在训练数据中的涌现任务,RT-2 也能以较高的正确率完成。经过多种机器人多场景数据训练的 RT-2-X 涌现能力约为 RT-2 的 3 倍,可以完成的动作指令从绝对位置(存在于训练数据中)拓展至相对位置(训练数据中未出现)。

图 7:大模型需要具备 3+2 种能力
 
07
目前进展:机器人大模型不断迭代升级
针对目前主流的几个机器人大模型进行了梳理,如下表所示


注:星号代表具备该能力,星号越多,能力越强



08
未来展望

未来展望一:多模态感知是未来机器人大模型发展趋势。以学习雕刻为例,人类如果只进行观摩而不动手实操学习,很难彻底掌握雕刻这门工艺;人形机器人也一样,它可以通过图像和文字学会雕刻的动作,但是无法仅通过图像修炼成雕刻大师,需要联合与物理交互相关的感知,不断学习改进。同时,多模态信息可以相互融合和交叉验证,避免对单一模态信息的过度依赖。在充足的训练数据下,模态的种类越丰富,训练得到的模型预测误差值越小,表征空间的估计越精确。

未来展望二:大模型指令生成速度慢,生成结果简单,短期仍需依靠传统机器人算法。目前主流机器人大模型偏向于任务理解和拆分,对于机器人运动控制的涉及较少,只是用端到端的训练方式生成了简单且离散分布的机械臂末端位置和底盘移动指令,未考虑连续路径和轨迹规划等更偏机器人领域的内容。以 RT-2 为例,RT-2-PaLI-X-55B 只能做到 1-3Hz 的指令生成速度,在移动马克笔的任务中,因为其运控速度远低于马克笔的滚动速度而失败;并且其生成的运动指令只是机械臂的末端位置和姿势,未涉及传统机器人运控范畴。因此,目前机器人大模型更擅长任务级和技能级的控制,传统机器人算法擅长底层运控。

图 8:主流具身机器人大模型擅长任务级和技能级,传统机器人算法擅长底层运控
资料来源:珞石机器人 CTO 韩峰涛
未来展望三:未来大模型需依靠预模型架构、方法和数据集方面的改进提高泛化能力。在 RT 系列论文中,RT-2 在未知复杂环境中的执行成功率仅 35%,RT-2-X 较 RT-2 的泛化能力没有明显提升。根据《Exploring visual pre-training for robot manipulation: Datasets, models and methods》,模型结构、训练方法和数据集对机器人的执行成功率均有影响。近期预训练数据集迎来新突破,MimicGen 基于 175 个人工示范数据,生成了涵盖 18 个任务的 5 万多个合成数据;RoboGen 可以无限生成任务、场景和训练数据,实现机器人 7x24 小时全自动技能学习。未来随着模型结构、方法和数据集的不断优化,人形机器人在未知复杂环境中的执行成功率有望提升,进而提升人形机器人的通用性。

结语:我们认为,AI 大模型是人形机器人最理想的“大脑”,模型侧的突破有望进一步打开人形机器人的通用性问题,使人形机器人在更多复杂场景中得以应用,是人形机器人大规模商业化落地的核心突破点。因此在底层 AI 大模型的创新中,关于数据采集、模型训练、仿真测试、等环节发力的公司值得关注。



部分交易 

黑芝麻智能|ClickPaaS|第四范式|讯能集思探维科技不停科技 PROPHESEE|本末科技开为科技|华瑞指数云 群脉科技|云蝠智能|九四智能盎锐科技|大麦地|星辰空间|星测未来|星空动力|九天微星|范特科技|薪人薪事|优蓝国际|颐圣智能|超维知药|知行合一|微密医疗|乐准智芯硅基智能极芯通讯恒百锐信迈医疗博志研新诺领科技新通药物普罗亭零犀科技深蓝航天达利凯普九天微星瑞莱生物三盟科技驭势科技江行智能


北拓研究 



【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

北拓资本
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开