
近期,关于具身智能的话题持续受到关注,并引发热烈讨论。在“ITF World 2023 半导体大会”上,英伟达创始人黄仁勋认为,下一波人工智能浪潮是“具身智能(Embodied AI)”,即能够理解、推理并与物理世界互动的智能系统。那么,什么是具身智能,AI 大模型将如何重塑机器人,具身智能又将带来哪些产业变革机会?我们将在本文进行探讨和分享。
01

具身智能含义(资料来源:北拓资本)
“具身智能”被认为是人工智能的终极形态,在智能机器人领域中,指的是机器人能通过将智能算法与物理实体的感知、行动和环境交互相结合,能够以更自然、更智能的方式与环境进行交互和解决问题。

具身智能含义(资料来源:《行为认知与具身智能》)
“具身智能”是基于机器与物理世界的交互,创建软硬件结合、可自主学习进化的智能体,其智能行为可以被具有对应形态的智能体通过适应环境的方式学习到。相较于传统人工智能系统关注数据处理和符号推理,具身智能强调机器通过感知和行动与环境直接交互,从中获取知识和经验,并在实践中逐步改进自身的能力。机器人能更好地适应和解决复杂任务,简单来说,各种不同形态的机器人,可以在真实的物理环境下执行各种各样的任务。
底层多学科交叉能力支持具身智能
具身智能有三大模块,感知、想象、执行。上海交大卢策吾教授提出具身智能的三个必须模块,分是具身感知(Perception)、具身想象(Imagination)和具身执行(Execution),具体而言:
(1)感知方面,具身智能需要知道这个世界各种概念与操作知识,包括外形、结构、语义、关节体类别等等。同时,通过视觉、触觉等与物体的交互感知,具身智能可以验证各种概念与知识。
(2)想象方面,具身智能需要对感知到的物体进行仿真,能知道如何“操作”物体。
(3)操作方面,具身智能按照仿真情况,通过机器人去对物体进行实际的操作,根据实际情况反馈,让智能体学习,加强或者更新认知。
从底层科学来看,我们认为要实现具身智能需要多个学科的交叉能力,包括:1)机器人学,提供机械身体与运动控制;2)多模态:计算机视觉,提供处理视觉信号能力;语音与自然语言处理,提供理解与对话能力,实现与人类交互;3)机器学习:神经网络,提供推理能力;强化学习,从环境反馈中,能调优模型;4)认识科学:帮助具身智能理解人类,构建认识与价值。
AI 大模型驱动具身智能发展
近期生成式 AI 技术与大语言模型技术备受关注,前微软全球执行副总裁陆奇博士在演讲中提到,在我们当前所处的“模型” 新范式后,下个范式“行动”范式,是以自动驾驶、机器人和空间计算组合的物理空间中革新范式。所以暨 LLM(大语言模型)后的下一个范式必然是机器人,硬件实体机器人是大模型的重要落地场景。
多模态大模型为具身智能的技术瓶颈突破提供了重要驱动力。具身智能是人工智能、机器人等各技术分支融合发展的必然结果,已有不少研究者尝试将多模态的大语言模型作为人类与机器人沟通的桥梁,即通过将图像、文字、具身数据联合训练,并引入多模态输入,增强模型对现实中对象的理解,从而更高效地帮助机器人处理具身推理任务,一定程度提升了具身智能的泛化水平。所以,GPT 等 AI 大模型为具身智能的自我感知和任务处理的优化升级提供了新的研究手段。
机器人的大模型包含 LLM ( 大语言模型 ) 、VLM ( 视觉 - 语言模型 ) 、VNM ( 视觉导航模型 )。机器人的“大脑”AI 域不局限于 ChatGPT 运用的语言大模型,谷歌在 LM-Nav 的研究中提到,LLM+VLM+VNM 三个模型相互结合,从自然语言(冗余口语化描述)到文本(地标的字符串)到图像(根据文本找图像中的物体),能够最终生成机器人的路径规划。以此行为模式为基础,机器人能进行人机互动,同时实现一定程度的“随机应变”。AI 大模型算力近乎无限制,机器人的体能富余,两者结合后在应用端将带来巨大的想象空间。

机器人大模型:LLM、VLM、VNM(资料来源:《Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action》)

是否运用 ChatGPT 技术的人机交互模式区别(资料来源:《ChatGPT for robotics:Design Principles and Model Abilities》)
AI 催化机器人应用场景变革
近年特斯拉、谷歌、微软等各大巨头在 AI 现实场景应用中的探索,其最终目的是给大语言模型“穿上机器人外衣”,通过机械域将其应用切入到工作和现实生活场景中,进而转化为生产力提升。我们认为用大模型进行赋能的硬件机器人可以使得服务机器人、工业机器人和人形机器人的应用场景形成新的变化和突破。
(1)服务机器人。除了传统清洁、物体识别抓取等简单行动外,在服务机器人领域,陪伴也将成为重要能力。具身智能可以通过语音、图片的输入,对用户情感状态进行预测,匹配情感状态使用不同输出模型。如果能理解用户的语言指令,结合多模态数据感知,做出规划和执行,那么诊断机器人、教育类机器人、老年人陪伴机器人等都是可实现目标。
(2)工业机器人。AI 帮助工业机器人实现更加通用的自动化。我们认为,随着柔性化生产的趋势发展,工业制造过程中所需的灵活性会越来越高,所需的自动化就越复杂。目前由于手动编程、重新配置和维护基于硬件的控制系统耗时问题,部署工业机器人效率还有极大提升空间。
具身智能可以在以下方面提高工业机器人的灵活性:一是人机交互,通过自然语言将人类语言转化为机器可识别的指令,提高人类和机器交互的效率。二是质量管理,协助分析产品质量数据和生产过程数据,提供实时质量控制、预警和改进建议。三是可视化控制,大模型结合数字孪生将工业机器人操作过程呈现为可视化的场景,使得人员能够更加直观地掌握机器人的操作过程和状态。四是自动化生产线协同,大模型可协调多个工业机器人之间的协同操作和信息交流。
(3)人形机器人。人形机器人主要通过语音和视觉交互与人类进行交互,因此能够流畅地处理自然语言是其重要能力之一,也是得到广泛应用的刚需。AI 大模型将从语音、视觉、决策、控制等多方面实现同人形机器人的结合,形成感知、决策、控制闭环。
语音层面,语言大模型为机器人的自主语音交互提供了解决方案,包括上下文理解、多语种识别、多轮对话、情绪识别、模糊语义识别等通用语言任务。
在视觉层面,通用视觉大模型的多任务训练方案能使得机器人更好地适应人类生活场景:大模型的强拟合能力使人形机器人在进行目标识别、避障、三维重建、语义分割等任务时,具备更高的精确度;
在决策层面,基于多模态的预训练大模型将增强机器人可完成任务的多样性与通用性,让其不局限于文本和图像等单个部分,而是多应用相容,拓展单一智能为融合智能,使机器人能结合其感知到的多模态数据实现自动化决策。
AI 技术为人形机器人注入了“灵魂”,从而进一步拓展人形机器人的应用场景,加快其商业化进程。目前波士顿动力的 Atlas、特斯拉的 Optimus、小米的 CyberOne 全尺寸人形仿生机器人等均在持续研进过程中。

特斯拉 Optimus 制造 Optimus(资料来源:特斯拉官网)
05
部分交易
北拓研究

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
