E152|对话NVIDIA和五源资本:“具身智能”能带领这波机器人热走多远?

57:38

Access AI content by logging in

视觉、语言理解等多模态大模型和仿真训练技术的结合像是给机器人打了鸡血,让它们变得越来越聪明,行动能力越来越强,越来越像人。 “具身智能”的出现,让机器不再仅仅是被动的计算设备,而是能够主动与物理世界互动的智能体。

从创业公司到科技巨头,从软件平台到硬件开发,这场机器人竞赛的参与者越来越多。从特斯拉的Optimus到波士顿动力的Atlas,这些类人形机器人展现了无与伦比的交互能力,实现了从视觉到动作的端到端神经网络闭环。这些进展似乎预示着“莫拉维克悖论”的终结,即机器人在感知和运动任务上的困难正逐步被克服。随着技术成本的降低和成熟度的提高,人形机器人的商业化应用是否已近在咫尺?在这场竞赛中,哪类玩家能够抢占先机?

本期《硅谷101》邀请到了NVIDIA中国区机器人业务负责人李雨倩 (Lily Li) 和五源资本董事总经理陈哲 (Peter Chen),与大家分享他们对机器人行业的见解,讨论AI加持下的机器人行业有哪些新的工具和技术,还需要经历哪些挑战,才能真正实现规模化和商业化。

【主播】
泓君Jane,硅谷101创始人,播客主理人
【嘉宾】
李雨倩 (Lily Li) ,NVIDIA中国区机器人业务负责人
陈哲 (Peter Chen),五源资本董事总经理

【你将听到】
03:32 大模型、仿真训练和巨头的入场加速了复杂形态机器人的发展
06:19 SayCan,PaLM-E,RT-2等大模型是突破的关键
08:58 NVIDIA做机器人早有积累:从训练、仿真到推理
15:52 大火的“具身智能”关键在于智能体与外界有交互
21:14 机器人一定要像人吗?有时三个手臂更实用,但“人形”是人类文明的形象承载
26:14 中国的机器人开发者最关心什么时候可以用上GR00T
31:31 物理世界 or 仿真平台:不管在哪里训练机器人,都离不开真实世界数据
37:03 泼个冷水:通用机器人尚无商业化案例
38:49 垂直品类的机器人主要在扫地、仓储搬运、无人机
45:37 现在做通用机器人,难度大于在2005年做特斯拉
46:15 十年:当通用机器人商业化时间超过一家基金的存续期
47:57 让机器人“学会拿杯子”就可以拿诺贝尔奖
51:18 各有所长:中国领先供应链和垂直落地场景、美国擅长探索通用能力
55:10 做机器人要有长期主义心态,在低谷期建立复原能力
56:37 “技术泡沫”也意味着顶级聪明人的聚集和新的商业机会

【相关音频】
E113 | 大模型来了,但机器人研究依然很难,商业化更难

【相关补充信息】

具身智能
Embodied Artificial Intelligence,是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。1950年,图灵在其为人工智能奠基、提出图灵测试的经典论文《Computing Machinery and Intelligence》的结尾展望了人工智能可能的两条发展道路:一条路是聚焦抽象计算(比如下棋)所需的智能,另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路便逐渐演变成了非具身和具身智能。

Project GR00T
NVIDIA 于今年3月发布的人形机器人通用基础模型,GR00T 驱动的机器人(00代表通用机器人00技术)将能够理解自然语言,并通过观察人类行为来模仿动作——快速学习协调、灵活性和其它技能,以便导航、适应现实世界并与之互动。

PaLM-E
PaLM-E是一个由谷歌和柏林工业大学在2023年共同提出的具身多模态语言模型(Embodied Multimodal Language Model)。这个模型能够将现实世界的连续传感器模式直接纳入到已经预训练好的大型语言模型中,从而在单词和感知(words and percepts)之间建立联系,其核心设计理念是将连续的、具身的观察(如图像、状态估计或其他传感器模式)注入到预先训练好的LLM的语言嵌入空间中。

PaLM-SayCan
谷歌研究团队于2022年提出的一种机器人学习算法,结合了大型语言模型与预训练的机器人行为,机器人充当语言模型的“手和眼睛”,语言模型则提供关于任务的高级语义知识。这种方法使得机器人能够根据自然语言指令执行复杂的物理任务,同时确保这些任务在特定的真实世界环境中是可行的。

Google RT-1/RT-2
由Google的机器人研究团队开发的先进机器人学习模型。RT-1(Robotics Transformer 1)是一种视觉语言行动(VLA)模型,RT-2是其进化版本,目标是训练一个端到端的模型,该模型可以直接从机器人的观测到动作,同时利用大规模预训练视觉语言模型的优势。RT-2通过对互联网级别的视觉语言任务进行预训练,然后在真实世界的机器人任务上进行微调,从而获得更好的泛化能力和涌现能力。

【监制】
杜秀
【后期】
AMEI
【Shownotes】
杜秀
【BGM】
Swerve Space - Lama House
Elephanti - Osoku

【在这里找到我们】
公众号:硅谷101
收听渠道:苹果|小宇宙|喜马拉雅|蜻蜓FM|网易云音乐|QQ音乐|荔枝播客
海外用户:Apple Podcast|Spotify|TuneIn|Youtube|Amazon Music
联系我们:[email protected]