【具身智能随想】从图灵论文到pi0

type

Post

status

Published

date

Oct 16, 2025

slug

summary

第一章具身智能——我存在、我感知、我行动（具身智能是什么、为什么要发展具身智能）

《庄子》中有这么一句话：“夏虫不可以语于冰者，笃于时也。”如ChatGPT这类系统，虽然能处理海量数据，但其认知与物理世界分离。它们无法理解词语或图片在真实交互中的物理意义，因此在处理复杂的现实任务时容易出错。这听起来其实并不是毫无道理，但我们往往会（至少笔者之前是）以一种“如何呢，又能怎”的态度去看待这个问题：如果我的数据足够丰富，训练流程设计足够合理，即使ai理解不了现实世界，我也可以让它们近似拥有足够的智能来解决现实问题，再不济，退一步来讲，大不了我只用ai解决我的文书工作，减轻我的科研压力罢了。至于现实世界问题的理解与解决，总要有ai解决不了的问题体现人类的价值嘛~可是，我们真的就只能让ai成为我们的“幕后导师”，最后所有的事情都还要依靠人类自己身体力行来解决吗？

事实上，我们或许可以以一种更加直接的思维形式解决这一问题：给予智能体身体，并使其在与环境的动态交互中，不断地学习。机器通过传感器感知环境、经过“大脑”的处理后做出决策，再由执行器采取行动，行动的结果又会反馈回来影响下一次感知和决策……如此这般，人工智能就能从抽象的符号处理工程，走向与物理世界互动的真实存在。古罗马帝国的凯撒大帝曾说：“我来到、我看见、我征服”。对于具身智能（Embodied AI），或许可以套用这一句式引出其最大的特点：“我存在、我感知、我行动。”

💡

具身智能的核心设计理念如下：

具身性（Embodiment）：这是最根本的前提。智能体必须拥有一个物理身体。这个身体的形态、结构和感知能力（如视觉、触觉）会深刻影响乃至塑造其智能的体现方式。智能并非仅仅存在于“大脑”中，而是通过与身体和环境的互动涌现出来的。

交互性（Interaction）：智能体需要通过身体与真实世界进行持续的、双向的互动。它不再是被动地处理数据，而是主动地感知环境、采取行动，并根据行动带来的反馈结果不断调整自己的行为和理解。

感知-行动闭环（Perception-Action Loop）：这是具身智能系统的核心运行机制。智能体通过传感器感知环境，经过“大脑”（决策算法）处理后，驱动执行器采取行动，行动的结果又会通过传感器反馈回来，形成一个持续的、实时的学习与适应循环

时至今日，具身智能已经成为了人工智能与机器人学中相当举足轻重的研究领域。2025年3月5日，《2025年国务院政府工作报告》提到，建立未来产业投入增长机制，培育具身智能等未来产业；同时“具身智能”入选2025年两会上的新词矩阵。同年“具身智能”首次被写入政府工作报告，成为未来产业发展的重点方向之一，作为国家重点培育的未来产业。2025年4月2日，（由笔者校友稚晖君创立的）智元机器人宣布与国际顶尖具身智能公司Physical Intelligence（Pi）携手，双方将围绕动态环境下的长周期复杂任务，在具身智能领域展开深度技术合作。

第二章具身智能的目前的产业分析

在具身智能的研究中，如何构建机器人的“大脑”是核心挑战，目前主要形成了分层方法和端到端方法两种技术路径。

对比维度	分层方法	端到端方法
核心思想	将复杂任务分解为感知、规划、控制等多个层级，由不同模块分别处理	使用单一模型，直接从感知输入（图像、指令）映射到动作输出（如关节角度、末端位姿）
系统架构	类似“大脑-小脑-肢体”的协同工作模式	单一模型，一体化架构
数据处理	各模块可独立训练和优化，对单一模块的数据需求相对较小	依赖海量、高质量的机器人交互数据进行训练，数据饥渴
优点	可解释性与可控性强：易于调试和干预；模块化：技能可复用，安全性高	泛化能力强：能应对未知场景；响应高效：减少模块间通信开销
缺点	误差累积：上层规划误差会向下传递并放大；系统复杂：各模块间需精细对接	黑箱模型：决策过程不透明，难以调试；数据与算力需求巨大
典型代表	Figure公司的Figure 01（与OpenAI合作）、拓元智慧的RoBridge模型	谷歌的RT-2模型、特斯拉的Optimus

分层方法的技术实现

分层方法的核心在于任务分解。例如，一个“泡一杯咖啡”的指令，会被层层拆解：

大脑（任务规划层）：通常由大型视觉语言模型担任，负责理解“泡咖啡”这个高级指令，并将其分解为一系列子目标，如“移动到咖啡机前”、“抓取咖啡杯”、“按下开关”等。

小脑（运动规划层）：接收子目标，为每个目标规划出具体的运动轨迹，比如机械臂移动到杯子的路径、手爪的抓取姿态等。此层可能采用传统运动规划算法或基于学习的控制方法。

脊髓/肢体（执行控制层）：负责高频、实时的伺服控制，将规划好的轨迹转化为各个关节的力矩指令，确保动作精准、稳定地执行，并处理与环境的瞬时交互（如力反馈）。

这种结构的优势在于，可以针对每个层级进行专门优化，并融入人类的先验知识和安全规则，例如在底层控制器中设置力感应阈值以防止过度抓握。

端到端方法的技术实现

端到端方法走的是截然不同的“捷径”。它试图用一个庞大的神经网络（通常是经过机器人数据微调的多模态大模型）来直接建立感知到行动的映射关系。模型以机器人的第一视角图像和人类的自然语言指令作为输入。在经过深度神经网络内部复杂的计算后，直接输出底层的控制信号，如机械臂末端执行器的位移量或关节的角度序列。这个过程跳过了显式的任务规划和运动规划步骤，模型在训练过程中自行学习任务的内在逻辑和物理规律。其强大的泛化能力源于在互联网规模的海量图文数据上进行预训练，从而获得了对世界的常识性理解，因此能够处理一些在训练数据中未明确出现过的指令。

现代技术路径展望

目前，两种路径呈现融合趋势。业界逐渐认识到，将两者的优势结合可能是更优解。例如，在高层任务规划上采用具备强大推理能力的“大脑”（分层思路），而在底层的灵巧操作上采用训练好的端到端模型作为“技能包”。这种“大小脑”协同的混合架构，既保证了高级语义理解的可解释性和安全性，又利用了端到端学习在特定技能上的高效与泛化能力，正成为许多前沿研究的选择。

第三章现代机器人学的常用逻辑概念

为了在后文中更好地介绍目前较为经典的具身智能方案，我们首先需要补充一些机器人学理论的常用概念：

自由度：描述机器人独立运动方向的数目。例如，一个在三维空间中自由运动的刚体有6个自由度（3个平移，3个旋转）。机械臂的自由度数决定了其灵活性。

位姿：是位置和姿态的合称，用于完整描述一个物体（如机器人的末端）在空间中的状态。

末端执行器：安装在机器人腕部末端、直接与环境交互的装置，如夹爪、焊枪等，可以理解为机器人的“手”。

正运动学：已知机器人各个关节的角度，计算其末端执行器在空间中的位姿。

逆运动学：与正运动学相反，根据末端执行器期望的位姿，反解出需要各个关节运动的角度。这在规划任务中至关重要。

工作空间：机器人手腕参考点（或末端执行器）所能到达的所有点构成的空间范围

第四章 pi0的宏观设计

π0模型是由美国Physical Intelligence公司开发的通用视觉-语言-动作（VLA）模型，专为机器人控制设计，整合视觉、语言与动作数据，支持零样本任务执行和高频动作控制，如洗衣、折叠衣物等复杂操作。‌ 该模型基于PaliGemma VLM骨干和流匹配技术，参数量33亿，由Physical Intelligence于2024年发布，并于2025年开源迭代版本π0.5，是具身智能领域的代表性成果（摘自百度百科）

π0模型在技术类型上，是一个基于流匹配（Flow Matching）的、端到端的视觉-语言-动作（Vision-Language-Action, VLA）基础模型。

接下来，我将从Physical Intelligence的论文出发，尝试去解释原文中涉及到的重要知识细节与宏观设计。

4.1 闭环工程系统

从pi0工程系统状态的角度来说，其实现的是一套“读取-执行-读取”的循环式工作链，这种设计方式可以保障在任务完成之前，系统可以连续的工作而不需外界介入。

同时，前一轮的运行结果又会通过图像识别传感器和VLM模型（这个我们后续还会再次详细说明）再次作为信息进入参与下一轮的感知编码与决策生成。这保证了在多轮运行之后的模型效果能够叠加至趋于解决任务的程度。

此外，多轮循环的状态执行还能够使“自动纠错”成为可能，每一轮中，模型都有能力纠正上一轮运行结果的条件。

4.2 数据集特点

由上图可以看出，模型选择的数据集主要包括以下几个部分：

主体部分：双臂机器人平台（占比最高）

这部分是Pi0数据集的绝对主力，构成了模型学习灵巧操作能力的基础。

Bimanual ARX：这是数据集中占比最高的单一来源，达到了51%。ARX通常是一种用于研究的双臂机器人平台，如此高的占比表明Pi0模型非常侧重于从这类数据中学习复杂的双手协调操作任务（如叠衣服、组装物体）。

Bimanual AgileX：占比10%，是另一个重要的双臂机器人数据来源，进一步丰富了双臂操作任务的多样性。

Bimanual Trossen 与 Bimanual UR5e：各占10%。这些数据可能来自基于UR5e等工业机器人臂搭建的双臂系统，增加了数据在硬件和任务类型上的覆盖面。

重要组成部分：单臂与移动机器人平台

这部分数据对于提升模型的泛化能力至关重要，使其不局限于固定的双臂操作场景。

UR5e（单臂）：占比10%。单臂机器人的数据帮助模型学习无需双手协作的简单操作任务，也扩展了其对不同机械臂结构的适应性。

Franka：占比5%。Franka是一种广泛使用的协作机器人臂，其数据的加入进一步增加了单臂操作数据的多样性。

移动机器人平台（Mobile Fibocom, Mobile Trossen等）：虽然每个平台占比相对较小（例如3%），但它们共同引入了移动性。这意味着数据集中包含了机器人在移动基底上执行“导航+操作”的任务数据，是模型能够处理更复杂、空间范围更大的任务的关键。

外部数据整合

OXE Magic Soup：占比10%。这是一个非常重要的部分，因为它代表了Pi0团队整合的外部开源数据集。Open X-Embodiment（OXE）项目汇集了来自全球几十个机器人实验室的数据，被称为“机器人领域的ImageNet”。引入OXE数据极大地丰富了任务场景和机器人形态的多样性，是提升模型通用性的关键一步。

4.3 模型构成与亮点

4.3.1 视觉语言模型（VLM）的引入

VLM是整个pi0模型的根基。传统的机器人模型可能只接收图像（Vision）并输出动作（Action）。而VLM则将语言（Language）作为一种新的模态引入，使得机器人能够理解人类的指令。模型通过联合训练，学会将视觉信息、语言指令和机器人动作三者关联起来。例如pi0模型中，你对机器人说“把那件衬衫叠起来” ，VLM就能理解指令，在视觉画面中找到衬衫，并生成一系列对应的折叠动作。pi0的核心就是一个VLM，这使得它不仅能执行预设任务，还能通过直接的语言指令进行“零样本”或“少样本”的控制，大大提升了模型的通用性和交互性。在pi0的具体实现中，PI公司的技术人员采用了从PaliGemma这一大规模VLM来作为基底。

4.3.2 双专家混合模式

在模型架构上，pi0并非简单地将所有数据都输入一个巨大的Transformer。它设计了一个巧妙的“混合专家”结构 。模型主体是一个从大规模 VLM (PaliGemma) 初始化的“语言-视觉专家”，负责理解图像和文本。同时，它还有一个规模较小、专门处理机器人自身状态（如关节角度）和动作生成的“动作专家”。这两个“专家”通过 Transformer 的自注意力机制进行信息交互，这种设计充分利用了VLM强大的预训练知识，而不用担心机器人相关的特定数据对其造成“污染”。其次，在推理时，大部分计算（视觉和语言理解）可以被缓存，只需多次迭代运行轻量的“动作专家”模块，大大提升了生成动作的效率。

ㅤ	VLM骨干	动作专家
处理内容	图像 (Image) 和语言指令 (Language)	机器人特有的输入和输出，包括机器人当前的感受状态和噪声动作块
权重来源	由预训练好的大型视觉语言模型 PaliGemma 初始化	从零开始初始化
参数规模	约2.6B+480M参数	约3亿(300M)参数

那么这两个专家具体是如何进行协同工作的呢？我们会在讨论过4.3.3的相关内容后再解答这个疑问。

4.3.3 transformer的专门化改造

pi0中的架构灵感来源于Transfusion，Transfusion是一个多模态模型(multi-modal model)，它的核心目标是用一个统一的Transformer模型同时处理和生成两种完全不同类型的数据：

离散数据(Discrete Data)：例如文本，由一个个独立的词元(token) 组成。

连续数据(Continuous Data)：例如图像或机器人动作，由一系列连续的数值向量组成。

为了在同一个模型中实现这一目标，Transfusion最关键的特点是采用了混合训练目标(multiple objectives) 。具体来说：

对于模型中处理离散文本的部分，它使用标准的交叉熵损失 (cross-entropy loss) 来进行监督训练。这是所有语言模型的标准做法，目标是预测下一个正确的词元。

对于模型中处理连续图像的部分，它则使用流匹配损失 (flow matching loss)（一种扩散模型的变体）来进行监督训练。目标是学习如何从噪声中恢复出真实的图像数据。

简单来说，Transfusion的精髓在于“一个模型，两种玩法”：它让一个Transformer内部的不同“数据槽位(token slots)”根据其对应数据的性质（离散或连续），采用不同的损失函数进行学习。

在此基础上，pi0继承了Transfusion的统一处理思想，并用动作块（Action Chunks）代替了基础Transfusion模型中的图像部分。

除了在结构上引入了类Transfusion设计，pi0在模型的输入与输出端也进行了针对机器任务的特殊输入/输出。

新增输入: 1.机器人状态: 机器人当前的关节角度等状态被编码后，作为一个独立的 token 输入Transformer中。 2.带噪声的动作块: 这是流匹配过程的核心。在训练时，一个由真实动作和噪声混合构成的动作序列（包含未来H步，论文中H=50）被作为输入 token 喂给 Transformer。

模型输出: • 模型的输出端只解码与输入动作块相对应的token，最终生成一个用于“去噪”的向量场。（这里的输出为什么是场的形式，我们会在下一节讨论，笑）

💡

名词解释：Action Chunks & Noisy Action Chunks

传统的机器人控制模型可能一次只预测一个时间点的动作（比如，下一个0.02秒手应该移动到哪里）。pi0则采用动作分块 (Action Chunking) 的方式，一次性预测未来一连串的动作序列。论文中，这个序列的长度是 H=50。

这个包含 50 个连续动作的序列，就叫做一个动作块(Action Chunks):。这么做的好处是，模型可以规划出更连贯、平滑的动作，并且在计算上更高效，因为不需要每一步都进行一次复杂的推理。

“加噪与去噪“是流匹配过程的训练核心步骤，可以将其类比为AI绘画：从一幅纯粹的随机噪声图样开始，逐步地“去噪”，最终生成清晰的画作。pi0模型学习去噪的过程是这样的：

从收集的专家演示数据中，取一个真实的、高质量的动作块。

创建一个和形状完全相同的随机噪声，这个噪声符合标准正态分布。

利用线性公式生成一个混合了演示数据与随机数据的噪声动作块（Noisy Action Chunks）。它被作为输入，送入Transformer的“动作专家”模块。

让我们回答4.3.2留下的疑问：两个“专家”并不是两个独立的网络。它们共享同一个Transformer结构，但在每一层中，不同的token会被路由到不同专家对应的权重（FFN层等）进行计算。它们之间唯一的交互发生在自注意力(Self-Attention)层 。这意味着，“动作专家”可以看到“VLM骨干”处理后的视觉和语言信息，从而做出合适的动作规划。由恰当的模型架构修改与使用所实现的协同工作，高屋建瓴地跳出了思维的定式，不由得使笔者拍案叫绝。

4.3.4 流匹配工作模式Flow Matching

如何让机器人做出平滑、精准、高频的动作是一个核心难题。pi0创新地使用了流匹配 (Flow Matching)技术。你可以将其粗略理解为一种高效的扩散策略 (Diffusion Policy)。它从一堆完全随机的噪声动作开始，通过一个学习到的向量场，一步步地将噪声“去噪”并“矫正”成一个完整、连贯、高频的动作序列,即我们上文解释过的“动作块（Action Chunks）”。

为什么说Flow Matching是一种相当高明的处理策略呢？实际上，普通的扩散策略能够在理论上做到“加噪、去噪“的训练过程，或许也能够满足准确性的要求，但是，传统扩散策略的推理需要成百上千次的调用神经网络、才能够从纯噪声中提取一个相对可用的操作，这对需要实时、高频响应的机器人来说，是难以接受的。另外，从理论方面来讲，传统的扩散模型在离散的时间步上进行操作，这在数学上是远不如连续时间的模型灵活和优雅的。

话都说到这份上了，我们也可以对Flow Matching做一个大致的特征刻画：一种高效的、符合高精度、高效率机器作业需求的、在时间上连续的，继承传统扩散策略强大表现力和高质量的模型。

接下来我们详细讲解一下flow matching的工作形式，由于证明过程使用的公式和数学知识过于复杂，我们更关注它”是什么“、”怎么用“、”有什么用“这些应用方面的内容：

Flow Matching理论中将生成模型定义为一个常微分方程(ODE） ，这里t∈[0,1]，而称之为向量场（vector field）。

如此，可以用这样的一个常微分方程来构建一个概率路径（probability path），它可以实现从一个噪音分布——这里的噪音分布采用高斯噪音(即)到另外一个数据分布的转变(可以称之为a flow)——而是要建模的数据分布。

我们使用来衡量流匹配的损失程度，形象地说，我们随机在航道上的不同位置、不同时间点，检查ai训练的自动驾驶模型。每次都比较模型给出的方向和正确的方向之间的差距。损失函数就是所有这些差距的平均值。通过不断减小这个差距，模型就学会了如何正确导航。

有了这个训练后的场，我们就可以在此基础上，更加准确的描述出求解动作块的执行过程：

初始化：从标准高斯分布中随机采样一个噪声动作块。

迭代去噪（流动）：对于（这里的t是迭代轮数）,有（此处使用欧拉法求解的定义，数学上来讲，数值积分的写法是）

终止：当时，就是我们想要的合理的、去噪后的动作块。

在执行这个的过程中，我们没有使用多次循环往复的去噪形式，而是用一个更高效、更平滑的确定性流程替代了随机、多步的扩散去噪过程，从而能生成高频、连贯的控制指令。

4.4 训练方式

4.4.1 预训练与后训练（pre-training and post-training）

pi0的预训练与后训练借鉴了大语言模型的成功经验。

在预训练部分，使用的训练数据是超大规模、来源极其多样、包含不同作业任务、不同模型类别、不同应用场景的数据，甚至包括一些质量较低但能够体现各种恢复、纠错能力的数据（参见4.2）

在后训练/微调部分，在一个规模较小、但质量非常高、针对特定任务的数据集上进行微调。目标是让模型学会如何“精通”某项具体任务，使其行为更高效、更流畅、更稳健。

4.4.2 跨主体训练混合（cross-embodiment training mixture）

具身智能的“身”指的就是机器人的物理身体（Embodiment）。不同机器人的形态、关节数量、自由度都千差万别。跨实体训练就是将这些来自不同机器人的数据“喂”给同一个模型进行训练。论文中通过补零（zero-padding）等方式，将不同维度、不同形态机器人的动作和状态统一到一个标准的表示空间中。进而尝试培养模型的“通才能力（Generalist Policy）”

第五章 pi0的代码精读与调试

有关PI公司的开源的代码均在他们的github仓库上公开。由于代码篇幅过长，此处另起一篇详细介绍。

第六章周期总结与参考文献

笔者过去粗略听说过具身智能方向，这次在导师的推荐下初次接触具身智能领域的前沿成果pi0，所以在背景调研部分多花了些时间。整体而言，具身智能确实在硬件层面、数据层面、模型层面、时序层面等都相较于离身智能有更高的要求和挑战，但是其所具备的更大的价值潜能，是更加让人想要一探究竟的。

论文阅读与理论学习过程中，我发现一个优秀的项目的论文总是能逻辑自洽的“在最需要解决的问题上找到最应该出现的模块”，仿佛这种理论生来就是适合解决这个问题的，相信这与研发人员长期的技术积累和学术调研是分不开的。

在这段时间的学习调研中，我现在对VLM有了一定的了解，但还需要对其工作流程，以及代码运行时的数据处理与流向做进一步分析。

目前，我还对于条件流匹配（CFM）、Rectified Flow等知识点的数学证明部分仍有一定的掌握欠缺；对于阅读、调试大型项目源码还在探索阶段。在理论学习部分，要特别感谢中科苏的午阳老师和昊林学长提供的笔记范本。我深知自己仍然在技术严谨性和深入性上存在欠缺，也希望能够与在看文章的大家一起进步！

参考链接

具身智能（智能体通过身体将感知、行动与认知深度融合‌的智能系统）_百度百科

Our First Generalist Policy

Our first generalist policy, π0, a prototype model that combines large-scale multi-task and multi-robot data collection with a new network architecture to enable the most capable and dexterous generalist robot policy to date.

【VLA系列】万字深度解析PI-0 - 知乎

【具身智能 307】Pi0 - 知乎

Physical Intelligence_百度百科

π0: A Vision-Language-Action Flow Model for General Robot Control-CSDN博客

π0——用于通用机器人控制的VLA模型：一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)_pi0模型-CSDN博客

π0源码(openpi)剖析——从π0模型架构的实现：如何基于PaLI-Gemma和扩散策略去噪生成动作，到基于C/S架构下的模型训练与部署-CSDN博客