【VLA】Perceiving, Reasoning, Adapting

type

Post

status

Published

date

May 6, 2026 10:44

slug

summary

1. 研究背景：为什么纯 VLM 难以完成高精度操作？

机器人装配任务往往需要同时满足几个条件：

理解复杂空间关系；

能从粗运动切换到精细控制；

能维护任务进度和空间语义一致性；

能在失败后进行修正；

最终达到高精度插入、对接或组装。

VLM 在语义层面很强，例如能够理解“把连接器插入插槽”“将桁架部件组装到对应位置”。但真正落到机器人执行时，问题会变成：

目标物体的精确 3D 位置在哪里？

插入方向和孔轴是否对齐？

当前是否已经接触？

如果插入失败，是偏左、偏右、姿态不对，还是抓取点有问题？

下一步应该退回、微调，还是继续插入？

这些问题不是单靠 VLM 的语言推理就能稳定解决的。因此，文章提出用显式空间结构来承接 VLM 的语义判断，并用几何验证和闭环反馈降低 VLM 幻觉和误判。

2. 总体架构：Progressive VLM Planning

这篇文章的整体架构可以分成三大阶段：

也就是说，它不是一次性让 VLM 规划完整任务，而是一个闭环系统：

这和我之前构想的 Subtask Expert、ROI Expert、Completion Verifier、Uncertain Fallback 有相似之处：都不是让一个大模型直接从图像到动作，而是把高精操作拆成多个可验证阶段。

3. Stage 1：空间-语义映射

第一阶段负责把图像中的任务相关区域映射到机器人操作空间中。

输入包括：

系统先通过 VLM 对图像进行任务相关目标筛选或 panoptic segmentation，得到与任务有关的像素区域。随后结合深度图、相机内参和机器人坐标变换，把这些像素映射到机器人 base frame 中。

直观来说：

这一点非常关键。文章并没有让 VLM 自己估计毫米级空间关系，而是让 VLM 做语义筛选，再由 RGB-D 和几何模块完成空间定位。

多分辨率空间划分

作者还把空间按距离分成三层：

越靠近机器人末端和操作目标，空间表示越精细；越远离操作区域，表示越粗。这体现了一个很重要的高精度操作先验：

高精度视觉和几何计算不应该平均分配给全场景，而应该集中在当前 subtask 相关、距离操作目标最近的区域。

这对 peg-in-hole、plug-in-hole 等任务很有启发。真正需要高精度的不是整幅图，而是 peg tip、hole center、socket rim、contact region 这些局部区域。

4. Stage 2：双层场景表示

第二阶段是文章最核心的设计：dual-layer representation。

它包含两层：

2D Topology Graph：语义关系层、3D Spatial Network：几何空间层

4.1 2D Topology Graph：语义拓扑图

拓扑图记作：

其中：

V 表示物体节点；

E 表示对象之间的关系；

F 表示由 VLM 生成的结构化语义特征。

每个节点大致包含：

每条边则描述对象关系，例如：

这一层解决的问题是：

4.2 3D Spatial Network：几何空间网络

空间网络用 Gaussian envelope 表示物体的几何位置、空间范围和方向：

其中：

μ_i 是物体中心；

Σ_i 表示空间范围和方向。

这样，拓扑图中的语义对象可以通过 spatial index 连接到对应的 3D 几何包络。

简单理解：

这就是文章所谓的 spatial-semantic fusion。

5. 语义关系必须经过几何验证

这篇文章很值得借鉴的一点是：它不完全相信 VLM。

系统会先让 VLM 判断对象之间的语义关系，例如：

但这些关系不会直接进入系统，而是会通过 3D spatial network 做几何验证。作者使用 Gaussian envelope 的中心距离和协方差估计对象关系是否物理合理。只有当 VLM 的语义判断和几何验证一致时，系统才会在拓扑图中添加对应边。

这个设计非常重要，因为 VLM 容易产生看似合理但物理错误的判断。对于高精度机器人任务来说，“看起来合理”远远不够，必须经过物理空间验证。

这对我的研究也有直接启发：

6. Task Memory：任务记忆结构

文章维护了一个任务记忆结构：

分别表示：

TTP：任务拓扑路径

表示任务的层级依赖和执行顺序。例如连接器对接可以分成：

SS：子任务状态

记录当前子任务执行状态，例如：

MSH：运动序列历史

记录过去执行过的动作策略和失败/成功历史，用于后续策略调整。

这一点和我之前思考的 skill.json、completion predicate、fallback strategy 很接近。不同的是，这篇文章的 task memory 更偏运行时状态记录，而我的设想更偏“技能先验 + 执行验证 + fallback 机制”。

7. Stage 3：面向任务的 VLM 交互

第三阶段负责把前面维护的空间结构和任务记忆组织成 prompt，让 VLM 生成下一步执行策略。

它根据末端执行器与目标之间的距离，切换两种模式：

7.1 Coarse Motion

当机器人距离目标较远时，系统重点关注：

此时 prompt 会包含：

7.2 Fine Manipulation

当机器人接近目标后，系统进入精细操作模式，prompt 会更加关注：

例如在连接器对接中，fine manipulation 需要关注：

这个 coarse-to-fine 设计非常符合高精操作的本质。对于 peg-in-hole，也可以对应为：

8. ROS 在架构中的作用

论文中 VLM 最终生成的是 Sub-Task ROS Functions，而不是连续动作向量。

这意味着 VLM 不直接输出：

而是输出更结构化的动作调用，例如：

ROS 的作用是把 VLM 的高层规划结果转成机器人系统中可执行、可验证、可调试的函数调用。

这样做有几个好处：

避免 VLM 直接控制底层连续动作；

可以复用运动规划、IK、碰撞检测、控制器等成熟模块；

可以在执行前检查目标是否可达、路径是否安全；

方便执行后反馈状态；

更适合真实机器人系统部署。

但这也说明：这篇文章不是端到端 VLA，而是一个 VLM + 显式机器人系统的组合框架。

9. 实验结果与消融

论文用了两个任务：

其中 Aviation Connector Docking 更接近高精度对接任务，需要精确抓取、亚毫米级对齐和失败恢复。

文章使用四个指标：

这个指标设计非常值得借鉴。它没有只看最终成功率，而是拆成了：

实验显示，纯 VLM 虽然可能有较高 TPSR，但 TSR 可以为 0。这说明 VLM 能做出看似合理的计划，但如果没有空间 grounding 和执行层支撑，计划无法落地。论文的 dual-layer framework 显著提升了 SLPC、MSR 和 TSR。

消融实验中，去掉 Dual-Layer Module 后，SLPC 和 TSR 直接降到 0，即使 TPSR 仍然较高。这说明：

高层规划成功并不代表真实执行成功；语义计划必须被 grounding 到物理空间中。

这对我目前研究 π0.5 action expert 是否真的使用视觉证据也很有启发。

10. 与我的研究方向的关系

这篇文章和我当前关注的问题非常接近，但并不完全重合。

相似点

都关注高精度操作；

都认为纯 VLM/VLA 直接从图像到动作不可靠；

都强调 subtask 分解；

都需要视觉 grounding；

都强调错误恢复和闭环反馈；

都试图构建语义与空间之间的桥梁。

不同点

这篇文章是：

而我更关注的是：

它没有研究：

所以它可以作为一个强相关工作，但不完全撞车。

11. 对我后续研究的启发

这篇文章给我的最大启发是：

高精操作中的视觉 grounding 不应该只是“框出目标”，而应该是构建一层可验证的 subtask-relevant visual evidence。

对于 PegInsertion，可以构建一个轻量 evidence structure：

然后将其作为：

进一步验证：

这就能把这篇文章的显式空间结构思想，迁移到端到端 VLA 的内部机制分析中。

12. 文章优点

问题定义清晰：VLM 高层强，但精细空间执行弱；

架构设计合理：语义拓扑图 + 3D 空间网络 + 任务记忆；

粗细阶段切换符合高精操作规律；

几何验证降低了 VLM 幻觉风险；

闭环反馈使系统具备错误恢复能力；

指标拆解比单纯 success rate 更有解释力。

13. 文章局限

VLM performs panoptic segmentation 这一步描述过于理想，实际稳定性存疑；

Gaussian envelope 对孔口、针脚、接触边缘等高精局部结构可能过粗；

ROS function 设计依赖大量工程先验；

任务规模有限，泛化性仍需更多验证；

它不是端到端 VLA，不能直接回答 action expert 是否使用视觉证据的问题；

实验对比中，系统工程方法和端到端模型之间的条件并不完全一致。

14. 我的最终理解

这篇文章的核心不是“VLM 很强，所以能做高精操作”，而是：

它真正有价值的地方是证明了：

高精操作需要的不只是视觉识别，而是一套从语义到空间、从空间到动作、从动作到反馈的可验证链路。

对我自己的方向来说，这篇文章提醒我：

如果要做 π0.5 高精操作，不应该只问“怎么让注意力看向 ROI”，而应该问：

这比单纯做一个 ROI detector 或 soft attention map 更有科研价值。