【VLA】HiVLA 论文阅读笔记：简单的idea，优秀的实现

type

Post

status

Published

date

Apr 27, 2026 10:31

slug

summary

立论过程分析：

它的立论不是“我做了一个层级系统”，而是“端到端 VLA 有一个结构性矛盾”

我觉得 HiVLA 的写作很聪明的一点，是它没有直接说“层级系统更好”，而是先把问题立成一个 trade-off。

主文一开始强调，端到端 VLA 的优势是可以把视觉、语言和动作放到一个统一模型里训练，但问题是：VLM 原本从 web-scale 预训练中获得了很强的语义和推理能力，一旦拿稀缺、窄域的 manipulation data 去 fine-tune，就可能损害这些原始能力，也就是 catastrophic forgetting。于是，论文把端到端路线描述成一种结构性矛盾：你想让 VLM 会控制，就要用机器人数据调它；但你一调它，又可能削弱它作为 VLM 的泛化推理能力。

这个立论很关键，因为如果没有这一层，HiVLA 很容易被质疑成“传统模块化系统换皮”：不就是 VLM 规划 + policy 执行吗？有什么新？

但有了这个 trade-off 之后，层级结构就不再只是工程选择，而变成了一种针对 VLA 基础矛盾的解决方案：

高层 VLM 不参与低层动作 fine-tuning，用来保留推理和 grounding 能力；低层 action expert 专心学习控制，不承担复杂语义推理。

接着，论文又进一步把问题收窄到“中间表示该是什么”。已有层级系统可以用文本子任务、keypoint、mask、segmentation 等作为桥，但 HiVLA 选择的是 bbox-based visual grounding。它的理由也很清楚：bbox 是 VLM 比较自然能输出的空间表示，不需要额外 segmentation expert；同时又可以从原始 1080p 图像里裁出高分辨率局部区域，补足低分辨率全局图在精细操作上的不足。论文在 related work 里专门把 DexGraspVLA、RoboGround、InterleaveVLA 等相关路线放在一起比较，最后得出一个 gap：现有方法没有很好地同时保留全局空间上下文、局部高清细节和明确 skill 语义。

所以它的立论链条其实是这样的：

这个链条比单纯说“我提出一个层级 VLA”要扎实很多。

方法本身简单，所以它必须把“为什么这样设计”讲得很细

HiVLA 的方法模块其实就两个：VLM Planner 和 DiT Action Expert。

VLM Planner 的输出也很朴素：一个 JSON，里面包含 next subtask、action type、target object 和 bbox。这个 JSON 再触发 image crop，从原始高清图里裁出 object-centric patch，然后和全局图、语言子任务一起送入 DiT。论文把这个过程描述成 VLM agent 使用工具：bbox 不只是一个坐标输出，而是调用 crop tool 的指令；DiT action expert 则是最终把意图翻译成物理动作的工具。这个说法本身有一点包装成分，但写作上很有效，因为它把“bbox crop”这种简单操作放进了 agent/tool-use 的叙事里。

DiT Action Expert 的设计也不复杂。它就是 conditional flow matching + transformer，然后在每个 block 里依次 cross-attend 三种条件：

这三个条件的顺序，是论文最想强调的 architectural choice。它不是把所有条件 concat 到一起，而是说这是一个 coarse-to-fine 的过程：先看全局场景，再看局部目标，最后用语言 skill 约束具体动作。这个设计是不是绝对必要，可以讨论；但从写作角度看，它至少让结构有了“递进性”，而不是普通的多模态拼接。主文 Fig. 2 也把这个递进画得很清楚：VLM 在上游产生 subtask 和 bbox，下游 DiT block 内部按 global/local/language 级联注入。

这对我们写论文很有启发。方法简单时，不能只写“我用了 A+B+C”，而要写成：

A 负责什么，B 补了 A 的什么不足，C 最后又解决什么歧义。

HiVLA 里就是：

global image：保留完整场景和空间关系；

local crop：提供目标区域高清细节；

absolute PE：把 crop 放回原图坐标系，避免只知道局部、不知道位置；

skill language：告诉 policy 当前到底是 pick、place、push 还是 click。

这些东西单独看都不难，但组合起来就形成了一个还算完整的 grounded execution story。

主实验负责证明“这个系统有效”，附录负责证明“这个系统不是拍脑袋拼的”

HiVLA 的主实验其实承担的是最直接的任务：证明它比 baseline 强。

在 RoboTwin 上，论文把任务分成 Easy 和 Hard。Easy 任务更多看单技能、小目标精细感知；Hard 任务则强调长程组合、空间语言、多目标干扰。主表里 HiVLA 总平均成功率 83.3%，高于 H-RDT 的 70.6%，也明显高于 π0、π0.5、StarVLA。尤其在 Hard tasks 上，HiVLA 是 73.2%，H-RDT 是 54.6%，π0、π0.5、StarVLA 都不到 40%。这个实验的作用是把核心 claim 打出来：层级 grounded system 对长程和 cluttered 场景更有优势。

但如果只看这个主表，其实还不够。因为别人会继续问很多问题：

是不是 VLM planner 太强，所以 action expert 本身没什么贡献？

bbox 错一点是不是系统就崩？

这个 crop 到底有没有用？

absolute positional encoding 是不是噱头？

skill language 真的重要吗？

真实机器人上还能不能跑？

你的 VLM planner 到底准不准？

实验任务是不是 cherry-pick？

DiT 细节是不是复现不了？

这些问题主文没法全部展开，于是附录就变得特别重要。它不是简单补充材料，而是在替主文填坑。

附录部分分析：

DiT 细节：不是为了炫参数，而是为了证明“这不是一个玩具 policy”

附录第一部分给了 DiT Action Expert 的 implementation details 和 hyperparameters。比如模型 16 层、hidden size 2176、16 个 attention heads、8 个 KV heads，action horizon 16，vision backbone 是 frozen DINO-SigLIP，训练 150k steps，用 AdamW、BF16、batch size 64 等。

这些内容看起来很工程，但它在论文写作里有两个作用。

第一，它让工作显得可复现。VLA 论文很容易被人质疑“调参黑箱”“系统工程不可复现”。附录把 backbone、adapter、优化器、学习率、batch size、训练步数写清楚，至少说明这个 action expert 不是口头概念，而是一个完整训练出来的模型。

第二，它体现工作量。HiVLA 的方法看起来很简单，如果正文只讲“我们设计了 cascaded cross-attention”，读者可能低估实现成本。但附录一放模型规模、训练配置、冻结哪些模块、MLP adapter 怎么接，读者会意识到：这不是在一个小网络上做 toy experiment，而是在一个比较大的 DiT policy 上系统验证。

这对科研写作很重要：简单想法要想显得扎实，必须把工程完整性展示出来。不是说参数越多越好，而是要让读者知道你真的把系统搭起来了。

VLM Planner 分析：这是整篇文章最关键的补强之一

我觉得附录里最重要的是 VLM Planner Agent Analysis。

主文声称“我们把高层 VLM planner 和低层 action expert 解耦”，那很自然会有一个问题：高层 planner 到底靠不靠谱？如果 planner 输出的 subtask 或 bbox 不准，下游 DiT 再强也没用。

所以附录单独构造了 210K dialogue instances 来评估 planner，指标也分成两个：bbox grounding 用 mIoU，subtask prediction 用 strict exact-match。这个设计很合理，因为它把高层模块拆开单独评价，不再只看最终 task success。

这里最有意思的是 Table 6。零样本情况下，Qwen3-VL 不同规模模型的 grounding mIoU 和 subtask accuracy 都不算高：比如 Qwen3-VL-4B zero-shot 是 28.03 mIoU / 45.51 subtask acc，Qwen3-VL-8B 甚至只有 12.68 / 35.71，GPT-4o 的 subtask acc 有 42.85，但 grounding mIoU 只有 3.45。fine-tune 之后，Qwen3-VL-8B 达到 90.37 mIoU 和 98.57 subtask accuracy；去掉 history 后则降到 89.63 mIoU 和 95.24 subtask accuracy。

这组实验的写作价值非常大。

它首先说明：不能只靠现成 VLM zero-shot 做机器人 planner。 这避免了一个常见误区：既然 VLM 很强，那直接 prompt 它输出 bbox 和 subtask 就行。论文用实验告诉你，不行，zero-shot 在这种精细机器人任务上还不够稳。

它又说明：轻量 domain fine-tuning 很有效。 这支撑了 HiVLA 的实际系统路线：不是 end-to-end fine-tune 整个 VLA，而是只把 planner 用对话数据适配到机器人任务，再让 action expert 学控制。

它还说明：visual history 是必要的。 没有历史图像时，subtask accuracy 明显下降。这个实验支持了论文中“planner 需要理解任务进度”的叙事。对于长程任务，比如 stack blocks，如果只看当前图像和总目标，模型可能不知道前一步做完了什么；加上 previous scene / current scene，VLM 才能判断下一步应该做哪个 subtask。

所以附录这部分不是可有可无的表格，它实际上把 HiVLA 的高层模块从“看起来合理”变成了“有独立证据支持”。

Prompt 附录：补充“系统可操作性”

附录 Table 7 给了 VLM planner 的 system prompt。这个 prompt 要求模型接收 previous scene image、current scene image、overall goal、previous subtask、current gripper state，然后只输出一个 JSON，里面必须有 next_subtask_description、action_type、target_object 和 bbox。

这部分很容易被忽略，因为它不像模型结构那样“高级”。但从论文写作角度，它其实很关键。

HiVLA 是一个 hierarchical agent system，系统之间靠中间表示通信。如果不把 prompt 和 JSON schema 讲清楚，读者就不知道高层 planner 到底输出什么，也不知道这个系统能不能复现。Table 7 的作用就是把“VLM planner agent”从一个抽象说法落到一个具体接口：

这也解释了为什么 HiVLA 能把 VLM planner 和 DiT action expert 解耦。因为两者之间不是共享隐变量，而是一个可解释、可检查、可替换的 structured plan。

从写作上看，这种附录很适合补“系统论文”的可信度。方法本身可以简单，但接口必须清晰。接口清晰了，读者就会觉得这是一个真实可运行的系统，而不是概念图。

Robustness to Planner Errors：回应“层级系统会不会误差传递”

层级系统最容易被攻击的一点就是 error propagation。高层如果 bbox 错了，下层就跟着错；高层如果 subtask 错了，下层就执行错。HiVLA 主文专门做了 planner error perturbation 实验，这个实验我觉得非常重要。

论文分别给 bbox、task language，以及二者同时注入噪声。结果显示，bbox 噪声对模型影响相对可控：即使 bbox 有 100% shifting，仍保留 57.0% 成功率；但 language 噪声会让成功率明显下降，100% task noise 时只有 12.0%。二者都加噪时也会显著下降。

这个实验不是为了证明“我们的 planner 不会错”，而是证明 action expert 的依赖结构是合理的。

对于 bbox，模型仍有 global image features，所以局部 crop 错一点时还有全局图兜底；这说明 global branch 不是多余的。对于 language，性能随错误率下降，说明 action expert 确实严格服从 skill instruction，而不是忽略语言自己乱做。这一点反而是好事，因为 HiVLA 的设计目标就是让高层负责语义决策，下层负责执行。

所以这个实验同时回应了两个问题：

层级系统是否太脆弱？

不完全是，因为 bbox 错误有一定鲁棒性。

下层是否真的听高层指令？

是的，因为 language 错误会直接伤害性能。

这类实验很适合学习。它不是单纯追求更高数字，而是在解释系统内部依赖关系。

Real-world 实验：数字不算夸张，但证明了“不只在仿真里漂亮”

HiVLA 的真实实验成功率并没有像仿真那样特别夸张。比如 Click Bell、Pick & Place Cup、Pick & Place Block 这些任务中，HiVLA 相比 H-RDT 有明显优势，但绝对成功率并不是很高。论文中真实实验使用了 360 条 teleoperated episodes，并用 GroundingDINO 和 SAM2 自动标注 bbox，然后从 simulation checkpoint 初始化，再在真实数据上 fine-tune 80K steps；评估时每个任务做 30 次，随机物体位置。

这部分的意义不在于刷出一个特别好看的 SOTA 数字，而是支撑三个点。

第一，证明系统可以落地到真实双臂平台，而不是只在 RoboTwin 里跑。

第二，证明 HiVLA 对 cluttered multi-object 场景有优势。H-RDT 在单物体任务还能做一些，但在 3 cups、3 blocks 这种需要颜色/空间语义 disambiguation 的场景里几乎崩掉；HiVLA 虽然也不完美，但明显更能处理“从多个相似物体里选指定目标”的问题。

第三，真实实验也体现了工作量。收真实数据、做自动标注、sim-to-real 初始化、fine-tune、每任务 30 trials，这些都在告诉读者：这不是纯仿真论文。

对 VLA 论文来说，真实实验有时候不是为了给最高数字，而是为了增强可信度。尤其 HiVLA 这种系统型工作，如果没有 real-world，容易被认为只是 benchmark engineering。

Ablation Study：这篇文章最会“把每个设计拆开证明”

HiVLA 的 ablation 主要验证两个问题：条件注入顺序是否重要，以及 visual-grounding components 是否重要。

最核心的结果是 Table 4。不同 cross-attention 注入顺序差别很大，最终 Global→Local→Text 达到 83.3%，优于 Local→Text、Global→Text、Local→Global→Text 等设置。作者把它解释成 coarse-to-fine：先用 global context 理解场景，再用 local crop 聚焦目标，最后用 language skill 指定动作语义。

这个实验的作用非常直接：如果没有它，cascaded cross-attention 就只是“我设计了一个顺序”。有了它，作者可以说这个顺序不是随便来的，而是实验上最优。

另一个 ablation 是去掉高清 crop 或去掉 absolute PE。结果 full model 83.3%，w/o HD crop 75.2%，w/o Abs. PE 76.8%。这两个实验分别证明：

高清 crop 确实提供了精细视觉信息；

absolute PE 确实缓解了 crop 丢失全局坐标的问题。

这也呼应了引言中的问题设定：局部 crop 会损失绝对空间位置，低分辨率全局图又会损失细节。HiVLA 的方案正是“高清 crop + absolute PE + global image”一起解决这个矛盾。也就是说，ablation 不是孤立地证明模块有效，而是在回扣 introduction 里提出的 gap。

这就是论文写作里很重要的一点：好的消融实验不是随便拆模块，而是逐一回答引言里埋下的问题。

Task Visualization 和 Task Instruction 附录：证明任务真的覆盖了作者声称的能力

附录最后给了 RoboTwin 和 real-world 的任务可视化，以及所有任务的自然语言 instruction。比如 RoboTwin 里有 Click Bell、Click Alarm Clock、Press Stapler、Lift Pot、Place Shoe、Move Stapler Pad、Stamp Seal、Stack 3 Blocks、Click 3 Bells；真实任务里有 Click 1/2 Bells、Pick & Place 1/3 Cup、Pick & Place 1/3 Block 等。

这些内容看起来像补图，但其实也是在增强论文说服力。

因为 HiVLA 的 claim 不是“我在某个单任务上做得好”，而是“我擅长 long-horizon skill composition 和 cluttered scenes 下的小物体精细操作”。那读者就需要看到任务是否真的对应这些能力：

Stack 3 Blocks：考验长程顺序和颜色语义；

Click 3 Bells：考验空间语言 disambiguation；

Stamp Seal：考验目标物体和目标区域组合；

Move Stapler Pad / Place Shoe：考验 pick-place 类 skill；

真实 3 Cups / 3 Blocks：考验多目标、颜色和 cluttered selection。

如果附录没有任务列表和可视化，主文说“long-horizon”“cluttered”“fine-grained”就容易显得空。把任务展示出来，读者才能确认实验确实覆盖了这些难点。

这也是体现工作量的一种方式。不是一句“我们测试了 9 个任务”就结束，而是把每个任务的语义和视觉场景都摆出来，让实验设置更透明。

这篇论文怎么体现工作量？

虽然 HiVLA 的原理简单，但它通过几个层面把工作量展示出来了。

第一是数据和训练。它构建了 HiVLA-HD，高分辨率 head camera 1920×1080，wrist camera 720p，每个任务约 1000 episodes，并且所有模型都在同一数据集上 fine-tune，以保证公平比较。

第二是 planner 数据。附录里 210K dialogue instances 不是小补充，它直接支撑了 VLM planner 的 fine-tuning 和独立评估。没有这个数据，HiVLA 的高层模块就很难说服人。

第三是 baseline。它不只和一个弱 baseline 比，而是和 π0、π0.5、StarVLA、H-RDT 比；其中 H-RDT 还相当于一个“只有 global image 的强 action expert baseline”，能比较清楚地体现 visual grounding 的增益。

第四是实验维度。主结果、planner robustness、skill ablation、bbox/language perturbation、real-world、guidance order、HD crop、absolute PE，这些实验共同组成了一个比较完整的证据链。

第五是系统复现细节。附录给了 DiT 模型结构、训练配置、prompt schema、任务指令和可视化。这些不一定每个都是创新点，但它们让论文看起来像一个完整系统，而不是一个只跑了主表的模型。

所以 HiVLA 的工作量不是靠“方法很复杂”体现的，而是靠“系统做全、实验补齐、附录透明”体现的。

对我写自己论文/阅读笔记的启发

HiVLA 对我最大的启发不是方法本身，而是它的写作方式。

如果自己的方法本身也比较简单，比如 skill routing、ROI grounding、local crop、action expert conditioning 这些，直接讲原理很容易显得薄。这时就需要像 HiVLA 一样，把论文写成一个完整立论：

尤其附录不能只当“放不下的材料”。对于系统型论文，附录往往承担三类作用：

补可信度：模型细节、训练超参、prompt、任务列表；

补独立证据：planner 单独评估、zero-shot vs fine-tune、history ablation；

补反驳逻辑：planner error robustness、bbox noise、language noise、real-world generalization。

我之前写阅读笔记时，可能更容易关注“模型模块是什么”。但 HiVLA 这篇更适合从论文写作角度读：它展示了一个简单系统如何通过严密实验和附录组织，变成一个看起来完整、有工作量、有说服力的 VLA work。

HiVLA 的方法不复杂，甚至可以说很直观：VLM 负责看图和规划，DiT 负责执行；bbox 负责把二者接起来；global image、local crop 和 skill language 依次注入 action expert。

但这篇论文真正值得学习的是它的“补强逻辑”。

它没有只停留在“我提出了一个层级 VLA”，而是围绕这个系统不断补证据：

用 introduction 说明端到端 VLA 的 reasoning-control trade-off；

用 related work 说明现有 grounding bridge 的不足；

用主实验证明整体性能；

用 planner analysis 证明高层模块可靠；

用 perturbation 证明层级系统不至于一错全崩；

用 ablation 证明 global/local/text 的顺序、HD crop、absolute PE 都有作用；

用真实实验和任务可视化证明场景不是单一 toy setup；

用 prompt 和 hyperparameter 附录证明系统接口和实现细节清楚。

所以，我对这篇文章的评价是：方法简单，但论文写得完整。

它提醒我，一个 VLA 工作不一定非要提出非常复杂的新模块。只要问题立得准，中间表示选得合理，系统链条讲得通，再用实验把每一个可能被质疑的点补上，简单方法也可以写得很有说服力。