type
Post
status
Published
date
Apr 27, 2026 10:31
slug
summary
tags
具身智能
category
学习路径
icon
password
HiVLA 这篇文章的主方法其实并不难理解:上层用 VLM 做任务分解和视觉 grounding,输出子任务和目标 bbox;下层用 DiT action expert 接收全局图、局部高清 crop 和 skill 语义,再通过 cascaded cross-attention 生成动作。
如果只从模型结构看,这篇文章确实非常直接——不负责任地说,这篇文章的idea想要从零复现的话,只需要在pi0基础上加个qwen3-VL就可以做到。但我觉得它真正值得学的地方,不在于方法多复杂,而在于它很清楚地知道:一个简单方法要想写成一篇完整论文,必须把立论链条补齐,把工作量展示出来,把可能被质疑的点提前用实验和附录堵住。
所以这篇阅读笔记我不太想再重复讲“VLM planner + DiT action expert”这些原理,而是更想分析它是怎么把一个看起来很朴素的系统,写成一篇有说服力的 VLA 论文的。论文主文把 HiVLA 定位为一种 visual-grounded-centric hierarchical VLA,用 VLM 输出 subtask 和 bbox,再让 DiT action expert 依次融合 global context、high-resolution local crop 和 skill semantics。这个基本框架在摘要、引言和方法部分已经讲得很清楚。
立论过程分析:
它的立论不是“我做了一个层级系统”,而是“端到端 VLA 有一个结构性矛盾”
我觉得 HiVLA 的写作很聪明的一点,是它没有直接说“层级系统更好”,而是先把问题立成一个 trade-off。
主文一开始强调,端到端 VLA 的优势是可以把视觉、语言和动作放到一个统一模型里训练,但问题是:VLM 原本从 web-scale 预训练中获得了很强的语义和推理能力,一旦拿稀缺、窄域的 manipulation data 去 fine-tune,就可能损害这些原始能力,也就是 catastrophic forgetting。于是,论文把端到端路线描述成一种结构性矛盾:你想让 VLM 会控制,就要用机器人数据调它;但你一调它,又可能削弱它作为 VLM 的泛化推理能力。
这个立论很关键,因为如果没有这一层,HiVLA 很容易被质疑成“传统模块化系统换皮”:不就是 VLM 规划 + policy 执行吗?有什么新?
但有了这个 trade-off 之后,层级结构就不再只是工程选择,而变成了一种针对 VLA 基础矛盾的解决方案:
高层 VLM 不参与低层动作 fine-tuning,用来保留推理和 grounding 能力;低层 action expert 专心学习控制,不承担复杂语义推理。
接着,论文又进一步把问题收窄到“中间表示该是什么”。已有层级系统可以用文本子任务、keypoint、mask、segmentation 等作为桥,但 HiVLA 选择的是 bbox-based visual grounding。它的理由也很清楚:bbox 是 VLM 比较自然能输出的空间表示,不需要额外 segmentation expert;同时又可以从原始 1080p 图像里裁出高分辨率局部区域,补足低分辨率全局图在精细操作上的不足。论文在 related work 里专门把 DexGraspVLA、RoboGround、InterleaveVLA 等相关路线放在一起比较,最后得出一个 gap:现有方法没有很好地同时保留全局空间上下文、局部高清细节和明确 skill 语义。
所以它的立论链条其实是这样的:
这个链条比单纯说“我提出一个层级 VLA”要扎实很多。
方法本身简单,所以它必须把“为什么这样设计”讲得很细
HiVLA 的方法模块其实就两个:VLM Planner 和 DiT Action Expert。
VLM Planner 的输出也很朴素:一个 JSON,里面包含 next subtask、action type、target object 和 bbox。这个 JSON 再触发 image crop,从原始高清图里裁出 object-centric patch,然后和全局图、语言子任务一起送入 DiT。论文把这个过程描述成 VLM agent 使用工具:bbox 不只是一个坐标输出,而是调用 crop tool 的指令;DiT action expert 则是最终把意图翻译成物理动作的工具。这个说法本身有一点包装成分,但写作上很有效,因为它把“bbox crop”这种简单操作放进了 agent/tool-use 的叙事里。
DiT Action Expert 的设计也不复杂。它就是 conditional flow matching + transformer,然后在每个 block 里依次 cross-attend 三种条件:
这三个条件的顺序,是论文最想强调的 architectural choice。它不是把所有条件 concat 到一起,而是说这是一个 coarse-to-fine 的过程:先看全局场景,再看局部目标,最后用语言 skill 约束具体动作。这个设计是不是绝对必要,可以讨论;但从写作角度看,它至少让结构有了“递进性”,而不是普通的多模态拼接。主文 Fig. 2 也把这个递进画得很清楚:VLM 在上游产生 subtask 和 bbox,下游 DiT block 内部按 global/local/language 级联注入。
这对我们写论文很有启发。方法简单时,不能只写“我用了 A+B+C”,而要写成:
A 负责什么,B 补了 A 的什么不足,C 最后又解决什么歧义。
HiVLA 里就是:
- global image:保留完整场景和空间关系;
- local crop:提供目标区域高清细节;
- absolute PE:把 crop 放回原图坐标系,避免只知道局部、不知道位置;
- skill language:告诉 policy 当前到底是 pick、place、push 还是 click。
这些东西单独看都不难,但组合起来就形成了一个还算完整的 grounded execution story。
主实验负责证明“这个系统有效”,附录负责证明“这个系统不是拍脑袋拼的”
HiVLA 的主实验其实承担的是最直接的任务:证明它比 baseline 强。
在 RoboTwin 上,论文把任务分成 Easy 和 Hard。Easy 任务更多看单技能、小目标精细感知;Hard 任务则强调长程组合、空间语言、多目标干扰。主表里 HiVLA 总平均成功率 83.3%,高于 H-RDT 的 70.6%,也明显高于 π0、π0.5、StarVLA。尤其在 Hard tasks 上,HiVLA 是 73.2%,H-RDT 是 54.6%,π0、π0.5、StarVLA 都不到 40%。这个实验的作用是把核心 claim 打出来:层级 grounded system 对长程和 cluttered 场景更有优势。
但如果只看这个主表,其实还不够。因为别人会继续问很多问题:
- 是不是 VLM planner 太强,所以 action expert 本身没什么贡献?
- bbox 错一点是不是系统就崩?
- 这个 crop 到底有没有用?
- absolute positional encoding 是不是噱头?
- skill language 真的重要吗?
- 真实机器人上还能不能跑?
- 你的 VLM planner 到底准不准?
- 实验任务是不是 cherry-pick?
- DiT 细节是不是复现不了?
这些问题主文没法全部展开,于是附录就变得特别重要。它不是简单补充材料,而是在替主文填坑。
附录部分分析:
DiT 细节:不是为了炫参数,而是为了证明“这不是一个玩具 policy”
附录第一部分给了 DiT Action Expert 的 implementation details 和 hyperparameters。比如模型 16 层、hidden size 2176、16 个 attention heads、8 个 KV heads,action horizon 16,vision backbone 是 frozen DINO-SigLIP,训练 150k steps,用 AdamW、BF16、batch size 64 等。
这些内容看起来很工程,但它在论文写作里有两个作用。
第一,它让工作显得可复现。VLA 论文很容易被人质疑“调参黑箱”“系统工程不可复现”。附录把 backbone、adapter、优化器、学习率、batch size、训练步数写清楚,至少说明这个 action expert 不是口头概念,而是一个完整训练出来的模型。
第二,它体现工作量。HiVLA 的方法看起来很简单,如果正文只讲“我们设计了 cascaded cross-attention”,读者可能低估实现成本。但附录一放模型规模、训练配置、冻结哪些模块、MLP adapter 怎么接,读者会意识到:这不是在一个小网络上做 toy experiment,而是在一个比较大的 DiT policy 上系统验证。
这对科研写作很重要:简单想法要想显得扎实,必须把工程完整性展示出来。不是说参数越多越好,而是要让读者知道你真的把系统搭起来了。
VLM Planner 分析:这是整篇文章最关键的补强之一
我觉得附录里最重要的是 VLM Planner Agent Analysis。
主文声称“我们把高层 VLM planner 和低层 action expert 解耦”,那很自然会有一个问题:高层 planner 到底靠不靠谱?如果 planner 输出的 subtask 或 bbox 不准,下游 DiT 再强也没用。
所以附录单独构造了 210K dialogue instances 来评估 planner,指标也分成两个:bbox grounding 用 mIoU,subtask prediction 用 strict exact-match。这个设计很合理,因为它把高层模块拆开单独评价,不再只看最终 task success。
这里最有意思的是 Table 6。零样本情况下,Qwen3-VL 不同规模模型的 grounding mIoU 和 subtask accuracy 都不算高:比如 Qwen3-VL-4B zero-shot 是 28.03 mIoU / 45.51 subtask acc,Qwen3-VL-8B 甚至只有 12.68 / 35.71,GPT-4o 的 subtask acc 有 42.85,但 grounding mIoU 只有 3.45。fine-tune 之后,Qwen3-VL-8B 达到 90.37 mIoU 和 98.57 subtask accuracy;去掉 history 后则降到 89.63 mIoU 和 95.24 subtask accuracy。
这组实验的写作价值非常大。
它首先说明:不能只靠现成 VLM zero-shot 做机器人 planner。 这避免了一个常见误区:既然 VLM 很强,那直接 prompt 它输出 bbox 和 subtask 就行。论文用实验告诉你,不行,zero-shot 在这种精细机器人任务上还不够稳。
它又说明:轻量 domain fine-tuning 很有效。 这支撑了 HiVLA 的实际系统路线:不是 end-to-end fine-tune 整个 VLA,而是只把 planner 用对话数据适配到机器人任务,再让 action expert 学控制。
它还说明:visual history 是必要的。 没有历史图像时,subtask accuracy 明显下降。这个实验支持了论文中“planner 需要理解任务进度”的叙事。对于长程任务,比如 stack blocks,如果只看当前图像和总目标,模型可能不知道前一步做完了什么;加上 previous scene / current scene,VLM 才能判断下一步应该做哪个 subtask。
所以附录这部分不是可有可无的表格,它实际上把 HiVLA 的高层模块从“看起来合理”变成了“有独立证据支持”。
Prompt 附录:补充“系统可操作性”
附录 Table 7 给了 VLM planner 的 system prompt。这个 prompt 要求模型接收 previous scene image、current scene image、overall goal、previous subtask、current gripper state,然后只输出一个 JSON,里面必须有 next_subtask_description、action_type、target_object 和 bbox。
这部分很容易被忽略,因为它不像模型结构那样“高级”。但从论文写作角度,它其实很关键。
HiVLA 是一个 hierarchical agent system,系统之间靠中间表示通信。如果不把 prompt 和 JSON schema 讲清楚,读者就不知道高层 planner 到底输出什么,也不知道这个系统能不能复现。Table 7 的作用就是把“VLM planner agent”从一个抽象说法落到一个具体接口:
这也解释了为什么 HiVLA 能把 VLM planner 和 DiT action expert 解耦。因为两者之间不是共享隐变量,而是一个可解释、可检查、可替换的 structured plan。
从写作上看,这种附录很适合补“系统论文”的可信度。方法本身可以简单,但接口必须清晰。接口清晰了,读者就会觉得这是一个真实可运行的系统,而不是概念图。
Robustness to Planner Errors:回应“层级系统会不会误差传递”
层级系统最容易被攻击的一点就是 error propagation。高层如果 bbox 错了,下层就跟着错;高层如果 subtask 错了,下层就执行错。HiVLA 主文专门做了 planner error perturbation 实验,这个实验我觉得非常重要。
论文分别给 bbox、task language,以及二者同时注入噪声。结果显示,bbox 噪声对模型影响相对可控:即使 bbox 有 100% shifting,仍保留 57.0% 成功率;但 language 噪声会让成功率明显下降,100% task noise 时只有 12.0%。二者都加噪时也会显著下降。
这个实验不是为了证明“我们的 planner 不会错”,而是证明 action expert 的依赖结构是合理的。
对于 bbox,模型仍有 global image features,所以局部 crop 错一点时还有全局图兜底;这说明 global branch 不是多余的。对于 language,性能随错误率下降,说明 action expert 确实严格服从 skill instruction,而不是忽略语言自己乱做。这一点反而是好事,因为 HiVLA 的设计目标就是让高层负责语义决策,下层负责执行。
所以这个实验同时回应了两个问题:
- 层级系统是否太脆弱?
不完全是,因为 bbox 错误有一定鲁棒性。
- 下层是否真的听高层指令?
是的,因为 language 错误会直接伤害性能。
这类实验很适合学习。它不是单纯追求更高数字,而是在解释系统内部依赖关系。
Real-world 实验:数字不算夸张,但证明了“不只在仿真里漂亮”
HiVLA 的真实实验成功率并没有像仿真那样特别夸张。比如 Click Bell、Pick & Place Cup、Pick & Place Block 这些任务中,HiVLA 相比 H-RDT 有明显优势,但绝对成功率并不是很高。论文中真实实验使用了 360 条 teleoperated episodes,并用 GroundingDINO 和 SAM2 自动标注 bbox,然后从 simulation checkpoint 初始化,再在真实数据上 fine-tune 80K steps;评估时每个任务做 30 次,随机物体位置。
这部分的意义不在于刷出一个特别好看的 SOTA 数字,而是支撑三个点。
第一,证明系统可以落地到真实双臂平台,而不是只在 RoboTwin 里跑。
第二,证明 HiVLA 对 cluttered multi-object 场景有优势。H-RDT 在单物体任务还能做一些,但在 3 cups、3 blocks 这种需要颜色/空间语义 disambiguation 的场景里几乎崩掉;HiVLA 虽然也不完美,但明显更能处理“从多个相似物体里选指定目标”的问题。
第三,真实实验也体现了工作量。收真实数据、做自动标注、sim-to-real 初始化、fine-tune、每任务 30 trials,这些都在告诉读者:这不是纯仿真论文。
对 VLA 论文来说,真实实验有时候不是为了给最高数字,而是为了增强可信度。尤其 HiVLA 这种系统型工作,如果没有 real-world,容易被认为只是 benchmark engineering。
Ablation Study:这篇文章最会“把每个设计拆开证明”
HiVLA 的 ablation 主要验证两个问题:条件注入顺序是否重要,以及 visual-grounding components 是否重要。
最核心的结果是 Table 4。不同 cross-attention 注入顺序差别很大,最终 Global→Local→Text 达到 83.3%,优于 Local→Text、Global→Text、Local→Global→Text 等设置。作者把它解释成 coarse-to-fine:先用 global context 理解场景,再用 local crop 聚焦目标,最后用 language skill 指定动作语义。
这个实验的作用非常直接:如果没有它,cascaded cross-attention 就只是“我设计了一个顺序”。有了它,作者可以说这个顺序不是随便来的,而是实验上最优。
另一个 ablation 是去掉高清 crop 或去掉 absolute PE。结果 full model 83.3%,w/o HD crop 75.2%,w/o Abs. PE 76.8%。这两个实验分别证明:
- 高清 crop 确实提供了精细视觉信息;
- absolute PE 确实缓解了 crop 丢失全局坐标的问题。
这也呼应了引言中的问题设定:局部 crop 会损失绝对空间位置,低分辨率全局图又会损失细节。HiVLA 的方案正是“高清 crop + absolute PE + global image”一起解决这个矛盾。也就是说,ablation 不是孤立地证明模块有效,而是在回扣 introduction 里提出的 gap。
这就是论文写作里很重要的一点:好的消融实验不是随便拆模块,而是逐一回答引言里埋下的问题。
Task Visualization 和 Task Instruction 附录:证明任务真的覆盖了作者声称的能力
附录最后给了 RoboTwin 和 real-world 的任务可视化,以及所有任务的自然语言 instruction。比如 RoboTwin 里有 Click Bell、Click Alarm Clock、Press Stapler、Lift Pot、Place Shoe、Move Stapler Pad、Stamp Seal、Stack 3 Blocks、Click 3 Bells;真实任务里有 Click 1/2 Bells、Pick & Place 1/3 Cup、Pick & Place 1/3 Block 等。
这些内容看起来像补图,但其实也是在增强论文说服力。
因为 HiVLA 的 claim 不是“我在某个单任务上做得好”,而是“我擅长 long-horizon skill composition 和 cluttered scenes 下的小物体精细操作”。那读者就需要看到任务是否真的对应这些能力:
- Stack 3 Blocks:考验长程顺序和颜色语义;
- Click 3 Bells:考验空间语言 disambiguation;
- Stamp Seal:考验目标物体和目标区域组合;
- Move Stapler Pad / Place Shoe:考验 pick-place 类 skill;
- 真实 3 Cups / 3 Blocks:考验多目标、颜色和 cluttered selection。
如果附录没有任务列表和可视化,主文说“long-horizon”“cluttered”“fine-grained”就容易显得空。把任务展示出来,读者才能确认实验确实覆盖了这些难点。
这也是体现工作量的一种方式。不是一句“我们测试了 9 个任务”就结束,而是把每个任务的语义和视觉场景都摆出来,让实验设置更透明。
这篇论文怎么体现工作量?
虽然 HiVLA 的原理简单,但它通过几个层面把工作量展示出来了。
第一是数据和训练。它构建了 HiVLA-HD,高分辨率 head camera 1920×1080,wrist camera 720p,每个任务约 1000 episodes,并且所有模型都在同一数据集上 fine-tune,以保证公平比较。
第二是 planner 数据。附录里 210K dialogue instances 不是小补充,它直接支撑了 VLM planner 的 fine-tuning 和独立评估。没有这个数据,HiVLA 的高层模块就很难说服人。
第三是 baseline。它不只和一个弱 baseline 比,而是和 π0、π0.5、StarVLA、H-RDT 比;其中 H-RDT 还相当于一个“只有 global image 的强 action expert baseline”,能比较清楚地体现 visual grounding 的增益。
第四是实验维度。主结果、planner robustness、skill ablation、bbox/language perturbation、real-world、guidance order、HD crop、absolute PE,这些实验共同组成了一个比较完整的证据链。
第五是系统复现细节。附录给了 DiT 模型结构、训练配置、prompt schema、任务指令和可视化。这些不一定每个都是创新点,但它们让论文看起来像一个完整系统,而不是一个只跑了主表的模型。
所以 HiVLA 的工作量不是靠“方法很复杂”体现的,而是靠“系统做全、实验补齐、附录透明”体现的。
对我写自己论文/阅读笔记的启发
HiVLA 对我最大的启发不是方法本身,而是它的写作方式。
如果自己的方法本身也比较简单,比如 skill routing、ROI grounding、local crop、action expert conditioning 这些,直接讲原理很容易显得薄。这时就需要像 HiVLA 一样,把论文写成一个完整立论:
尤其附录不能只当“放不下的材料”。对于系统型论文,附录往往承担三类作用:
- 补可信度:模型细节、训练超参、prompt、任务列表;
- 补独立证据:planner 单独评估、zero-shot vs fine-tune、history ablation;
- 补反驳逻辑:planner error robustness、bbox noise、language noise、real-world generalization。
我之前写阅读笔记时,可能更容易关注“模型模块是什么”。但 HiVLA 这篇更适合从论文写作角度读:它展示了一个简单系统如何通过严密实验和附录组织,变成一个看起来完整、有工作量、有说服力的 VLA work。
HiVLA 的方法不复杂,甚至可以说很直观:VLM 负责看图和规划,DiT 负责执行;bbox 负责把二者接起来;global image、local crop 和 skill language 依次注入 action expert。
但这篇论文真正值得学习的是它的“补强逻辑”。
它没有只停留在“我提出了一个层级 VLA”,而是围绕这个系统不断补证据:
- 用 introduction 说明端到端 VLA 的 reasoning-control trade-off;
- 用 related work 说明现有 grounding bridge 的不足;
- 用主实验证明整体性能;
- 用 planner analysis 证明高层模块可靠;
- 用 perturbation 证明层级系统不至于一错全崩;
- 用 ablation 证明 global/local/text 的顺序、HD crop、absolute PE 都有作用;
- 用真实实验和任务可视化证明场景不是单一 toy setup;
- 用 prompt 和 hyperparameter 附录证明系统接口和实现细节清楚。
所以,我对这篇文章的评价是:方法简单,但论文写得完整。
它提醒我,一个 VLA 工作不一定非要提出非常复杂的新模块。只要问题立得准,中间表示选得合理,系统链条讲得通,再用实验把每一个可能被质疑的点补上,简单方法也可以写得很有说服力。
- 作者:CreamGreen.
- 链接:www.creamgreen.com/article/350555f7-8779-8035-9cc3-d4f1926e71e2
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章

.png?table=block&id=350555f7-8779-8035-9cc3-d4f1926e71e2&t=350555f7-8779-8035-9cc3-d4f1926e71e2)
.png?table=block&id=28e555f7-8779-80ec-b81a-d42f2e03ca40&t=28e555f7-8779-80ec-b81a-d42f2e03ca40)
.png?table=block&id=297555f7-8779-80ee-912a-f9920dd2cd23&t=297555f7-8779-80ee-912a-f9920dd2cd23)

.png?table=block&id=34f555f7-8779-808b-8fce-e6c88a929659&t=34f555f7-8779-808b-8fce-e6c88a929659)


