【VLA】FLOWER VLA 论文阅读笔记

type

Post

status

Published

date

Mar 10, 2026 16:18

slug

summary

创新的中间模态融合 (Intermediate-Modality Fusion)

现有的 VLA 模型面临一个矛盾：保留完整的 VLM（视觉语言模型）会占用大量计算资源，而缩小 VLM 又会丢失执行指令所需的关键语义特征，FLOWER 创造性地剪枝了预训练 VLM（如 Florence-2）30% 到 50% 的层。

FLOWER提取 VLM 中间层的隐藏状态注入到 Flow Transformer 中，因为中间层保留了丰富的语义基础，而舍弃的后半部分仅仅是为“预测下一个 Token”而过度专业化的层。这种做法既保留了强大的语义理解能力，又成倍提高了训练和推理的效率。

在联合编码视觉 ( ViT ) 和文本词元后，从 VLM 主干的中间层提取隐藏状态。这些中间特征既保留了丰富的上下文信息，又避免了过度专注于下一个词元的预测，同时降低了计算成本，从而能够实现更高效的 VLA 设计。

FLOWER根据 VLM 的架构对其进行剪枝：对于Encoder–Decoder VLM（例如 Florence-2），它移除完整的decoder解码器，仅保留编码器 LLM 层。这减少了约50%的层数，同时提高了其性能和效率。对于Decoder-Only VLM（例如 SmolFlow2-Video），它删除 Transformer 层的最后30%层。这种针对性的剪枝方法可以减少 20% 到 35% 的参数，并降低每步延迟。

动作空间特定的全局 AdaLN (Global-AdaLN Conditioning)

传统DiT模块与文中提出的具有特定层 Lora 适配器的 Global AdaLN 比较

不同的机器人有着不同的动作空间（比如机械臂末端位姿控制 vs. 关节角度控制），处理这些差异通常需要给网络增加大量参数。作者在 Flow Transformer 中设计了 Action-Space Global-AdaLN-Zero 机制，所有 Transformer 层共享统一的调制权重，只需为不同的动作类别生成独特的调制信号。搭配每一层轻量级的 LoRA 适配器，这种设计在完全不损失模型表达能力的前提下，将生成头的参数量砍掉了 20%。

高效的 Rectified Flow 动作生成

与pi0相似，FLOWER 采用流匹配来生成连续的动作序列，它能在高斯噪声和数据分布之间建立直线速度场。这种机制大大降低了推理时的计算量，单臂任务仅需 4 步去噪，双臂高频任务仅需 8 步。这使得 FLOWER 的推理吞吐量高达 311Hz，比 OpenVLA 快了 5000% 以上，极大地满足了现实机器人部署对低延迟的要求。

极致的“性价比”与泛化能力

体积小、显存占用低：总参数量仅为 950M（不到 10 亿），推理仅需 1.85GB VRAM，远低于 OpenVLA 的 14.57GB。

训练成本极低：仅仅使用了约 25 万条混合机器人轨迹数据，在 4 张 H100 显卡上训练了 48 小时（约 200 GPU 小时）就完成了预训练，计算成本不到现行大模型的 1%。

多榜单霸榜：尽管只有不到 10 亿参数，FLOWER 在 CALVIN、LIBERO 等 10 个仿真和现实基准测试的 190 个任务中，全面超越了 77 亿参数的 OpenVLA 和 33 亿参数的。它不仅在 CALVIN ABC 基准上以 4.53 的得分创下新的 SoTA，在真实厨房环境应对新物体、背景干扰和光照变化时，也展现出了极强的鲁棒性。

小结与心得体会

总结来说，FLOWER 并不是靠堆砌算力和数据拿到的 SoTA，而是通过极具巧思的网络剪枝融合和高效的流架构设计，证明了参数量不到 10 亿的模型也能在复杂的机器人控制任务上战胜百亿级大模型。

这篇文章表明:适当的中间层含有的信息对视觉能力的体现是最有用的，这或许对想要截取VLM内部token的组件对于截取位置的选取具有指导意义。

另外，我个人对native AdaLN的理解还不够深入，导致我暂时还没看懂这里改为全局共享统一的调制权重为何高明，还需要多加努力才能学懂……

附：与FLOWER核心思想对比

比较维度	π0 的做法	FLOWER 的思想	核心原理解析
1. 骨干网络与融合策略	全量 VLM + 晚期融合 (Late Fusion)。使用大规模预训练 VLM（如 PaliGemma），在模型末端接入动作头。	中间融合 (Intermediate Fusion)。剪掉 VLM 30%-50% 的冗余层，通过 Cross-Attention 提取中间层语义特征。	去伪存真：舍弃了 VLM 后半部分用于“文本预测”的层，只保留对机器人控制最有用的语义信息。
2. 参数分配博弈	偏向编码器。总参数约 3.3B，绝大部分消耗在庞大的视觉/语言编码器上，导致推理缓慢。	资源再分配。总参数仅 0.95B。通过剪枝 VLM 节省空间，用来增强 Flow Transformer（动作头）的深度和容量。	头重脚轻 vs. 强力执行：FLOWER 认为一个更强大的“动作头”比过度臃肿的“视觉编码器”对动作预测更有利。
3. 条件调制机制	标准 AdaLN (逐层独立)。每一层 Transformer 都有独立的缩放和平移参数，参数量随深度激增。	全局 AdaLN (Global-AdaLN)。设计全局共享调制层，根据机器人类型和动作空间生成统一信号。	参数平权：减少了动作头 20% 的参数量，且能快速适配不同机器人（如从 Franka 切换到 Aloha）。
4. 训练与推理效率	高投入、重资源。依赖大量闭源数据和数千 GPU 小时的训练，推理延迟相对较高。	极简主义。基于 Rectified Flow 的直线路径，推理频率达 311Hz；训练仅需 200 GPU 小时。	以小博大：证明了“高质量精选数据 (OXE-soup) + 巧妙架构”可以实现甚至超越巨型模型的泛化性能。