type
Post
status
Published
date
Mar 10, 2026 09:26
slug
summary
tags
具身智能
category
学习路径
icon
password

1. CALVIN

CALVIN 是目前评估长程和语言条件操作最火热的桌面级基准之一。
  • GitHub 代码库: mees/calvin (包含数据集下载、环境配置和评测脚本)
  • 论文: CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks (IEEE RA-L 2022 Best Paper)

2. LIBERO (包含 LIBERO-Long)

专注于终身学习(Lifelong Learning)和知识迁移的基准,其 LIBERO-Long 任务分片专门用于评估 10 步以上的复杂长程空间记忆与多物品操作。
  • 相关延伸库: LIBERO-PRO (针对原版 LIBERO 增加了空间位置、视觉、语义等更多维度泛化测试的进阶版)
  • 论文: LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning (arXiv:2306.03310)

3. VIMA & VIMA-Bench

核心亮点在于多模态提示(Multimodal Prompts),任务链条高度依赖于视觉堆叠(Visual Manipulation/Stacking)和图像指令跟踪。
  • GitHub 代码库 (仿真环境): vimalabs/VimaBench (包含 17 种图文交互桌面任务的 Gym 接口环境)
  • GitHub 代码库 (算法模型): vimalabs/VIMA (官方 Transformer 模型实现及预训练权重)
  • 论文: VIMA: General Robot Manipulation with Multimodal Prompts (ICML 2023, arXiv链接)

4. BEHAVIOR-1K

由斯坦福大学 (StanfordVL) 主导,基于 OmniGibson 高保真物理仿真器,面向极长程(100+步)、高物理约束的日常家务。这是目前最难的具身基准之一。
  • 论文: BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation (CoRL 2022 / arXiv:2403.09227)

5.VLABench

划分了 6 个核心评估维度:网格与纹理理解、空间理解、常识与世界知识应用、语义指令理解、物理定律理解以及长程推理。复合任务(Composite Tasks)的平均时间步长超过 500 步。任务不仅要求代理规划多步操作,还要求结合视觉和常识进行逻辑推演甚至数学计算(例如通过堆叠数字方块来回答数学题)
  • GitHub 代码库: OpenMOSS/VLABench (专注于大规模语言条件控制与长程推理任务的机器人操作基准,提供包含跨类别泛化、常识应用、跨任务等 6 个维度的评估 Tracks,以及标准化的微调与评估数据集)
  • 论文: VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks (ICCV 2025 / arXiv:2412.18194)

6.VLA-Arena

每个任务都包含三个难度级别(L0 到 L2),用于精确测量模型从分布内记忆到分布外泛化的能力边界。包含场景构建、数据收集、数据格式转换(如转为 RLDS 或 LeRobot 格式)、模型微调(原生支持 OpenVLA, Pi0, UniVLA 等)和标准化评估的完整框架。
  • GitHub 代码库:PKU-Alignment/VLA-Arena (包含 170 个不同种类和难度的基于 CBDDL 定义的任务,覆盖安全、干扰、泛化和长程 4 大领域,并附带完整的端到端工具链)
  • 论文: VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models (arXiv:2512.22539)
Benchmark 名称
发布时间
底层物理引擎 / 框架
GPU 显存 (VRAM) 需求参考
核心任务特征 (长程/堆叠)
CALVIN
2022
PyBullet (轻量级桌面级仿真)
≥ 12GB
连续执行 5 个以上无重置语言指令;包含基础积木堆叠与滑动交互。
LIBERO (特指 LIBERO-Long)
2023
MuJoCo (基于 robosuite 框架)
≥ 16GB
长达 10 步以上的序列空间记忆与多物品操作;侧重跨环境与跨物体的知识迁移。
VIMA-Bench
2023
PyBullet (基于 Ravens 深度定制)
≥ 8GB
基于多模态提示(图文交错);强调目标导向的复杂视觉堆叠与仿射变换。
BEHAVIOR-1K
2022
OmniGibson (基于 NVIDIA Omniverse / PhysX 5)
≥ 16GB
超长程 (100+ 步) 宏观家务;包含高物理保真度的软体、流体、热力学状态以及不规则物品堆叠
VLABench
2024
MuJoCo & dm_control (基于 OpenMOSS 框架构建。原生提供脚本,可一键将数据转换为适配 OpenVLA/Octo or LeRobot格式。)
≥ 24GB
极度强调常识应用多步逻辑推理。其长程任务不仅要求模型完成多物品的精准抓取与堆叠,还要求模型能理解富含上下文的复杂语义指令(隐式意图)
VLA-Arena
2025
MuJoCo(基于 RoboSuite 仿真平台构建)
未给出具体最低显存要求
共包含 170 个L0-L2不同难度分级和种类的任务。其长程任务要求模型组合多个已学的原子技能来完成多步规划。此外,该基准极度强调在长程操作中的安全性(如避开动态障碍、维持容器水平状态)以及抵抗多模态扰动的鲁棒性。
 
【VLA】全量training与eval错题本第一篇文章
Loading...