type
status
date
slug
summary
tags
category
icon
password
😀
笔者在学习过程中注意到:pi0与openVLA在模型预训练上均使用了SigLIP作为图像编码器用以处理图像信息,在查阅资料过程后,笔者发现在今年年初,google又发布了SigLIP2作为技术延伸,故在此处做学习记录。

1. 核心背景:为什么需要SigLIP?

在SigLIP出现之前,视觉语言模型(VLM)的预训练领域由 OpenAI 的CLIP模型主导。其使用的方法是基于核心损失函数Softmax Loss的对比学习方法,让图像编码器和文本编码器学会将“匹配”的图文对在特征空间中拉近,将“不匹配”的推远。

CLIP(Softmax Loss)的工作方式与痛点

CLIP的本质是N选1的“多选题”:
在一个批次(Batch)中,假设有 N 张图 () 和 N 段文字 ()。模型会计算一个的相似度矩阵。对于图片,Softmax Loss的目标是让它在N个文本选项() 中,“认出”是唯一正确的答案。
其核心痛点主要是:
  • 依赖大Batch Size: 这个“N 选 1”的多选题,如果N很小(比如 32),题目就太简单了,模型学不到东西。CLIP必须依赖极大的Batch Size来提供足够多的“负样本”(即错误的选项),这极度消耗算力和显存。
  • 计算昂贵:矩阵上计算全局Softmax,在分布式训练中通信开销巨大。

2. SigLIP 1: 高效的范式革命

SigLIP (全称Sigmoid Loss for Language-Image Pre-training) 的目标就是解决CLIP的效率和扩展性问题。

2.1 从“多选题”到“是非题”

SigLIP抛弃了Softmax,转而使用Sigmoid Loss作为其核心的损失函数。虽然同样计算的相似度矩阵,但SigLIP独立地看待矩阵中的每一个元素。它把任务变成了个独立的二元分类的“是非题”。
  • 具体实现:
    • 对于正样本(即对角线上的):标签为1。模型计算,并用二元交叉熵(BCE Loss)迫使结果趋近于 1(“是”)。
    • 对于负样本(非对角线上的):标签为0。模型计算,并迫使结果趋近于0(“否”)。
    • 一句话总结:CLIP问的是:“匹配的是 中的哪一个?”SigLIP则关注:“() 匹配吗?(是/否)”,“() 匹配吗?(是/否)”...

2.2 SigLIP 1的关键优势

为什么采用这种二元分类能够提升处理效率呢?SigLIP的提升主要有以下三点:
  1. 摆脱对大Batch Size的依赖
    1. SigLIP的损失是独立计算的,的损失值不依赖的对比结果。这意味着 Batch Size的大小不影响损失函数的“难度”。也不需要给模型足够多的“错误选项”来增加正确率。SigLIP在小得多的Batch Size上的表现就能持平甚至超过CLIP。
  1. 对噪声数据更鲁棒
      • 互联网数据中,()也可能是匹配的(数据噪声)。CLIP(Softmax) 会强迫模型在 中“二选一”,给模型错误的惩罚。而SigLIP (Sigmoid) 可以“心安理得”地认为()匹配,并且()也匹配,两个损失互不干扰。这就不会导致这种“参考性不强”的“坏数据”毒害模型参数,即鲁棒性得到提升。
  1. 训练效率更高
      • 计算更简单,通信开销更小,训练速度更快,更容易扩展到更大的模型。

3. SigLIP 2: 全能的性能进化

如果说SigLIP 1是“效率专家”,那么SigLIP 2的目标就是成为“六边形全能战士”。它在 SigLIP 1的高效基础上,采用了更先进的“统一混合训练配方” (Unified Hybrid Recipe)

核心升级1:混合训练目标 (Hybrid Objective)

SigLIP 1 只做“是非题”。SigLIP 2认为这不够,模型更需要“全面发展”
以一个可能不太恰当的比喻为例:
  • SigLIP 1是一个精通判断题的学生,只学习图文是否匹配(学习全局特征)。
  • SigLIP 2是一个全能的学生,同时做三种题:
      1. 是非题 (Sigmoid Loss):保留SigLIP 1的精髓,学习高效的图文对齐。
      1. 作文题 (Captioning Loss):让模型看图写话(生成字幕)。这迫使模型学习精细的细节和物体关系
      1. 拼图题 (Self-supervised Loss): 类似掩码图像建模 (MIM),把图挖空让模型去猜。这迫使模型学习底层的像素级特征(即密集特征)。
由于SigLIP 2能够同时处理三种Loss关系,学到的特征更丰富,不仅能做分类,还更擅长目标检测、分割等下游任务。

核心升级2:强大的多语言能力

SigLIP 1主要在英语数据上训练,有“偏科”问题。SigLIP 2使用了Google内部的 WebLI 数据集,这是一个超大规模、多语言的图文数据集。SigLIP 2的概念空间是跨语言对齐的,成为一个真正的多语言VLM。

核心升级 3:灵活的输入架构——NaFlex

传统VLM(包括SigLIP 1) 强制要求输入固定尺寸的正方形图片(如224x224),导致图像被粗暴地裁剪和压扁,丢失信息。SigLIP 2引入了NaFlex (Native Flexible)变体。模型可以处理任意分辨率原始宽高比的图像,更符合真实世界的应用,性能也因此更强。

4. 总结对比:SigLIP 1 vs SigLIP 2

特性
SigLIP 1
SigLIP 2
核心思想
Sigmoid Loss 替代 Softmax Loss
基于 Sigmoid Loss 的统一混合训练配方
训练目标
单一 (仅 Sigmoid 对比损失)
混合 (Sigmoid + 字幕 + 自监督)
关键优势
训练效率高,不依赖大 Batch Size
性能全面,能力均衡
主要能力
图文检索、零样本分类 (英语为主)
多语言密集特征 (分割/检测)
图像输入
固定尺寸 (如 224x224)
可变分辨率,支持原始宽高比 (NaFlex)

参考文献

arXiv.orgarXiv.orgSigmoid Loss for Language Image Pre-Training
arXiv.orgarXiv.orgSigLIP 2: Multilingual Vision-Language Encoders with Improved...
zhuanlan.zhihu.com
MediumMediumSigmoid Loss for Language Image Pre-Training
CLIP、Open CLIP、SigLip、SigLip2的相关总结-CSDN博客
SigLIP震撼升级!谷歌提出SigLIP 2!各种视觉多模态任务新SOTA!-CSDN博客

学习总结

本周的学习过程并不算顺利QAQ,原先计划的mujoco仿真工具的调试因为硬件性能原因导致仿真卡顿到难以使用……对VLA文献综述的研读也感觉“仙之人兮列如麻”,一时间不知道该到哪个领域去进行深入研学;对于SigLIP的调研也牵扯到更多新的知识点……
总的来说,这些问题主要来自于两个方面,一是初涉经验不足,还没有对VLA领域的常见架构、适用组件、发展历程、性能指标等建立起成体系的认识;二是研究目标模糊,对于应该以哪些理论研究为基底做进一步调研还没有方向,学习过程中还不会取舍——只靠一个人想要完整掌握VLA全部的知识体系还是太困难了。
 
【VLA】A Survey on Vision-Language-Action Models for Embodied AI 综述阅读笔记【VLA】ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot论文阅读笔记
Loading...