1. 核心背景:为什么需要SigLIP?
CLIP(Softmax Loss)的工作方式与痛点
- 依赖大Batch Size: 这个“N 选 1”的多选题,如果N很小(比如 32),题目就太简单了,模型学不到东西。CLIP必须依赖极大的Batch Size来提供足够多的“负样本”(即错误的选项),这极度消耗算力和显存。
- 计算昂贵:在矩阵上计算全局Softmax,在分布式训练中通信开销巨大。
2. SigLIP 1: 高效的范式革命
2.1 从“多选题”到“是非题”
- 具体实现:
- 对于正样本(即对角线上的):标签为1。模型计算,并用二元交叉熵(BCE Loss)迫使结果趋近于 1(“是”)。
- 对于负样本(非对角线上的):标签为0。模型计算,并迫使结果趋近于0(“否”)。
一句话总结:CLIP问的是:“匹配的是 中的哪一个?”SigLIP则关注:“() 匹配吗?(是/否)”,“() 匹配吗?(是/否)”...
2.2 SigLIP 1的关键优势
- 摆脱对大Batch Size的依赖
- 对噪声数据更鲁棒
- 互联网数据中,()也可能是匹配的(数据噪声)。CLIP(Softmax) 会强迫模型在 和 中“二选一”,给模型错误的惩罚。而SigLIP (Sigmoid) 可以“心安理得”地认为()匹配,并且()也匹配,两个损失互不干扰。这就不会导致这种“参考性不强”的“坏数据”毒害模型参数,即鲁棒性得到提升。
- 训练效率更高
- 计算更简单,通信开销更小,训练速度更快,更容易扩展到更大的模型。
3. SigLIP 2: 全能的性能进化
核心升级1:混合训练目标 (Hybrid Objective)
以一个可能不太恰当的比喻为例:
- SigLIP 1是一个精通判断题的学生,只学习图文是否匹配(学习全局特征)。
- SigLIP 2是一个全能的学生,同时做三种题:
- 是非题 (Sigmoid Loss):保留SigLIP 1的精髓,学习高效的图文对齐。
- 作文题 (Captioning Loss):让模型看图写话(生成字幕)。这迫使模型学习精细的细节和物体关系。
- 拼图题 (Self-supervised Loss): 类似掩码图像建模 (MIM),把图挖空让模型去猜。这迫使模型学习底层的像素级特征(即密集特征)。
核心升级2:强大的多语言能力
核心升级 3:灵活的输入架构——NaFlex
4. 总结对比:SigLIP 1 vs SigLIP 2
特性 | SigLIP 1 | SigLIP 2 |
核心思想 | Sigmoid Loss 替代 Softmax Loss | 基于 Sigmoid Loss 的统一混合训练配方 |
训练目标 | 单一 (仅 Sigmoid 对比损失) | 混合 (Sigmoid + 字幕 + 自监督) |
关键优势 | 训练效率高,不依赖大 Batch Size | 性能全面,能力均衡 |
主要能力 | 图文检索、零样本分类 (英语为主) | 多语言、密集特征 (分割/检测) |
图像输入 | 固定尺寸 (如 224x224) | 可变分辨率,支持原始宽高比 (NaFlex) |
参考文献

Sigmoid Loss for Language Image Pre-Training
We propose a simple pairwise Sigmoid loss for Language-Image Pre-training (SigLIP). Unlike standard contrastive learning with softmax normalization, the sigmoid loss operates solely on image-text...

SigLIP 2: Multilingual Vision-Language Encoders with Improved...
We introduce SigLIP 2, a family of new multilingual vision-language encoders that build on the success of the original SigLIP. In this second iteration, we extend the original image-text training...
zhuanlan.zhihu.com

Sigmoid Loss for Language Image Pre-Training
Contrastive Language Image Pre-training (CLIP) has gained significant momentum after OpenAI’s CLIP paper [2]. CLIP uses image-text pairs to…
CLIP、Open CLIP、SigLip、SigLip2的相关总结-CSDN博客
文章浏览阅读3k次,点赞19次,收藏37次。本文系统梳理了多模态对比学习模型的发展脉络,重点分析了CLIP及其改进模型的技术特点。CLIP通过文本-图像对比学习实现跨模态语义对齐,采用双编码器架构和对称对比损失。OpenCLIP验证了多模态学习的幂律定律,表明模型性能与计算规模呈负相关。SigLIP创新性地使用Sigmoid损失替代Softmax,显著降低了内存消耗并支持小批量训练。最新的SigLIP2整合了LocCa定位能力、SILC自蒸馏技术和TIPS掩码预测,通过动态分辨率处理和多语言支持进一步提升了模型性能。这些技术突破为多模态学习开辟了新方_siglip
SigLIP震撼升级!谷歌提出SigLIP 2!各种视觉多模态任务新SOTA!-CSDN博客
文章浏览阅读2.6k次,点赞27次,收藏32次。我们推出了SigLIP 2,这是一系列基于原始SigLIP的成功经验构建的新型多语言视觉-语言编码器。在第二次迭代中,我们将原始的图像-文本训练目标与几种先前独立开发的技术相结合,形成了一个统一的方法——这包括基于字幕的预训练、自监督损失(自蒸馏、掩码预测)和在线数据筛选。通过这些改进,SigLIP 2模型在所有模型规模下的核心能力方面都优于其SigLIP对应模型,包括零样本分类、图像-文本检索,以及为视觉-语言模型(VLM)提取视觉表示时的迁移性能。_siglip
学习总结
- 作者:CreamGreen.
- 链接:www.creamgreen.com/article/2a6555f7-8779-8059-851a-f0759deb2643
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。

