零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026
在工业质检与医学影像等真实场景中,异常检测始终面临一个核心矛盾:模型既要跨领域泛化,又要在几乎没有目标域数据的情况下,精确定位细微异常。现实生产中,产线频繁换型,新产品刚投产,缺陷样本极少,而异常往往表现为局部、稀疏、小尺度的像素级变化。这使得大量依赖监督学习或目标域微调的方法难以真正落地。近日,西门子与腾讯优图联合研究团队提出AdaptCLIP,一种通用视觉异常检测框架,具有以下亮点:单一模型无
在工业质检与医学影像等真实场景中,异常检测始终面临一个核心矛盾:模型既要跨领域泛化,又要在几乎没有目标域数据的情况下,精确定位细微异常。现实生产中,产线频繁换型,新产品刚投产,缺陷样本极少,而异常往往表现为局部、稀疏、小尺度的像素级变化。这使得大量依赖监督学习或目标域微调的方法难以真正落地。近日,西门子与腾讯优图联合研究团队提出AdaptCLIP,一种通用视觉异常检测框架,具有以下亮点:单一模型无需目标域微调同时支持图像级异常分类 + 像素级异常分割兼容零样本 / 少样本推理一、为什么“通用异常检测”一直做不好?通用异常检测要求模型在训练域与测试域分布显著不同的前提下,仍能稳定检测异常。这一设定暴露了现有方法的结构性瓶颈:传统无监督 AD 方法(如PaDiM、PatchCore、重建式模型)依赖大量正常样本,一旦面对未见类别或新领域,性能迅速退化。CLIP 驱动的方法虽借助跨模态先验实现零样本检测,但代价并不小:WinCLIP 依赖密集窗口扫描,计算与显存开销巨大;AnomalyCLIP、AdaCLIP 通过修改中间层或引入复杂token,削弱了 CLIP 的原始表征能力;InCtrl、PromptAD 要么只支持图像级判断,要么仍需目标域重新训练。问题归结为一句话:如何在不破坏 CLIP 原有泛化能力的前提下,让它真正学会“找异常”?二、AdaptCLIP的答案:少即是多AdaptCLIP 将 CLIP 视为一种“基础服务模型”,不改动其主干结构,仅在输入与输出端引入三个轻量适配器:视觉适配器(VisualAdapter)文本适配器(TextAdapter)提示-查询适配器(Prompt-QueryAdapter)并由两个关键洞见驱动:1️⃣ 视觉与文本表征不应联合学习,而应交替学习;2️⃣ 少样本对比学习不能只看残差,还必须结合上下文信息。 图1 AdaptCLIP架构图三、交替学习:零样本异常检测的核心机制3.1 从 CLIP 的异常判别说起给定查询图像,CLIP视觉编码器输出局部 patch token 与全局图像token,并与“正常 / 异常”文本嵌入进行相似度比对,即可得到图像级异常分数与像素级异常图。但在工业场景中,原生 CLIP 的像素级定位能力明显不足。3.2 视觉适配器:只做“微调”,不做“重塑”视觉适配器分别作用于局部 patch token 与全局token,均采用残差 MLP 结构,对 CLIP 表征进行轻量自适应调整:其中和分别表示CLIP输出的局部 patch token和全局图像token,和为适配器可学习参数。其目标是在固定文本语义空间的前提下,使视觉特征更贴合异常检测任务,从而显著提升像素级定位能力。3.3 文本适配器:抛弃 prompt 工程文本适配器不再依赖人工设计的模板,而是直接学习“正常 / 异常”两类可优化提示嵌入,并输入冻结的 CLIP 文本编码器生成语义表示:其中表示CLIP文本编码器,和为最终用于特征比对的异常与正常文本嵌入。这一设计在保留 CLIP 原有语义结构的同时,降低了对 prompt 经验的依赖。3.4为什么交替学习优于联合学习?论文通过消融实验发现,在小规模训练数据下,联合学习易过拟合。因此 AdaptCLIP 采用交替优化策略:固定文本→ 优化视觉;固定视觉→ 优化文本,循环迭代。该策略在多个工业与医学数据集上,显著优于联合学习方案,成为零样本异常检测性能提升的关键。四、对比学习:少样本场景下的关键补强当可获得少量正常样本时,AdaptCLIP启用提示-查询适配器。4.1 空间对齐:先对齐,再比较针对查询图像的每个patch,模型在正常样本中搜索欧氏距离最近的 patch作为对齐目标,从而消除旋转、平移带来的干扰,并计算对齐残差特征。4.2 残差 + 上下文:避免“只见树木,不见森林”论文发现,仅依赖残差特征虽然能突出差异,但容易引入噪声、丢失上下文信息。因此 AdaptCLIP 将原始查询特征与对齐残差逐元素相加,形成联合特征:在 1-shot 设置下,引入上下文后,在 MVTec 数据集上的像素级 AUPR 提升约 40%,成为少样本性能跃迁的关键因素。4.3 从联合特征到异常预测:极简分割与分类头在得到融合了上下文与对齐残差的联合特征后,AdaptCLIP 采用一套轻量输出头完成异常预测。像素级分割:联合特征经 1×1 卷积与若干 转置卷积模块上采样至原分辨率,生成异常图;图像级分类:对联合特征进行平均池化与最大池化,融合后输入 MLP输出异常分数。推理阶段根据可用信息进行结果融合:零样本:融合视觉适配器与文本适配器预测;少样本:在此基础上进一步融合提示-查询适配器结果。五、实验结果:跨工业与医疗的一致验证AdaptCLIP 在12 个公开基准数据集(8 个工业 + 4 个医疗)上进行了系统评估,覆盖不同成像模态与异常类型。在零样本异常检测场景下,AdaptCLIP 在 MVTec、VisA、BTAD、Real-IAD 等工业数据集上,图像级 AUROC 平均达到86.2%(SOTA),在多类未见产品与跨类别测试中依然保持稳定优势。在医学影像任务中,AdaptCLIP在内窥镜数据集Kvasir与Endo的零样本像素级异常分割AUPR平均达到48.7%,并在Br35H(MRI)、COVID-19(X-ray)等数据集的零样本图像级异常检测中取得平均90.7%的AUROC,均显著高于其他现有方法。在少样本设置下,随着正常样本数量从 1-shot 增加至 4-shot,异常区域的定位逐步细化。提示-查询适配器显著降低了误报区域,使异常边界更加清晰。从模型规模与效率来看,AdaptCLIP在零样本条件下仅引入约0.6M额外可训练参数(对比方法可高达10.7M)。在 518×518 分辨率下,零样本条件单张图像推理时间约 162 ms,兼顾检测精度与实际部署需求。待检图像真实缺陷标注0-shot检出结果1-shot检出结果4-shot检出结果 图2 AdaptCLIP在工业与医疗数据上检测结果可视化 图3 AdaptCLIP在工业与医疗数据上图像级AUROC分类结果与其他方法对比 图4 AdaptCLIP在工业与医疗数据上像素级AUPR分割结果与其他方法对比 图5 AdaptCLIP与其他方法对比模型规模与效率总结AdaptCLIP 并未试图“重造一个更大的模型”,而是通过交替学习 + 轻量适配 + 上下文感知对比,在不破坏 CLIP 原始能力的前提下,实现了真正可迁移的异常检测。它为工业与医疗等开放场景提供了一条清晰路径:用最少的结构改动,换取最大的泛化收益。论文链接:https://arxiv.org/abs/2505.09926]]>