本工作由京东探索研究院和同济大学联合完成,目前已被 ECCV 2022 接收。在本文中,我们针对无源领域自适应(Source-free Domain Adaptation, SFDA)任务提出了一个简单、高效、通用的类平衡多中心动态原型的伪标签策略(class-Balanced Multicentric Dynamic prototype, BMD)[1],该策略可直接用于目前基于伪标签自监督训练的SFDA方法。
01
背景介绍
机器学习和深度学习的核心假设是训练数据和测试数据需要满足独立同分布。然而现实应用中,该假设往往难以成立(如图1所示)。因此经常出现在一个带标签数据集 (源域)上训练完成且性能优异的网络模型,部署到相近的无标签数据 (目标域)时出现大幅的性能损失。为解决该问题,目前学界主要提出了两类解决方案,领域自适应(Domain adaptation, DA) 和 领域泛化(Domain generalization, DG)。前者主要关注在访问目标域数据情况下,如何通过利用源域数据的信息,采用无监督学习提升网络模型在目标域的性能;而后者则主要关注在不访问目标域数据情况下,如何直接提升网络的泛化性能。对于领域自适应和领域泛化的相关技术和发展历程,本文并不展开介绍,感兴趣的小伙伴可以参考相关综述论文[2, 3].
图1. 数据分布差异展示 (图源自 ICML 2020 Test-time training)
SFDA是近年来 DA中较为受关注的一个方向。不同于传统DA方法往往假定源域数据和目标域数据是同时可访问的,然后采用半监督学习的方式,利用统计准则或者对抗学习的方式实现目标域适配。SFDA 假设仅基于源域的预训练模型,而非原始数据实现对目标域的适配。SFDA 目前最具代表性方法是 中科院自动化所 Jian Liang 老师在2020年ICML上所提出的 SHOT [4] 和 2021年 TPAMI上拓展提出的 SHOT++ [5]等工作,在这个系列文章中,Liang 老师率先提出了基于源域假设(Source-Hypothesis)的 SFDA框架 (如图2所示)。结合提出的信息最大化损失(Information-maximization Loss)和 伪标签自监督损失 (Pseudo-labeling loss),通过固定分类器头,优化学习目标域的特征提取器,实现在无源域数据访问情况下的领域适应。目前大多数SFDA的方法均基于SHOT的源域假设框架实现(如ICCV-21 G-SFDA,NeurIPS-21 NRC等).
图2. SHOT 的网络流程和结构 [3]
02
研究动机
现有SFDA方法的伪标签策略大多是先利用源域模型的预测结果结合加权 K-means 聚类算法得到各个类别的prototype,然后采用最近邻算法赋予每个目标域样本相应的伪标签。虽然该策略取得了不错的效果,但由于源域和目标域间领域差距的存在,且不同类别的领域差距往往是不同的,这就导致直接利用预测结果进行加权K-means聚类得到的特征原型是存在类别偏向(category-biased)的,进而引入过多的噪声标签。此外,我们发现由于domain gap的存在,对于每个类别都采用粗糙的、单中心的prototype往往也容易引入噪声标签,特别是对那些目标域中难迁移的数据。针对这些不足,我们提出了我们的 class-Balanced Multicentric Dynamic (BMD) prototype strategy,图3 对比了现有策略和我们BMD策略的不同。
图 3. 现有基于特征原型的伪标签策略 和 所提出的BMD 特征原型伪标签策略对比。
03
算法概述
对于一个
而现有的基于加权K-means的特征原型伪标签策略公式表达为:
其中
下面是所涉及的具体针对该伪标签策略的改进
类间均衡的采样策略
图 4. 现有类别不均的采样策略 与 所提出的类别均衡的采样策略对比。在存在较大的domain gap时,现有策略更容易发生类别不均衡的数据样本采样。
为了避免在特征原型的生成过程,domain gap 较小的易迁移类别数据在原型生成上逐渐占据主导地位,我们提出了一种新颖的全局类间平衡抽样策略,以平衡不同类别之间的不同 domain gap。具体而言,我们采用了简单、有效的TOP采样,对每个类别数据,我们从全局的角度出发,采样这个类别模型所预测概率前M个样本,作为潜在的样本数据,然后基于这些样本构建特征原型,具体而言,
其中
类内多中心的原型策略
图 5. 现有单特征原型中心的伪标签策略 与 所提出的多特征原型中心的伪标签策略对比。可以看到,通过多中心伪标签策略能够获得更准确的伪标签
由于domain-gap的存在,单特征原型对于处于决策边界附近的数据,往往容易分配错误的伪标签 (如图5 所示),进而导致负迁移。因此,在类别均衡采样的基础上,我们通过K-means构建内类多中心原型策略,将K-means聚类得到的
动态伪标签策略
除了前面所提到的类间均衡采样策略和类内多中心原型策略,我们发现大多数现有的伪标签策略都是以固定周期(如一个epoch)更新迭代一次伪标签,没有有效的利用网络更新优化的信息。为此,在前面两种策略的基础上,我们引入了基于EMA指数滑动平均的动态伪标签策略,通过在利用mini-batch的信息,更新迭代特征原型,然后基于最近邻获得动态伪标签。
04
实验结果
SOTA对比实验
我们将所提出的BMD策略,部署到了SHOT、SHOT++、G-SFDA、NRC四种方法上,并在Office-31,Office-Home,VisDA-C,以及Point-DA四个数据集上进行了性能验证。以下是实验结果
表 1. Office-31 实验结果
表 2. Office-Home 实验结果
表 3. VisDA-C 实验结果
表 4. PointDA-10 实验结果
消融实验结果
表 5. 消融实验结果,此处BP 指仅及于类间均衡策略,BMP指基于类间均衡策略与类内多中心策略,BMD则是融合所提出的三个策略
探究性实验结果
为了探究我们的方法是否真的能够抑制迁移过程中的类别不均衡,我们引入了变异系数(coefficient of variation)
表 6. VisDA-C数据集结果的相关统计指标
可视化实验结果
图 6. 可视化实验结果。(a) PointDA-10 (SC→M) t-SNE对比; (b) PointDA-10 (SC→M) Confusion-Matrix对比; (c) VisDA-C数据集伪标签和预测结果曲线变化图
05
总结
在本文中,针对无源领域自适应任务,我们提出了一个通用的类平衡多中心动态(BMD) 原型伪标签策略,可应用于现有大多数基于自监督训练的SFDA方法。大量的实验结果也证明所提出的BMD策略能显著改善现有算法性能。随着DA、尤其是SFDA的越发流行,我们希望我们的工作能为推动SFDA领域的发展贡献微薄力量。
论文链接:https://arxiv.org/abs/2204.02811
项目代码:https://github.com/ispc-lab/BMD
参考文献
THE END
往期推荐
ABOUT
京东探索研究院
京东探索研究院(JD Explore Academy)秉承“以技术为本,致力于更高效和可持续的世界”的集团使命,是以京东集团以各事业群与业务单元的技术发展为基础,集合全集团资源和能力,成立的专注前沿科技探索的研发部门,是实现研究和协同创新的生态平台。探索研究院深耕泛人工智能3大领域,包括“量子机器学习”、“可信人工智能”、“超级深度学习”,从基础理论层面实现颠覆式创新,助力数智化产业发展及变革。以原创性科技赋能京东集团零售、物流、健康、科技等全产业链场景,打造源头性科技高地,实现从量变到质变的跨越式发展,引领行业砥砺前行。
京东探索研究院诚招勤于实践、勇于梦想的志同道合之士,包括正式员工或者实习生,方向包括但不限于:算法理论、深度学习、自动机器学习、自然语言处理、计算机视觉、多模态处理、量子机器学习等。
? 简历投递邮箱:
原文始发于微信公众号(京东探索研究院):ECCV 2022 | BMD: 面向无源领域自适应的类平衡多中心动态原型策略