成果分享 | 神经元坍缩视角下的模型去偏

AI 1个月前 admin
20 0 0

    |成果分享|

成果分享 | 神经元坍缩视角下的模型去偏

今天分享我实验室白泽智能(Whizard AI)的最新研究 Navigate Beyond Shortcuts: Debiased Learning through the Lens of Neural Collapse。该工作将神经元坍缩现象(Neural Collapse phenomenon)拓展到有偏数据集的场景下,重新审视了深度学习模型的“捷径学习”问题,提出了一种基于先验引导的模型去偏方法,在多种有偏数据集场景下取得了大幅的性能提升。目前该工作已被计算机视觉顶级会议IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR) 2024录用

成果分享 | 神经元坍缩视角下的模型去偏


深度学习模型去偏

深度学习模型的“算法偏见”已成为业界广泛关注的话题。由于深度学习模型的训练数据集中往往包含对于特定属性的“偏见”,导致模型在偏见属性和目标类别之间建立错误关联,以“分类捷径”作为预测的依据,从而对少数群体样本产生不利的预测结果。例如,若训练数据集中护士类别的样本绝大部分都是女性,模型就可能在训练过程中放大这种偏见,将性别与职业错误地关联起来,产生类似于“歧视”的预测结果。

为了推进公平性人工智能的发展,模型去偏学习在近年成为研究工作的热点。这类任务旨在通过优化训练算法,在有偏的数据集上训练得到公平、去偏的深度学习模型。

目前对模型去偏的方式主要包括样本重加权、特征解耦与数据增强三类方法。然而,这些工作通常依赖于辅助模型来识别训练集中的偏见属性,或需要大量对比样本来引导数据增强的过程,为去偏学习增加了过多的额外计算成本。


有偏数据集下的神经元坍缩现象

2020年,美国国家科学院院刊PNAS首次发表了对神经元坍缩现象的研究。该现象指出,在分类模型训练的后期,模型的特征空间将形成一个等角单纯形紧框架(Simplex Equiangular Tight Framework, ETF)的几何结构,使各类样本特征收敛于其类别均值并达到最大的类间分离程度。这种稳定、对称、鲁棒的特征空间结构为模型的泛化性、可解释性研究提供了理论层面的指导。

成果分享 | 神经元坍缩视角下的模型去偏

图1. 无偏、有偏数据集下的神经元坍缩现象


为了探究模型在“捷径学习”时的行为本质,本文神经元坍缩现象的研究延伸至有偏数据集,对特征空间的收敛性质进行了理论与实验分析。

在下图中,本文量化计算了四类指标在训练过程中的变化趋势。数据集中存在偏见时,模型将在训练前期优先拟合“捷径”关系,并基于偏见属性与目标类别间的错误关联形成有偏的特征空间。这种基于“捷径学习”形成的特征空间在后期训练中难以被逆转,导致少数样本将无法收敛到类特征中心,将阻碍模型收敛于稳定、泛化的ETF空间结构。这一现象说明模型“偏见”的根源在于对捷径关系的过早拟合,而去偏学习应从问题本质出发,避免模型对偏见关联的主动学习。

成果分享 | 神经元坍缩视角下的模型去偏

图2. 有偏数据集上神经元坍缩指标


结合等角单纯形紧框架先验的去偏方法

结合有偏数据集上的神经元坍缩现象本文提出了以ETF结构近似“偏见”特征的方法,以预先定义的偏见特征作为先验信息,引导模型在训练前期跳过对捷径的学习,从而把握分类时的本质关联。本文的去偏学习框架如下图所示,通过在分类时基于偏见属性提供近似的先验特征,这一方法阻止了模型在训练前期对捷径关系的错误拟合,转而直接学习无偏、有效的本质特征。

成果分享 | 神经元坍缩视角下的模型去偏

图3. 基于先验引导的去偏学习框架


为了进一步提升模型对本质信息的关注,框架中还设计了强化引导作用的正则化项,以鼓励模型在学习本质特征时,不再包括与偏见属性有关的冗余信息。在去偏学习后的推理阶段,模型只基于学习到的本质特征进行预测,从而实现公平的分类结果。

基于神经元坍缩的理论框架,本文对提出的去偏学习方法进行了理论分析,以样本特征与分类器参数的梯度变化,展现了方法对消除捷径的有效性。


实验效果

通过评估去偏模型在少数样本测试集上的准确率,本文在2个合成数据集与3个现实数据集上验证了方法的去偏效果。结果表明,在无需额外训练的前提下,本文提出的去偏方法多种数据集场景下显著提升了模型的泛化能力。同时,本文的去偏模型在神经元坍缩指标上也取得了大幅提升,表明先验引导下的模型特征空间将自然形成稳定、鲁棒的结构。

成果分享 | 神经元坍缩视角下的模型去偏

图4. 本文框架在现实数据集上的去偏效果


      对模型注意力的可视化结果同样表明,本文提出的去偏方法将模型的关注区域从背景、噪声等偏见属性,转移到主体、轮廓等本质特征,纠正了模型对捷径的错误依赖。

成果分享 | 神经元坍缩视角下的模型去偏

图5. 模型注意力的可视化结果

成果分享 | 神经元坍缩视角下的模型去偏

团队简介

白泽智能负责人为张谧教授,隶属于杨珉教授领衔的复旦大学系统软件与安全实验室,该团队主要研究方向为AI系统安全,包括AI供应链安全、数据隐私与模型保护、模型测试与优化、AI赋能安全等研究方向,在S&P、USENIX Security、CCS、TPAMI、ICML、NeurIPS、KDD等网络安全和AI领域国际顶会顶刊已发表论文数十篇。


张谧教授个人主页:https://mi-zhang-fdu.github.io/index.chn.html

白泽智能(Whizard AI):https://whitzard-ai.github.io/

成果分享 | 神经元坍缩视角下的模型去偏

供稿:孙俊杰 汪亦凝

排版:高泽晨

审核:潘旭东 洪赓 张琬琪


复旦白泽战队

一个有情怀的安全团队

还没有关注复旦白泽战队?

公众号、知乎、微博搜索:复旦白泽战队也能找到我们哦~


原文始发于微信公众号(复旦白泽战队):成果分享 | 神经元坍缩视角下的模型去偏

版权声明:admin 发表于 2024年3月26日 上午11:01。
转载请注明:成果分享 | 神经元坍缩视角下的模型去偏 | CTF导航

相关文章