参数凝聚的系列简介

AI 6个月前 admin
37 0 0

2020年开始,我们深入研究了参数凝聚现象,形成较为系统的工作。包括2024TPAMI, ICLR,CSIAM-AM, 2022 NeurIPSs, 2021 NeurIPS, JML, 2020 JMLR等。

2020年,我们在JMLR的文章中发现了参数凝聚的现象(在非线性训练过程中,比如小初始化,同层神经元会趋同)。除了在函数空间偏好低频的频率原则外,我们发现了在参数空间的简单偏好。

参数凝聚的系列简介

2021NeurIPS的Spotlight文章和2022JML的文章,我们从损失景观的角度研究凝聚,发现了宽网络包含窄网络的所有极值点的嵌入原则,这些极值点在宽网络中刚好对应参数凝聚。2024被CSIAM-AM接收的文章,白志威将宽度的嵌入原则推广到深度的嵌入原则。

参数凝聚的系列简介参数凝聚的系列简介参数凝聚的系列简介

2022NeurIPS两篇文章我们在实验上将参数凝聚的相图分析推广到三层,以及分析小初始化下,训练初始阶段凝聚的原因。小初始化容易带来凝聚,但使训练非常靠近鞍点,而导致训练非常慢。2021年起,我们开始思考如何训练可以产生凝聚并且不损害训练速度。

参数凝聚的系列简介参数凝聚的系列简介

2024刚被TPAMI接收的工作部分解决了这个问题。2021年,我们只是想把关于SGD的分析应用到Dropout。我们做了大量的实验,后来我们写了Dropout的隐式正则项,直到突然某一天,我们意识到该正则项会让同层神经元凝聚。我们分析了凝聚和平坦解的原因,并且由于初始化不需要小,所以训练速度不会出现小初始化的麻烦。原因很直观,Dropout在训练过程随机丢弃神经元,并用同层神经元补偿输出。

参数凝聚的系列简介

2024ICLR的文章中,张众望和李雨晴对Dropout训练过程进行SDE建模,并验证模型的精确性,在数学上加深对Dropout的理解。

参数凝聚的系列简介

参数凝聚让我们对神经网络的层结构优势、训练过程、泛化有系统深入的理解,比如基于凝聚的存在,我们基本可以放心的增加网络规模而不太需要担心泛化变差,这是我们arXiv文章提出的乐观估计的核心内容之一。

参数凝聚的系列简介





参数凝聚的系列简介

参考文献



参数凝聚的系列简介





       * : corresponding author, # : equal contribution. 

  • Tao Luo#,Zhi-Qin John Xu #, Zheng Ma, Yaoyu Zhang*, Phase diagram for two-layer ReLU neural networks at infinite-width limit, arxiv 2007.07497 (2020), Journal of Machine Learning Research (2021)

  • Yaoyu Zhang*, Zhongwang Zhang, Tao Luo, Zhi-Qin John Xu*, Embedding Principle of Loss Landscape of Deep Neural Networks. NeurIPS 2021 spotlight

  • Yaoyu Zhang*, Yuqing Li, Zhongwang Zhang, Tao Luo, Zhi-Qin John Xu*, Embedding Principle: a hierarchical structure of loss landscape of deep neural networks. Journal of Machine Learning, (2022)

  • Zhiwei Bai, Tao Luo, Zhi-Qin John Xu*, Yaoyu Zhang*, Embedding Principle in Depth for the Loss Landscape Analysis of Deep Neural Networks. CSIAM Transactions on Applied Mathematics, 2024.

  • Hanxu Zhou, Qixuan Zhou, Tao Luo, Yaoyu Zhang*, Zhi-Qin John Xu*, Towards Understanding the Condensation of Neural Networks at Initial Training. NeurIPS 2022.

  • Hanxu Zhou, Qixuan Zhou, Zhenyuan Jin, Tao Luo, Yaoyu Zhang, Zhi-Qin John Xu*, Empirical Phase Diagram for Three-layer Neural Networks with Infinite Width. NeurIPS 2022.

  • Zhongwang Zhang, Zhi-Qin John Xu*, Implicit Regularization of Dropout. Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024.

  • Zhongwang Zhang, Yuqing Li*, Tao Luo*, Zhi-Qin John Xu*, Stochastic Modified Equations and Dynamics of Dropout Algorithm. ICLR 2024.

  • Yaoyu Zhang*, Zhongwang Zhang, Leyang Zhang, Zhiwei Bai, Tao Luo, Zhi-Qin John Xu*, Optimistic Estimate Uncovers the Potential of Nonlinear Models. arxiv 2305.15850 (2023).


原文始发于微信公众号(天天机器学习):参数凝聚的系列简介

版权声明:admin 发表于 2024年1月18日 下午11:03。
转载请注明:参数凝聚的系列简介 | CTF导航

相关文章