参数凝聚的系列简介

AI 6个月前 admin

38 0 0

2020年开始，我们深入研究了参数凝聚现象，形成较为系统的工作。包括2024TPAMI, ICLR,CSIAM-AM, 2022 NeurIPSs, 2021 NeurIPS, JML, 2020 JMLR等。

2020年，我们在JMLR的文章中发现了参数凝聚的现象（在非线性训练过程中，比如小初始化，同层神经元会趋同）。除了在函数空间偏好低频的频率原则外，我们发现了在参数空间的简单偏好。

参数凝聚的系列简介

2021NeurIPS的Spotlight文章和2022JML的文章，我们从损失景观的角度研究凝聚，发现了宽网络包含窄网络的所有极值点的嵌入原则，这些极值点在宽网络中刚好对应参数凝聚。2024被CSIAM-AM接收的文章，白志威将宽度的嵌入原则推广到深度的嵌入原则。

参数凝聚的系列简介

2022NeurIPS两篇文章我们在实验上将参数凝聚的相图分析推广到三层，以及分析小初始化下，训练初始阶段凝聚的原因。小初始化容易带来凝聚，但使训练非常靠近鞍点，而导致训练非常慢。2021年起，我们开始思考如何训练可以产生凝聚并且不损害训练速度。

参数凝聚的系列简介

2024刚被TPAMI接收的工作部分解决了这个问题。2021年，我们只是想把关于SGD的分析应用到Dropout。我们做了大量的实验，后来我们写了Dropout的隐式正则项，直到突然某一天，我们意识到该正则项会让同层神经元凝聚。我们分析了凝聚和平坦解的原因，并且由于初始化不需要小，所以训练速度不会出现小初始化的麻烦。原因很直观，Dropout在训练过程随机丢弃神经元，并用同层神经元补偿输出。

参数凝聚的系列简介

2024ICLR的文章中，张众望和李雨晴对Dropout训练过程进行SDE建模，并验证模型的精确性，在数学上加深对Dropout的理解。

参数凝聚的系列简介

参数凝聚让我们对神经网络的层结构优势、训练过程、泛化有系统深入的理解，比如基于凝聚的存在，我们基本可以放心的增加网络规模而不太需要担心泛化变差，这是我们arXiv文章提出的乐观估计的核心内容之一。

参数凝聚的系列简介

参考文献

* : corresponding author, # : equal contribution.

Tao Luo#,Zhi-Qin John Xu #, Zheng Ma, Yaoyu Zhang*, Phase diagram for two-layer ReLU neural networks at infinite-width limit, arxiv 2007.07497 (2020), Journal of Machine Learning Research (2021)
Yaoyu Zhang*, Zhongwang Zhang, Tao Luo, Zhi-Qin John Xu*, Embedding Principle of Loss Landscape of Deep Neural Networks. NeurIPS 2021 spotlight
Yaoyu Zhang*, Yuqing Li, Zhongwang Zhang, Tao Luo, Zhi-Qin John Xu*, Embedding Principle: a hierarchical structure of loss landscape of deep neural networks. Journal of Machine Learning, (2022)
Zhiwei Bai, Tao Luo, Zhi-Qin John Xu*, Yaoyu Zhang*, Embedding Principle in Depth for the Loss Landscape Analysis of Deep Neural Networks. CSIAM Transactions on Applied Mathematics, 2024.
Hanxu Zhou, Qixuan Zhou, Tao Luo, Yaoyu Zhang*, Zhi-Qin John Xu*, Towards Understanding the Condensation of Neural Networks at Initial Training. NeurIPS 2022.
Hanxu Zhou, Qixuan Zhou, Zhenyuan Jin, Tao Luo, Yaoyu Zhang, Zhi-Qin John Xu*, Empirical Phase Diagram for Three-layer Neural Networks with Infinite Width. NeurIPS 2022.
Zhongwang Zhang, Zhi-Qin John Xu*, Implicit Regularization of Dropout. Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024.
Zhongwang Zhang, Yuqing Li*, Tao Luo*, Zhi-Qin John Xu*, Stochastic Modified Equations and Dynamics of Dropout Algorithm. ICLR 2024.
Yaoyu Zhang*, Zhongwang Zhang, Leyang Zhang, Zhiwei Bai, Tao Luo, Zhi-Qin John Xu*, Optimistic Estimate Uncovers the Potential of Nonlinear Models. arxiv 2305.15850 (2023).