首页 >> 科学研究 >> 科研进展 >> 正文

人工智能数理基础中心朱占星课题组在随机梯度下降法中的噪声作用研究中取得进展

信息来源: 人工智能数理基础中心     发布时间:2020-08-05     浏览量:


深度学习虽然在人工智能的多个应用领域获得了巨大的成功,但其内在的工作机制并不清晰,极大的限制其长远发展。对深度学习进行理论分析是当下前沿的研究课题,对新算法和新模型的设计有重要的启示作用。数理基础研究中心的朱占星助理教授课题组长期对深度学习的理论理解进行深入研究,尤其是对深度学习的优化算法的研究,取得了一系列重要进展,并在机器学习顶级会议ICML连续发表了相关论文。


梯度方法是机器学习和深度学习模型中广泛应用的优化算法。与确定性的梯度下降法(Gradient Descent)相比,随机梯度下降法(Stochastic Gradient Descent)往往能提高模型的泛化能力,这种现象被称之为随机梯度下降法中噪声的正则化作用。如何从理论上解释噪声的正则化原理,以及什么样的噪声会有正则化作用,是深度学习理论的重要课题。


首先,研究组发现噪声的形状是影响其正则化效果的重要因素。随机梯度下降法中的噪声具有损失函数的曲率信息,从而表现出各向异性的特点。相比于各向同性的白噪声,这种各向异性的噪声能够更加有效地帮助随机梯度下降法逃离狭窄的极小值点,从而收敛到平缓的极小值点,而后者往往拥有更好的泛化能力。这一发现说明研究噪声的正则化原理不能忽视其形状。下图在实际图像分类上的实验验证了我们的理论分析的正确性。



进一步,研究组发现噪声的类型并不会影响其正则化效果。与高斯噪声,伯努利噪声等相比,随机梯度下降法的噪声拥有一种特殊的分布类型。朱组通过理论和实验验证了不同类型的噪声可以拥有相似的正则化效果,从而说明噪声类型不是其正则化能力的决定因素。基于此发现,理论上,为刻画噪声的正则化原理,我们不必局限于特定类型的噪声;实际上,我们可以人工添加更容易生成的噪声,比如高斯噪声,来提高实际模型的泛化能力,对设计强泛化能力的算法有重要启示,如下图所示。



参考文献

Zhanxing Zhu*, Jingfeng Wu*, Bing Yu, Lei Wu and Jinwen Ma. The Anisotropic Noise in Stochastic Gradient Descent: Its Behavior of Escaping from Minima and Regularization Effects. 36th International Conference on Machine Learning (ICML 2019

Jingfeng Wu, Wenqing Hu, Haoyi Xiong, Jun Huan, Vladimir Braverman and Zhanxing Zhu. On the Noisy Gradient Descent that Generalizes as SGD. 37th International Conference on Machine Learning (ICML 2020).