参考论文:arxiv.org/pdf/1805.11604.pdf
[原文来自:www.11jj.com]
编译:Simon’s Road
由于BatchNorm可以加速训练并获得更加稳定的结果,近年来成为了一项在深度学习优化过程中被广泛使用的技巧。但目前人们对于它是如何在优化过程中起作用的还没有达成共识。MIT的研究人员从优化过程中对应空间的平滑性这一角度为我们带来的全新的视角。
在过去的十年中,深度学习在计算机视觉、语音识别、机器翻译和游戏博弈等众所周知的各种艰巨任务中都取得了令人瞩目的进步。这些进步离不开硬件、数据集、算法以及网络结构等方面重大进展,批标准化/规范化(Batch Normalization,简称BatchNorm)的提出更是为深度学习的发展作出了巨大贡献。BatchNorm是一种旨在通过固定层输入的分布来改善神经网络训练的技术,它通过引入一个附加网络来控制这些分布的均值和方差。BatchNorm可以实现深度神经网络更快更稳定的训练,到目前为止,无论是在学术研究中(超过4,000次引用)还是实际应用配置中,它在大多数深度学习模型中都默认使用。
尽管BatchNorm目前被广泛采用,但究竟是什么原因导致了它这么有效,尚不明确。实际上,现在也有一些工作提供了BatchNorm的替代方法,但它们似乎没有让我们更好地深入理解该问题。目前,对BatchNorm的成功以及其最初动机的最广泛接受的解释是,这种有效性源于在训练过程中控制每层输入数据分布的变化以减少所谓的“Internal Covariate Shift”。那什么是Internal Covariate Shift呢,可以理解为在神经网络的训练过程中,由于参数改变,而引起层输入分布的变化。研究人员们推测,这种持续的变化会对训练造成负面影响,而BatchNorm恰好减少了Internal Covariate Shift,从而弥补这种影响。
虽然这种解释现在被广泛接受,但似乎仍未出现支持的具体证据。尤其是,我们仍不能理解Internal Covariate Shift和训练性能之间的联系。在本文中,作者证明了BatchNorm带来的性能增益与Internal Covariate Shift无关,在某种意义上BatchNorm甚至可能不会减少Internal Covariate Shift。相反,作者发现了BatchNorm对训练过程有着更根本的影响:它能使优化问题的解空间更加平滑,而这种平滑性确保了梯度更具预测性和稳定性,因此可以使用更大范围的学习速率并获得更快的网络收敛。
作者证明了在一般条件下,在具有BatchNorm的模型中损失函数和梯度的Lipschitzness(也称为β-smoothness)得到了改善。最后,作者还发现这种平滑效果并非与BatchNorm唯一相关,许多其他的正则化技术也具有类似的效果,甚至有时效果更强,都能对训练性能提供类似的效果改善。
比来,呼市的高师长因为车出了故障就送到4S店修理,可是这车没修好不说还修出了一肚子气。 2022年1月,高师长在呼市中庆林达林肯中心花
大家好,小乐今天来为大家解答怎么跑步跑得快不累以下问题,跑步怎么跑得快很多人还不知道,现在让我们一起来看看吧!1、想要跑步跑得快,首先
大家好,小丽今天来为大家解答交叉关系举例以下问题,交叉关系举例三个词很多人还不知道,现在让我们一起来看看吧!1、比如,陕西人:专家,
大家好,小乐今天来为大家解答空待以下问题,空待君不回很多人还不知道,现在让我们一起来看看吧!1、《空待》是一首由王朝和天依合作的VOC
研途漫漫,他们披星带月荆棘丛丛,他们甘之如饴保研路上他们用无悔的对峙践行着心中的妄想收获了满径花香本期让我们一路走近保研学子机械设
比来,江南、华南强对流天色频发,3 月 31 日凌晨,江西省南昌市突发强对流天色,最强时段是 3:00 前后,南昌市、南昌县观测到了 9 级大风,进贤
大家好,小伟今天来为大家解答怎么关闭开机自动启动的软件以下问题,怎么关闭开机自动启动软件win7很多人还不知道,现在让我们一起来看看吧!
大家好,小娟今天来为大家解答世界美院排名以下问题,世界美院排名前100很多人还不知道,现在让我们一起来看看吧!1、2023年米兰布雷拉美术学院
Copyright 2024.依依自媒体,让大家了解更多图文资讯!