研究人员表示深入理解BatchNorm这一基本概念的根源有助于我们更好地掌握神经网络训练潜在的复杂性,反过来,也能促进广大学者们在此基础上进一步地研究深度学习算法。
[本文来自:www.11jj.com]
[好文分享:www.11jj.com]
作者探讨了BatchNorm,优化和Internal Covariate Shift三者之间的关系。作者在CIFAR-10数据集上分别使用和不使用BatchNorm来训练标准的VGG网络,如上图显示用BatchNorm训练的网络在优化和泛化性能方面都有着显著改进。但是,从上图最右侧我们发现在有和没有BatchNorm的网络中,分布(均值和方差的变化)的差异似乎是微乎其微的。那么,由此引发以下的问题:
1)BatchNorm的有效性是否确实与Internal Covariate Shift有关?
2)BatchNorm固定层输入的分布是否能够有效减少Internal Covariate Shift?
首先我们训练网络时,刻意在BatchNorm层后注入随机噪声,由此产生明显的covariate shift。因此,层中的每个单元都会在各个时刻经历不同的输入分布。然后,我们测量这种引入的分布不稳定性对BatchNorm性能的影响。下图显示了标准网络、加上BatchNorm层的网络以及在BatchNorm层后加噪声的网络的训练结果。我们发现,后两者的性能差异可以忽略,并且都比标准网络要好。在标准网络中加BatchNorm之后,即便噪声的引入使得分布不稳定,但在训练性能仍比标准网络好。所以,BatchNorm的有效性与Internal Covariate Shift并没有什么联系。
仅从输入分布的均值和方差来看,Internal Covariate Shift似乎与训练性能并没有直接联系,那么从更广泛的概念上理解,Internal Covariate Shift是否与训练性能有着直接的联系呢?如果有,BatchNorm是否真的有效减少了Internal Covariate Shift。把每层看作是求解经验风险最小化的问题,在给定一组输入并优化损失函数,但对任何先前层的参数进行更新必将改变后面层的输入,这是Ioffe和Szegedy等研究人员关于Internal Covariate Shift理解的核心。此处,作者更从底层的优化任务角度深入探究,由于训练过程是一阶方法,因此将损失的梯度作为研究对象。
为了量化每层中参数必须根据先前层中参数更新“调整”的程度,我们分别测量更新前和更新后每层梯度的变化。作者通过实验测量了带有和不带BatchNorm层的Internal Covariate Shift程度。为分离非线性效应和梯度随机性,作者还对使用全批梯度下降训练的(25层)深度线性网络(DLN)进行分析。最终,我们发现,在网络中添加BatchNorm层应该是增加了更新前和更新后层梯度之间的相关性,从而减少Internal Covariate Shift。但令人惊讶的是,我们观察到使用BatchNorm的网络经常表现出Internal Covariate Shift的增加(参见下图),DLN尤其显著。从优化的角度来看,BatchNorm可能甚至不会减少Internal Covariate Shift。
大家好,小乐今天来为大家解答绣球花养护注意事项以下问题,绣球养花技巧很多人还不知道,现在让我们一起来看看吧!1、绣球花喜湿但是怕涝,
第六单元 运算律课题:运用乘法分派律进行轻便较量 第 3 课时 总第 课时教授方针:1.让学生在解决实际问题的过程中发现并懂得乘法分派律,学
大家好,小娟今天来为大家解答梦的翅膀受了伤简谱以下问题,梦的翅膀受了伤翻唱特别好听很多人还不知道,现在让我们一起来看看吧!1、《梦的
大家好,小美今天来为大家解答妈妈的朋友中文字幕以下问题,单身妈妈韩剧电视剧免费观看很多人还不知道,现在让我们一起来看看吧!1、请直接
合作/推广:sdjf0757(微旌旗)美容美发是好多人都邑选择的消费但个体不良商家对准消费者的爱美之心使用过时产物、诱导消费、子虚宣传精心设置
首届“奇秀不减雁荡·东坡杯”五莲山水文学大赛征稿启事为深入贯彻习近平新时代中国特色社会主义思惟和党的二十大精神,果断文化自信,深条理
点击上方蓝字免费订阅!!慢城太白传媒,您生活中的贴心伴侣! 昨晚宝鸡融媒发布了一条视频↓↓↓北京西站男子晕厥宝鸡大夫紧要急救引得大
往期出色谋划 / 共青团黑龙江职业学院委员会运营 / 校大学生新媒体运营中心总监 / 石 倩 监制 / 梁 立 唐晓恬总编 / 马雨薇审核 / 马 莉 魏刘欣
Copyright 2024.依依自媒体,让大家了解更多图文资讯!