推翻剪枝固有观点？清华、伯克利提出NN过参数化真的不重要(3)

2018-10-22 18:35:23

推翻剪枝固有观点？清华、伯克利提出NN过参数化真的不重要(3) [本文来自：www.11jj.com]

[转载出处：www.11jj.com]

论文链接：https://arxiv.org/abs/1810.05270

源代码链接： https://github.com/Eric-mingjie/rethinking-network-pruning

摘要：神经网络剪枝是降低深度模型计算成本的常用方式。典型的剪枝算法分为三个步骤：训练（大型模型）、剪枝和微调。在剪枝期间，我们需要根据某个标准修剪掉冗余的权重，并保留重要的权重以保证模型的准确率。在本文中，我们有许多与以往的研究冲突的惊人发现。我们测试了 6 个当前最优剪枝算法，微调剪枝模型的性能只相当于用随机初始化权重训练剪枝模型，有时甚至还不如后者。对于采用预定义目标网络架构的剪枝算法，可以不用典型三步流程，直接从头开始训练目标网络。我们在多个网络架构、数据集和任务上对大量剪枝算法的观察结果是一致的。结果表明：1）训练过参数化的大型模型不一定会得到高效的最终模型；2）学习大型模型的「重要」权重对于较小的剪枝模型未必有用；3）最终模型的高效率不是由一组继承的「重要」权重决定的，而是剪枝架构本身带来的，这表明一些剪枝算法的作用可以被视为执行网络架构搜索。

4 实验

在我们的实验中，我们使用 Scratch-E 来表示用相同的 epoch 数训练小型剪枝模型，使用 Scratch-B 来表示用相同的计算预算来训练（例如，在 ImageNet 上，如果剪枝模型节省了超过两倍的 FLOPs，我们只需要在训练 Scratch-B 的时候加倍 epoch 数，这相当于比大型模型训练有更少的计算预算）。

4.1 预定义的目标架构

推翻剪枝固有观点？清华、伯克利提出NN过参数化真的不重要(3)

表 1：基于通道剪枝（Li et al., 2017）的 L1 范数（准确率）结果。「Pruned Model」指大模型修剪后的模型。模型配置和「Pruned Model」均来自原论文。

推翻剪枝固有观点？清华、伯克利提出NN过参数化真的不重要(3)

表 2：ThiNet（Luo et al., 2017）的（准确率）结果。「VGG-GAP」和「ResNet50-30%」这些模型是按照 Luo 等人 (2017) 论文中定义的配置环境修剪后的模型。为调节我们的实现所使用框架与原论文框架不同所造成的影响，我们对比了未修剪大型模型的准确率下降程度。例如，对于修剪后的模型 VGG-Conv，−1.23 是相对于左侧的 71.03 而言的，71.03 是原论文中未修剪模型 VGG-16 的准确率；−2.75 是相对于左侧的 71.51 而言的，71.51 是我们的实现中 VGG-16 的准确率。

上一篇：专访Michael Jordan：AI的分布式决策与不确定性
下一篇：中国电信的全新分公司或将浮出水面

小编推荐

1
本周天气上新！有风有雨有浮尘~
新的一周又起头啦本周仍会有大风、浮尘、降水天色将对平常生活和农业生产造成影响请做好防护具体若何？一路来看↓↓↓将来一周天色估计：1
2
这些古诗句富有哲理，写议论文真好用，快摘抄！
这部门内容节选自寨主作文资料，迎接在文末订购全套资料！1.已识乾坤大，犹怜草木青。（马一浮）适用主题：软和硬寨主示范：哪怕是猛火焚烧、
3
雷雨+冰雹+大风返场！广东将有强对流天气，南雄将迎来中雨、局部大雨
热҉热҉热҉热҉热҉这几天广东气温狂飙多地打破30℃想必这初夏的“魅力”人人都已感触到了短袖、短裤、空调是要成为广东人比来的标配了?注重！
4
痛别！著名演员去世！曾带来无数笑声
起原：北京戏曲曲艺圈、北京曲艺大观园、北京电视台文艺频道、央广网、新京报、新浪微博等4月14日，北京曲艺团有名相声表演艺术家陈涌泉家人
5
以色列：将对伊朗做出前所未有的反应
本地时间14日，一名以色列高级官员透露，他承诺将对伊朗的袭击做出“空前未有的回响”，并催促以色列人不要睡眠，以目睹德黑兰即将发生的事情
6
【创建全国文明城市】公益广告：“课本封面”文明礼仪
起原：文明一号快长按二维码存眷松原发布中共松原市委宣传部主办
7
周凯（周楷恒身高）
大家好，小丽今天来为大家解答周凯以下问题，周楷恒身高很多人还不知道，现在让我们一起来看看吧！1、周凯运动生涯介绍 1、2017年1月参加国家队
8
虐心句子（虐心句子）
大家好，小豪今天来为大家解答虐心句子以下问题，虐心句子很多人还不知道，现在让我们一起来看看吧！1、1，忘川之水，在于忘情。2、展开全部

推翻剪枝固有观点？清华、伯克利提出NN过参数化真的不重要(3)

热门文章

小编推荐