支撑千万规模类别分类技术，百度飞桨定义工业级深度学习框架

2020-03-27 06:47:01

[原文来自：www.11jj.com]

2016 年，AlphaGo 横空出生，人工智能时代到来。同年，百度开源自研的深度进修框架 PaddlePaddle（飞桨），成为中国首个开源深度进修框架。

然而，这波由深度进修鼓动的手艺和财富浪潮，也面临着诸多挑战。

数据量越来越大，有些模型的演习数据动辄上 TB；模型越来越深，越来越复杂，从 AlexNet 的 8 层，到 ResNet-1000 的 1202 层；模型参数越来越多，甚至跨越 10 个亿……

深度进修模型的演习效率成为一个关键问题。

因为深度进修模型的究竟迭代对演习速度非常敏感，所以能够带来高机能分布式演习的深度进修框架是实际斥地和应用的刚需，也是 AI 在财富界能够真正落地的底细。

沟通的硬件设备数，高效率的分布式演习，可以大大缩短产品迭代周期。而在受限的时间要求下，高效率的..型对象也可以显著削减硬件需求。

作为中国首个独一开源开放、功能完整的深度进修..。经由多年的财富实践，百度飞桨已成长为集核心框架、对象组件和处事..为一体的端到端开源深度进修..，飞桨的大规模分布式演习能力始终是其首要亮点。

百度深度进修手艺..部总监马艳军在 CSDN 举办的 AI 斥地者大会上曾介绍，“飞桨同时撑持浓密参数和稀少参数场景的超大规模深度进修并行演习，撑持万亿甚至更高量级规模参数的高效并行演习，也是最早供给如斯强大的深度进修并行手艺的深度进修..，经由手艺立异做到高效、不乱、成本低廉。”

[原文来自：www.11jj.com]

真正的工业级规模：千亿规模稀少特征，切切规模类别分类

为降低超大规模分类应用对通俗的深度进修模型斥地者的门槛，进一步匡助斥地者提升个性化介绍应用的机能，飞桨推出了针对分布式演习的一套全新的高并发参数处事器实现，并发布了超大规模分类演习库PLSC，匡助斥地者实现千亿规模的稀少特征进行演习，以及切切规模类其余分类。

千亿规模稀少特征

千亿规模稀少特征：介绍系统在信息流、短视频等面向用户端的产品中的应用越来越遍及，而个性化介绍是这些产品追求的一个首要方针。实现个性化的一种首要且有效的体式就是行使深度进修体式将海量的个性化特征记忆在具有泛化能力的模型中。对于拥有上亿日活用户的产品，只要将用户的个性化信息与图文等资源的内容特征进行简练的绑缚，特征规模就很随意扩张到百亿甚至千亿级别。

为了撑持千亿规模的稀少特征、万亿规模的模型参数，飞桨设计了分布式 Key-Value 存取的体式，经由分段锁对 Key-Value 表进行分片，以撑持并发更新的请求。针对大规模稀少特征的更新和通信特点，基于百度自研的 baidu-rpc 通信库进行了分布式演习逻辑的通信层封装。该参数处事器集成的功能包括客户端发送参数的融合，请求分片，模型参数的更新、加载、留存等，形成了一套可插拔、撑持高并发的参数处事器组件，并处事于信息流、短视频等介绍场景。

图 1：飞桨千亿规模稀少参数处事器设计

切切规模类别分类

切切规模分类的实际需求：视觉领域中诸如图像分类、人脸识别、介绍系统中的标签介绍等应用常日面临着百万级甚至切切级的分类问题，今朝，基于深度进修模型进行分类是解决该问题最有效的手段，但受限于当前硬件随机接见存储容量的限制，分类模型的模型参数难以留存在单张 GPU 卡中，限制了通俗用户进行大规模分类模型演习的能力。对于此问题，今朝最好的解决手段就是采用模型并行的体式，但模型并行的设计、实现、机能和调试对于通俗的深度进修模型斥地者而言门槛较高。为此，飞桨推出了 PLSC（Paddle Large Scale Classification），其能够大幅度降低基于模型并行的超大规模分类的应用门槛，并具备极好的机能和扩展能力，使得每个斥地者都可以快速演习超大规模类其余分类模型。

飞桨 PLSC 功能特色：撑持图像义务通用数据读取体式、切切类其余分类、多机分布式模型并行演习、自动同化精度演习、供给分类层语义透露的处事化角力。

PLSC 的机能和扩展性：对于单机 8 卡 32G 显存的 V100，对比常规的数据并行体式，PLSC 可以使分类义务的类别数提升 250%。使用 128 块 v100 进行模型并行演习时，PLSC 扩张的类别数可以达到 5 切切类。在多机多卡模型并行景遇下，对比于单机八卡的 V100，PLSC 的加速效率比在切切类别以上时可以达到 80%。

图 2：基于模型并行的大规模类别分类手艺

表 1：飞桨PLSC中的arcface实现多机扩展效率

真正的工业级速度：让模型演习的速度飞起来

飞桨在借鉴 hogwild 无锁模式等业界经验的底细上，并基于对百度遍及的生意场景撑持的实践储蓄，进一步提出全新的稀少参数通信、IO 异步读取、Geo-SGD 演习模式、多机多卡高机能演习、同化精度演习等功能，匡助通俗用户享受到工业级的模型演习速度。经由对通信和演习模式的立异，飞桨在超大规模模型或许数据吞吐、收集通信易成为瓶颈的义务上的演习速度和究竟都获得极大提升，并周全超越市场同类产品示意。

全异步参数处事器演习

稀少参数通信：在深度进修模型中，稀少特征往往需要进行稀奇的处理，否则将会给内存和通信的消费带来严重问题。在今朝主流的深度进修框架中，较为常见的处理稀少特征的体式是经由变长张量对稀少特征进行向量化，并对响应的特征嵌入进行稀少查找。而在参数处事器多机演习过程中，飞桨则针对稀少参数采用了一些不合的处理体式，即首先经由对单节点下的并发演习线程发生的稀少梯度进行异步合并，而后进行批量通信，这一把握极大降低了演习过程的通信量。对于稀少特征为主的模型演习，其多机加速比究竟近乎可以达到线性。

多队列异步 IO：在某些数据量稀奇大、吞吐要求高，但模型本身角力开销较小的义务上，数据的 IO 很随意成为演习效率的瓶颈。为解决这一问题，飞桨针对性地设计了多队列异步读取的功能，经由适当牺牲数据读取的一致性，使得模型机能获得了极大提升。

无锁参数共享模式：早在 2010 年，Hogwild![1]就提出了无锁参数共享模式，其核心思惟即稀少参数模型在无锁读写模式下也可以达到收敛究竟。飞桨将这一模式作为参数处事器演习的默认设置，并合营稀少通信及多队列异步 IO，将 CPU 处事器的硬件资源的潜力施展到了极致。

图 2：飞桨全异步演习事理

表 2：飞桨全异步演习在Criteo-CTR数据集的吞吐扩展性

飞桨 Geo-SGD 演习

Geo-SGD：与传统的参数处事器演习体式不合，飞桨独创的Geo-SGD（Geometric-SDG）采用 Worker 端进行模型参数的优化，并经由可定义通信距离的体式，同步内陆演习的模型参数插值。此外，处事器端会采用异步的体式融合各个 Worker 发送的模型参数不同。跟着模型的收敛，worker 端的模型参数不同会逐渐变小，处事器端对全局模型参数的更新幅度也会以几许级数的体式降低。

在 Geo-SGD 异步演习模式下，Worker 不用再守候 Server 发来新的参数即可执行演习，该体式使得演习究竟和速度都获得极大的提升。然则此模式对照适合可以在单机内能完整留存的模型，例如词向量、语义成家等场景。以角力量极小，但使用场景遍及的 word2vec 模型为例，采用 Geo-SGD 演习模式的飞桨分布式演习的演习速度能够超越同类最优产品 18 倍，并且在公开数据集的验证中，模型究竟没有任何损失。

图 3：飞桨自研Geo-SGD算法事理

支撑千万规模类别分类技术，百度飞桨定义工业级深度学习框架

表 3：Geo-SGD在数据读取和通信易成为瓶颈的模型下的扩展性

GPU 多机多卡高机能演习、同化精度

通信扩展组件

通信拓扑撑持：飞桨撑持多种通信的拓扑组织，例如 Ring-Based AllReduce、Hierachical Allreduce、2-D Allreduce 等，用户可以定制不合的通信拓扑，针对不合的集群情形提升整体的通信机能。

梯度自动聚合：经由对模型参数梯度大小的理会，飞桨启发式的将梯度进行了聚合，以施展高机能通信收集，下必然局限内的数据包通信延时根本不变的特征。

通信并发：飞桨经由撑持多通顺信的手艺，能够将通信相关的算子并发，以充实行使带宽的优势，将整体通信的延时大幅度降低。

Collective Operator：飞桨经由将通信组件算子化，极大的提升了并行算法定义的无邪性。以大规模分类库 PLSC 为例，其经由多种 Collective Operator 无邪的组装，可以进行定制化的大规模模型并行算法的斥地。

基于最优优化策略的组合，我们以自然说话处理和角力机视觉两个领域公开可获取的经典模型作为 Benchmark 进行对比，飞桨的多机演习优势跟着 GPU 卡数的增加而逐渐增加，在绝对机能和扩展性上都周全超越了公开的其他框架。

表 4 ：飞桨多机多卡多机演习与参考框架的纵向对比

同化精度通信加持

在撑持半精度的 GPU 卡上，飞桨能够经由一行代码开启自动同化精度（Automatic Mixed Precision，AMP）角力，显著降低单卡的显存占用和角力时间。在多机多卡演习的景遇下，飞桨分布式演习手艺经由对角力图的理会，针对同化精度多机多卡演习的景遇，连络Op的角色，对 all reduce 算子进行了依靠关系的微调，保证多机通信的过程中采用半精度进行通信。在同化精度通信的景遇下，模型的演习精度不受影响，且通信带宽占用下降 50%，保证了飞桨自动同化精度多机多卡演习景遇下仍然有较好的加速比。

图 4：飞桨自动同化精度中多机多卡演习的半精度通信事理

表 5 中展示了飞桨在 Resnet50 模型上，基于 Imagenet 数据集测试的全精度演习和同化精度演习在多机景遇下的横向扩展性以及纵向扩展性。在飞桨同化精度的撑持下，GPU 多机多卡下的横向扩展能力与全精度景遇下相当，而纵向扩展方面的演习吞吐提升达到了 2 倍以上。

支撑千万规模类别分类技术，百度飞桨定义工业级深度学习框架

表 5：飞桨多机多卡自动同化精度演习的扩展性

真正的 AI 普惠化：降本增效，惠及所有斥地者

为进一步惠及通俗用户，飞桨针对多个不合场景进行了专门斥地，包括定制多种不合分布式演习模式的 Fleet API、匡助提升公有云 GPU 演习速度及究竟的深度梯度压缩（Deep Gradient Compression）手艺以及 LocalSGD 手艺、超大规模演习中可大幅提升 batch size 的重角力手艺。经由对已有功能的整合以及现有手艺的立异，飞桨大幅度降低了用户演习分布式模型的进修、调试及算力成本，匡助用户更快获得最优演习究竟。

Fleet API

大多数深度进修用户在使用分布式演习功能时，常日会碰着四大问题：1）内陆轨范若何转成可以分布式演习的轨范；2）若何提交分布式演习轨范到集群中；3）应该采用什么样的并行演习体式，若何定义；4）若何进一步提升自己义务的演习效率。

为了降低用户使用分布式演习的门槛以及演习成本，飞桨供给了分布式演习 Fleet API，以匡助用户获得极佳的机能体验。

经由使用 Fleet API，用户只需添加十余行代码，即可使用飞桨的参数处事器进行同步演习、异步演习、Geo-SGD 及 GPU 多机多卡同步演习，极大降低了用户在多种模式之间切换带来的进修成本。此外，Fleet API 供给了与集群资源进行交互的接口，并对用户透亮化，极大降低了用户面向集群资源进行调试的成本。Fleet API 还供给了可扩展接口，随意社区斥地者自定义并行演习加速算法。

公有云场景分布式演习的难点

在收集情形不佳的集群中，因为多机之间的通信受到带宽的限制，在演习较多节点的分布式演习义务时，通信阶段往往成为整个分布式演习的效率瓶颈，在公有云上的 GPU 集群进行演习时，这种景遇尤为常见。为了让公有云用户能够在较低的带宽下进行高机能的分布式演习，飞桨供给了深度梯度压缩（Deep Gradient Compression）[2] 手艺。

飞桨在原始论文算法的底细长进行了进一步优化。考虑到在不合模型下模型参数梯度的碎片水平，飞桨仅对必然尺寸以上的模型参数梯度进行稀少通信，以同步参数。而对于小块模型参数梯度，考虑到其与 TopK 模型参数梯度的通信延时没有太大的不同，是以仍采用通俗的多机多卡同步机制。今朝，飞桨的深度梯度压缩手艺已经应用在了一些架设在公有云的 AI ..，经由内部生意数据评估，即使在角力力较弱的预估卡 P4 的多机多卡演习的景遇下，飞桨 DGC 手艺也会将演习时间降低了 40%-60%。

LocalSGD

针对公有云场景，飞桨同时还供给 LocalSGD [3] 多机演习手艺，其能够将多步内陆更新的模型参数在多机多卡之间进行加权融合。大量实验证实，使用飞桨的 LocalSGD 手艺进行多机演习，对模型的收敛究竟不会发生显著影响。同时，因为同步参数的距离对比常规的多机多卡演习有所扩大，整体的加速比也有较好的提高。

使用重角力手艺节约显存进行超大 Batch 的并行演习

在飞桨的多机多卡 GPU 演习中，用户可以经由重角力手艺来提升全局 Batch Size 的大小，这在一些片上内存较小或许 GPU 卡数不足的场景极为有效。

飞桨重角力手艺：跟着演习数据规模的逐渐增加，演习更大、更深的深度进修模型逐渐成为主流趋势。在今朝的深度进修模型演习中，模型常日需要保留前向角力的隐层事实。因为事实的数量会跟着模型层数的增加而线性增加，对今朝能够使用的角力芯片内存大小构成了挑战。为此，飞桨提出 Forward Recomputation Backpropagation（FRB）手艺，经由在反向过程中对需要的前向逻辑进行从新角力，实现显存随层数增进而亚线性增进[4]。

支撑千万规模类别分类技术，百度飞桨定义工业级深度学习框架

图 5：飞桨重角力显存优化事理

重角力扩展 Batch Size 的事理：将前向中央隐层事实显存释放，并在反向过程中基于锚点进行局部从新角力。

支撑千万规模类别分类技术，百度飞桨定义工业级深度学习框架

图 6. Bert 模型在单步角力显存的改变曲线图

在使用 32G V100 & FP32 时，我们在多个不合模型下进行了最大 batch size 的测试，其提升高达 600%。在分布式景遇下，因为通信时间与重角力时间会有必然自动的重合，多数模型的演习机能下降会把握在 20%以内，检测类模型的多机演习吞吐则不受影响。

支撑千万规模类别分类技术，百度飞桨定义工业级深度学习框架

表 6. 飞桨重角力手艺对多个模型最大可演习 Batch 的提升景遇

开源不易，飞桨加速，唯有祝福

2013 年，百度起头研发深度进修框架 PaddlePaddle，搜刮等核心生意上线 DNN 模型。

2016 年，在百度世界大会上，百度发布 PaddlePaddle 开源，标记住国产开源深度进修..的降生。

2019 年 PaddlePaddle 发布中文名“飞桨”，升级为功能完整的财富级开源开放..，加大手艺和财富生态的培植。

在正确的道路上僵持数年之后，飞桨起头加速。

然而，这些成功来之不易，因为开源只是生态培植的极小一部门，商业公司往往要考虑投入产出比，而成长自己的深度进修框架，既有对 AI 综合手艺实力的要求，也需要对斥地资源常年持续投入，今朝全球也仅 Google、Facebook、百度等几大 AI 巨头在该倾向上持续投入。

一款深度进修框架产品要被恢弘斥地者认可，只有在周全手艺竞争力的底细上，耐久持续紧贴用户需求打磨，围绕框架竖立上鄙俗生态，进而竖立具备高度壁垒的综合竞争力。

打造深度进修框架没有捷径可走，打造真正的财富级深度进修框架加倍不易，祝福百度飞桨，也祝福后来者。

[1] HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent. Feng Niu , Benjamin Recht , Christopher Re , Stephen J. Wright

[2] Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training. Yujun Lin , Song Han , Huizi Mao , Yu Wang , William J. Dally

[3] Local SGD Converges Fast and Communication Little. Sebastian U. Stich

[4] Training Deep Nets with Sublinear Memory Cost. Tianqi Chen, Bing Xu, Chiyuan Zhang, Carlos Guestrin

点击阅读原文，熟悉更多！

上一篇：IoT第一入口混战，天猫精灵为何拔得头筹？
下一篇：NEWS | 无锡市委常委、组织部长冯军莅临江苏智联天地调研

小编推荐

1
乔四爷超了谁的车子（乔四爷多少岁）
大家好，小豪今天来为大家解答乔四爷超了谁的车子以下问题，乔四爷多少岁很多人还不知道，现在让我们一起来看看吧！1、乔四缘何被查？最流行
2
汉城为什么改名首尔（汉城为什么改名首尔大学）
大家好，小乐今天来为大家解答汉城为什么改名首尔以下问题，汉城为什么改名首尔大学很多人还不知道，现在让我们一起来看看吧！1、韩国为了推
3
未预约，请勿前往！
注重！姑苏博物馆本馆5月1日-4日已悉数约满！5月5日只有18:00-19:00还能预约姑苏博物馆西馆5月1日-3日已约满5月4日、5日还有名额成功预约上的小伙伴
4
国家励志奖学金颁发机构（国家励志奖学金个人先进事迹材料）
大家好，小丽今天来为大家解答国家励志奖学金颁发机构以下问题，国家励志奖学金个人先进事迹材料很多人还不知道，现在让我们一起来看看吧！
5
预防癌症，从“口”开始
图片起原：中国疾控中心往期介绍最能预示癌症的20个示意，一旦发现要把稳癌症弗成怕，科学面临是要害中国生存率最低的癌症，一发现就是晚期？
6
杯水车薪是什么意思（杯水车薪是什么意思形容什么生肖）
大家好，小豪今天来为大家解答杯水车薪是什么意思以下问题，杯水车薪是什么意思形容什么生肖很多人还不知道，现在让我们一起来看看吧！1、杯
7
清华大学、小红书、腾讯、阿里等招日语人才
‍‍工作榜单每日持续更新！国企、事业单元单子等热点岗位，国表里知名企业岗位包罗万象！联普日语社区力求天天为浩瀚求职小伙伴供应周全、
8
大漠谣txt下载（大漠谣小说下载）
大家好，小伟今天来为大家解答大漠谣txt下载以下问题，大漠谣小说下载很多人还不知道，现在让我们一起来看看吧！1、《大漠谣》网络网盘txt最新

支撑千万规模类别分类技术，百度飞桨定义工业级深度学习框架

热门文章

小编推荐