干货：如何从系统层面优化深度学习计算？

发布时间：2018-06-14 17:48:41 所属栏目：教程来源：伍鸣

导读：【资讯】编者按：在图像、语音识别、自然语言处理、强化学习等许多技术领域中，深度学习已经被证明是非常有效的，并且在某些问题上已经达到甚至超越了人类的水平。然而，深度学习对于计算能力有着很大的依赖，除了改变模型和算法，是否可以从系统的层面来

副标题[/!--empirenews.page--]

　　【资讯】编者按：在图像、语音识别、自然语言处理、强化学习等许多技术领域中，深度学习已经被证明是非常有效的，并且在某些问题上已经达到甚至超越了人类的水平。然而，深度学习对于计算能力有着很大的依赖，除了改变模型和算法，是否可以从系统的层面来优化深度学习计算，进而改善计算资源的使用效率?本文中，来自微软亚洲研究院异构计算组资深研究员伍鸣与大家分享他对深度学习计算优化的一些看法。

　　深度学习在近几年里取得了巨大的进步，它已经或者是有望成功地被应用在我们许多生活场景中，比如自动驾驶、安防、翻译、医疗等等。可以说，计算机的计算和通信能力的大幅提升是促使深度学习成功的重要因素。

　　深度学习为什么依赖于超大的计算能力?

　　首先，深度学习本质上是基于统计的科学，所以大规模的样本数据对于深度学习的效果是至关重要的。其次，更大规模和更复杂的神经网络模型已经被证明非常有效，并在产品中有广泛的使用，这同时也产生了对计算能力的更大要求和消耗。举个例子，具有8层神经元的AlexNet网络2012年在ImageNet数据集上取得16%的错误率，该网络的一次迭代运行大约需要1.4 GFLOP的计算量。而微软提出的使用152层神经元的残差网络(ResNet)于2015年在该数据集上取得3.5%的错误率，其一次迭代的计算量大约是22.6GFLOP，是AlexNet的16倍。在当今的生产环境中，图像、语音以及自然语言处理相关的模型，例如人脸识别、语音转文字、机器翻译等，即使给予相当多的计算资源，很多仍需要几周的时间才能完成训练。

　　再次，深度学习模型是迅速迭代的。在AI领域，每年学术界和工业界都会提出大量的新模型。对每一个实际的问题，开发者需要不断尝试不同的模型和算法，甚至对于同一种模型算法，也需要去反复调试超参数以获得最好的预测效果。可想而知，如果模型的每次训练都要几周的时间，那么寻找最优模型的过程会非常漫长和痛苦。

　　另外，模型的线上推理具有更加极致的性能要求。线上的服务具有硬性的服务等级协议(SLA)，所以在实际部署大型模型时，需要手工重新优化在深度学习框架(如TensorFlow)上已经训练好的模型，导致大量额外工程开销的产生。

　　由此可见，进一步优化深度学习计算对于深度学习的快速发展和成功应用起着至关重要的作用。

　　深度学习计算优化的挑战和机会

　　目前，优化深度学习的计算存在以下几个主要的挑战：

　　1)单机单计算单元(如GPU)的资源限制往往不能满足对大规模数据和模型的处理要求，那么就需要使用多机多计算单元来横向扩展计算的规模。如何才能最大限度地减少通信的开销从而最大化多机的并行度?

　　2)如何优化神经网络的计算使得它能够把单个硬件计算单元的效率发挥到极致?

　　3)虽然许多硬件计算单元(GPU、FPGA等)的计算能力很强大，但是它们的内存资源(即设备内存)非常稀缺。当它们不能提供模型运行所需要的内存资源时，要么运算不能够进行下去，要么就需要将计算所需的数据在主存和设备内存之间倒来倒去，带来很大的运行开销。如何才能更好地利用有限的设备内存资源从而不给计算效率带来负面的影响?

　　4)深度学习开发者和研究人员通常只想关注神经网络模型和算法本身，并不想被复杂的优化问题分散精力。这意味着深度学习框架这样的系统软件最好能够实现自动优化，而对模型开发者透明。那么，如何对特定的优化做合理的抽象使其更加灵活通用、更加容易地集成在系统框架中便是需要认真考虑的问题。

　　干货：如何从系统层面优化深度学习计算？

　　事实上，任何方面的优化问题都可以从模型算法和系统两个角度来看待。一方面，我们可以通过改变模型和算法来优化其对计算资源的使用效率从而改进其运行速度。这样的优化对特定的算法往往非常有效，但却不容易扩展应用到其它算法中。而另一方面，也就是微软亚洲研究院异构计算组正在进行的研究，则是在系统中实施模型算法无关的优化，这样的优化，通常可以为更多的应用带来性能的好处，同时也符合我们在前文提到的透明性的要求。

　　以系统优化助力深度学习计算

　　为了能够更好地理解系统这一层面的优化，我们先来简单介绍一下深度学习框架系统的背景知识。当今工业界流行的深度学习系统(包括TensorFlow、PyTorch、CNTK、MxNet、Caffe等)大都采用分层的体系结构设计。在前端提供高级语言(例如Python)的接口抽象，允许用户方便地描述神经网络结构，也就是深度学习的模型。描述好的模型在被系统运行前，首先会被转换成数据流图(Data-flow Graph)。在这个数据流图中，节点是特定的矩阵操作(也就是Operator，如Sigmoid、Matrix Multiplication等)，而连接不同节点的边则是操作节点的输入和输出矩阵。这个数据流图也可以被看成是深度学习计算的中间表达。然后，深度学习系统的后端将这个数据流图映射到实际硬件上进行高效地执行，而大部分系统层面的优化就是在这个阶段完成的。

　　干货：如何从系统层面优化深度学习计算？

　　加速分布式深度学习训练

　　分布式训练的主要瓶颈在于多机之间的通信开销。如今计算机网络的硬件技术已经有了很大的发展，InfiniBand的RDMA网卡(Remote Direct Memory Access，这是一种硬件的网络技术，它使得计算机访问远程的内存时无需远程机器上CPU的干预)已经可以提供50~100Gbps的网络带宽和微秒级的传输延迟。目前许多以深度学习为目标应用的GPU机群都部署了这样的网络。然而深度学习系统如何才能充分利用好硬件提供的通信能力使分布式的训练获得更大的性能提升呢?另外，使用RDMA的软件接口进行通信能够绕过TCP/IP协议栈，减少了操作系统内核态的运行开销。在这样的网络通信技术的支持下，任何与通信相关的计算处理的开销都会变得非常显著，而这正是许多原先基于TCP/IP而设计的网络通信机制中所存在的问题。

　　RPC(Remote Procedure Call，远程过程调用)是一个被广泛使用的多机之间的通信抽象原语，它的主要设计目标是通用性。在没有考虑RDMA的情况下，很多深度学习框架都会采用RPC的机制(例如gRPC)来实现多机之间的通信。然而，RPC需要维护一个内部的私有缓存，从而不得不引入用户数据的存储空间和内部缓存之间的数据拷贝。这种内存拷贝的开销在使用RDMA网络的情况下会变得非常明显。我们通过micro-benchmark观察到，跟使用基于TCP/IP的gRPC相比，直接通过RDMA的接口传输消息(对不同的消息大小)可以有2到10倍的性能提升。

　　那么针对深度学习的应用负载，如何才能更好地利用RDMA硬件的能力?首先，我们来分析一下深度学习应用的几个特点：

（编辑：辽源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/5

尾页