干货：如何从系统层面优化深度学习计算？

发布时间：2018-06-14 17:48:41 所属栏目：教程来源：伍鸣

导读：【资讯】编者按：在图像、语音识别、自然语言处理、强化学习等许多技术领域中，深度学习已经被证明是非常有效的，并且在某些问题上已经达到甚至超越了人类的水平。然而，深度学习对于计算能力有着很大的依赖，除了改变模型和算法，是否可以从系统的层面来

　　1)不同的压缩方法。比如，是根据模型的参数值是否趋近于零，还是将其转换成某种贡献值之后趋近于零?压缩时是不是考虑一定的结构化(如果是面向GPU，可能需要压缩成块状稀疏矩阵来提高运行效率)?量化的值点是根据值域平均划分还是基于某种聚类来划分?

　　2)不同的压缩程度。要考虑在哪些层的神经元参数上做压缩，因为并不是所有层对压缩后模型效果的敏感程度是一样的;选择不同的压缩率或量化的比特数。

　　3)为了保持在大的压缩率下仍然取得好的模型效果，压缩过程可能需要是渐进的，比如一次压缩10%，然后重新训练，重复此过程直到取得目标的压缩率。那么每次渐进过程的压缩率就是一个需要调整的参数。

　　显然，这样一个繁琐的过程需要一个好的工具来使之变得方便。这也是我们组正在关注的一个问题。我们正在尝试扩展TensorFlow的API来使用户可以在模型脚本中直接控制量化和压缩的方法、对象、程度和过程。

　　压缩和量化通常是用来解决模型部署时的性能和内存资源不足的问题，而解决模型训练时内存不够的问题的思路之一是用计算来换内存。比如，如果数据流图中某一个操作节点的计算量很小，但是输出的中间结果数据量很大，一个更好的处理方式是不在内存中保存这个中间结果，而在后面需要用到它的时候再重新执行这个操作节点的计算。当然，重新计算还是引入了一定的额外开销。

　　事实上，还存在另外一种解决这个问题的思路，就是将大的输入数据就保存在CPU端的主存里，并将操作节点实现成流式的处理，将大的输入数据分段拷贝进GPU的设备内存，并通过异步的拷贝使得对每一分段的计算时间和下一分段的拷贝时间能够重叠起来，从而掩盖住数据拷贝的开销。对于矩阵乘法这样的操作，由于计算复杂度相对于访存复杂度较高，当分段较大的时候，计算时间和拷贝时间是可以达到完美重叠的。然而，如果所要进行的操作不是矩阵乘法，而是一些简单的pointwise操作，计算的复杂度就没有办法和内存拷贝的开销相抵消。所以这种做法还需要跟内核融合相结合。比如将矩阵乘法和后续的pointwise操作相融合，每一个分段的计算都会把该分段的矩阵乘和pointwise操作都做完，然后再处理下一个分段。

（编辑：辽源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/5

首页