像堆乐高一样：从零开始解释神经网络的数学过程

发布时间：2019-07-13 12:05:30 所属栏目：经验来源：机器之心编译

导读：神经网络是线性模块和非线性模块的巧妙排列。当聪明地选择并连接这些模块时，我们就得到了一个强大的工具来逼近任何一个数学函数，如一个能够借助非线性决策边界进行分类的神经网络。运行代码的步骤如下： gitclonehttps://github.com/omar-florez/scratc

副标题[/!--empirenews.page--]

神经网络是线性模块和非线性模块的巧妙排列。当聪明地选择并连接这些模块时，我们就得到了一个强大的工具来逼近任何一个数学函数，如一个能够借助非线性决策边界进行分类的神经网络。

运行代码的步骤如下：

git clone https://github.com/omar-florez/scratch_mlp/ 
python scratch_mlp/scratch_mlp.py

尽管反向传播技术具有直观、模块化的特质，但是它负责更新可训练的参数，这是一个一直未被深入解释的主题。让我们以乐高积木为喻，一次增加一块，从零构建一个神经网络来一探其内部功能。

神经网络就像是由乐高积木组成的

像堆乐高一样：从零开始解释神经网络的数学过程

上图描述了训练一个神经网络时所用到的部分数学过程。我们将在本文中解释这个。读者可能感到有趣的一点是：一个神经网络就是很多模块以不同的目标堆叠起来。

此时，这些运算只是组成了一个一般线性系统，无法对非线性交互建模。当我们再叠加一层，给模块的结构增加深度的时候这一点就会改变。网络越深，我们就会学到越多微妙的非线性交互，能解决的问题也就越复杂，或许这也是深度神经模型兴起的原因之一。

为什么我要读这篇文章?

如果你理解一个神经网络的内部部分，你就能够在遇到问题的时候快速知道先去改变哪里，并且能够制定策略来测试你所知道的这个算法的部分不变量和预期的行为。

因为调试机器学习模型是一项复杂的任务。根据经验，数学模型在首次尝试的时候不会奏效。它们可能会对新数据给出较低的准确率，会耗费很长的训练时间或者太多的内存，返回一个很大的错误负数值或者 NAN 的预测……在有些情况下，了解算法的运行机制可以让我们的任务变得更加便利：

如果训练花费了太多的时间，那增加 minibatch 的大小或许是一个好主意，这能够减小观察值的方差，从而有助于算法收敛。
如果你看到了 NAN 的预测值，算法可能接收到了大梯度，产生了内存溢出。可以将这个视为在很多次迭代之后发生爆炸的矩阵乘法。减小学习率可以缩小这些数值。减少层数能够减少乘法的数量。剪切梯度也能够明显地控制这个问题。

具体的例子：学习异或函数

让我们打开黑盒子。我们现在要从零开始构建一个学习异或函数的神经网络。选择这个非线性函数可绝对不是随机的。没有反向传播的话，就很难学会用一条直线分类。

为了描述这个重要的概念，请注意下图中，一条直线是为何不能对异或函数输出中的 0 和 1 进行分类。现实生活中的问题也是非线性可分的。

像堆乐高一样：从零开始解释神经网络的数学过程