详解:递归神经网络和LSTM网络那些事儿
当梯度的值太小并且模型停止学习或因此而过长时,我们会谈到“消失梯度”。这是20世纪90年代的一个主要问题,比梯度爆炸更难以解决。幸运的是,它是通过Sepp Hochreiter和Juergen Schmidhuber提出的LSTM概念解决的,我们现在将讨论这个问题。 长短期记忆网络 长期短期记忆网络(LSTM)是递归神经网络的延伸,其基本上扩展了它们的记忆。因此,它非常适合从中间有很长时间滞后的重要经历中学习。 LSTM的单元被用作一个RNN层的构建单元,该RNN层通常被称为LSTM网络。 LSTM使RNN能够长时间记住他们的输入。这是因为LSTM将他们的信息包含在内存中,这很像计算机的内存,因为LSTM可以从内存读取、写入和删除信息。 这个内存可以被看作一个门控单元,门控意味着单元决定是否存储或删除信息(例如它是否打开门),这取决于它赋予信息的重要性。重要性的分配发生在权重上,这也是算法学习到的。这仅仅意味着它随着时间的推移学习哪些信息是重要的,哪些不重要。 在RNN中,有三个门:输入、忘记和输出门。这些门决定是否让新的输入(输入门),删除信息,因为它不重要(忘记门)或让它在当前时间步(输出门)影响输出。你可以看到一个RNN的例子,下面有三个门:
LSTM中的门是模拟的,采用S形的形式,意思是它们的范围从0到1,它们是模拟的,这使得它们可以反向传播。 消失梯度的问题可以通过LSTM来解决,因为它可以保持梯度足够陡峭,因此训练相对较短,准确度较高。 总结 现在你已经对循环神经网络的工作原理有了正确的理解,这使你可以决定是否适用于给定的机器学习问题。 具体而言,你已经了解了前馈神经网络与RNN之间的区别,如何使用递归神经网络,反向传播和反向传播时间工作,RNN的主要问题是什么以及LSTM如何工作。 (编辑:辽源站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |