基本信息
文件名称:《深度学习项目案例开发》课件 6.2 使用LSTM网络自动生成图片摘要文本-LSTM神经网络.pptx
文件大小:1.66 MB
总页数:22 页
更新时间:2025-06-10
总字数:约2.38千字
文档摘要

成都职业技术学院软件分院-张明任务六使用LSTM网络自动生成图片摘要文本6.2任务知识-LSTM长短记忆网络

RNN反向传播梯度消失和梯度爆炸LSTM网络结构LSTM用途及优缺点

4.任务知识?

4.任务知识RNN反向传播-计算输出层梯度反向传播首先需要损失Lt,通常使用平方误差损失或交叉熵损失,计算公式如下:反向传播期分为4个步骤:第一步:计算输出层梯度,首先计算输出层误差,公式如下:输出层权重V的梯度计算公式为

4.任务知识RNN反向传播-反向传播到隐藏层第二步:反向传播到隐藏层,对于每一个时间步t,从最后一个时间开始反向传播,计算当前时间步的隐藏层误差需要考虑未来时间步的误差传递公式如下

4.任务知识RNN反向传播-计算隐藏层梯度计算递归权重矩阵W梯度计算输入权重U梯度

4.任务知识?

4.任务知识RNN梯度爆炸和梯度消失的问题RNN的梯度表达式中用乘积表示了最终的梯度,如果某一个隐藏层的的前一隐藏层的单个梯度小于1,这时经过多个时间步的反向传播,梯度的乘积会越来越小,最终导致梯度消失。如果一个梯度值大于1,乘积就会越来越大,导致梯度爆炸。梯度爆炸会导致训练过程崩溃,梯度消失可以采用使用Relu函数替换tanh激活函数等方法降低其的影响。

4.任务知识RNN梯度爆炸和梯度消失的问题在RNN常采用梯度裁剪,使用Xavier、He方法初始化权重,使用正则化、Dropout等方法缓解梯度爆炸的现象;对于梯度消失问题可以选用更合适的激活函数,增加输入门、遗忘门和输出门来控制信息的流动,保留长时间依赖关系。同时也可以使用批归一化、残差网络等

4.任务知识RNN存在的其他问题长期依赖问题:RNN在处理长序列时,难以捕捉到远距离位置之间的依赖关系。尽管理论上RNNs可以处理任意长度的序列,但实际上,它们更擅长处理短期依赖。计算效率低:RNN的序列处理本质上是顺序的,这意味着无法进行并行计算,这在处理长序列时会导致计算效率低下。难以训练:由于梯度消失和梯度爆炸问题,RNNs的训练过程常常需要小心调参和选择合适的优化方法,否则容易陷入局部最优或训练失败。

4.任务知识RNN的记忆容量有限的问题在RNN中,梯度的更新与权重矩阵的乘积有关,如果权重矩阵的特征值小于1,经过多次相乘后,梯度会迅速变得很小,导致梯度消失。同时常用的激活函数(如sigmoid和tanh)在某些输入范围内会产生非常小的梯度,这会进一步加剧梯度消失问题。而梯度消失会导致模型的训练变得困难,特别是在需要捕捉长程依赖的任务中,模型的性能会显著下降。这就会导致RNN丧失学习远端前序信息的能力,也可以理解为RNN网络“记忆容量有限”

4.任务知识LSTM长短记忆网络LSTM循环神经网络是RNN网络的一种,它增加了三个门结构输入门用于控制输入信息的流入,遗忘门用于控制旧信息的遗忘,输出门用于控制输出信息的流出。通过这些门的控制,LSTM可以选择性地记住或忘记信息

4.任务知识LSTM长短记忆网络-门结构遗忘门定义了你希望允许通过的前一个状态ht-1的数量。输入门定义了你当前的输入xt允许通过多少新计算的状态。输出门定义了你希望向下一层公开多少内部状态。根据当前输人xt和上一个隐状态ht-1来计算内部隐状态g它们的对应的参数权重是Wi、Ui、Wf、Uf和Wo、Uo

4.任务知识LSTM长短记忆网络-单元状态C单元状态C,类似于传送带,直接在用来传输三个门的输出数据,它只有一些线性的交互,可以保证传输的数据不发生变化

4.任务知识LSTM长短记忆网络-遗忘门LSTM如何控制门中的输出数据呢,遗忘门包含一个包含一个sigmoid神经网络层和一个pointwise乘法操作。Sigmoid层输出0到1之间的概率值,描述每个部分有多少量可以通过,0代表“不许任何量通过”,1就指“允许任意量通过”可以通过“门”让信息选择性通过,来去除或者增加信息到状态单元中。

4.任务知识LSTM长短记忆网络-输入门决定放什么新信息到模型中,这里需要3个操作,Sigmoid层决定什么值需要更新,Tanh层创建一个新的候选值向量,然后将两个值相加。

4.任务知识LSTM长短记忆网络-更新状态首先将旧状态Ct-1与遗忘门ft的值相乘,丢弃掉无用的信息,然后加上it与的乘积,得到更新的状态Ct,其中it与的乘积表示新的内部隐状态。

4.任务知识LSTM长短记忆网络-输出首先运行一个sigmoid层来确定细胞状态的哪个部分将输出。用tanh处理细胞状态(得到一个在-1到1之间的值),再将它和sigmoid门的输出相乘,输出确定输出的那部分。

4.任务知识LSTM长短记忆网络-优点LSTM用途,LSTM长短期记忆网络是一种特殊的递归神经网络,它通过使用记忆单元