RNN反向传播推导

参考:

RNN正向传播推导RNN原理图:

变量说明
$W,U,V​$为权重矩阵,在整个RNN网络中是共享的。
$h^t​$代表在序列$t​$时模型的隐藏状态。$h^t​$由$x^t​$和$h^{t-1}​$共同决定。
$o^{t}$代表在序列$t$时模型的输出。$o^t$只由模型当前的隐藏状态$h^{t}$决定。
$x^t$代表在序列$t$时训练样本的输入。
$L_t​$代表在序列$t​$时模型的损失函数。
$y^t$代表在序列$t​$时训练样本序列的真实输出。

前向公式

RNN反向传播推导
$L$对$C$的梯度:

$L$ 对V的梯度:

$L$ 对$h^t$的梯度:

​ 其中:
​ (1)
​ (2)
​ 详细推导:

$L​$ 对$W​$的梯度:

$L$ 对$B$的梯度:

$L$ 对$U$的梯度: