参考:
RNN正向传播推导
RNN原理图:
- 变量说明
- $W,U,V$为权重矩阵,在整个RNN网络中是共享的。
- $h^t$代表在序列$t$时模型的隐藏状态。$h^t$由$x^t$和$h^{t-1}$共同决定。
- $o^{t}$代表在序列$t$时模型的输出。$o^t$只由模型当前的隐藏状态$h^{t}$决定。
- $x^t$代表在序列$t$时训练样本的输入。
- $L_t$代表在序列$t$时模型的损失函数。
- $y^t$代表在序列$t$时训练样本序列的真实输出。
- 前向公式
RNN反向传播推导
$L$对$C$的梯度:
$L$ 对V的梯度:
- $L$ 对$h^t$的梯度:
其中:
(1)
(2)
详细推导:
$L$ 对$W$的梯度:
$L$ 对$B$的梯度:
$L$ 对$U$的梯度: