RNN反向传播推导
参考:
RNN正向传播推导RNN原理图:
变量说明
$W,U,V$为权重矩阵,在整个RNN网络中是共享的。
$h^t$代表在序列$t$时模型的隐藏状态。$h^t$由$x^t$和$h^{t-1}$共同决定。
$o^{t}$代表在序列$t$时模型的输出。$o^t$只由模型当前的隐藏状态$h^{t}$决定。
$x^t$代表在序列$t$时训练样本的输入。
$L_t$代表在序列$t$时模型的损失函数。
$y^t$代表在序列$t$时训练样本序列的真实输出。
前向公式
RNN反向传播推导
$L$对$C$的梯度:
$L$ 对V的梯度:
$L$ 对$h^t$的梯度:
其中:
(1)
(2)
详细推导:
$L$ 对$W$的梯度:
$L$ 对$B$的梯度:
$L$ 对$U$的梯度: