反向传播公式推导

二次代价函数：($x$代表输入的样本，$y(x)$代表标签值)

$C=\frac{1}{2n}\sum_x||y(x)-a^L(x)||^2$

当只关注某一个样本$x_i$的时候，有：

$C=\frac{1}{2}(y-a)^2$

$\delta^L_k=\frac{\partial{C}}{\partial{z_k^L}}=\frac{\partial{C}}{\partial{a_{k}^L}}\cdot\frac{\partial{a_k^L}}{\partial{z_{k}^{L}}}$

则整个$L$层可以用矩阵的Hadamard积(矩阵行行对应相乘)来进行计算：

$\delta^L=\nabla_aC\odot\sigma^\prime(z^L)$

反向传播

计算每一层的每个神经元产生的误差，推广到每一层的每个神经元有：
$\begin{align} \delta_k^L=\frac{\partial C}{\partial z_k^L}&=\sum_m\frac{\partial C}{\partial z_m^{L+1}}\cdot\frac{\partial{z_m^{L+1}}}{\partial{a_{k}^{L}}}\cdot\frac{\partial a_k^L}{\partial z_k^L}\\ &=\sum_m{\delta_m^{L+1}}\cdot\frac{w_{km}^{L+1}a_k^{L}+b_m^{L+1}}{\partial{a_k^L}}\cdot\sigma'(z_k^L)\\ &=\sum_m\delta_m^{L+1}\cdot w_{km}^{L+1}\cdot\sigma'(z_k^L) \end{align}$
推广到整个一层有：
$\delta^L=((W^{L+1})^T\cdot \delta^{L+1})\odot \sigma'(z^L)$
计算权重的梯度
$\frac{\partial C}{\partial w_{jk}^L}=\frac{\partial C}{\partial{z_k^L}}\cdot \frac{\partial{z_k^L}}{\partial{w_{jk}^L}}=\delta_k^L\cdot\frac{\partial{(w_{jk}^La_j^{L-1}+b_k^L)}}{\partial w_{jk}^L}=a_j^{L-1}\cdot\delta_k^L$
计算偏置的梯度
$\frac{\partial C}{\part b_k^L}=\frac{\partial{C}}{\partial z_{k}^L} \cdot \frac{\partial z_k^L}{\partial b_k^L}=\delta_k^L\cdot\frac{\partial{(w_{jk}^La_j^{L-1}+b_k^L)}}{\partial b_{k}^L}=\delta_k^L$

反向传播四个公式：