\parinterval 在得到${\bm\pi}^K=\frac{\partial L}{\partial{\mathbi{s}}^K}$之后,下一步的目标是:1)计算损失函数$ L $相对于第$ K-1$层与输出层之间连接权重${\mathbi{W}}^K $的梯度;2)计算损失函数$ L $相对于神经网络网络第$ K-1$层输出结果${\mathbi{h}}^{K-1}$的梯度。这部分内容如图\ref{fig:9-55}所示。
\parinterval 在得到${\bm\pi}^K=\frac{\partial L}{\partial{\mathbi{s}}^K}$之后,下一步的目标是:1)计算损失函数$ L $相对于第$ K-1$层与输出层之间连接权重${\mathbi{W}}^K $的梯度;2)计算损失函数$ L $相对于神经网络第$ K-1$层输出结果${\mathbi{h}}^{K-1}$的梯度。这部分内容如图\ref{fig:9-55}所示。