10 11

539bbf97 · zengxin · cf9b4cdb · 539bbf97 · 539bbf97
Commit 539bbf97 authored Nov 25, 2020 by zengxin
--- a/Chapter10/Figures/mt-history.png
+++ b/Chapter10/Figures/mt-history.png
--- a/Chapter11/chapter11.tex
+++ b/Chapter11/chapter11.tex
@@ -85,16 +85,20 @@
 \end{figure}
 %----------------------------------------------
-\parinterval 若设输入矩阵为$\mathbi{x}$，输出矩阵为$\mathbi{o}$，卷积滑动步幅为$\textrm{stride}$，卷积核为$\mathbi{w}$，且$\mathbi{w} \in \mathbb{R}^{Q \times U} $，那么卷积计算的公式为：
+\parinterval 若设输入矩阵为$\mathbi{x}$，输出矩阵为$\mathbi{y}$，卷积滑动步幅为$\textrm{stride}$，卷积核为$\mathbi{w}$，且$\mathbi{w} \in \mathbb{R}^{Q \times U} $，那么卷积计算的公式为：
 \begin{eqnarray}
-\mathbi{o}_{i,j} = \sum \mathbi{x}_{[j\times \textrm{stride}:j\times \textrm{stride}+U-1,i\times \textrm{stride}:i\times \textrm{stride}+Q-1]} \odot \mathbi{w}
+\mathbi{y}_{i,j} = \sum_s \sum_t ( \mathbi{x}_{[j\times \textrm{stride}:j\times \textrm{stride}+U-1,i\times \textrm{stride}:i\times \textrm{stride}+Q-1]} \odot \mathbi{w} )_{s,t}
 \label{eq:11-1-new}
 \end{eqnarray}
-\noindent 图\ref{fig:11-4}展示了一个简单的卷积操作示例，卷积核大小为$2 \times 2 $，图像大小为$3 \times 3$，将卷积核在图像上依次进行滑动，滑动步幅为1，根据公式\eqref{eq:11-1-new}，图中输出矩阵第0个值$\mathbi{o}_{0,0}$的计算为：
+\noindent 图\ref{fig:11-4}展示了一个简单的卷积操作示例，卷积核大小为$2 \times 2 $，图像大小为$3 \times 3$，将卷积核在图像上依次进行滑动，滑动步幅为1，根据公式\eqref{eq:11-1-new}，图中蓝色位置$\mathbi{y}_{0,0}$的计算为：
 \begin{eqnarray}
-\mathbi{o}_{0,0} &=& \sum \mathbi{x}_{[0\times 1:0\times 1+2-1,0\times 1:0\times 1+2-1]} \odot \mathbi{w} \nonumber \\
+\mathbi{y}_{0,0} &=& \sum_s \sum_t ( \mathbi{x}_{[0\times 1:0\times 1+2-1,0\times 1:0\times 1+2-1]} \odot \mathbi{w})_{s,t} \nonumber \\
-			 &=& \sum \mathbi{x}_{[0:1,0:1]} \odot \mathbi{w} \nonumber \nonumber \\
+			 &=& \sum_s \sum_t ( \mathbi{x}_{[0:1,0:1]} \odot \mathbi{w} )_{s,t} \nonumber \\
+&=& \sum_s \sum_t \begin{pmatrix}
+   0\times 0 & 1\times1\\
+   3\times2 & 4\times3
+\end{pmatrix}_{s,t} \nonumber \\
 			 &=& 0 \times 0 + 1 \times 1 + 2 \times 3 + 3 \times 4 \nonumber \\
 			 &=& 19
 \label{eq:11-2-new}
@@ -288,7 +292,7 @@
 \parinterval 门控机制在{\chapterten}中介绍LSTM模型时已经提到过。在LSTM模型中，可以通过引入三个门控单元来控制信息流，使隐层状态能够获得长时间记忆。同时，门控单元的引入简化了不同时间步间状态更新的计算，只包括一些线性计算，缓解了长距离建模中梯度消失的问题。在多层卷积神经网络中，同样可以通过门控机制来起到相同的作用。
-\parinterval 图\ref{fig:11-14}是单层门控卷积神经网络的基本结构，$\mathbi{X}\in \mathbb{R}^{m\times d}$为单层网络的输入，$\mathbi{Y} \in \mathbb{R}^{m \times d}$为单层网络的输出，网络结构主要包括卷积计算和GLU非线性单元两部分。
+\parinterval 图\ref{fig:11-14}是单层门控卷积神经网络的基本结构，$\mathbi{x}\in \mathbb{R}^{m\times d}$为单层网络的输入，$\mathbi{y} \in \mathbb{R}^{m \times d}$为单层网络的输出，网络结构主要包括卷积计算和GLU非线性单元两部分。
 %----------------------------------------------
 % 图14.
@@ -335,7 +339,7 @@
 \subsection{残差网络}
 \label{sec:11.2.3}
-\parinterval 残差连接是一种训练深层网络的技术，其结构如图\ref{fig:11-15}所示，即在多层神经网络之间通过增加直接连接的方式，从而将底层信息直接传递给上层。通过增加这样的直接连接，可以让不同层之间的信息传递更加高效，有利于深层神经网络的训练，其计算公式为：
+\parinterval 残差连接是一种训练深层网络的技术，其内容在{\chapternine}已经进行了介绍，即在多层神经网络之间通过增加直接连接的方式，从而将底层信息直接传递给上层。通过增加这样的直接连接，可以让不同层之间的信息传递更加高效，有利于深层神经网络的训练，其计算公式为：
 \begin{eqnarray}
 \mathbi{h}^{l+1} = F (\mathbi{h}^l) + \mathbi{h}^l
 \label{eq:11-3}