11

866b08ab · zengxin · ac4d14fc · 866b08ab · 866b08ab · 866b08ab
Commit 866b08ab authored Nov 26, 2020 by zengxin
--- a/Chapter11/Figures/figure-average-pooling.tex
+++ b/Chapter11/Figures/figure-average-pooling.tex
@@ -2,29 +2,32 @@
 \begin{tikzpicture}[node distance = 0cm]
-\node(num1)[num,fill=red!10]{0};
+\node(num1)[num,fill=red!10]{1};
-\node(num2)[num,below of = num1,yshift= -0.6cm,fill=red!10]{0};
+\node(num2)[num,below of = num1,yshift= -0.6cm,fill=red!10]{5};
 \node(num3)[num,right of = num1,xshift= 0.6cm,fill=red!10]{0};
-\node(num4)[num,below of = num3,yshift= -0.6cm,fill=red!10]{0};
+\node(num4)[num,below of = num3,yshift= -0.6cm,fill=red!10]{6};
-\node(num5)[num,right of = num3,xshift= 0.6cm,fill=green!10]{1};
-\node(num6)[num,below of = num5,yshift= -0.6cm,fill=green!10]{3};
+\node(num5)[num,right of = num3,xshift= 0.6cm,fill=green!10]{4};
-\node(num7)[num,right of = num5,xshift= 0.6cm,fill=green!10]{3};
+\node(num6)[num,below of = num5,yshift= -0.6cm,fill=green!10]{7};
-\node(num8)[num,below of = num7,yshift= -0.6cm,fill=green!10]{1};
+\node(num7)[num,right of = num5,xshift= 0.6cm,fill=green!10]{5};
-\node(num9)[num,below of = num2,yshift= -0.6cm,fill=yellow!10]{7};
+\node(num8)[num,below of = num7,yshift= -0.6cm,fill=green!10]{8};
-\node(num10)[num,below of = num9,yshift= -0.6cm,fill=yellow!10]{7};
-\node(num11)[num,right of = num9,xshift= 0.6cm,fill=yellow!10]{6};
+\node(num9)[num,below of = num2,yshift= -0.6cm,fill=yellow!10]{3};
-\node(num12)[num,below of = num11,yshift= -0.6cm,fill=yellow!10]{8};
+\node(num10)[num,below of = num9,yshift= -0.6cm,fill=yellow!10]{1};
-\node(num13)[num,right of = num11,xshift= 0.6cm,fill=blue!10]{3};
+\node(num11)[num,right of = num9,xshift= 0.6cm,fill=yellow!10]{2};
+\node(num12)[num,below of = num11,yshift= -0.6cm,fill=yellow!10]{2};
+\node(num13)[num,right of = num11,xshift= 0.6cm,fill=blue!10]{1};
 \node(num14)[num,below of = num13,yshift= -0.6cm,fill=blue!10]{3};
-\node(num10)[num,right of = num13,xshift= 0.6cm,fill=blue!10]{2};
+\node(num10)[num,right of = num13,xshift= 0.6cm,fill=blue!10]{0};
 \node(num16)[num,below of = num10,yshift= -0.6cm,fill=blue!10]{4};
 \draw[->,thick]([xshift=0.4cm,yshift=-0.4cm]num8.east)--([xshift=1.5cm,yshift=-0.4cm]num8.east);
-\node(num17)[num,right of = num8,xshift= 2.5cm,fill=red!10]{0};
+\node(num17)[num,right of = num8,xshift= 2.5cm,fill=red!10]{3};
-\node(num18)[num,right of = num17,xshift= 0.6cm,fill=green!10]{2};
+\node(num18)[num,right of = num17,xshift= 0.6cm,fill=green!10]{6};
-\node(num19)[num,below of = num17,yshift=-0.6cm,fill=yellow!10]{7};
+\node(num19)[num,below of = num17,yshift=-0.6cm,fill=yellow!10]{2};
-\node(num20)[num,below of = num18,yshift= -0.6cm,fill=blue!10]{3};
+\node(num20)[num,below of = num18,yshift= -0.6cm,fill=blue!10]{2};
 \node [right of = num2,xshift= -0.7cm]{};

--- a/Chapter11/Figures/figure-max-pooling.tex
+++ b/Chapter11/Figures/figure-max-pooling.tex
@@ -4,16 +4,19 @@
 \begin{tikzpicture}[node distance = 0cm]
 \node(num1)[num,fill=red!10]{1};
 \node(num2)[num,below of = num1,yshift= -0.6cm,fill=red!10]{5};
-\node(num3)[num,right of = num1,xshift= 0.6cm,fill=red!10]{1};
+\node(num3)[num,right of = num1,xshift= 0.6cm,fill=red!10]{0};
 \node(num4)[num,below of = num3,yshift= -0.6cm,fill=red!10]{6};
-\node(num5)[num,right of = num3,xshift= 0.6cm,fill=green!10]{2};
+\node(num5)[num,right of = num3,xshift= 0.6cm,fill=green!10]{4};
 \node(num6)[num,below of = num5,yshift= -0.6cm,fill=green!10]{7};
-\node(num7)[num,right of = num5,xshift= 0.6cm,fill=green!10]{4};
+\node(num7)[num,right of = num5,xshift= 0.6cm,fill=green!10]{5};
 \node(num8)[num,below of = num7,yshift= -0.6cm,fill=green!10]{8};
 \node(num9)[num,below of = num2,yshift= -0.6cm,fill=yellow!10]{3};
 \node(num10)[num,below of = num9,yshift= -0.6cm,fill=yellow!10]{1};
 \node(num11)[num,right of = num9,xshift= 0.6cm,fill=yellow!10]{2};
 \node(num12)[num,below of = num11,yshift= -0.6cm,fill=yellow!10]{2};
 \node(num13)[num,right of = num11,xshift= 0.6cm,fill=blue!10]{1};
 \node(num14)[num,below of = num13,yshift= -0.6cm,fill=blue!10]{3};
 \node(num10)[num,right of = num13,xshift= 0.6cm,fill=blue!10]{0};

--- a/Chapter11/Figures/figure-use-cnn-in-sentence-classification.tex
+++ b/Chapter11/Figures/figure-use-cnn-in-sentence-classification.tex
@@ -20,38 +20,42 @@
 	\draw[red!60,line width=2pt] (0cm,0cm+7*\bcc) rectangle (0cm+6*\bcc,0cm+9*\bcc);
 	% 特征图
-	\draw[fill=blue!8,xshift=5.0cm,yshift=1.3cm,line width=0.6pt] (0cm,0cm) rectangle (0cm+1*\bcc,0cm+6*\bcc);
+	\draw[fill=blue!8,xshift=5.0cm,yshift=1.3cm,line width=0.6pt] (0cm,0cm-1*\bcc) rectangle (0cm+1*\bcc,0cm+6*\bcc);
-	\draw[step=\bcc,gray,xshift=5.0cm,yshift=1.3cm] (0cm,0cm) grid (0cm+1*\bcc,0cm+6*\bcc);
+	\draw[step=\bcc,gray,xshift=5.0cm,yshift=1.3cm] (0cm,0cm-1*\bcc) grid (0cm+1*\bcc,0cm+6*\bcc);
 	\draw[ugreen!60,line width=2pt,xshift=5.0cm,yshift=1.3cm] (0cm,0cm+2*\bcc) rectangle (0cm+1*\bcc,0cm+3*\bcc);
-	\draw [gray,fill=blue!8,line width=0.6pt](8cm,2.6cm) -- (8.4cm, 2.6cm) -- (9cm,1cm) -- (8.6cm, 1cm) -- (8cm,2.6cm);
+	%最大池化
-	\draw [gray](8.15cm,2.2cm) -- (8.55cm,2.2cm);
+	\draw [gray,fill=blue!8,line width=0.6pt](8cm,2.2cm) -- (8.4cm, 2.2cm) -- (8.7cm,1.4cm) -- (8.3cm, 1.4cm) -- (8cm,2.2cm);
-	\draw [gray](8.3cm,1.8cm) -- (8.7cm,1.8cm);
+	\draw [gray](8.15cm,1.8cm) -- (8.55cm,1.8cm);
-	\draw [gray](8.45cm,1.4cm) -- (8.85cm,1.4cm);
+	%\draw [gray](8.3cm,1.8cm) -- (8.7cm,1.8cm);
+	%\draw [gray](8.45cm,1.4cm) -- (8.85cm,1.4cm);
-	\draw [gray,fill=blue!8,line width=0.6pt](11cm,2.2cm) -- (11.4cm, 2.2cm) -- (11.7cm,1.4cm) -- (11.3cm, 1.4cm) -- (11cm,2.2cm);
+	%全连接层
-	\draw [gray](11.15cm,1.8cm) -- (11.55cm,1.8cm);
+	\draw [gray,fill=blue!8,line width=0.6pt](11cm,2.2cm) -- (11.4cm, 2.2cm) -- (11.7cm,1.8cm) -- (11.3cm, 1.8cm) -- (11cm,2.2cm);
+	%\draw [gray](11.15cm,1.8cm) -- (11.55cm,1.8cm);
-	\draw[ugreen!60,line] ([xshift=5.0cm,yshift=1.3cm]0cm+1*\bcc,0cm+6*\bcc) -- (8cm,2.6cm);
+	%最大池化
-	\draw[ugreen!60,line] ([xshift=5.0cm,yshift=1.3cm]0cm+1*\bcc,0cm) -- (8.15cm,2.2cm);
+	\draw[ugreen!60,line] ([xshift=5.0cm,yshift=1.3cm]0cm+1*\bcc,0cm+6*\bcc) -- (8cm,2.2cm);
+	\draw[ugreen!60,line] ([xshift=5.0cm,yshift=1.3cm]0cm+1*\bcc,0cm-1*\bcc) -- (8.15cm,1.8cm);
-	\draw[fill=blue!8,xshift=5.2cm,yshift=1.0cm,line width=0.6pt] (0cm,0cm) rectangle (0cm+1*\bcc,0cm+6*\bcc);
-	\draw[step=\bcc,gray,xshift=5.2cm,yshift=1.0cm] (0cm,0cm) grid (0cm+1*\bcc,0cm+6*\bcc); 
+	%特征图
+	%\draw[fill=blue!8,xshift=5.2cm,yshift=1.0cm,line width=0.6pt] (0cm,0cm) rectangle (0cm+1*\bcc,0cm+6*\bcc);
+	%\draw[step=\bcc,gray,xshift=5.2cm,yshift=1.0cm] (0cm,0cm) grid (0cm+1*\bcc,0cm+6*\bcc); 
-	\draw[fill=blue!8,xshift=5.4cm,yshift=0.3cm,line width=0.6pt] (0cm,0cm) rectangle (0cm+1*\bcc,0cm+7*\bcc);
+	%\draw[fill=blue!8,xshift=5.4cm,yshift=0.3cm,line width=0.6pt] (0cm,0cm) rectangle (0cm+1*\bcc,0cm+7*\bcc);
-	\draw[step=\bcc,gray,xshift=5.4cm,yshift=0.3cm] (0cm,0cm) grid (0cm+1*\bcc,0cm+7*\bcc);
+	%\draw[step=\bcc,gray,xshift=5.4cm,yshift=0.3cm] (0cm,0cm) grid (0cm+1*\bcc,0cm+7*\bcc);
-	\draw[fill=blue!8,xshift=5.6cm,yshift=0cm,line width=0.6pt] (0cm,0cm) rectangle (0cm+1*\bcc,0cm+7*\bcc);
+	\draw[fill=blue!8,xshift=5.6cm,yshift=0cm,line width=0.6pt] (0cm,0cm) rectangle (0cm+1*\bcc,0cm+8*\bcc);
-	\draw[step=\bcc,gray,xshift=5.6cm,yshift=0cm] (0cm,0cm) grid (0cm+1*\bcc,0cm+7*\bcc); 
+	\draw[step=\bcc,gray,xshift=5.6cm,yshift=0cm] (0cm,0cm) grid (0cm+1*\bcc,0cm+8*\bcc); 
 	\draw[red!60,line width=2pt,xshift=5.6cm,yshift=0cm] (0cm,0cm) rectangle (0cm+1*\bcc,0cm+1*\bcc);
-	\draw[red!60,line width=2pt,xshift=5.6cm,yshift=0cm] (0cm,0cm+2*\bcc) rectangle (0cm+1*\bcc,0cm+3*\bcc);
+	\draw[red!60,line width=2pt,xshift=5.6cm,yshift=0cm] (0cm,0cm+7*\bcc) rectangle (0cm+1*\bcc,0cm+8*\bcc);
-	\draw[red!60,line width=2pt,xshift=5.6cm,yshift=0cm] (0cm,0cm+6*\bcc) rectangle (0cm+1*\bcc,0cm+7*\bcc);
-	\draw[line] (8.4cm, 2.6cm) -- (11cm,2.2cm);
+	% 全连接线
-	\draw[line] (9cm,1cm) -- (11.3cm, 1.4cm);
+	\draw[line] (8.4cm, 2.2cm) -- (11.2cm,2.2cm);
+	\draw[line] (8.7cm,1.4cm) -- (11.3cm, 1.8cm);
-	\draw[red!60,line] ([xshift=5.6cm,yshift=0cm]0cm+1*\bcc,0cm+7*\bcc) -- (8.45cm,1.4cm);
+	\draw[red!60,line] ([xshift=5.6cm,yshift=0cm]0cm+1*\bcc,0cm+7*\bcc) -- (8.15cm,1.8cm);
-	\draw[red!60,line] ([xshift=5.6cm,yshift=0cm]0cm+1*\bcc,0cm) -- (8.6cm, 1cm);
+	\draw[red!60,line] ([xshift=5.6cm,yshift=0cm]0cm+1*\bcc,0cm) -- (8.25cm, 1.4cm);
 	\draw[red!60,line] (0cm+6*\bcc,0cm+9*\bcc) -- ([xshift=5.6cm,yshift=0cm]0cm,0cm+7*\bcc);
 	\draw[red!60,line] (0cm+6*\bcc,0cm+7*\bcc) -- ([xshift=5.6cm,yshift=0cm]0cm,0cm+6*\bcc);
@@ -59,8 +63,8 @@
 	\draw[red!60,line] (0cm+6*\bcc,0cm) -- ([xshift=5.6cm,yshift=0cm]0cm,0cm);
 	\draw[ugreen!60,line] (0cm+6*\bcc,0cm+6*\bcc) -- ([xshift=5.0cm,yshift=1.3cm]0cm,0cm+3*\bcc);
 	\draw[ugreen!60,line] (0cm+6*\bcc,0cm+3*\bcc) -- ([xshift=5.0cm,yshift=1.3cm]0cm,0cm+2*\bcc);
-	\draw[red!60,line] ([xshift=0.3cm,yshift=0.5cm]0cm+6*\bcc,0cm+4*\bcc) -- ([xshift=5.6cm,yshift=0cm]0cm,0cm+3*\bcc);
+	%\draw[red!60,line] ([xshift=0.3cm,yshift=0.5cm]0cm+6*\bcc,0cm+4*\bcc) -- ([xshift=5.6cm,yshift=0cm]0cm,0cm+3*\bcc);
-	\draw[red!60,line] ([xshift=0.3cm,yshift=0.5cm]0cm+6*\bcc,0cm+2*\bcc) -- ([xshift=5.6cm,yshift=0cm]0cm,0cm+2*\bcc);
+	%\draw[red!60,line] ([xshift=0.3cm,yshift=0.5cm]0cm+6*\bcc,0cm+2*\bcc) -- ([xshift=5.6cm,yshift=0cm]0cm,0cm+2*\bcc);
 	\node[word] (w1) at (-0.5cm, 3.4cm) {wait};
 	\node[word] (w2) at ([yshift=-\bcc]w1) {for};
@@ -76,7 +80,7 @@
 	\node[draw,rectangle callout,callout relative pointer={(0.1,-0.5)}] at (5cm,4.6cm) {\textrm{特征图}};
-	\draw [thick] (0cm, -0.3cm) -- (0cm, -0.5cm)  -- node[font=\tiny, align=center,yshift=-0.5cm]{维度大小为 $m \times K$ \\ 的静态与非静态通道\\的句子表示} (2.4cm,-0.5cm) -- (2.4cm, -0.3cm);	
+	\draw [thick] (0cm, -0.3cm) -- (0cm, -0.5cm)  -- node[font=\tiny, align=center,yshift=-0.5cm]{维度大小为 $m \times O$ \\ 的句子表示} (2.4cm,-0.5cm) -- (2.4cm, -0.3cm);	
 	\draw [thick] (3.6cm, -0.3cm) -- (3.6cm, -0.5cm)  -- node[font=\tiny, align=center,yshift=-0.5cm]{具有多个不同大小\\的卷积核和特征图\\的卷积层} (6cm,-0.5cm) -- (6cm, -0.3cm);
 	\draw [thick] (7.2cm, -0.3cm) -- (7.2cm, -0.5cm)  -- node[font=\tiny, align=center,yshift=-0.5cm]{最大池化} (9cm,-0.5cm) -- (9cm, -0.3cm);
 	\draw [thick] (10cm, -0.3cm) -- (10cm, -0.5cm)  -- node[font=\tiny, align=center,yshift=-0.5cm]{带有Dropout\\和Softmax输出\\的全连接层} (11.7cm,-0.5cm) -- (11.7cm, -0.3cm);

--- a/Chapter11/chapter11.tex
+++ b/Chapter11/chapter11.tex
@@ -34,7 +34,7 @@
 \section{卷积神经网络}
-\parinterval {\small\bfnew{卷积神经网络}}\index{卷积神经网络}（Convolutional Neural Network，CNN）\index{Convolutional Neural Network，CNN} 是一种前馈神经网络，由若干的卷积层与池化层组成。早期，卷积神经网络被应用在语音识别任务上\upcite{Waibel1989PhonemeRU}，之后在图像处理领域取得了很好的效果\upcite{LeCun1989BackpropagationAT,726791}。近年来，卷积神经网络已经成为语音、自然语言文字、图像处理任务的基础框架\upcite{DBLP:conf/icassp/ZhangCJ17,DBLP:conf/icassp/DengAY13,Kalchbrenner2014ACN,Kim2014ConvolutionalNN,DBLP:journals/corr/HeZRS15,DBLP:conf/cvpr/HuangLMW17,Girshick2015FastR,He2020MaskR}。在自然语言处理领域，卷积神经网络已经得到广泛应用，在文本分类\upcite{Kalchbrenner2014ACN,Kim2014ConvolutionalNN,Ma2015DependencybasedCN}、情感分析\upcite{Santos2014DeepCN,}、语言建模\upcite{DBLP:conf/acl/WangLLJL15,Dauphin2017LanguageMW}、机器翻译\upcite{devlin-etal-2014-fast,kalchbrenner-blunsom-2013-recurrent,Gehring2017ACE,DBLP:journals/corr/GehringAGYD17,Kaiser2018DepthwiseSC,Wu2019PayLA}等任务中取得不错的成绩。
+\parinterval {\small\bfnew{卷积神经网络}}\index{卷积神经网络}（Convolutional Neural Network，CNN）\index{Convolutional Neural Network，CNN} 是一种前馈神经网络，由若干的卷积层与池化层组成。早期，卷积神经网络被应用在语音识别任务上\upcite{Waibel1989PhonemeRU}，之后在图像处理领域取得了很好的效果\upcite{LeCun1989BackpropagationAT,726791}。近年来，卷积神经网络已经成为语音、自然语言处理、图像处理任务的基础框架\upcite{DBLP:conf/icassp/ZhangCJ17,DBLP:conf/icassp/DengAY13,Kalchbrenner2014ACN,Kim2014ConvolutionalNN,DBLP:journals/corr/HeZRS15,DBLP:conf/cvpr/HuangLMW17,Girshick2015FastR,He2020MaskR}。在自然语言处理领域，卷积神经网络已经得到广泛应用，在文本分类\upcite{Kalchbrenner2014ACN,Kim2014ConvolutionalNN,Ma2015DependencybasedCN}、情感分析\upcite{Santos2014DeepCN,}、语言建模\upcite{DBLP:conf/acl/WangLLJL15,Dauphin2017LanguageMW}、机器翻译\upcite{devlin-etal-2014-fast,kalchbrenner-blunsom-2013-recurrent,Gehring2017ACE,DBLP:journals/corr/GehringAGYD17,Kaiser2018DepthwiseSC,Wu2019PayLA}等任务中取得不错的成绩。
 \parinterval 图\ref{fig:11-1}展示了全连接层和卷积层的结构对比，可以看到在全连接层中，模型考虑了所有的输入，层输出中的每一个元素都依赖于所有输入。这种全连接层适用于大多数任务，但是当处理图像这种网格数据的时候，规模过大的数据会导致模型参数量过大，难以处理。其次，在一些网格数据中，通常具有局部不变性的特征，比如图像中不同位置的相同物体，语言序列中相同的$n$-gram等。而全连接网络很难提取这些局部不变性特征。为此，一些研究人员提出使用卷积层来替换全连接层\upcite{DBLP:conf/eccv/LiuAESRFB16,DBLP:journals/pami/RenHG017}。
@@ -73,7 +73,7 @@
 \parinterval 卷积操作作为卷积神经网络的核心部分，其本质是一种特殊的线性运算。区别于全连接的方式，卷积使用一系列{\small\bfnew{卷积核}}\index{卷积核}（Convolution Kernel，也叫滤波器）\index{Convolution Kernel}\index{滤波器} 对局部输入数据进行特征提取，然后通过在输入数据空间维度上移动卷积核来获取所有位置的特征信息。卷积的输入可以是任意维度形式的数据。由于其在图像处理领域应用最为广泛，这里以二维图像为例对卷积核和卷积操作进行简单介绍。
-\parinterval 在图像卷积中，卷积核是一组$Q \times U \times O$的参数（如图\ref{fig:11-3}）。其中$Q$和$U$表示卷积核窗口的宽度与长度，分别对应图像中的长和宽两个维度，$Q \times U$决定了该卷积核窗口的大小。$O$是该卷积核的深度，它的取值和输入数据通道数保持一致。在这里，通道可以看作图像不同的特征，比如灰色图像只有灰度信息，通道数为1；而RGB格式的图像有3个通道，分别对应红绿蓝三种颜色信息。
+\parinterval 在图像卷积中，卷积核是一组$Q \times U \times O$的参数（如图\ref{fig:11-3}）。其中$Q$和$U$表示卷积核窗口的宽度与长度，分别对应图像中的宽和长两个维度，$Q \times U$决定了该卷积核窗口的大小。$O$是该卷积核的深度，它的取值和输入数据通道数保持一致。在这里，通道可以看作图像不同的特征，比如灰色图像只有灰度信息，通道数为1；而RGB格式的图像有3个通道，分别对应红绿蓝三种颜色信息。
 %----------------------------------------------
 % 图3.
@@ -87,24 +87,24 @@
 \parinterval 在卷积计算中，不同深度下卷积核不同但是执行操作相同，这里以二维卷积核为例展示具体卷积计算。若设输入矩阵为$\mathbi{x}$，输出矩阵为$\mathbi{y}$，卷积滑动步幅为$\textrm{stride}$，卷积核为$\mathbi{w}$，且$\mathbi{w} \in \mathbb{R}^{Q \times U} $，那么卷积计算的公式为：
 \begin{eqnarray}
-\mathbi{y}_{i,j} = \sum_s \sum_t ( \mathbi{x}_{[j\times \textrm{stride}:j\times \textrm{stride}+U-1,i\times \textrm{stride}:i\times \textrm{stride}+Q-1]} \odot \mathbi{w} )_{s,t}
+\mathbi{y}_{i,j} = \sum \sum ( \mathbi{x}_{[j\times \textrm{stride}:j\times \textrm{stride}+U-1,i\times \textrm{stride}:i\times \textrm{stride}+Q-1]} \odot \mathbi{w} )
 \label{eq:11-1-new}
 \end{eqnarray}
-\noindent 图\ref{fig:11-4}展示了一个简单的卷积操作示例，卷积核大小为$2 \times 2 $，图像大小为$3 \times 3$，将卷积核在图像上依次进行滑动，滑动步幅为1，根据公式\eqref{eq:11-1-new}，图中蓝色位置$\mathbi{y}_{0,0}$的计算为：
+\noindent 其中$i$是输出矩阵的行下标，$j$是输出矩阵的列下标。图\ref{fig:11-4}展示了一个简单的卷积操作示例，卷积核大小为$2 \times 2 $，图像大小为$3 \times 3$，将卷积核在图像上依次进行滑动，滑动步幅为1，根据公式\eqref{eq:11-1-new}，图中蓝色位置$\mathbi{y}_{0,0}$的计算为：
 \begin{eqnarray}
-\mathbi{y}_{0,0} &=& \sum_s \sum_t ( \mathbi{x}_{[0\times 1:0\times 1+2-1,0\times 1:0\times 1+2-1]} \odot \mathbi{w})_{s,t} \nonumber \\
+\mathbi{y}_{0,0} &=& \sum \sum ( \mathbi{x}_{[0\times 1:0\times 1+2-1,0\times 1:0\times 1+2-1]} \odot \mathbi{w}) \nonumber \\
-			 &=& \sum_s \sum_t ( \mathbi{x}_{[0:1,0:1]} \odot \mathbi{w} )_{s,t} \nonumber \\
+			 &=& \sum \sum ( \mathbi{x}_{[0:1,0:1]} \odot \mathbi{w} ) \nonumber \\
-&=& \sum_s \sum_t \begin{pmatrix}
+&=& \sum \sum \begin{pmatrix}
   0\times 0 & 1\times1\\
   3\times2 & 4\times3
-\end{pmatrix}_{s,t} \nonumber \\
+\end{pmatrix} \nonumber \\
 			 &=& 0 \times 0 + 1 \times 1 + 3 \times 2 + 4 \times 3 \nonumber \\
 			 &=& 19
 \label{eq:11-2-new}
 \end{eqnarray}
-\parinterval 在图像处理中，通过设计特定的卷积核来进行特征提取，比如图像边缘信息（图\ref{fig:11-5}）。而在卷积神经网络中，只需要指定卷积层中卷积核的数量及大小，卷积核参数通过梯度下降等手段学习得到。这样可以让模型自己学习需要提取哪些特征。
+\parinterval 在图像处理中，可以通过设计特定的卷积核来进行特征提取，比如图像边缘信息（图\ref{fig:11-5}）。而在卷积神经网络中，只需要指定卷积层中卷积核的数量及大小，卷积核参数通过梯度下降等手段学习得到。这样可以让模型自己学习需要提取哪些特征。
 %----------------------------------------------
 % 图4.
@@ -178,7 +178,7 @@
 \end{figure}
 %----------------------------------------------
-\parinterval 池化计算选取每个滑动窗口内最突出的值或平均值作为局部信息，压缩了卷积层输出的维度大小，有效地减少了神经网络的计算量，是卷积神经网络中必不可少的操作。在网络建模时，通常在较低层时会使用最大池化，仅保留特征中最显著的部分。而当网络更深时，特征信息都具有一定意义，此时包含的语义信息较多，选取平均池化方法更适合。
+\parinterval 池化计算选取每个滑动窗口内最突出的值或平均值作为局部信息，压缩了卷积层输出的维度大小，有效地减少了神经网络的计算量，是卷积神经网络中必不可少的操作。在网络建模时，通常在较低层时会使用最大池化，仅保留特征中最显著的部分。而当网络更深时，特征信息都具有一定意义，比如在自然语言处理任务中，深层网络的特征向量包含的语义信息较多，选取平均池化方法更适合。
 %----------------------------------------------------------------------------------------
@@ -187,7 +187,7 @@
 \subsection{面向序列的卷积操作}
-\parinterval 对比于图像处理任务中二维图像数据，自然语言处理任务中主要处理一维序列，如单词序列。由于单词序列往往是不定长的，很难使用全连接网络处理它，因为变长序列无法用固定大小的全连接网络进行直接建模，而且过长的序列也会导致全连接网络参数量的极具增加。
+\parinterval 对比于图像处理任务中二维图像数据，自然语言处理任务中主要处理一维序列，如单词序列。由于单词序列长度往往是不固定的，很难使用全连接网络处理它，因为变长序列无法用固定大小的全连接网络进行直接建模，而且过长的序列也会导致全连接网络参数量的急剧增加。
 %----------------------------------------------
 % 图9.
@@ -203,7 +203,7 @@
 \parinterval 针对不定长序列，一种可行的方法是使用之前介绍过的循环神经网络，其本质也是基于权重共享的想法，在不同的时间步复用相同的循环神经网络单元进行处理。但是，循环神经网络最大的弊端在于每一时刻的计算都依赖于上一时刻的结果，因此只能对序列进行串行处理，无法充分利用硬件设备进行并行计算，导致效率相对较低。此外，在处理较长的序列时，这种串行的方式很难捕捉长距离的依赖关系。相比之下，卷积神经网络采用共享参数的方式处理固定大小窗口内的信息，且不同位置的卷积操作之间没有相互依赖，因此可以对序列进行高效地并行处理。同时，针对序列中距离较长的依赖关系，可以通过堆叠多层卷积层来扩大{\small\bfnew{感受野}}\index{感受野} (Receptive Field)\index{Receptive Field}  ，这里感受野指能够影响神经元输出的原始输入数据区域的大小。图\ref{fig:11-9}对比了这两种结构，可以看出，为了捕捉$\mathbi{e}_2$ 和$\mathbi{e}_8$ 之间的联系，串行结构需要顺序的6次操作，和序列长度相关。而该卷积神经网络中，卷积操作每次对三个词进行计算，仅需要4层卷积计算就能得到$\mathbi{e}_2$ 和$\mathbi{e}_8$之间的联系，其操作数和卷积核的大小相关，相比于串行的方式具有更短的路径和更少的非线性计算，更容易进行训练。因此，也有许多研究人员在许多自然语言处理任务上尝试使用卷积神经网络进行序列建模\upcite{Kim2014ConvolutionalNN,Santos2014DeepCN,Kalchbrenner2014ACN,DBLP:conf/naacl/Johnson015,DBLP:conf/naacl/NguyenG15}。
-\parinterval 区别于传统图像上的卷积操作，在面向序列的卷积操作中，卷积核只在序列这一维度进行移动，用来捕捉多连续词之间的特征。需要注意的是，由于单词通常由一个实数向量表示（词嵌入），{\red 因此可以将词嵌入的维度看作是卷积操作中的通道数}。图\ref{fig:11-10}就是一个基于序列卷积的文本分类模型，模型的输入是维度大小为$m\times K \times 2$的句子表示，其中2是输入矩阵的通道数，该模型令其中一个通道的矩阵为静态，另一个为动态，其静态通道的句子表示在整个训练过程中保持不变，动态通道的句子表示通过反向传播进行微调。模型使用多个不同（对应图中不同的颜色）的卷积核来对序列进行特征提取，得到了多个不同的特征序列。然后使用池化层降低表示维度，得到了一组和序列长度无关的特征表示。基于这组压缩过的特征表示，模型再通过全连接网络和Softmax函数作为相应类别的预测。在这其中卷积层和池化层分别起到了特征提取和状态压缩的作用，将一个不定长的序列转化到一组固定大小的特征表示。
+\parinterval 区别于传统图像上的卷积操作，在面向序列的卷积操作中，卷积核只在序列这一维度进行移动，用来捕捉连续的多个词之间的特征。需要注意的是，由于单词通常由一个实数向量表示（词嵌入），因此可以将词嵌入的维度看作是卷积操作中的通道数。图\ref{fig:11-10}就是一个基于序列卷积的文本分类模型，模型的输入是维度大小为$m\times O $的句子表示，$m$表示句子长度，$O$表示词嵌入维度，模型使用多个不同（对应图中不同的颜色）的卷积核来对序列进行特征提取，得到了多个不同的特征序列。然后使用池化层降低表示维度，得到了一组和序列长度无关的特征表示。基于这组压缩过的特征表示，模型再通过全连接网络和Softmax函数作为相应类别的预测。在这其中卷积层和池化层分别起到了特征提取和状态压缩的作用，将一个不定长的序列转化到一组固定大小的特征表示。
 %----------------------------------------------
 % 图10.
@@ -437,7 +437,7 @@
 \mathbi{v}_t & = & \beta \mathbi{v}_{t-1} + (1-\beta)\frac{\partial J(\mathbi{w}_t)}{\partial \mathbi{w}_t}  \label{eq:11-9-momentum}
 \end{eqnarray}
-\noindent 其中，$\mathbi{w}_t$表示第$t$步更新时的模型参数；$J(\mathbi{w}_t)$表示损失函数均值期望的估计；$\frac{\partial J(\mathbi{w}_t)}{\partial \mathbi{w}_t}$将指向$J(\mathbi{w}_t)$在$\mathbi{w}$处变化最大的方向，即梯度方向；$\alpha$ 为学习率；$\mathbi{v}_t$为损失函数在前$t-1$步更新中累积的梯度动量，利用超参数$\beta$控制累积的范围。
+\noindent 其中，$\mathbi{w}_t$表示第$t$步更新时的模型参数；$J(\mathbi{w}_t)$表示损失函数均值期望的估计；$\frac{\partial J(\mathbi{w}_t)}{\partial \mathbi{w}_t}$将指向$J(\mathbi{w}_t)$在$\mathbi{w}_t$处变化最大的方向，即梯度方向；$\alpha$ 为学习率；$\mathbi{v}_t$为损失函数在前$t-1$步更新中累积的梯度动量，利用超参数$\beta$控制累积的范围。
 \parinterval 而在Nesterov加速梯度下降法中，使用的梯度不是来自于当前参数位置，而是按照之前梯度方向更新一小步的位置，以便于更好地“预测未来”，提前调整更新速率，因此，其动量的更新方式为：
 \begin{eqnarray}
@@ -466,7 +466,7 @@
 \subsection{深度可分离卷积}
 \label{sec:11.3.1}
-\parinterval 根据前面介绍，可以看到卷积神经网络容易处理在局部检测和位置不变的特征。对于特定的表达，比如地点、情绪等，使用卷积神经网络能达到不错的识别效果，因此它常被用在文本分类中\upcite{Kalchbrenner2014ACN,Kim2014ConvolutionalNN,DBLP:conf/naacl/Johnson015,DBLP:conf/acl/JohnsonZ17}。不过机器翻译所面临的情况更复杂，除了局部句子片段信息，我们还希望模型能够捕获句子结构、语义等信息。虽然单层卷积神经网络在文本分类中已经取得了很好的效果\upcite{Kim2014ConvolutionalNN}，神经机器翻译等任务仍然需要有效的卷积神经网络。随着深度可分离卷积在机器翻译中的探索\upcite{Kaiser2018DepthwiseSC}，更高效的网络结构被设计出来，获得了比ConS2S模型更好的性能。
+\parinterval 根据前面的介绍，可以看到卷积神经网络容易用于局部检测和处理位置不变的特征。对于特定的表达，比如地点、情绪等，使用卷积神经网络能达到不错的识别效果，因此它常被用在文本分类中\upcite{Kalchbrenner2014ACN,Kim2014ConvolutionalNN,DBLP:conf/naacl/Johnson015,DBLP:conf/acl/JohnsonZ17}。不过机器翻译所面临的情况更复杂，除了局部句子片段信息，我们还希望模型能够捕获句子结构、语义等信息。虽然单层卷积神经网络在文本分类中已经取得了很好的效果\upcite{Kim2014ConvolutionalNN}，神经机器翻译等任务仍然需要有效的卷积神经网络。随着深度可分离卷积在机器翻译中的探索\upcite{Kaiser2018DepthwiseSC}，更高效的网络结构被设计出来，获得了比ConS2S模型更好的性能。
 %----------------------------------------------
 % 图17.