合并分支 'caorunzhe' 到 'master'

Caorunzhe 查看合并请求 !471

合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求 !471
66fdb624 · 曹润柘 · 6f3750df · 2b74625f · 66fdb624 · 66fdb624
Commit 66fdb624 authored Nov 25, 2020 by 曹润柘
--- a/Chapter11/Figures/figure-fairseq-0.tex
+++ b/Chapter11/Figures/figure-fairseq-0.tex
@@ -34,7 +34,7 @@

 \node[anchor=north,word] (tgt_1) at ([yshift=-0.4em]i_0.south){$<$p$>$};
 \node[anchor=north,word] at ([yshift=-0.4em]i_1.south){$<$p$>$};
-\node[anchor=north,word] at ([yshift=-0.4em]i_2.south){$<$s$>$};
+\node[anchor=north,word] at ([yshift=-0.4em]i_2.south){$<$sos$>$};
 \node[anchor=north,word] at ([yshift=-0.4em]i_3.south){go};
 \node[anchor=north,word] at ([yshift=-0.4em]i_4.south){to};
 \node[anchor=north,word] (tgt_2) at ([yshift=-0.4em]i_5.south){school};
@@ -103,7 +103,7 @@
 \node[anchor=north,word] at ([yshift=-0.4em]i_0.south){go};
 \node[anchor=north,word] at ([yshift=-0.4em]i_1.south){to};
 \node[anchor=north,word] at ([yshift=-0.4em]i_2.south){school};
-\node[anchor=north,word] at ([yshift=-0.4em]i_3.south){$<$/s$>$};
+\node[anchor=north,word] at ([yshift=-0.4em]i_3.south){$<$eos$>$};

 \foreach \point in {0,1,2,3}{
 \node[cir,font=\fontsize{6}{6}\selectfont,inner sep=0.8pt](c_\point) at (8.2cm+\point*2em,7.5cm-1em*\point){\bm{$\sum$}};
@@ -140,7 +140,7 @@
 \node[anchor=south,word] (src_1) at ([xshift=-2em,yshift=0.4em]r_0.north){$<$p$>$};
 \node[anchor=south,word] at ([yshift=0.4em]r_0.north){去};
 \node[anchor=south,word] at ([yshift=0.4em]r_1.north){上学};
-\node[anchor=south,word] at ([yshift=0.4em]r_2.north){$<$s$>$};
+\node[anchor=south,word] at ([yshift=0.4em]r_2.north){$<$sos$>$};
 \node[anchor=south,word] (src_2) at ([xshift=2em,yshift=0.4em]r_2.north){$<$p$>$};



--- a/Chapter11/Figures/figure-fairseq-2.tex
+++ b/Chapter11/Figures/figure-fairseq-2.tex
@@ -34,7 +34,7 @@

 \node[anchor=north,word] at ([yshift=-0.4em]i_0.south){$<$p$>$};
 \node[anchor=north,word] at ([yshift=-0.4em]i_1.south){$<$p$>$};
-\node[anchor=north,word] at ([yshift=-0.4em]i_2.south){$<$s$>$};
+\node[anchor=north,word] at ([yshift=-0.4em]i_2.south){$<$sos$>$};
 \node[anchor=north,word] at ([yshift=-0.4em]i_3.south){go};
 \node[anchor=north,word] at ([yshift=-0.4em]i_4.south){to};
 \node[anchor=north,word] at ([yshift=-0.4em]i_5.south){school};
@@ -98,7 +98,7 @@
 \node[anchor=north,word] at ([yshift=-0.4em]i_0.south){go};
 \node[anchor=north,word] at ([yshift=-0.4em]i_1.south){to};
 \node[anchor=north,word] at ([yshift=-0.4em]i_2.south){school};
-\node[anchor=north,word] at ([yshift=-0.4em]i_3.south){$<$/s$>$};
+\node[anchor=north,word] at ([yshift=-0.4em]i_3.south){$<$eos$>$};

 \foreach \point in {0,1,2,3}{
 \node[cir,font=\fontsize{6}{6}\selectfont,inner sep=0.8pt](c_\point) at (8.2cm+\point*2em,7.5cm-1em*\point){\bm{$\sum$}};
@@ -135,7 +135,7 @@
 \node[anchor=south,word] (src_1) at ([xshift=-2em,yshift=0.4em]r_0.north){$<$p$>$};
 \node[anchor=south,word] at ([yshift=0.4em]r_0.north){去};
 \node[anchor=south,word] at ([yshift=0.4em]r_1.north){上学};
-\node[anchor=south,word] at ([yshift=0.4em]r_2.north){$<$s$>$};
+\node[anchor=south,word] at ([yshift=0.4em]r_2.north){$<$sos$>$};
 \node[anchor=south,word] (src_2) at ([xshift=2em,yshift=0.4em]r_2.north){$<$p$>$};



--- a/Chapter11/Figures/figure-fairseq-3.tex
+++ b/Chapter11/Figures/figure-fairseq-3.tex
@@ -34,7 +34,7 @@

 \node[anchor=north,word] at ([yshift=-0.4em]i_0.south){$<$p$>$};
 \node[anchor=north,word] at ([yshift=-0.4em]i_1.south){$<$p$>$};
-\node[anchor=north,word] at ([yshift=-0.4em]i_2.south){$<$s$>$};
+\node[anchor=north,word] at ([yshift=-0.4em]i_2.south){$<$sos$>$};
 \node[anchor=north,word] at ([yshift=-0.4em]i_3.south){go};
 \node[anchor=north,word] at ([yshift=-0.4em]i_4.south){to};
 \node[anchor=north,word] at ([yshift=-0.4em]i_5.south){school};
@@ -99,7 +99,7 @@
 \node[anchor=north,word] at ([yshift=-0.4em]i_0.south){go};
 \node[anchor=north,word] at ([yshift=-0.4em]i_1.south){to};
 \node[anchor=north,word] at ([yshift=-0.4em]i_2.south){school};
-\node[anchor=north,word] at ([yshift=-0.4em]i_3.south){$<$/s$>$};
+\node[anchor=north,word] at ([yshift=-0.4em]i_3.south){$<$eos$>$};

 \foreach \point in {0,1,2,3}{
 \node[cir,font=\fontsize{6}{6}\selectfont,inner sep=0.8pt](c_\point) at (8.2cm+\point*2em,7.5cm-1em*\point){\bm{$\sum$}};
@@ -136,7 +136,7 @@
 \node[anchor=south,word] (src_1) at ([xshift=-2em,yshift=0.4em]r_0.north){$<$p$>$};
 \node[anchor=south,word] at ([yshift=0.4em]r_0.north){去};
 \node[anchor=south,word] at ([yshift=0.4em]r_1.north){上学};
-\node[anchor=south,word] at ([yshift=0.4em]r_2.north){$<$s$>$};
+\node[anchor=south,word] at ([yshift=0.4em]r_2.north){$<$sos$>$};
 \node[anchor=south,word] (src_2) at ([xshift=2em,yshift=0.4em]r_2.north){$<$p$>$};



--- a/Chapter11/Figures/figure-max-pooling.tex
+++ b/Chapter11/Figures/figure-max-pooling.tex
@@ -22,8 +22,8 @@
 \draw[->,thick]([xshift=0.4cm,yshift=-0.4cm]num8.east)--([xshift=1.5cm,yshift=-0.4cm]num8.east);

 \node(num17)[num,right of = num8,xshift= 2.5cm,fill=red!10]{6};
-\node(num18)[num,right of = num17,xshift= 0.6cm,fill=green!10]{3};
-\node(num19)[num,below of = num17,yshift=-0.6cm,fill=yellow!10]{8};
+\node(num18)[num,right of = num17,xshift= 0.6cm,fill=green!10]{8};
+\node(num19)[num,below of = num17,yshift=-0.6cm,fill=yellow!10]{3};
 \node(num20)[num,below of = num18,yshift= -0.6cm,fill=blue!10]{4};

 \node [right of = num20,xshift= 0.7cm]{};

--- a/Chapter11/Figures/figure-single-glu.tex
+++ b/Chapter11/Figures/figure-single-glu.tex
@@ -63,9 +63,9 @@ $\otimes$： & 按位乘运算 \\
 	\draw[-latex,thick] (b.east) -- (c2.west);
 	\draw[-latex,thick] (c2.east) -- ([xshift=0.4cm]c2.east); 
 	
-	\node[inner sep=0pt, font=\tiny] at (0.75cm, -0.4cm) {$\mathbi{X}$};
-	\node[inner sep=0pt, font=\tiny] at ([yshift=-0.8cm]a.south) {$\mathbi{B}=\mathbi{X} * \mathbi{V} + \mathbi{b}_{\mathbi{W}}$};
-	\node[inner sep=0pt, font=\tiny] at ([yshift=-0.8cm]b.south) {$\mathbi{A}=\mathbi{X} * \mathbi{W} + \mathbi{b}_{\mathbi{V}}$};
-	\node[inner sep=0pt, font=\tiny] at (8.2cm, -0.4cm) {$\mathbi{Y}=\mathbi{A} \otimes \sigma(\mathbi{B})$};
+	\node[inner sep=0pt, font=\tiny] at (0.75cm, -0.4cm) {$\mathbi{x}$};
+	\node[inner sep=0pt, font=\tiny] at ([yshift=-0.8cm]a.south) {$\mathbi{B}=\mathbi{x} * \mathbi{V} + \mathbi{b}_{\mathbi{W}}$};
+	\node[inner sep=0pt, font=\tiny] at ([yshift=-0.8cm]b.south) {$\mathbi{A}=\mathbi{x} * \mathbi{W} + \mathbi{b}_{\mathbi{V}}$};
+	\node[inner sep=0pt, font=\tiny] at (8.2cm, -0.4cm) {$\mathbi{y}=\mathbi{A} \otimes \sigma(\mathbi{B})$};
 	
 \end{tikzpicture}
\ No newline at end of file
--- a/Chapter11/Figures/figure-standard.tex
+++ b/Chapter11/Figures/figure-standard.tex
@@ -40,7 +40,7 @@
 	\node[vuale] at ([xshift=0.9em]r3_1.east) {$\mathbi{z}_1$};
 	
 	\node (t1) at (2.5em, -1em) {\large{$\cdots$}};
-	\node [anchor=north,font=\tiny] at ([yshift=-0.2em]t1.south) {(a) 传统卷积};
+	\node [anchor=north,font=\tiny] at ([yshift=-0.2em]t1.south) {(a) 标准卷积};
 	\end{scope}
 	
 	\begin{scope}[xshift=4cm]

--- a/Chapter11/Figures/figure-use-cnn-in-sentence-classification.tex
+++ b/Chapter11/Figures/figure-use-cnn-in-sentence-classification.tex
@@ -85,10 +85,10 @@
 	%\draw [thick] (3.6cm, -0.3cm) -- (3.6cm, -0.5cm)  -- node[font=\tiny, align=center,yshift=-0.5cm]{Convolutional layer with \\ multiple filter widths and \\ feature maps} (6cm,-0.5cm) -- (6cm, -0.3cm);
 	%\draw [thick] (7.2cm, -0.3cm) -- (7.2cm, -0.5cm)  -- node[font=\tiny, align=center,yshift=-0.5cm]{Max-over-time\\  pooling} (9cm,-0.5cm) -- (9cm, -0.3cm);
 	%\draw [thick] (10cm, -0.3cm) -- (10cm, -0.5cm)  -- node[font=\tiny, align=center,yshift=-0.5cm]{Fully connected layer \\ with dropout and \\ softmax output} (11.7cm,-0.5cm) -- (11.7cm, -0.3cm);
-	\draw [thick] (0cm, -0.3cm) -- (0cm, -0.5cm)  -- node[font=\tiny, align=center,yshift=-0.5cm]{维度大小为 $m \times k$ \\ 的静态与非静态通道\\的句子表示} (2.4cm,-0.5cm) -- (2.4cm, -0.3cm);	
+	\draw [thick] (0cm, -0.3cm) -- (0cm, -0.5cm)  -- node[font=\tiny, align=center,yshift=-0.5cm]{维度大小为 $m \times K$ \\ 的静态与非静态通道\\的句子表示} (2.4cm,-0.5cm) -- (2.4cm, -0.3cm);	
 	\draw [thick] (3.6cm, -0.3cm) -- (3.6cm, -0.5cm)  -- node[font=\tiny, align=center,yshift=-0.5cm]{具有多个不同大小\\的卷积核和特征图\\的卷积层} (6cm,-0.5cm) -- (6cm, -0.3cm);
 	\draw [thick] (7.2cm, -0.3cm) -- (7.2cm, -0.5cm)  -- node[font=\tiny, align=center,yshift=-0.5cm]{最大池化} (9cm,-0.5cm) -- (9cm, -0.3cm);
-	\draw [thick] (10cm, -0.3cm) -- (10cm, -0.5cm)  -- node[font=\tiny, align=center,yshift=-0.5cm]{带有dropout\\和softmax输出\\的全连接层} (11.7cm,-0.5cm) -- (11.7cm, -0.3cm);
+	\draw [thick] (10cm, -0.3cm) -- (10cm, -0.5cm)  -- node[font=\tiny, align=center,yshift=-0.5cm]{带有Dropout\\和Softmax输出\\的全连接层} (11.7cm,-0.5cm) -- (11.7cm, -0.3cm);
 	
 	 
 	 %\node [font=\Large] at (5.2cm,-2cm){$h_i = dot(F,x_{i:i+l-1})+b$};

--- a/Chapter11/chapter11.tex
+++ b/Chapter11/chapter11.tex
@@ -24,7 +24,7 @@

 \chapter{基于卷积神经网络的模型}

-\parinterval 卷积神经网络是一种经典的神经计算模型，在计算机视觉等领域已经得到广泛应用。通过卷积、池化等一系列操作，卷积神经网络可以很好的对输入数据进行特征提取。这个过程也与图像和语言加工中局部输入信号的处理有着天然的联系。而卷积操作也可以被多次执行，形成多层卷积神经网络，进而进行更高层次的特征抽象。
+\parinterval 卷积神经网络是一种经典的神经计算模型，在计算机视觉等领域已经得到广泛应用。通过卷积、池化等一系列操作，卷积神经网络可以很好地对输入数据进行特征提取。这个过程也与图像和语言加工中局部输入信号的处理有着天然的联系。卷积操作还可以被多次执行，形成多层卷积神经网络，进而进行更高层次的特征抽象。

 \parinterval 在自然语言处理中，卷积神经网络也是备受关注的模型之一。本章将介绍基于卷积神经网络的机器翻译模型，不仅会重点介绍如何利用卷积神经网络构建端到端翻译模型，也会对一些机器翻译中改进的卷积神经网络结构进行讨论。

@@ -34,9 +34,9 @@

 \section{卷积神经网络}

-\parinterval {\small\bfnew{卷积神经网络}}\index{卷积神经网络}（Convolutional Neural Network，CNN）\index{Convolutional Neural Network，CNN} 是一种前馈神经网络，由若干的卷积层与池化层组成。早期，卷积神经网络被应用在语音识别任务上\upcite{Waibel1989PhonemeRU}，之后在图像处理领域取得了很好的效果\upcite{LeCun1989BackpropagationAT,726791}。近年来，卷积神经网络已经成为语音、自然语言文字、图像处理任务的基础框架\upcite{DBLP:journals/corr/HeZRS15,DBLP:conf/cvpr/HuangLMW17,Girshick2015FastR,He2020MaskR}。在自然语言处理领域，卷积神经网络已经得到广泛应用，在文本分类\upcite{Kalchbrenner2014ACN,Kim2014ConvolutionalNN,Ma2015DependencybasedCN}、情感分析\upcite{Santos2014DeepCN,}、语言建模\upcite{Dauphin2017LanguageMW}、机器翻译\upcite{Gehring2017ACE,DBLP:journals/corr/GehringAGYD17,Kaiser2018DepthwiseSC,Wu2019PayLA}等任务中取得不错的成绩。
+\parinterval {\small\bfnew{卷积神经网络}}\index{卷积神经网络}（Convolutional Neural Network，CNN）\index{Convolutional Neural Network，CNN} 是一种前馈神经网络，由若干的卷积层与池化层组成。早期，卷积神经网络被应用在语音识别任务上\upcite{Waibel1989PhonemeRU}，之后在图像处理领域取得了很好的效果\upcite{LeCun1989BackpropagationAT,726791}。近年来，卷积神经网络已经成为语音、自然语言文字、图像处理任务的基础框架\upcite{DBLP:conf/icassp/ZhangCJ17,DBLP:conf/icassp/DengAY13,Kalchbrenner2014ACN,Kim2014ConvolutionalNN,DBLP:journals/corr/HeZRS15,DBLP:conf/cvpr/HuangLMW17,Girshick2015FastR,He2020MaskR}。在自然语言处理领域，卷积神经网络已经得到广泛应用，在文本分类\upcite{Kalchbrenner2014ACN,Kim2014ConvolutionalNN,Ma2015DependencybasedCN}、情感分析\upcite{Santos2014DeepCN,}、语言建模\upcite{DBLP:conf/acl/WangLLJL15,Dauphin2017LanguageMW}、机器翻译\upcite{devlin-etal-2014-fast,kalchbrenner-blunsom-2013-recurrent,Gehring2017ACE,DBLP:journals/corr/GehringAGYD17,Kaiser2018DepthwiseSC,Wu2019PayLA}等任务中取得不错的成绩。

-\parinterval 图\ref{fig:11-1}展示了全连接层和卷积层的结构对比，可以看到在全连接层中，模型考虑了所有的输入，层输出中的每一个元素都依赖于所有输入。这种全连接层适用于大多数任务，但是当处理图像这种网格数据的时候，规模过大的数据会导致模型参数量过大，难以处理。其次，在一些网格数据中，通常具有局部不变性的特征，比如图像中不同位置的相同物体，语言序列中相同的$n$-gram等。而全连接网络很难提取这些局部不变性特征。为此，一些研究人员提出使用卷积层来替换全连接层。
+\parinterval 图\ref{fig:11-1}展示了全连接层和卷积层的结构对比，可以看到在全连接层中，模型考虑了所有的输入，层输出中的每一个元素都依赖于所有输入。这种全连接层适用于大多数任务，但是当处理图像这种网格数据的时候，规模过大的数据会导致模型参数量过大，难以处理。其次，在一些网格数据中，通常具有局部不变性的特征，比如图像中不同位置的相同物体，语言序列中相同的$n$-gram等。而全连接网络很难提取这些局部不变性特征。为此，一些研究人员提出使用卷积层来替换全连接层\upcite{DBLP:conf/eccv/LiuAESRFB16,DBLP:journals/pami/RenHG017}。

 \parinterval 相比于全连接网络，卷积神经网络最大的特点在于具有{\small\bfnew{局部连接}}\index{局部连接}（Locally Connected）\index{Locally Connected} 和{\small\bfnew{权值共享}}\index{权值共享}（Weight Tying）\index{Weight Tying}的特性。如图\ref{fig:11-1}(b)，卷积层中每个神经元只响应周围部分的局部输入特征，大大减少了网络中的连接数和参数量。另一方面，卷积层使用相同的卷积核对不同位置进行特征提取，换句话说，就是采用权值共享来进一步减少参数量，共享的参数对应于图中相同颜色的连接。

@@ -73,7 +73,7 @@

 \parinterval 卷积操作作为卷积神经网络的核心部分，其本质是一种特殊的线性运算。区别于全连接的方式，卷积使用一系列{\small\bfnew{卷积核}}\index{卷积核}（Convolution Kernel，也叫滤波器）\index{Convolution Kernel}\index{滤波器} 对局部输入数据进行特征提取，然后通过在输入数据空间维度上移动卷积核来获取所有位置的特征信息。卷积的输入可以是任意维度形式的数据。由于其在图像处理领域应用最为广泛，这里以二维图像为例对卷积核和卷积操作进行简单介绍。

-\parinterval 在图像卷积中，卷积核是一组$Q \times U \times O$的参数（如图\ref{fig:11-3}）。其中$Q$和$U$表示卷积核窗口的长度与宽度，分别对应图像中的长和宽两个维度，$Q \times U$决定了该卷积核窗口的大小。$O$是该卷积核的深度，它的取值和输入数据通道数保持一致。在这里，通道可以看作图像不同的特征，比如灰色图像只有灰度信息，通道数为1；而RGB格式的图像有3个通道，分别对应红绿蓝三种颜色信息。
+\parinterval 在图像卷积中，卷积核是一组$Q \times U \times O$的参数（如图\ref{fig:11-3}）。其中$Q$和$U$表示卷积核窗口的宽度与长度，分别对应图像中的长和宽两个维度，$Q \times U$决定了该卷积核窗口的大小。$O$是该卷积核的深度，它的取值和输入数据通道数保持一致。在这里，通道可以看作图像不同的特征，比如灰色图像只有灰度信息，通道数为1；而RGB格式的图像有3个通道，分别对应红绿蓝三种颜色信息。

 %----------------------------------------------
 % 图3.
@@ -85,7 +85,22 @@
 \end{figure}
 %----------------------------------------------

-\parinterval 图\ref{fig:11-4}展示了一个简单的卷积操作示例，卷积核大小为$2 \times 2 \times 1$，图像大小为$3 \times 3 \times 1$。将卷积核在图像上依次进行滑动，输出中的每一个位置的元素来自于卷积核与输入中对应位置元素的乘积和，比如输出中的$19=0 \times 0 + 1 \times 1 + 2 \times 3 + 3 \times 4$。在图像处理中，通过设计特定的卷积核来进行特征提取，比如图像边缘信息（图\ref{fig:11-5}）。而在卷积神经网络中，只需要指定卷积层中卷积核的数量及大小，卷积核参数通过梯度下降等手段学习得到。这样可以让模型自己学习需要提取哪些特征。
+\parinterval 若设输入矩阵为$\mathbi{x}$，输出矩阵为$\mathbi{o}$，卷积滑动步幅为$\textrm{stride}$，卷积核为$\mathbi{w}$，且$\mathbi{w} \in \mathbb{R}^{Q \times U} $，那么卷积计算的公式为：
+\begin{eqnarray}
+\mathbi{o}_{i,j} = \sum \mathbi{x}_{[j\times \textrm{stride}:j\times \textrm{stride}+U-1,i\times \textrm{stride}:i\times \textrm{stride}+Q-1]} \odot \mathbi{w}
+\label{eq:11-1-new}
+\end{eqnarray}
+
+\noindent 图\ref{fig:11-4}展示了一个简单的卷积操作示例，卷积核大小为$2 \times 2 $，图像大小为$3 \times 3$，将卷积核在图像上依次进行滑动，滑动步幅为1，根据公式\eqref{eq:11-1-new}，图中输出矩阵第0个值$\mathbi{o}_{0,0}$的计算为：
+\begin{eqnarray}
+\mathbi{o}_{0,0} &=& \sum \mathbi{x}_{[0\times 1:0\times 1+2-1,0\times 1:0\times 1+2-1]} \odot \mathbi{w} \nonumber \\
+			 &=& \sum \mathbi{x}_{[0:1,0:1]} \odot \mathbi{w} \nonumber \nonumber \\
+			 &=& 0 \times 0 + 1 \times 1 + 2 \times 3 + 3 \times 4 \nonumber \\
+			 &=& 19
+\label{eq:11-2-new}
+\end{eqnarray}
+
+\parinterval 在图像处理中，通过设计特定的卷积核来进行特征提取，比如图像边缘信息（图\ref{fig:11-5}）。而在卷积神经网络中，只需要指定卷积层中卷积核的数量及大小，卷积核参数通过梯度下降等手段学习得到。这样可以让模型自己学习需要提取哪些特征。

 %----------------------------------------------
 % 图4.
@@ -115,7 +130,7 @@

 \subsection{步长与填充}

-\parinterval 在卷积操作中，步长是指卷积核每次滑动的距离，和卷积核的大小共同决定了卷积输出的大小，如图\ref{fig:11-6}所示。步长越大，对输入数据的压缩程度越高，其输出的维度越小；反之步长越小，对输入数据的压缩程度越低，同时输出的尺寸和输入越接近。比如使用一个$3 \times 3 \times 1$的卷积核在$6 \times 6 \times 1$的图像上进行卷积，如设置步长为1，其对应的输出大小就为$4 \times 4 \times 1$。这种做法最为简单，但是会导致两个问题；一是在输入数据中，由于边缘区域的像素只会被计算一次，相比于中心区域来说，这些像素被考虑的次数会更少一些，导致图像边缘信息的丢失；二是在经历多次卷积之后，其输出的特征的维度会不断减小，影响模型的泛化能力。
+\parinterval 在卷积操作中，步长是指卷积核每次滑动的距离，和卷积核的大小共同决定了卷积输出的大小，如图\ref{fig:11-6}所示。步长越大，对输入数据的压缩程度越高，其输出的维度越小；反之步长越小，对输入数据的压缩程度越低，同时输出的尺寸和输入越接近。比如使用一个$3 \times 3 \times 1$的卷积核在$6 \times 6 \times 1$的图像上进行卷积，如设置步长为1，其对应的输出大小就为$4 \times 4 \times 1$。这种做法最为简单，但是会导致两个问题；一是在输入数据中，由于边缘区域的像素只会被计算一次，相比于中心区域来说，这些像素被考虑的次数会更少一些，导致图像边缘信息的丢失；二是在经历多次卷积之后，其输出特征的维度会不断减小，影响模型的泛化能力。

 %----------------------------------------------
 % 图6.
@@ -182,16 +197,16 @@
 \end{figure}
 %----------------------------------------------

-\parinterval 针对不定长序列，一种可行的方法是使用之前介绍过的循环神经网络，其本质也是基于权重共享的想法，在不同的时间步复用相同的循环神经网络单元进行处理。但是，循环神经网络最大的弊端在于每一时刻的计算都依赖于上一时刻的结果，因此只能对序列进行串行处理，无法充分利用硬件设备进行并行计算，导致效率相对较低。此外，在处理较长的序列时，这种串行的方式很难捕捉长距离的依赖关系。相比之下，卷积神经网络采用共享参数的方式处理固定大小窗口内的信息，且不同位置的卷积操作之间没有相互依赖，因此可以对序列高效地并行处理。同时，针对序列中距离较长的依赖关系，可以通过堆叠多层卷积层来扩大{\small\bfnew{感受野}}\index{感受野} (Receptive Field)\index{Receptive Field}  ，这里感受野指能够影响神经元输出的原始输入数据区域的大小。图\ref{fig:11-9}对比了这两种结构，可以看出，为了捕捉$\mathbi{e}_2$ 和$\mathbi{e}_8$ 之间的联系，串行结构需要顺序的6次操作，和长度相关。而层级结构仅需要4层卷积计算，和卷积核的大小相关，相比于串行的方式具有更短的路径和更少的非线性计算，更容易进行训练。因此，也有许多研究人员在许多自然语言处理任务上尝试使用卷积神经网络进行序列建模\upcite{Kim2014ConvolutionalNN,Santos2014DeepCN,Kalchbrenner2014ACN,DBLP:conf/naacl/Johnson015,DBLP:conf/naacl/NguyenG15}。
+\parinterval 针对不定长序列，一种可行的方法是使用之前介绍过的循环神经网络，其本质也是基于权重共享的想法，在不同的时间步复用相同的循环神经网络单元进行处理。但是，循环神经网络最大的弊端在于每一时刻的计算都依赖于上一时刻的结果，因此只能对序列进行串行处理，无法充分利用硬件设备进行并行计算，导致效率相对较低。此外，在处理较长的序列时，这种串行的方式很难捕捉长距离的依赖关系。相比之下，卷积神经网络采用共享参数的方式处理固定大小窗口内的信息，且不同位置的卷积操作之间没有相互依赖，因此可以对序列进行高效地并行处理。同时，针对序列中距离较长的依赖关系，可以通过堆叠多层卷积层来扩大{\small\bfnew{感受野}}\index{感受野} (Receptive Field)\index{Receptive Field}  ，这里感受野指能够影响神经元输出的原始输入数据区域的大小。图\ref{fig:11-9}对比了这两种结构，可以看出，为了捕捉$\mathbi{e}_2$ 和$\mathbi{e}_8$ 之间的联系，串行结构需要顺序的6次操作，和序列长度相关。而该卷积神经网络中，卷积操作每次对三个词进行计算，仅需要4层卷积计算就能得到$\mathbi{e}_2$ 和$\mathbi{e}_8$之间的联系，其操作数和卷积核的大小相关，相比于串行的方式具有更短的路径和更少的非线性计算，更容易进行训练。因此，也有许多研究人员在许多自然语言处理任务上尝试使用卷积神经网络进行序列建模\upcite{Kim2014ConvolutionalNN,Santos2014DeepCN,Kalchbrenner2014ACN,DBLP:conf/naacl/Johnson015,DBLP:conf/naacl/NguyenG15}。

-\parinterval 区别于传统图像上的卷积操作，在面向序列的卷积操作中，卷积核只在序列这一维度进行移动，用来捕捉多连续词之间的特征。需要注意的是，由于单词通常由一个实数向量表示（词嵌入），因此可以将词嵌入的维度看作是卷积操作中的通道数。图\ref{fig:11-10}就是一个基于序列卷积的文本分类模型，模型使用多个不同（对应图中不同的颜色）的卷积核来对序列进行特征提取，得到了多个不同的特征序列。然后使用池化层降低表示维度，得到了一组和序列长度无关的特征表示。基于这组压缩过的特征表示，模型再通过全连接网络和Softmax函数作为相应类别的预测。在这其中卷积层和池化层分别起到了特征提取和状态压缩的作用，将一个不定长的序列转化到一组固定大小的特征表示。
+\parinterval 区别于传统图像上的卷积操作，在面向序列的卷积操作中，卷积核只在序列这一维度进行移动，用来捕捉多连续词之间的特征。需要注意的是，由于单词通常由一个实数向量表示（词嵌入），因此可以将词嵌入的维度看作是卷积操作中的通道数。图\ref{fig:11-10}就是一个基于序列卷积的文本分类模型，模型的输入是维度大小为$m\times K$的静态与非静态通道的句子表示，其中静态通道的句子表示在整个训练过程中保持不变，动态通道的句子表示通过反向传播进行微调。模型使用多个不同（对应图中不同的颜色）的卷积核来对序列进行特征提取，得到了多个不同的特征序列。然后使用池化层降低表示维度，得到了一组和序列长度无关的特征表示。基于这组压缩过的特征表示，模型再通过全连接网络和Softmax函数作为相应类别的预测。在这其中卷积层和池化层分别起到了特征提取和状态压缩的作用，将一个不定长的序列转化到一组固定大小的特征表示。

 %----------------------------------------------
 % 图10.
 \begin{figure}[htp]
 \centering
 \input{./Chapter11/Figures/figure-use-cnn-in-sentence-classification}
-\caption{序列卷积在文本分类模型中的应用}
+\caption{序列卷积在文本分类模型中的应用\upcite{Kim2014ConvolutionalNN}}
 \label{fig:11-10}
 \end{figure}
 %----------------------------------------------
@@ -216,7 +231,7 @@

 \parinterval 正如之前所讲，卷积神经网络可以用于序列建模，同时具有并行性高和易于学习的特点，一个很自然的想法就是将其用作神经机器翻译模型中的特征提取器。因此，在神经机器翻译被提出之初，研究人员就已经开始利用卷积神经网络对句子进行表示。比较经典的模型是使用卷积神经网络作为源语言句子的编码器，使用循环神经网络作为目标语译文生成的解码器\upcite{kalchbrenner-blunsom-2013-recurrent,Gehring2017ACE}。之后也有研究人员提出完全基于卷积神经网络的翻译模型（ConvS2S）\upcite{DBLP:journals/corr/GehringAGYD17}，或者针对卷积层进行改进，提出效率更高、性能更好的模型\upcite{Kaiser2018DepthwiseSC,Wu2019PayLA}。本节将基于ConvS2S模型，阐述如何使用卷积神经网络搭建端到端神经机器翻译模型。

-\parinterval ConvS2S模型是一种高并行的序列到序列的神经计算模型。该模型利用卷积神经网络分别对源语言端与目标语言端的序列进行特征提取，并使用注意力机制来捕获两个序列之间映射关系。相比于基于多层循环神经网络的GNMT模型\upcite{Wu2016GooglesNM}，其主要优势在于每一层的网络计算是完全并行化的，避免了循环神经网络中计算顺序对时序的依赖。同时，利用多层卷积神经网络的层级结构可以有效的捕捉序列不同位置之间的依赖。即使是远距离依赖，也可以通过若干层卷积单元进行有效的捕捉，而且其信息传递的路径相比循环神经网络更短。除此之外，模型同时使用门控线性单元、残差网络和位置编码等技术来进一步提升模型性能，达到了和GNMT模型相媲美的翻译性能，同时大大缩短了训练时间。
+\parinterval ConvS2S模型是一种高并行的序列到序列的神经计算模型。该模型利用卷积神经网络分别对源语言端与目标语言端的序列进行特征提取，并使用注意力机制来捕获两个序列之间映射关系。相比于基于多层循环神经网络的GNMT模型\upcite{Wu2016GooglesNM}，其主要优势在于每一层的网络计算是完全并行化的，避免了循环神经网络中计算顺序对时序的依赖。同时，利用多层卷积神经网络的层级结构可以有效地捕捉序列不同位置之间的依赖。即使是远距离依赖，也可以通过若干层卷积单元进行有效的捕捉，而且其信息传递的路径相比循环神经网络更短。除此之外，模型同时使用门控线性单元、残差网络和位置编码等技术来进一步提升模型性能，达到了和GNMT模型相媲美的翻译性能，同时大大缩短了训练时间。

 \parinterval 图\ref{fig:11-12}为ConvS2S模型的结构示意图，其内部由若干不同的模块组成，包括：

@@ -225,7 +240,7 @@

 \item {\small\bfnew{卷积层}}与{\small\bfnew{门控线性单元}}（Gated Linear Units, GLU\index{Gated Linear Units, GLU}）：黄色背景框是卷积模块，这里使用门控线性单元作为非线性函数，之前的研究工作\upcite{Dauphin2017LanguageMW} 表明这种非线性函数更适合于序列建模任务。图中为了简化，只展示了一层卷积，但在实际中为了更好地捕获句子信息，通常使用多层卷积的叠加。

-\item {\small\bfnew{残差连接}}\index{残差连接}（Residual Connection）\index{Residual Connection}：对于源语言端和目标语言端的卷积层网络之间，都存在一个从输入到输出的额外连接，即跨层连接\upcite{DBLP:journals/corr/HeZRS15}。该连接方式确保每个隐层输出都能包含输入序列中的更多信息，同时能够有效促进深层网络的信息传递效率（该部分在图\ref{fig:11-12}中没有显示，具体结构详见\ref{sec:11.2.3}节）。
+\item {\small\bfnew{残差连接}}\index{残差连接}（Residual Connection）\index{Residual Connection}：对于源语言端和目标语言端的卷积层网络之间，都存在一个从输入到输出的额外连接，即跨层连接\upcite{DBLP:journals/corr/HeZRS15}。该连接方式确保每个隐层输出都能包含输入序列中的更多信息，同时能够有效提高深层网络的信息传递效率（该部分在图\ref{fig:11-12}中没有显示，具体结构详见\ref{sec:11.2.3}节）。

 \item {\small\bfnew{多跳注意力机制}}\index{多跳注意力机制}（Multi-step Attention/Multi-hop Attention）\index{Multi-step Attention}\index{Multi-hop Attention}：蓝色框内部展示了基于多跳结构的注意力机制模块\upcite{Sukhbaatar2015EndToEndMN}。ConvS2S模型同样使用注意力机制来捕捉两个序列之间不同位置的对应。区别于之前的做法，多跳注意力在解码端每一个层都会执行注意力操作。下面将以此模型为例对基于卷积神经网络的机器翻译模型进行介绍。
 \end{itemize}
@@ -249,7 +264,7 @@

 \parinterval 与基于循环神经网络的翻译模型类似，基于卷积神经网络的翻译模型同样词嵌入序列来表示输入序列，记为$\seq{w}=\{\mathbi{w}_1,\mathbi{w}_2,...,\mathbi{w}_m\}$。序列$\seq{w}$ 是维度大小为$m \times d$的矩阵，第$i$个单词$\mathbi{w}_i$是维度为$d$的向量，其中$m$为序列长度，$d$为词嵌入向量维度。和循环神经网络不同的是，基于卷积神经网络的模型需要对每个输入单词位置进行表示。这是由于，在卷积神经网络中，受限于卷积核的大小，单层的卷积神经网络只能捕捉序列局部的相对位置信息。虽然多层的卷积神经网络可以扩大感受野，但是对全局的位置表示并不充分。而相较于基于卷积神经网络的模型，基于循环神经网络的模型按时间步对输入的序列进行建模，这样间接的对位置信息进行了建模。而词序又是自然语言处理任务中重要信息，因此这里需要单独考虑。

-\parinterval 为了更好地引入序列的词序信息，该模型引入了位置编码$\seq{p}=\{\mathbi{p}_1,\mathbi{p}_2,...,\mathbi{p}_m\}$，其中$\mathbi{p}_i$的维度大小为$d$，一般和词嵌入维度相等，其中具体数值作为网络可学习的参数。简单来说，$\mathbi{p}_i$是一个可学习的参数向量，对应位置$i$的编码。这种编码的作用就是对位置信息进行表示，不同序列中的相同位置都对应一个唯一的位置编码向量。之后将词嵌入矩阵和位置编码进行相加，得到模型的输入序列$\seq{e}=\{\mathbi{w}_1+\mathbi{p}_1,\mathbi{w}_2+\mathbi{p}_2,...,\mathbi{w}_m+\mathbi{p}_m\}$。 也有研究人员发现卷积神经网络本身具备一定的编码位置信息的能力\upcite{Islam2020HowMP}，而这里的额外的位置编码模块可以被看作是对卷积神经网络位置编码能力的一种补充。
+\parinterval 为了更好地引入序列的词序信息，该模型引入了位置编码$\seq{p}=\{\mathbi{p}_1,\mathbi{p}_2,...,\mathbi{p}_m\}$，其中$\mathbi{p}_i$的维度大小为$d$，一般和词嵌入维度相等，其中具体数值作为网络可学习的参数。简单来说，$\mathbi{p}_i$是一个可学习的参数向量，对应位置$i$的编码。这种编码的作用就是对位置信息进行表示，不同序列中的相同位置都对应一个唯一的位置编码向量。之后将词嵌入矩阵和位置编码进行相加，得到模型的输入序列$\seq{e}=\{\mathbi{w}_1+\mathbi{p}_1,\mathbi{w}_2+\mathbi{p}_2,...,\mathbi{w}_m+\mathbi{p}_m\}$。 也有研究人员发现卷积神经网络本身具备一定的编码位置信息的能力\upcite{Islam2020HowMP}，而这里额外的位置编码模块可以被看作是对卷积神经网络位置编码能力的一种补充。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -288,20 +303,20 @@

 \parinterval 如图所示，形式上，卷积操作可以分成两部分，分别使用两个卷积核来得到两个卷积结果：
 \begin{eqnarray}
-\mathbi{A} & = & \mathbi{X} * \mathbi{W} + \mathbi{b}_\mathbi{W} \\
-\mathbi{B} & = & \mathbi{X} * \mathbi{V} + \mathbi{b}_\mathbi{V} \ \
+\mathbi{A} & = & \mathbi{x} * \mathbi{W} + \mathbi{b}_\mathbi{W} \\
+\mathbi{B} & = & \mathbi{x} * \mathbi{V} + \mathbi{b}_\mathbi{V} \ \
 \label{eq:11-1}
 \end{eqnarray}

 \noindent 其中，$\mathbi{A},\mathbi{B}\in \mathbb{R}^d$，$\mathbi{W}\in \mathbb{R}^{K\times d \times d}$、$\mathbi{V}\in \mathbb{R}^{K\times d \times d}$、$\mathbi{b}_\mathbi{W}$，$\mathbi{b}_\mathbi{V} \in \mathbb{R}^d $，$\mathbi{W}$、$\mathbi{V}$在此表示卷积核，$\mathbi{b}_\mathbi{W}$，$\mathbi{b}_\mathbi{V}$为偏置矩阵。在卷积操作之后，引入非线性变换：
 \begin{eqnarray}
-\mathbi{Y} & = & \mathbi{A} \otimes \sigma ( \mathbi{B} )
+\mathbi{y} & = & \mathbi{A} \otimes \sigma ( \mathbi{B} )
 \label{eq:11-2}
 \end{eqnarray}

 \noindent 其中，$\sigma$为Sigmoid函数，$\otimes$为按位乘运算。Sigmoid将$\mathbi{B}$映射为0-1范围内的实数，用来充当门控。可以看到，门控卷积神经网络中核心部分就是$\sigma ( \mathbi{B} )$，通过这个门控单元来对卷积输出进行控制，确定保留哪些信息。同时，在梯度反向传播的过程中，这种机制使得不同层之间存在线性的通道，梯度传导更加简单，利于深层网络的训练。这种思想和\ref{sec:11.2.3}节将要介绍的残差网络也很类似。

-\parinterval 在ConvS2S模型中，为了保证卷积操作之后的序列长度不变，需要对输入进行填充，这一点已经在之前的章节中讨论过了。因此，在编码端每一次卷积操作前，需要对序列的头部和尾部分别做相应的填充（如图\ref{fig:11-14}左侧部分）。而在解码端中，由于需要训练和解码的一致性，模型在训练过程中不能使用未来的信息，需要对未来信息进行屏蔽，也就是屏蔽掉当前译文单词右侧的译文信息。从实践角度来看，只需要对解码端输入序列的头部填充$K-1$ 个空元素，其中$K$为卷积核的宽度（图\ref{fig:11-14-2}展示了卷积核宽度$K$=3时，解码端对输入序列的填充情况）。
+\parinterval 在ConvS2S模型中，为了保证卷积操作之后的序列长度不变，需要对输入进行填充，这一点已经在之前的章节中讨论过了。因此，在编码端每一次卷积操作前，需要对序列的头部和尾部分别做相应的填充（如图\ref{fig:11-14}左侧部分）。而在解码端中，由于需要训练和解码的一致性，模型在训练过程中不能使用未来的信息，需要对未来信息进行屏蔽，也就是屏蔽掉当前译文单词右侧的译文信息。从实践角度来看，只需要对解码端输入序列的头部填充$K-1$ 个空元素，其中$K$为卷积核的宽度（图\ref{fig:11-14-2}展示了卷积核宽度$K$=3时，解码端对输入序列的填充情况，图中三角形表示卷积操作）。

 %----------------------------------------------
 % 图14-2.
@@ -320,19 +335,7 @@
 \subsection{残差网络}
 \label{sec:11.2.3}

-\parinterval 残差连接是一种训练深层网络的技术，其结构如图\ref{fig:11-15}所示，即在多层神经网络之间通过增加直接连接的方式，从而将底层信息直接传递给上层。通过增加这样的直接连接，可以让不同层之间的信息传递更加高效，有利于深层神经网络的训练。
-
-%----------------------------------------------
-% 图15.
-\begin{figure}[htp]
-\centering
-\input{./Chapter11/Figures/figure-residual-network-structure}
-\caption{残差网络结构}
-\label{fig:11-15}
-\end{figure}
-%----------------------------------------------
-
-\parinterval 残差连接从广义上讲也叫{\small\bfnew{短连接}}\index{短连接}（Short-cut Connection）\index{Short-cut Connection}，指的是这种短距离的连接。它的思想很简单，就是把层和层之间的距离拉近，进而提高信息传递的效率。如图\ref{fig:11-15}所示，层1 通过残差连接跳过了子层2，直接和层3 进行信息传递。使信息传递变得更高效，有效解决了深层网络训练过程中容易出现的梯度消失/爆炸问题，使得深层网络的训练更加容易。其计算公式为：
+\parinterval 残差连接是一种训练深层网络的技术，其结构如图\ref{fig:11-15}所示，即在多层神经网络之间通过增加直接连接的方式，从而将底层信息直接传递给上层。通过增加这样的直接连接，可以让不同层之间的信息传递更加高效，有利于深层神经网络的训练，其计算公式为：
 \begin{eqnarray}
 \mathbi{h}^{l+1} = F (\mathbi{h}^l) + \mathbi{h}^l
 \label{eq:11-3}
@@ -354,7 +357,7 @@

 \subsection{多跳注意力机制}

-\parinterval ConvS2S模型也采用了注意力机制来获取每个目标语位置相应的源语言上下文信息。其仍然沿用传统的点乘注意力机制（{\color{red} 参考文献！}），其中图\ref{fig:11-16}蓝色框代表了多跳自注意力机制在模型中的位置。
+\parinterval ConvS2S模型也采用了注意力机制来获取每个目标语位置相应的源语言上下文信息。其仍然沿用传统的点乘注意力机制\upcite{DBLP:journals/corr/LuongPM15}，其中图\ref{fig:11-16}蓝色框代表了多跳自注意力机制在模型中的位置。

 %----------------------------------------------
 % 图16.
@@ -383,24 +386,25 @@
 \label{eq:11-6-1}
 \end{eqnarray}

-\noindent 其中，$\mathbi{d}_{j}^l$表示了第$l$层的解码端第$j$个位置的输出状态，$\alpha_{ij}^l$代表第$l$层中源语言第$i$个位置与目标语言第$j$个位置之间的注意力权重。需要注意的是，这里$\mathbi{d}_{j}^l$并不是解码器隐藏层输出的状态$\mathbi{s}_{j}^{l} $。而是先将$\mathbi{s}_{j}^{l}$进行线性变换，之后与目标语言端的词嵌入$\mathbi{g}_j$进行累加得到$\mathbi{d}_{j}^l$，数学描述如下：
+\noindent 其中，$\mathbi{d}_{j}^l$表示了第$l$层的解码端第$j$个位置的输出状态，$\alpha_{ij}^l$代表第$l$层中源语言第$i$个位置与目标语言第$j$个位置之间的注意力权重。需要注意的是，这里$\mathbi{d}_{j}^l$并不是解码器隐藏层输出的状态$\mathbi{s}_{j}^{l} $。而是先将$\mathbi{s}_{j}^{l}$进行卷积操作，之后与目标语言端的词嵌入$\mathbi{g}_j$进行累加得到$\mathbi{d}_{j}^l$，数学描述如下：

 \begin{eqnarray}
-\mathbi{d}_{j}^l = \mathbi{W}_{d}^{l} \mathbi{s}_{j}^{l} + \mathbi{b}_{d}^{l} + \mathbi{g}_j
+\mathbi{d}_{j}^l &=& \mathbi{W}_{d}^{l} \mathbi{z}_{j}^{l} + \mathbi{b}_{d}^{l} + \mathbi{g}_j \\
+\mathbi{z}_j^l &=& Conv(\mathbi{s}_j^l) 
 \label{eq:11-6-2}
 \end{eqnarray}

-\noindent 其中，$\mathbi{W}_{d}^{l}$和$\mathbi{b}_{d}^{l}$是模型参数，同时解码端每一层都使用独立的矩阵参数。此外，第$l$层的上下文表示向量$\mathbi{C}_j^l$由如下步骤计算得到：将第$l$层编码端输出$\mathbi{h}_i$与源语言的词嵌入表示$\mathbi{e}_i$进行累加，之后将累加的结果用注意力权重$\alpha_{ij}^l$加权平均，数学描述如下：
+\noindent 其中，$\mathbi{W}_{d}^{l}$和$\mathbi{b}_{d}^{l}$是模型参数，同时解码端每一层都使用独立的矩阵参数，$Conv(\cdot)$表示卷积操作。此外，第$l$层的上下文表示向量$\mathbi{C}_j^l$由如下步骤计算得到：将第$l$层编码端输出$\mathbi{h}_i$与源语言的词嵌入表示$\mathbi{e}_i$进行累加，之后将累加的结果用注意力权重$\alpha_{ij}^l$加权平均，数学描述如下：
 \begin{eqnarray}
 \mathbi{C}_j^l = \sum_i \alpha_{ij}^l (\mathbi{h}_i + \mathbi{e}_i)
 \label{eq:11-7}
 \end{eqnarray}

-\noindent 通过结合底层的词嵌入表示，模型可以考虑到每个输入元素独立的信息，更好的帮助模型捕获源语言与目标语言之间的联系。
+\noindent 通过结合底层的词嵌入表示，模型可以考虑到每个输入元素独立的信息，更好地帮助模型捕获源语言与目标语言之间的联系。

-\parinterval 当得到上下文向量$\mathbi{C}_j^l$后，将其与$\mathbi{s}_j^l$相加后送入下一层计算，这种机制也被称为多跳机制。这个过程可以被描述为：
+\parinterval 当得到上下文向量$\mathbi{C}_j^l$后，将其与$\mathbi{z}_j^l$相加后送入下一层计算，这种机制也被称为多跳机制。这个过程可以被描述为：
 \begin{eqnarray}
-\mathbi{s}_j^{l+1} = \mathbi{C}_j^l + \mathbi{s}_j^l
+\mathbi{s}_j^{l+1} = \mathbi{C}_j^l + \mathbi{z}_j^l
 \label{eq:11-8}
 \end{eqnarray}

@@ -434,7 +438,7 @@

 \noindent 其中，$\mathbi{w}_t$表示第$t$步更新时的模型参数；$J(\mathbi{w}_t)$表示损失函数均值期望的估计；$\frac{\partial J(\mathbi{w}_t)}{\partial \mathbi{w}_t}$将指向$J(\mathbi{w}_t)$在$\mathbi{w}$处变化最大的方向，即梯度方向；$\alpha$ 为学习率；$\mathbi{v}_t$为损失函数在前$t-1$步更新中累积的梯度动量，利用超参数$\beta$控制累积的范围。

-\parinterval 而在Nesterov加速梯度下降法中，使用的梯度不是来自于当前参数位置，而是按照之前梯度方向更新一小步的位置，以便于更好的“预测未来”，提前调整更新速率，因此，其动量的更新方式为：
+\parinterval 而在Nesterov加速梯度下降法中，使用的梯度不是来自于当前参数位置，而是按照之前梯度方向更新一小步的位置，以便于更好地“预测未来”，提前调整更新速率，因此，其动量的更新方式为：
 \begin{eqnarray}
 \mathbi{v}_t & = & \beta \mathbi{v}_{t-1} + (1-\beta)\frac{\partial J(\mathbi{w}_t)}{\partial (\mathbi{w}_{t} -\alpha \beta \mathbi{v}_{t-1} )}
 \label{eq:11-10}
@@ -461,7 +465,7 @@
 \subsection{深度可分离卷积}
 \label{sec:11.3.1}

-\parinterval 根据前面介绍，可以看到卷积神经网络容易处理在局部检测和位置不变的特征。对于特定的表达，比如地点、情绪等，使用卷积神经网络能达到不错的识别效果，因此它常被用在文本分类中\upcite{Minaee2020DeepLB}。不过机器翻译所面临的情况更复杂，除了局部句子片段信息，我们还希望模型能够捕获句子结构，语义等信息。虽然单层卷积神经网络在文本分类中已经取得了很好的效果\upcite{Kim2014ConvolutionalNN}，神经机器翻译等任务仍然需要有效的卷积神经网络。随着深度可分离卷积在机器翻译中的探索\upcite{Kaiser2018DepthwiseSC}，更高效的网络结构被设计出来，获得了比ConS2S模型更好的性能。
+\parinterval 根据前面介绍，可以看到卷积神经网络容易处理在局部检测和位置不变的特征。对于特定的表达，比如地点、情绪等，使用卷积神经网络能达到不错的识别效果，因此它常被用在文本分类中\upcite{Kalchbrenner2014ACN,Kim2014ConvolutionalNN,DBLP:conf/naacl/Johnson015,DBLP:conf/acl/JohnsonZ17}。不过机器翻译所面临的情况更复杂，除了局部句子片段信息，我们还希望模型能够捕获句子结构、语义等信息。虽然单层卷积神经网络在文本分类中已经取得了很好的效果\upcite{Kim2014ConvolutionalNN}，神经机器翻译等任务仍然需要有效的卷积神经网络。随着深度可分离卷积在机器翻译中的探索\upcite{Kaiser2018DepthwiseSC}，更高效的网络结构被设计出来，获得了比ConS2S模型更好的性能。

 %----------------------------------------------
 % 图17.
@@ -473,35 +477,35 @@
 \end{figure}
 %----------------------------------------------

-\parinterval 深度可分离卷积由深度卷积和逐点卷积两部分结合而成\upcite{Sifre2013RotationSA}。图\ref{fig:11-17}展示了标准卷积、深度卷积和逐点卷积的对比，为了方便显示，图中只画出了部分连接。
+\parinterval 深度可分离卷积由深度卷积和逐点卷积两部分结合而成\upcite{sifre2014rigid}。图\ref{fig:11-17}展示了标准卷积、深度卷积和逐点卷积的对比，为了方便显示，图中只画出了部分连接。

 \parinterval 给定输入序列表示$\seq{x} = \{ \mathbi{x}_1,\mathbi{x}_2,...,\mathbi{x}_m \}$，其中$m$为序列长度，$\mathbi{x}_i \in \mathbb{R}^{O} $ ，$O$ 即输入序列的通道数。为了获得与输入序列长度相同的卷积输出结果，首先需要进行填充。为了方便描述，这里在输入序列尾部填充 $K-1$ 个元素（$K$为卷积核窗口的长度），其对应的卷积结果为$\seq{z} = \{ \mathbi{z}_1,\mathbi{z}_2,...,\mathbi{z}_m \}$。
-在标准卷积中，若使用N表示卷积核的个数，也就是标准卷积输出序列的通道数，那么对于第$i$个位置的第$n$个通道$ \mathbi{z}_{i,n}^\textrm{std}$，其标准卷积具体计算方式如下：
+在标准卷积中，若使用N表示卷积核的个数，也就是标准卷积输出序列的通道数，那么对于第$i$个位置的第$n$个通道$ \mathbi{z}_{i,n}^\textrm{\,std}$，其标准卷积具体计算方式如下：
 \begin{eqnarray}
-\mathbi{z}_{i,n}^\textrm{std} = \sum_{o=1}^{O} \sum_{k=0}^{K-1} \mathbi{W}_{k,o,n}^\textrm{std} \mathbi{x}_{i+k,o}
+\mathbi{z}_{i,n}^\textrm{\,std} = \sum_{o=1}^{O} \sum_{k=0}^{K-1} \mathbi{W}_{k,o,n}^\textrm{\,std} \mathbi{x}_{i+k,o}
 \label{eq:11-11}
 \end{eqnarray}

-%在标准卷积中，$ \mathbi{z}^\textrm{std}$表示标准卷积的输出，$ \mathbi{z}_i^\textrm{std} \in \mathbb{R}^N$ ，N为卷积核的个数，也就是标准卷积输出序列的通道数。针对$ \mathbi{z}_i^\textrm{std} $ 中的第$n$个通道$ \mathbi{z}_{i,n}^\textrm{std}$，标准卷积具体计算方式如下：
+%在标准卷积中，$ \mathbi{z}^\textrm{\,std}$表示标准卷积的输出，$ \mathbi{z}_i^\textrm{\,std} \in \mathbb{R}^N$ ，N为卷积核的个数，也就是标准卷积输出序列的通道数。针对$ \mathbi{z}_i^\textrm{\,std} $ 中的第$n$个通道$ \mathbi{z}_{i,n}^\textrm{\,std}$，标准卷积具体计算方式如下：

-\noindent 其中，$ \mathbi{z}^\textrm{std}$表示标准卷积的输出，$ \mathbi{z}_i^\textrm{std} \in \mathbb{R}^N$， $\mathbi{W}^\textrm{std} \in \mathbb{R}^{K \times O \times N} $ 为标准卷积的参数。可以看出，标准卷积中每个输出元素需要考虑卷积核尺度内所有词的所有特征，参数量相对较多，对应图\ref{fig:11-17}中的连接数也最多。
+\noindent 其中，$ \mathbi{z}^\textrm{\,std}$表示标准卷积的输出，$ \mathbi{z}_i^\textrm{\,std} \in \mathbb{R}^N$， $\mathbi{W}^\textrm{\,std} \in \mathbb{R}^{K \times O \times N} $ 为标准卷积的参数。可以看出，标准卷积中每个输出元素需要考虑卷积核尺度内所有词的所有特征，参数量相对较多，对应图\ref{fig:11-17}中的连接数也最多。

 \parinterval 相应的，深度卷积只考虑不同词之间的依赖性，而不考虑不同通道之间的关系，相当于使用$O$个卷积核逐个通道对不同的词进行卷积操作。因此深度卷积不改变输出的表示维度，输出序列表示的通道数与输入序列一致，其计算方式如下：
 \begin{eqnarray}
-\mathbi{z}_{i,o}^\textrm{dw} = \sum_{k=0}^{K-1} \mathbi{W}_{k,o}^\textrm{dw} \mathbi{x}_{i+k,o}
+\mathbi{z}_{i,o}^\textrm{\,dw} = \sum_{k=0}^{K-1} \mathbi{W}_{k,o}^\textrm{\,dw} \mathbi{x}_{i+k,o}
 \label{eq:11-12}
 \end{eqnarray}

-\noindent 其中，$\mathbi{z}^\textrm{dw}$表示深度卷积的输出，$\mathbi{z}_i^\textrm{dw} \in \mathbb{R}^{O}$ ，$\mathbi{W}^\textrm{dw} \in \mathbb{R}^{K \times O}$为深度卷积的参数，参数量只涉及卷积核大小及输入表示维度。
+\noindent 其中，$\mathbi{z}^\textrm{\,dw}$表示深度卷积的输出，$\mathbi{z}_i^\textrm{\,dw} \in \mathbb{R}^{O}$ ，$\mathbi{W}^\textrm{\,dw} \in \mathbb{R}^{K \times O}$为深度卷积的参数，参数量只涉及卷积核大小及输入表示维度。

 \parinterval 与深度卷积互为补充的是，逐点卷积只考虑不同通道之间的依赖性，而不考虑不同词之间的依赖。换句话说，逐点卷积对每个词表示做了一次线性变换，将输入表示$\mathbi{x}_i$从 $\mathbb{R}^{O}$ 的空间映射到 $\mathbb{R}^{N}$的空间，计算方式如下：
 \begin{eqnarray}
-\mathbi{z}_{i,n}^\textrm{pw} &=& \sum\nolimits_{o=1}^{O} \mathbi{x}_{i,o} \mathbi{W}_{o,n}^\textrm{pw} \nonumber \\
-                      &=& \mathbi{x}_i \mathbi{W}^\textrm{pw}
+\mathbi{z}_{i,n}^\textrm{\,pw} &=& \sum\limits_{o=1}^{O} \mathbi{x}_{i,o} \mathbi{W}_{o,n}^\textrm{\,pw} \nonumber \\
+                      &=& \mathbi{x}_i \mathbi{W}^\textrm{\,pw}
 \label{eq:11-13}
 \end{eqnarray}

-\noindent 其中$\mathbi{z}^\textrm{pw}$表示逐点卷积的输出，$\mathbi{z}_{i}^\textrm{pw} \in  \mathbb{R}^{N}$，$\mathbi{W}^\textrm{pw} \in \mathbb{R}^{O \times N}$为逐点卷积的参数。
+\noindent 其中$\mathbi{z}^\textrm{\,pw}$表示逐点卷积的输出，$\mathbi{z}_{i}^\textrm{\,pw} \in  \mathbb{R}^{N}$，$\mathbi{W}^\textrm{\,pw} \in \mathbb{R}^{O \times N}$为逐点卷积的参数。

 \parinterval 表\ref{tab:11-1}展示了这几种不同类型卷积的参数量，深度可分离卷积通过将标准卷积进行分解，降低了整体模型的参数量。在相同参数量的情况下，深度可分离卷积可以采用更大的卷积窗口，考虑序列中更大范围的依赖关系。因此相比于标准卷积，深度可分离卷积具有更强的表示能力，在机器翻译任务中也能获得更好的性能。

@@ -526,7 +530,7 @@

 \subsection{轻量卷积和动态卷积}

-\parinterval 深度可分离卷积将标准卷积分成两部分，其中深度卷积的作用就是用来捕捉相邻词之间的依赖关系，这和{\chaptertwelve}即将介绍的基于自注意力机制的模型类似。基于深度卷积，一些研究人员提出了轻量卷积和动态卷积，用来替换注意力机制，并将其应用于基于自注意力机制的模型中\upcite{Wu2019PayLA}。同时，卷积操作的线性复杂度使得它具有较高的运算效率，相比注意力机制的平方复杂度，卷积操作是一种更加“轻量”的方法。接下来分别介绍轻量卷积与动态卷积的思想。
+\parinterval 深度可分离卷积中深度卷积的作用就是用来捕捉相邻词之间的依赖关系，这和{\chaptertwelve}即将介绍的基于自注意力机制的模型类似。基于深度卷积，一些研究人员提出了轻量卷积和动态卷积，用来替换注意力机制，并将其应用于基于自注意力机制的模型中\upcite{Wu2019PayLA}。同时，卷积操作的线性复杂度使得它具有较高的运算效率，相比注意力机制的平方复杂度，卷积操作是一种更加“轻量”的方法。接下来分别介绍轻量卷积与动态卷积的思想。

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -547,13 +551,13 @@
 \end{figure}
 %----------------------------------------------

-\parinterval 此外，和标准卷积不同的是，卷积之前需要先对卷积参数进行归一化，具体计算过程如下：
+\parinterval 此外，和标准卷积不同的是，轻量卷积之前需要先对卷积参数进行归一化，具体计算过程如下：
 \begin{eqnarray}
-\mathbi{z}_{i,o}^\textrm{lw} &=& \sum_{k=0}^{K-1} \textrm{Softmax}(\mathbi{W}^\textrm{lw})_{k,[\frac{oa}{d}]} \mathbi{x}_{i+k,o}
+\mathbi{z}_{i,o}^\textrm{\,lw} &=& \sum_{k=0}^{K-1} \textrm{Softmax}(\mathbi{W}^\textrm{\,lw})_{k,[\frac{oa}{d}]} \mathbi{x}_{i+k,o}
 \label{eq:11-14}
 \end{eqnarray}

-\noindent 其中，$\mathbi{z}^\textrm{lw}$表示轻量卷积的输出，$\mathbi{z}_i^\textrm{lw} \in \mathbb{R}^d $，$\mathbi{W}^\textrm{lw} \in \mathbb{R}^{K\times a}$为轻量卷积的参数。在这里，轻量卷积用来捕捉相邻词的特征，通过Softmax可以在保证关注到不同词的同时，对输出大小进行限制。
+\noindent 其中，$\mathbi{z}^\textrm{\,lw}$表示轻量卷积的输出，$\mathbi{z}_i^\textrm{\,lw} \in \mathbb{R}^d $，$\mathbi{W}^\textrm{\,lw} \in \mathbb{R}^{K\times a}$为轻量卷积的参数。在这里，轻量卷积用来捕捉相邻词的特征，通过Softmax可以在保证关注到不同词的同时，对输出大小进行限制。

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -576,7 +580,7 @@

 \section{小节及拓展阅读}

-\parinterval 卷积是一种高效的神经网络结构，在图像、语音处理等领域取得了令人瞩目的成绩。本章介绍了卷积的概念及其特性，并对池化、填充等操作进行了讨论。本章介绍了具有高并行计算的能力的机器翻译范式，即基于卷积神经网络的编码器-解码器框架。其在机器翻译任务上表现出色，并大幅度缩短了模型的训练周期。除了基础部分，本章还针对卷积计算进行了延伸，内容涉及逐通道卷积、逐点卷积、轻量卷积和动态卷积等。除了上述提及的内容，卷积神经网络及其变种在文本分类、命名实体识别、关系分类、事件抽取等其他自然语言处理任务上也有许多应用\upcite{Kim2014ConvolutionalNN,2011Natural,DBLP:conf/cncl/ZhouZXQBX17,DBLP:conf/acl/ChenXLZ015}。
+\parinterval 卷积是一种高效的神经网络结构，在图像、语音处理等领域取得了令人瞩目的成绩。本章介绍了卷积的概念及其特性，并对池化、填充等操作进行了讨论。本章介绍了具有高并行计算能力的机器翻译范式，即基于卷积神经网络的编码器-解码器框架。其在机器翻译任务上表现出色，并大幅度缩短了模型的训练周期。除了基础部分，本章还针对卷积计算进行了延伸，内容涉及逐通道卷积、逐点卷积、轻量卷积和动态卷积等。除了上述提及的内容，卷积神经网络及其变种在文本分类、命名实体识别、关系分类、事件抽取等其他自然语言处理任务上也有许多应用\upcite{Kim2014ConvolutionalNN,2011Natural,DBLP:conf/cncl/ZhouZXQBX17,DBLP:conf/acl/ChenXLZ015,DBLP:conf/coling/ZengLLZZ14}。

 \parinterval 和机器翻译任务不同的是，文本分类任务侧重于对序列特征的提取，然后通过压缩后的特征表示做出类别预测。卷积神经网络可以对序列中一些$n$-gram特征进行提取，也可以用在文本分类任务中，其基本结构包括输入层、卷积层、池化层和全连接层。除了在本章介绍过的TextCNN模型\upcite{Kim2014ConvolutionalNN}，不少研究工作在此基础上对其进行改进。比如，通过改变输入层来引入更多特征\upcite{DBLP:conf/acl/NguyenG15,DBLP:conf/aaai/LaiXLZ15}，对卷积层的改进\upcite{DBLP:conf/acl/ChenXLZ015,DBLP:conf/emnlp/LeiBJ15}以及对池化层的改进\upcite{Kalchbrenner2014ACN,DBLP:conf/acl/ChenXLZ015}。在命名实体识别任务中，同样可以使用卷积神经网络来进行特征提取\upcite{2011Natural,DBLP:conf/cncl/ZhouZXQBX17}，或者使用更高效的空洞卷积对更长的上下文进行建模\upcite{DBLP:conf/emnlp/StrubellVBM17}。此外，也有一些研究工作尝试使用卷积神经网络来提取字符级特征\upcite{DBLP:conf/acl/MaH16,DBLP:conf/emnlp/LiDWCM17,DBLP:conf/acl-codeswitch/WangCK18}。


--- a/Chapter12/chapter12.tex
+++ b/Chapter12/chapter12.tex
@@ -102,7 +102,7 @@

 \parinterval 首先再来回顾一下{\chapterten}介绍的循环神经网络，虽然它很强大，但是也存在一些弊端。其中比较突出的问题是，循环神经网络每个循环单元都有向前依赖性，也就是当前时间步的处理依赖前一时间步处理的结果。这个性质可以使序列的“历史”信息不断被传递，但是也造成模型运行效率的下降。特别是对于自然语言处理任务，序列往往较长，无论是传统的RNN结构，还是更为复杂的LSTM结构，都需要很多次循环单元的处理才能够捕捉到单词之间的长距离依赖。由于需要多个循环单元的处理，距离较远的两个单词之间的信息传递变得很复杂。

-\parinterval 针对这些问题，研究人员提出了一种全新的模型$\ \dash\ $Transformer\index{Transformer}\upcite{vaswani2017attention}。与循环神经网络等传统模型不同，Transformer模型仅仅使用自注意力机制和标准的前馈神经网络，完全不依赖任何循环单元或者卷积操作。自注意力机制的优点在于可以直接对序列中任意两个单元之间的关系进行建模，这使得长距离依赖等问题可以更好地被求解。此外，自注意力机制非常适合在GPU 上进行并行化，因此模型训练的速度更快。表\ref{tab:12-11}对比了RNN、CNN和Transformer层类型的复杂度\footnote{顺序操作数指序列中的位置按顺序操作的次数，由于Transformer和CNN都可以并行计算，所以是1；路径长度指序列中的一个位置和另外任意一个位置在网络中的距离。}。
+\parinterval 针对这些问题，研究人员提出了一种全新的模型$\ \dash\ $Transformer\index{Transformer}\upcite{vaswani2017attention}。与循环神经网络等传统模型不同，Transformer模型仅仅使用自注意力机制和标准的前馈神经网络，完全不依赖任何循环单元或者卷积操作。自注意力机制的优点在于可以直接对序列中任意两个单元之间的关系进行建模，这使得长距离依赖等问题可以更好地被求解。此外，自注意力机制非常适合在GPU 上进行并行化，因此模型训练的速度更快。表\ref{tab:12-11}对比了RNN、CNN和Transformer层类型的复杂度\footnote{顺序操作数指模型处理一个序列所需要的操作数，由于Transformer和CNN都可以并行计算，所以是1；路径长度指序列中任意两个单词在网络中的距离。}。

 %----------------------------------------------
 \begin{table}[htp]

--- a/Chapter16/Figures/figure-application-process-of-back-translation.tex
+++ b/Chapter16/Figures/figure-application-process-of-back-translation.tex
 \begin{tikzpicture}


-\tikzstyle{bignode} = [line width=0.6pt,draw=black,minimum width=6.3em,minimum height=2.2em,fill=blue!20,rounded corners=2pt]
-\tikzstyle{middlenode} = [line width=0.6pt,draw=black,minimum width=5.6em,minimum height=2.2em,fill=blue!20,rounded corners=2pt]
+\tikzstyle{bignode} = [line width=0.6pt,draw=black,minimum width=6.3em,minimum height=2.2em,fill=white]
+\tikzstyle{middlenode} = [line width=0.6pt,draw=black,minimum width=5.6em,minimum height=2.2em,fill=white]


 \node [anchor=center] (node1-1) at (0,0) {\scriptsize{汉语}};
-\node [anchor=west] (node1-2) at ([xshift=1.0em]node1-1.east) {\scriptsize{英语}};
-\node [anchor=north] (node1-3) at ([xshift=1.65em]node1-1.south) {\scriptsize{反向翻译模型}};
+\node [anchor=west] (node1-2) at ([xshift=0.8em]node1-1.east) {\scriptsize{英语}};
+\node [anchor=north] (node1-3) at ([xshift=1.45em]node1-1.south) {\scriptsize{反向翻译模型}};
 \draw [->,line width=0.6pt](node1-1.east)--(node1-2.west);

 \begin{pgfonlayer}{background}
 {
-\node[fill=red!20,rounded corners=2pt,inner sep=0.2em,draw=black,line width=0.6pt,minimum width=6.0em] [fit =(node1-1)(node1-2)(node1-3)]  (remark1) {};
+\node[fill=blue!20,inner sep=0.1em,draw=black,line width=0.6pt,minimum width=6.0em,drop shadow,rounded corners=2pt] [fit =(node1-1)(node1-2)(node1-3)]  (remark1) {};
 }
 \end{pgfonlayer}

-\node [anchor=north](node2-1) at ([xshift=-1.93em,yshift=-1.95em]remark1.south){\scriptsize{汉语}};
-\node [anchor=north](node2-1-2) at (node2-1.south){\scriptsize{真实数据}};
-
-\begin{pgfonlayer}{background}
-{
-\node[fill=blue!20,rounded corners=2pt,inner sep=0.1em,draw=black,line width=0.6pt,minimum width=3.85em] [fit =(node2-1)(node2-1-2)]  (remark2-1) {};
-}
-\end{pgfonlayer}
-
-\node [anchor=west](node2-2) at ([xshift=0.82em,yshift=0.68em]remark2-1.east){\scriptsize{英语}};
-\node [anchor=north](node2-2-2) at (node2-2.south){\scriptsize{真实数据}};
-\begin{pgfonlayer}{background}
-{
-\node[fill=green!20,rounded corners=2pt,inner sep=0.1em,draw=black,line width=0.6pt,minimum width=3.85em] [fit =(node2-2)(node2-2-2)]  (remark2-2) {};
-}
-\end{pgfonlayer}

+\node [anchor=north,fill=green!20,inner sep=0.1em,minimum width=3em,draw=black,line width=0.6pt,rounded corners=2pt](node2-1) at ([xshift=-1.5em,yshift=-1.95em]remark1.south){\scriptsize{汉语}};
+\node [anchor=west,fill=green!20,inner sep=0.1em,minimum width=3em,draw=black,line width=0.6pt,rounded corners=2pt](node2-2) at (node2-1.east){\scriptsize{英语}};
 \draw [->,line width=0.6pt]([yshift=-2.0em]remark1.south)--(remark1.south) node [pos=0.5,right] (pos1) {\scriptsize{训练}};

-\node [anchor=west](node3-1) at ([xshift=5.0em,yshift=0.1em]node1-2.east){\scriptsize{汉语}};
-\node [anchor=north](node3-1-2) at (node3-1.south){\scriptsize{真实数据}};

-\begin{pgfonlayer}{background}
-{
-\node[fill=blue!20,rounded corners=2pt,inner sep=0.1em,draw=black,line width=0.6pt,minimum width=3.85em] [fit =(node3-1)(node3-1-2)]  (remark3-1) {};
-}
-\end{pgfonlayer}
-
-\node [anchor=north](node3-2) at ([yshift=-2.15em]remark3-1.south){\scriptsize{英语}};
-\node [anchor=north](node3-2-2) at (node3-2.south){\scriptsize{伪数据}};
-\begin{pgfonlayer}{background}
-{
-\node[fill=yellow!20,rounded corners=2pt,inner sep=0.1em,draw=black,line width=0.6pt,minimum width=3.85em] [fit =(node3-2)(node3-2-2)]  (remark3-2) {};
-}
-\end{pgfonlayer}
+\node [anchor=west,fill=yellow!20,inner sep=0.1em,minimum width=3em,draw=black,line width=0.6pt,rounded corners=2pt](node3-1) at ([xshift=5.0em,yshift=0.0em]node1-2.east){\scriptsize{汉语}};
+\node [anchor=north,fill=red!20,inner sep=0.1em,minimum width=3em,draw=black,line width=0.6pt,rounded corners=2pt](node3-2) at ([yshift=-2.15em]node3-1.south){\scriptsize{英语}};

-\draw [->,line width=0.6pt](remark3-1.south)--(remark3-2.north) node [pos=0.5,right] (pos2) {\scriptsize{翻译}};
+\draw [->,line width=0.6pt](node3-1.south)--(node3-2.north) node [pos=0.5,right] (pos2) {\scriptsize{翻译}};

 \begin{pgfonlayer}{background}
 {
-\node[rounded corners=2pt,inner sep=0.3em,draw=black,line width=0.6pt,dotted] [fit =(remark3-1)(remark3-2)]  (remark2) {};
+\node[rounded corners=2pt,inner sep=0.3em,draw=black,line width=0.6pt,dotted] [fit =(node3-1)(node3-2)]  (remark2) {};
 }
 \end{pgfonlayer}

-\draw [->,line width=0.6pt](remark1.east)--([yshift=2.40em]remark2.west) node [pos=0.5,above] (pos2) {\scriptsize{模型翻译}};
+\draw [->,line width=0.6pt](remark1.east)--([yshift=0.85em]remark2.west) node [pos=0.5,above] (pos2) {\scriptsize{模型翻译}};
 \node [anchor=south](pos2-2) at ([yshift=-0.5em]pos2.north){\scriptsize{使用反向}};

-\draw[decorate,thick,decoration={brace,amplitude=5pt}] ([yshift=1.3em,xshift=1.5em]node3-1.east) -- ([yshift=-7.7em,xshift=1.5em]node3-1.east) node [pos=0.1,right,xshift=0.0em,yshift=0.0em] (label1) {\scriptsize{{混合}}};
+\draw[decorate,thick,decoration={brace,amplitude=5pt}] ([yshift=1.3em,xshift=1.0em]node3-1.east) -- ([yshift=-5.2em,xshift=1.0em]node3-1.east) node [pos=0.1,right,xshift=0.0em,yshift=0.0em] (label1) {\scriptsize{{混合}}};

-\node [anchor=west](node4-1) at ([xshift=3.5em,yshift=3.94em]node3-2.east){\scriptsize{英语}};
-\node [anchor=north](node4-1-2) at (node4-1.south){\scriptsize{伪数据}};
-\begin{pgfonlayer}{background}
-{
-\node[fill=yellow!20,rounded corners=2pt,inner sep=0.1em,draw=black,line width=0.6pt,minimum width=3.85em] [fit =(node4-1)(node4-1-2)]  (remark4-1) {};
-}
-\end{pgfonlayer}
-
-\node [anchor=north](node4-2) at ([yshift=-1.59em]node4-1.south){\scriptsize{英语}};
-\node [anchor=north](node4-2-2) at (node4-2.south){\scriptsize{真实数据}};
-
-\begin{pgfonlayer}{background}
-{
-\node[fill=green!20,rounded corners=2pt,inner sep=0.1em,draw=black,line width=0.6pt,minimum width=3.85em] [fit =(node4-2)(node4-2-2)]  (remark4-2) {};
-}
-\end{pgfonlayer}
-
-\node [anchor=west](node4-3) at ([xshift=1.7em]node4-2.east){\scriptsize{汉语}};
-\node [anchor=north](node4-3-2) at (node4-3.south){\scriptsize{真实数据}};
-
-\begin{pgfonlayer}{background}
-{
-\node[fill=blue!20,rounded corners=2pt,inner sep=0.1em,draw=black,line width=0.6pt,minimum width=3.85em] [fit =(node4-3)(node4-3-2)]  (remark4-3) {};
-}
-\end{pgfonlayer}

-\node [anchor=west](node4-4) at ([xshift=1.7em]node4-1.east){\scriptsize{汉语}};
-\node [anchor=north](node4-4-2) at (node4-4.south){\scriptsize{真实数据}};
+\node [anchor=west,fill=red!20,inner sep=0.1em,minimum width=3em,draw=black,line width=0.6pt,rounded corners=2pt](node4-1) at ([xshift=2.0em,yshift=1.6em]node3-2.east){\scriptsize{英语}};
+\node [anchor=north,fill=green!20,inner sep=0.1em,minimum width=3em,draw=black,line width=0.6pt,rounded corners=2pt](node4-2) at (node4-1.south){\scriptsize{英语}};
+\node [anchor=west,fill=green!20,inner sep=0.1em,minimum width=3em,draw=black,line width=0.6pt,rounded corners=2pt](node4-3) at (node4-1.east){\scriptsize{汉语}};
+\node [anchor=north,fill=green!20,inner sep=0.1em,minimum width=3em,draw=black,line width=0.6pt,rounded corners=2pt](node4-4) at (node4-3.south){\scriptsize{汉语}};

-\begin{pgfonlayer}{background}
-{
-\node[fill=blue!20,rounded corners=2pt,inner sep=0.1em,draw=black,line width=0.6pt,minimum width=3.85em] [fit =(node4-4)(node4-4-2)]  (remark4-3) {};
-}
-\end{pgfonlayer}

-\node [anchor=center] (node5-1) at ([xshift=4.3em,yshift=-1.48em]node4-4.east) {\scriptsize{英语}};
-\node [anchor=west] (node5-2) at ([xshift=1.0em]node5-1.east) {\scriptsize{汉语}};
+\node [anchor=center] (node5-1) at ([xshift=3.4em,yshift=0.25em]node4-3.east) {\scriptsize{英语}};
+\node [anchor=west] (node5-2) at ([xshift=0.8em]node5-1.east) {\scriptsize{汉语}};
 \node [anchor=north] (node5-3) at ([xshift=1.65em]node5-1.south) {\scriptsize{正向翻译模型}};
 \draw [->,line width=0.6pt](node5-1.east)--(node5-2.west);

 \begin{pgfonlayer}{background}
 {
-\node[fill=red!20,rounded corners=2pt,inner sep=0.2em,draw=black,line width=0.6pt,minimum width=6.0em] [fit =(node5-1)(node5-2)(node5-3)]  (remark3) {};
+\node[fill=blue!20,inner sep=0.1em,draw=black,line width=0.6pt,minimum width=6.0em,drop shadow,rounded corners=2pt] [fit =(node5-1)(node5-2)(node5-3)]  (remark3) {};
 }
 \end{pgfonlayer}

 \draw [->,line width=0.6pt]([xshift=-2em]remark3.west)--(remark3.west) node [pos=0.5,above] (pos3) {\scriptsize{训练}};

+\node [anchor=south](d1) at ([xshift=0.0em,yshift=2em]remark3.north){\scriptsize{真实数据：}};
+\node [anchor=north](d2) at ([xshift=0.35em]d1.south){\scriptsize{伪数据：}};
+\node [anchor=south](d3) at ([xshift=0.0em,yshift=0em]d1.north){\scriptsize{额外数据：}};
+\node [anchor=west,fill=green!20,minimum width=1em](d1-1) at ([xshift=-0.0em]d1.east){};
+\node [anchor=west,fill=red!20,minimum width=1em](d2-1) at ([xshift=-0.0em]d2.east){};
+\node [anchor=west,fill=yellow!20,minimum width=1em](d3-1) at ([xshift=-0.0em]d3.east){};
+
+
 \end{tikzpicture}
\ No newline at end of file
--- a/Chapter16/chapter16.tex
+++ b/Chapter16/chapter16.tex
@@ -33,72 +33,73 @@

 \section{数据的有效使用}

-\parinterval 数据稀缺是低资源机器翻译所面临的主要问题。因此，充分使用既有数据是一种解决问题的思路。比如，在双语训练不充分的时候，可以考虑用转述等方式生成更多的双语训练数据（{\color{red} 参考文献！}）。也可以简单地对双语数据的部分单词用近义词进行替换，达到丰富双语数据的目的（{\color{red} 参考文献！}）。
+\parinterval 数据稀缺是低资源机器翻译所面临的主要问题。因此，充分使用既有数据是一种解决问题的思路。比如，在双语训练不充分的时候，可以简单地对双语数据的部分单词用近义词进行替换，达到丰富双语数据的目的\upcite{DBLP:conf/acl/FadaeeBM17a,DBLP:conf/emnlp/WangPDN18}，也可以考虑用转述等方式生成更多的双语训练数据\upcite{DBLP:conf/emnlp/MartonCR09,DBLP:conf/eacl/LapataSM17}。

-\parinterval 另一种思路是使用单语数据，因此单语数据相比双语数据更容易获取。实际上，在统计机器翻译时代，使用单语数据训练语言模型是构建机器翻译系统的关键步骤。好的语言模型往往会带来性能的增益。而这个现象在神经机器翻译中似乎并不明显，因为在大多数神经机器翻译的范式中，并不要求使用大规模单语数据来帮助机器翻译系统。甚至，连语言模型都不会作为一个独立的模块。这一方面是由于神经机器翻译系统的解码端本身就起着语言模型的作用，另一方面是由于数据的增多使得翻译模型可以更好的捕捉目标语言的规律。但是，双语数据总是有限的。很多场景下，单语数据的规模会远大于双语数据。如果能够让这些单语数据发挥作用，显然是一种非常好的选择。针对以上问题，下面将从数据增强、基于语言模型的单语数据使用等方面展开讨论。
+\parinterval 另一种思路是使用相比双语数据更容易获取的单语数据。实际上，在统计机器翻译时代，使用单语数据训练语言模型是构建机器翻译系统的关键步骤。好的语言模型往往会带来性能的增益。而这个现象在神经机器翻译中似乎并不明显，因为在大多数神经机器翻译的范式中，并不要求使用大规模单语数据来帮助机器翻译系统。甚至，连语言模型都不会作为一个独立的模块。这一方面是由于神经机器翻译系统的解码端本身就起着语言模型的作用，另一方面是由于数据的增多使得翻译模型可以更好的捕捉目标语言的规律。但是，双语数据总是有限的。很多场景下，单语数据的规模会远大于双语数据。如果能够让这些单语数据发挥作用，显然是一种非常好的选择。针对以上问题，下面将从数据增强、基于语言模型的单语数据使用等方面展开讨论。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------
 \subsection{数据增强}

-\parinterval {\small\bfnew{数据增强}}（Data Augmentation）是一种增加训练数据的方法，通常通过对既有数据进行修改或者生成新的伪数据等方式实现。有时候，数据增强也可以被看做是一种防止模型过拟合的手段\upcite{DBLP:journals/jbd/ShortenK19}。在机器翻译中，典型的数据增强方法包括回译、加噪等。
+\parinterval {\small\bfnew{数据增强}}（Data Augmentation）是一种增加训练数据的方法，通常通过对既有数据进行修改或者生成新的伪数据等方式实现。有时候，数据增强也可以被看做是一种防止模型过拟合的手段\upcite{DBLP:journals/jbd/ShortenK19}。在机器翻译中，典型的数据增强方法包括回译、修改双语数据、双语数据挖掘等。

 \subsubsection{1. 回译}

-\parinterval {\small\bfnew{回译}}（Back Translation, BT）是目前机器翻译任务上最常用的一种数据增强方法（{\color{red} 参考文献！有很多}）。回译的主要思想是：利用目标语言$-$源语言模型（反向翻译模型）来生成伪双语句对，用于训练源语言$-$目标语言翻译模型（前向翻译模型）。假设我们的目标是训练一个英汉翻译模型。首先，使用双语数据训练汉英翻译模型，即反向翻译模型。然后通过该模型将额外的汉语单语句子翻译为英语句子，从而得到大量的生成英语- 真实汉语伪双语句对。然后，将回译得到的伪双语句对和真实双语句对混合，训练得到最终的英汉神经机器翻译模型。
-
-\parinterval 回译方法是模型无关的，只需要训练一个反向翻译模型，就可以简单有效地利用单语数据来增加训练数据的数量，因此在工业界也得到了广泛采用（{\color{red} 参考文献！可以引用google和fb的论文，是不是多语言或者无监督的方法里有}）。图\ref{fig:16-1-xc} 给出了回译方法的一个简要流程。
+\parinterval {\small\bfnew{回译}}（Back Translation, BT）是目前机器翻译任务上最常用的一种数据增强方法\upcite{Sennrich2016ImprovingNM,DBLP:conf/emnlp/EdunovOAG18,DBLP:conf/aclnmt/HoangKHC18}。回译的主要思想是：利用目标语言-源语言模型（反向翻译模型）来生成伪双语句对，用于训练源语言-目标语言翻译模型（正向翻译模型）。假设我们的目标是训练一个英汉翻译模型。首先，使用双语数据训练汉英翻译模型，即反向翻译模型。然后通过该模型将额外的汉语单语句子翻译为英语句子，从而得到大量的生成英语- 真实汉语伪双语句对。然后，将回译得到的伪双语句对和真实双语句对混合，训练得到最终的英汉神经机器翻译模型。
+回译方法是模型无关的，只需要训练一个反向翻译模型，就可以简单有效地利用单语数据来增加训练数据的数量，因此在工业界也得到了广泛采用\upcite{Hassan2018AchievingHP,DBLP:conf/iclr/LampleCDR18,DBLP:conf/emnlp/LampleOCDR18}。图\ref{fig:16-1-xc} 给出了回译方法的一个简要流程。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter16/Figures/figure-application-process-of-back-translation}
-\caption{\red{回译方法的流程}}
+\caption{\red{回译方法的流程(新)}}
 \label{fig:16-1-xc}
 \end{figure}
 %-------------------------------------------

-\parinterval 通常认为，反向模型的性能越好，生成的源语言译文质量越高，从而伪数据的分布和真实数据的分布越接近。不过，在实践中发现，即使一些简单的策略也能带来性能的增长。比如，对于一些低资源翻译任务，通过将目标语句子复制到源语言端构造的伪数据都能为模型带来增益\upcite{DBLP:conf/wmt/CurreyBH17}。原因在于，即使构造的双语伪数据是不准确的，其目标语言端仍然是真实数据，因此保证了神经机器翻译模型生成结果的流畅度。相比这些简单的伪数据生成策略，利用目标语言单语数据进行回译可以获得更高质量的数据。一种可能的解释是，双语伪数据的源语言是模型生成的翻译结果，保留了两种语言之间的互译信息，相比真实数据又存在一定的噪声。神经机器翻译模型在伪双语句对上进行训练，可以学习到如何处理带有噪声的输入，提高了模型的鲁棒性。
+\parinterval 通常认为，反向模型的性能越好，生成的源语言译文质量越高，从而伪数据的分布和真实数据的分布越接近。
+
+\parinterval 围绕如何利用回译方法生成伪双语数据，研究人员们进行了详细的分析探讨。一般观点认为，反向模型的性能越好，生成的伪数据质量也就更高，对正向模型的性能提升也就越大\upcite{Sennrich2016ImprovingNM,DBLP:conf/aclnmt/HoangKHC18}。不过，在实践中发现，即使一些简单的策略也能带来性能的增长。比如，对于一些低资源翻译任务，通过将目标语句子复制到源语言端构造的伪数据都能为模型带来增益\upcite{DBLP:conf/wmt/CurreyBH17}。原因在于，即使构造的双语伪数据是不准确的，其目标语言端仍然是真实数据，可以使解码器训练地更加充分，因此保证了神经机器翻译模型生成结果的流畅度。但是，相比这些简单的伪数据生成策略，利用目标语言单语数据进行回译可以获得更高质量的数据\upcite{DBLP:conf/wmt/CurreyBH17}。一种可能的解释是，双语伪数据的源语言是模型生成的翻译结果，保留了两种语言之间的互译信息，相比真实数据又存在一定的噪声。神经机器翻译模型在伪双语句对上进行训练，可以学习到如何处理带有噪声的输入，提高了模型的鲁棒性。

-\parinterval 围绕如何利用回译方法生成伪双语数据，研究人员们进行了详细的分析探讨。一般观点认为，反向模型的性能越好，生成的伪数据质量也就更高，对前向模型的性能提升也就越大（{\color{red} 参考文献！}）。回译方法面临的一个问题是：反向翻译模型的训练只依赖于有限的双语数据，生成的源语言端伪数据的质量难以保证。为此，可以采用{\small\sffamily\bfnew{迭代式回译}}\index{迭代式回译}（Iterative Back Translation）\index{Iterative Back Translation}的方法\upcite{DBLP:conf/aclnmt/HoangKHC18}，同时利用源语言端和目标语言端的单语数据，不断通过回译的方式来提升前向和反向翻译模型的性能。图\ref{fig:16-2-xc}展示了迭代式回译的框架。首先，使用双语数据训练一个前向翻译模型，然后利用源语言单语数据通过回译的方式生成伪双语数据，来提升反向翻译模型的性能，最后由反向翻译模型和目标语言单语数据生成的伪双语数据来提升前向翻译模型的性能。可以看出，这个往复的过程是闭环的，因此可以一直重复进行，直到两个翻译模型的性能均不再提升。
+\parinterval 在回译方法中，反向翻译模型的训练只依赖于有限的双语数据，因此生成的源语言端伪数据的质量难以保证。为此，可以采用{\small\sffamily\bfnew{迭代式回译}}\index{迭代式回译}（Iterative Back Translation）\index{Iterative Back Translation}的方法\upcite{DBLP:conf/aclnmt/HoangKHC18}，同时利用源语言端和目标语言端的单语数据，不断通过回译的方式来提升正向和反向翻译模型的性能。图\ref{fig:16-2-xc}展示了迭代式回译的框架。首先，使用双语数据训练一个正向翻译模型，然后利用源语言单语数据通过回译的方式生成伪双语数据，来提升反向翻译模型的性能，再利用反向翻译模型和目标语言单语数据生成伪双语数据，用于提升正向翻译模型的性能。可以看出，迭代式回译的过程是完全闭环的，因此可以一直重复进行，直到正向和反向翻译模型的性能均不再提升。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter16/Figures/figure-example-of-iterative-back-translation}
-\caption{\red{迭代式回译方法的流程}}
+\caption{\red{迭代式回译方法的流程，未修改}}
 \label{fig:16-2-xc}
 \end{figure}
 %-------------------------------------------

-\parinterval 然而，研究人员发现，对于低资源语种，由于缺乏双语数据，高质量的伪双语数据对于模型来说更有帮助。而在富资源语种中，对回译产生的源语言句子添加一些噪声，提高翻译结果的多样性，反而可以达到更好的效果，比较常用的方法是使用采样或$n$-best解码\upcite{DBLP:conf/emnlp/EdunovOAG18}（{\color{red} 其它参考文献？}）。
+\parinterval 然而，研究人员发现，在低资源场景，由于缺乏双语数据，高质量的伪双语数据对于模型来说更有帮助。而在富资源场景下，对回译产生的源语言句子添加一些噪声，提高翻译结果的多样性，反而可以达到更好的效果，比较常用的方法是使用采样、$n$-best解码和加噪\upcite{DBLP:conf/emnlp/EdunovOAG18,DBLP:conf/aclnmt/ImamuraFS18,DBLP:conf/emnlp/WuWXQLL19}。{\color{red} 许：这里应该是TopK，跟老师再确认一下，nbest一般指生成的翻译结果吧，topk指的是预测概率前k的词}

-\parinterval 回译常用的解码方式为束搜索，在生成每个词的时候只考虑预测概率最高的词，因此生成的翻译结果质量更高，但导致的问题是翻译结果主要都是一些高频词，缺乏多样性，生成的伪数据也就很难去准确地覆盖真实的数据分布\upcite{DBLP:conf/icml/OttAGR18}。采样解码是指在解码过程中，对词表中所有的词按照预测概率进行随机采样，因此整个词表中的词都有可能被选中，从而使生成结果更具多样性，但翻译质量和流畅度也会明显下降。$n$-best解码是对束搜索和采样解码的一个折中方法。在解码过程中，$n$-best解码对词表中预测概率最高的前$n$个词进行随机采样，这样在保证翻译结果准确性的前提下，也提高了结果的多样性。由于采样和$n$-best解码只在生成的源语言句子中引入了多样性，因此也可以提高对包含低频词或噪声句子的训练次数。
+\parinterval 回译常用的解码方式为束搜索，在生成每个词的时候只考虑预测概率最高的词，因此生成的翻译结果质量更高，但导致的问题是翻译结果主要集中在部分高频词上，生成的伪数据缺乏多样性，也就很难去准确地覆盖真实的数据分布\upcite{DBLP:conf/icml/OttAGR18}。采样解码是指在解码过程中，对词表中所有的词按照预测概率进行随机采样，因此整个词表中的词都有可能被选中，从而使生成结果更具多样性，但翻译质量和流畅度也会明显下降。$n$-best解码是对束搜索和采样解码的一个折中方法。在解码过程中，$n$-best解码对词表中预测概率最高的前$n$个词进行随机采样，这样在保证翻译结果准确性的前提下，也提高了结果的多样性。加噪方法对束搜索的解码结果加入一些噪声，如丢掉或掩码部分词、打乱句子顺序等，可以参考\ref{add-noise}。这些方法在生成的源语言句子中引入了噪声，不仅提高了对包含低频词或噪声句子的训练次数，同时也可以提高模型的鲁棒性和泛化能力\upcite{DBLP:conf/icml/VincentLBM08}。

-\parinterval 与回译方法类似，源语言的单语数据也可以通过一个双语数据训练的前向翻译模型获得对应的目标语译文，从而构造前向翻译的伪数据。与回译方法相反，这时的伪数据中源语言句子是真实的，而目标语言句子是生成的，构造的伪数据对译文的流畅性并没有太大帮助，其主要作用是丰富了训练数据中源语言的表示，提升翻译模型中编码器的性能。很多时候，利用前向翻译模型生成伪数据的方法带来的性能提升效果要弱于回译（{\color{red} 参考文献！}）。
+\parinterval 与回译方法类似，源语言的单语数据也可以通过一个双语数据训练的正向翻译模型获得对应的目标语译文，从而构造正向翻译的伪数据\upcite{DBLP:conf/emnlp/ZhangZ16}。与回译方法相反，这时的伪数据中源语言句子是真实的，而目标语言句子是生成的，构造的伪数据对译文的流畅性并没有太大帮助，其主要作用是提升了编码器的特征提取能力。然而，由于伪数据中生成的译文质量很难保证，因此利用正向翻译模型生成伪数据的方法带来的性能提升效果要弱于回译，甚至可能是有害的\upcite{DBLP:conf/emnlp/WuWXQLL19}。

 \subsubsection{2. 修改双语数据}

-\parinterval 除利用回译方法生成伪数据外，另外一种数据增强技术是对原始双语数据上进行修改得到伪数据，常用的方法包括加噪、词替换等。
+\parinterval 回译方法是利用单语数据来生成伪数据，另外一种数据增强技术是对原始双语数据进行修改来得到伪双语数据，常用的方法包括加噪、词替换和转述等。

 \begin{itemize}
    \vspace{0.5em}
-    \item {\small\sffamily\bfnew{加噪}} （{\color{red} 用四级标题？}{\color{red} 这节缺少参考文献!}）
+    \item {\small\sffamily\bfnew{加噪}}\label{add-noise} （{\color{red}许： 用四级标题？}{\color{red} 四级标题感觉不是很合适，考虑是否把修改双语数据这节的内容精简一下，就不用标题了，每个方法分段去写}）

-\parinterval 加噪是指在保证句子整体语义的情况下，对原始的双语数据适当加入一些噪声，从而生成伪双语数据来增加训练数据量。常用的加噪方法主要有以下三种：
+\parinterval 加噪是自然语言处理任务中广泛使用的一种方法\upcite{DBLP:conf/icml/VincentLBM08,DBLP:journals/ipm/FarhanTAJATT20,DBLP:conf/iclr/LampleCDR18,devlin2019bert}。比如，在广泛使用的降噪自编码器中，在原始数据中加入噪声作为模型的输入，模型通过学习如何预测原始数据进行训练。而在神经机器翻译中，利用加噪方法进行数据增强的常用方法是，在保证句子整体语义的情况下，对原始的双语数据适当加入一些噪声，从而生成伪双语数据来增加训练数据的规模。常用的加噪方法主要有以下三种：

 \begin{itemize}
    \vspace{0.5em}
-    \item 丢掉单词：句子中的每个词均有$\funp{P}_{\rm{drop}}$的概率被丢弃。
+    \item 丢掉单词：句子中的每个词均有$\funp{P}_{\rm{Drop}}$的概率被丢弃。
    \vspace{0.5em}
-    \item 屏蔽单词：句子中的每个词均有$\funp{P}_{\rm{mask}}$的概率被替换为一个额外的[mask]词。[mask]表示{\color{red} XXXXXX}
+    \item 掩码单词：句子中的每个词均有$\funp{P}_{\rm{Mask}}$的概率被替换为一个额外的[Mask]词。[Mask]的作用类似于占位符，可以理解为一个句子中的部分词被涂抹掉，无法得知该位置词的准确含义。
    \vspace{0.5em}
-    \item 打乱顺序：将句子中距离较近的某些词的位置进行（{\color{red} 随机？}）交换，打乱句子中的单词顺序。
+    \item 打乱顺序：将句子中距离较近的某些词的位置进行随机交换，打乱句子中的单词顺序。
    \vspace{0.5em}
 \end{itemize}

-图\ref{fig:16-4-xc}展示了三种加噪方法的示例。这里，$\funp{P}_{\rm{drop}}$和$\funp{P}_{\rm{mask}}$均设置为0.1，表示每个词有$10\%$的概率被丢弃或屏蔽。打乱顺序的操作略微复杂，一种实现方法是，通过一个数字来表示每个词在句子中的位置，如“我”是第一个词，“你”是第三个词，然后，在每个位置生成一个$1$到$n$的随机数，$n$一般设置为3，然后将每个词的位置数和对应的随机数相加，即图中的$\mathbi{S}$。 对$\mathbi{S}$ 按照从小到大排序，根据排序后每个位置的索引从原始句子中选择对应的词，从而得到最终打乱顺序后的结果。比如，在排序后，$S_2$的值小于$S_1$，其余词则保持递增顺序，则将原始句子中的第零个词和第一个词的顺序进行交换，其他词保持不变。
+\parinterval 图\ref{fig:16-4-xc}展示了三种加噪方法的示例。这里，$\funp{P}_{\rm{Drop}}$和$\funp{P}_{\rm{Mask}}$均设置为0.1，表示每个词有$10\%$的概率被丢弃或掩码。打乱顺序的操作略微复杂，一种实现方法是，通过一个数字来表示每个词在句子中的位置，如“我”是第一个词，“你”是第三个词，然后，在每个位置生成一个$1$到$n$的随机数，$n$一般设置为3，然后将每个词的位置数和对应的随机数相加，即图中的$\mathbi{S}$。 对$\mathbi{S}$ 按照从小到大排序，根据排序后每个位置的索引从原始句子中选择对应的词，从而得到最终打乱顺序后的结果。比如，在排序后，$S_2$的值小于$S_1$，其余词则保持递增顺序，则将原始句子中的第零个词和第一个词的顺序进行交换，其他词保持不变。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -109,41 +110,38 @@
 \end{figure}
 %-------------------------------------------

-\parinterval 和回译方法相似，加噪方法一般仅在源语言句子上进行操作，既保证了目标语言句子的流畅度，又可以提高训练数据量，增加数据的多样性（{\color{red} 参考文献!}）。加噪方法也被用于训练降噪自编码器，在无监督机器翻译中也得到了广泛应用，详细方法可以参考\ref{unsupervised-NMT}节。
+\parinterval 和回译方法相似，加噪方法一般仅在源语言句子上进行操作，既保证了目标语言句子的流畅度，又可以提高训练数据量，增加数据的多样性，也可以提高模型的鲁棒性和泛化能力\upcite{DBLP:conf/icml/VincentLBM08}。加噪作为一种简单有效的方法，实际的应用场景很多，比如：
+
+\begin{itemize}
+    \vspace{0.5em}
+    \item 对单语数据加噪。通过一个端到端模型预测源语言句子的调序结果，该模型和神经机器翻译模型的编码器共享参数，从而增强编码器的特征提取能力\upcite{DBLP:conf/emnlp/ZhangZ16}；
+    \vspace{0.5em}
+    \item 训练降噪自编码器。将加噪后的句子作为输入，原始句子作为输出，用来训练降噪自编码器，这一思想在无监督机器翻译中得到了广泛应用，详细方法可以参考\ref{unsupervised-NMT}节；
+    \vspace{0.5em}
+    \item 对伪数据进行加噪。比如在\ref{add-noise}中提到的对伪数据加入噪声的方法中，通常也使用上述这三种加噪方法来提高伪数据的多样性；
+    \vspace{0.5em}
+\end{itemize}

 \vspace{0.5em}
-\item {\small\sffamily\bfnew{单词替换}}
+\item {\small\sffamily\bfnew{词替换}}

 \parinterval 将一个句子中的某个词替换为其他词，可能并不会影响句子的合理性和流畅度。比如，对于“我出去玩。”这句话，将“我”替换为“你”、“他”、“我们”或是将“玩”替换为“骑车”、“学习”、“吃饭”等，虽然改变了语义，但句子仍然是合理的。词替换方法即是将双语数据中的部分词替换为词表中的其他词，在保证句子的语义或语法正确性的前提下，增加了训练数据的多样性。

-\parinterval 一种策略是对目标语中的稀有词进行替换\upcite{DBLP:conf/acl/FadaeeBM17a}（{\color{red} 就一篇文章？}）。词表中的稀有词由于出现次数较少，很容易导致训练不充分问题，从而无法准确预测稀有词。对于一个双语句对$(\mathbi{x}, \mathbi{y})$，其中$\mathbi{x} = (x_1, \dots, x_m)$，$\mathbi{y} = (y_1, \dots, y_n)$。假定对源语言句子$\mathbi{x}$中的单词进行替换，那么在源语言句子的位置$i$，可以根据前面的文本和自左向右语言模型得到前向候选稀有词集合$\overrightarrow{C}$，如公式所示：
-
-\begin{eqnarray}
-    \overrightarrow{C} = \{x_i^{'} \in V_R: {\rm{Top}}_K (\funp{P}_{\rm{l2r}}(x_i^{'} | x_{<i}))\}
-\end{eqnarray}
-
-这里，$V_R$表示稀有词词表，可以设定为训练数据中出现次数最少的部分词或出现次数小于一定阈值的部分词。$\funp{P}_{\rm{l2r}}(x_i^{'} | x_{<i})$表示自左向右语言模型预测$x_i^{'}$出现的概率。$\funp{{\rm{Top}}}_K(\cdot)$ 表示选择概率最高的前$K$个词（{\color{red} 这个公式感觉有些问题，因为直接看，它是返回最大的$K$个概率，不是$K$个词}）。如果这$K$个词在稀有词词表$V_R$ 中，则将其加入到前向候选稀有词集合中。同样，利用后面的文本和自右向左语言模型得到反向候选稀有词：
-
-\begin{eqnarray}
-    \overleftarrow{C} = \{x_i^{'} \in V_R: {\rm{TopK}} (\funp{P}_{\rm{r2l}}(x_i^{'} | x_i^{i-1}))\}
-\end{eqnarray}
+\parinterval 一种策略是对目标语中的稀有词替换为语义相近的词\upcite{DBLP:conf/acl/FadaeeBM17a}。词表中的稀有词由于出现次数较少，很容易导致训练不充分问题，从而无法准确预测稀有词\upcite{DBLP:conf/acl/SennrichHB16a}。通过语言模型将源语言句子中的某个词替换为满足语法或语义条件的稀有词，然后根据词对齐工具找到替换词在目标语言句子中对应的位置，借助翻译词典等方法将目标语言句子中的对应位置的词替换为源语言句子中被替换词对应的翻译结果，从而生成得到伪双语数据。

-\parinterval 然后，就可以选择同时出现在$\overrightarrow{C}$和$\overleftarrow{C}$的单词：
+\parinterval 此外，通过在源语言或目标语言中随机选择某些词，将这些词替换为词表中随机的一个词，也可以得到伪双语数据\upcite{DBLP:conf/emnlp/WangPDN18}；随机选择句子中的某个词，将这个词的词嵌入替换为其他词的词嵌入加权表示融合，权重可以通过语言模型来计算，相比离散的替换方式（替换为其他词等），这种丰富的分布式表示相比词嵌入可以包含更多的语义信息，同一个词在不同的上下文也会被替换为不同的上下文表示\upcite{DBLP:conf/acl/GaoZWXQCZL19}。{\color{red} 许：可以再找几篇}

-\begin{eqnarray}
-    {C} = \{x_i | x_i^{'} \in \overrightarrow{C} \wedge x_i^{'} \in \overleftarrow{C}\}
-\end{eqnarray}
-
-\parinterval 前向和反向语言模型均可以使用海量的单语数据训练得到。通过这种方法，选取到的稀有词保证了替换后句子的句法合理性以及流畅度。最后，根据词对齐找到替换词在目标语言句子中对应的位置$j$，根据翻译词典等方法，就可以将目标语言句子中的$y_j$替换为$x_i^{'}$对应的翻译结果$y_j^{'}$，从而生成得到伪双语数据。
+\vspace{0.5em}
+\item {\small\sffamily\bfnew{转述}}{\color{red} 许：没有找到NMT上进行数据增强的强相关工作，如果内容较少就放在扩展阅读，找到其他内容的话再扩充}

-（{\color{red} 就介绍这一篇文章？可以再看一下我发给许晨的一篇文章，上面也有一些相关工作的整理。我们是对一个方向进行整理，对典型工作进行描述，适当的还应该有些扩展，可以看一下14章的写法。单词替换的方式有很多，我印象里也有几篇。即使不是在数据增强方面的，包括张家俊的论文都提过类似的内容。我们写东西的全面性也是非常必要的。也可以再看一下李垠桥写的内容，他那个风格介绍还是很全面的。现在不是翻译一篇论文。}）
+\parinterval 相比上述两种方法只是对句子做轻微的修改，转述(Paraphrasing)方法考虑到了自然语言表达的多样性，通过对原始句子进行改写，使用不同的句式来传达相同含义的信息\upcite{DBLP:journals/coling/BhagatH13,2010Generating}。比如对于“东北大学NLP实验室的室训是精益求精、百炼成钢。”这句话，可以使用其他的句式来表达同样的含义，“精益求精、百炼成钢是东北大学NLP实验室的室训。”。转述在机器翻译任务上得到了广泛引用，比如\upcite{DBLP:conf/wmt/GuoH19,DBLP:conf/acl/ZhouSW19,DBLP:conf/eacl/LapataSM17}。通过转述方法对原始的双语数据进行改写，训练数据可以覆盖更多的语言学现象，同时由于每个句子可以对应多个不同的翻译，可以避免模型过拟合，提高泛化能力。

 \vspace{0.5em}
 \end{itemize}

 \subsubsection{3. 双语句对挖掘}

-\parinterval 在双语平行语料缺乏的时候，从可比语料中挖掘可用的双语句对也是一种常用的方法（{\color{red} 参考文献！}）。可比语料是指源语言和目标语言虽然不是完全互译的文本，但是蕴含了丰富的双语对照知识，可以从中挖掘出可用的双语句对来训练。相比双语平行语料来说,可比语料相对容易获取，比如，多种语言报道的新闻事件、多种语言的维基百科词条；多种语言翻译的书籍等。如图\ref{fig:16-5-xc}中展示的维基百科词条所示。
+\parinterval 在双语平行语料缺乏的时候，从可比语料中挖掘可用的双语句对也是一种有效的方法\upcite{finding2006adafre,yasuda2008method,2005Improving,DBLP:conf/naacl/SmithQT10,DBLP:conf/emnlp/WuZHGQLL19}。可比语料是指源语言和目标语言虽然不是完全互译的文本，但是蕴含了丰富的双语对照知识，可以从中挖掘出可用的双语句对来训练。相比双语平行语料来说,可比语料相对容易获取，比如，多种语言报道的新闻事件、多种语言的维基百科词条和多种语言翻译的书籍（如圣经等）等。如图\ref{fig:16-5-xc}中展示的维基百科词条所示。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -154,9 +152,9 @@
 \end{figure}
 %-------------------------------------------

-\parinterval 可比语料大多存在于网页中，内容较为复杂，可能会存在较大比例的噪声，如HTML字符、乱码等。首先需要进行充分的数据清洗操作，得到干净的可比语料，然后从中抽取出可用的双语句对。传统的抽取方法一般通过统计模型或双语词典来得到，比如，通过计算两个不同语言句子之间的单词重叠数或BLEU值\upcite{finding2006adafre,method2008keiji},通过排序模型或二分类器判断一个目标语言句子和一个源语言句子互译的可能性\upcite{DBLP:journals/coling/MunteanuM05,DBLP:conf/naacl/SmithQT10} 。
+\parinterval 可比语料大多存在于网页中，内容较为复杂，可能会存在较大比例的噪声干扰，如HTML字符、乱码等。首先需要对内容进行充分的数据清洗操作，得到干净的可比语料，然后从中抽取出可用的双语句对。传统的抽取方法一般通过统计模型或双语词典来得到，比如，通过计算两个不同语言句子之间的单词重叠数或BLEU值\upcite{finding2006adafre,method2008keiji}；通过排序模型或二分类器判断一个目标语言句子和一个源语言句子互译的可能性\upcite{DBLP:journals/coling/MunteanuM05,DBLP:conf/naacl/SmithQT10}。

-\parinterval 另外一种比较有效的方法是根据两种语言中每个句子的表示向量来抽取。首先，对于两种语言的每个句子，分别使用词嵌入加权平均等方法计算得到句子的表示向量，然后计算每个源语言句子和目标语言句子之间的余弦相似度，相似度大于一定阈值的句对则认为是可用的双语句对\upcite{DBLP:conf/emnlp/WuZHGQLL19}。然而，不同语言单独训练得到的词嵌入可能多对应不同的表示空间，因此得到的句向量无法用于衡量两个句子的相似度。为了解决这个问题，一般使用在同一表示空间的跨语言词嵌入来表示两种语言的单词。在跨语言词嵌入中，不同语言相同意思的词对应的词嵌入具有较高的相似性，因此得到的句向量也就可以用于衡量两个句子是否表示相似的语义（{\color{red} 参考文献！}）。关于跨语言词嵌入的具体内容，可以参考\ref{unsupervised-dictionary-induction}节。
+\parinterval 另外一种比较有效的方法是根据两种语言中每个句子的表示向量来抽取\upcite{DBLP:conf/emnlp/WuZHGQLL19}。首先，对于两种语言的每个句子，分别使用词嵌入加权平均等方法计算得到句子的表示向量，然后计算每个源语言句子和目标语言句子之间的余弦相似度，相似度大于一定阈值的句对则认为是可用的双语句对\upcite{DBLP:conf/emnlp/WuZHGQLL19}。然而，不同语言单独训练得到的词嵌入可能多对应不同的表示空间，因此得到的表示向量无法用于衡量两个句子的相似度\upcite{DBLP:journals/corr/MikolovLS13}。为了解决这个问题，一般使用在同一表示空间的跨语言词嵌入来表示两种语言的单词\upcite{DBLP:journals/jair/RuderVS19}。在跨语言词嵌入中，不同语言相同意思的词对应的词嵌入具有较高的相似性，因此得到的句向量也就可以用于衡量两个句子是否表示相似的语义\upcite{DBLP:conf/icml/LeM14}。关于跨语言词嵌入的具体内容，可以参考\ref{unsupervised-dictionary-induction}。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -167,25 +165,24 @@
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-\parinterval 除了构造双语平行数据，直接利用单语数据也是机器翻译中的常用方法。通常，单语数据会被用于语言模型的学习（见{\chaptertwo}）。对于机器翻译系统，使用语言模型也是一件十分“自然”的事情。在目标语言端，语言模型可以帮助系统产生更加流畅的译文。在源语言端，语言模型也可以用于句子编码，进而更好地生成句子的表示结果。在传统方法中，语言模型更多的被使用在目标语端。不过，近些年来随着预训练技术的发展，语言模型也被使用在神经机器翻译的编码端。下面从语言模型在目标端的融合、预训练编码器、联合训练等方向介绍基于语言模型的单语数据使用方法。
+\parinterval 除了构造双语数据进行数据增强，直接利用单语数据也是机器翻译中的常用方法。通常，单语数据会被用于语言模型的学习（见{\chaptertwo}）。对于机器翻译系统，使用语言模型也是一件十分“自然”的事情。在目标语言端，语言模型可以帮助系统产生更加流畅的译文。在源语言端，语言模型也可以用于句子编码，进而更好地生成句子的表示结果。在传统方法中，语言模型更多的被使用在目标语端。不过，近些年来随着预训练技术的发展，语言模型也被使用在神经机器翻译的编码端。下面从语言模型在目标端的融合、预训练词嵌入、预训练编码器和多任务学习等方向介绍基于语言模型的单语数据使用方法。

-\subsubsection{1. 语言模型融合（{\color{red} 参考文献较少}）}
+\subsubsection{1. 语言模型在目标端的融合}（{\color{red}许：这部分介绍有点详细，跟其他部分的风格有点不统一，是否需要重新组织一下？}）

-\parinterval 融合目标语言端的语言模型是一种最直接的使用单语数据的方法。实际上，神经机器翻译模型本身也具备了语言模型的作用，因为在解码器本质上也是一个语言模型，用于描述生成译文词串的规律。类似于语言模型，神经机器翻译模型可以自回归地生成翻译结果。对于一个双语句对$(\mathbi{x}, \mathbi{y})$，神经机器翻译模型根据源语言句子$\mathbi{x}$和前面生成的词来预测当前位置词的概率分布：
+\parinterval 融合目标语言端的语言模型是一种最直接的使用单语数据的方法\upcite{2015OnGulcehre,DBLP:journals/csl/GulcehreFXCB17,DBLP:conf/wmt/StahlbergCS18}。实际上，神经机器翻译模型本身也具备了语言模型的作用，因为在解码器本质上也是一个语言模型，用于描述生成译文词串的规律。类似于语言模型，神经机器翻译模型可以自回归地生成翻译结果。对于一个双语句对$(\mathbi{x}, \mathbi{y})$，神经机器翻译模型根据源语言句子$\mathbi{x}$和前面生成的词来预测当前位置词的概率分布：

 \begin{eqnarray}
 \log{P(\mathbi{y} | \mathbi{x}; \theta)} = \sum_{t}{\log{P(y_t | \mathbi{x}, {\mathbi{y}}_{<t}; \theta)}}
 \label{eq:16-1-xc}
 \end{eqnarray}

-
-\noindent 这里，$\theta$是神经机器翻译模型的参数，$y_{<t}$表示第$t$个词前面生成的词。语言模型可以与上述过程融合，具体分为浅融合和深融合两种方法\upcite{2015OnGulcehre}，如图\ref{fig:16-6-xc}所示。
+\noindent 这里，$\theta$是神经机器翻译模型的参数，$y_{<t}$表示第$t$个词前面生成的词。语言模型可以与上述解码过程融合，具体分为浅融合和深融合两种方法\upcite{2015OnGulcehre}，如图\ref{fig:16-6-xc}所示。

 %----------------------------------------------
 \begin{figure}[htp]
    \centering
    \input{./Chapter16/Figures/lm-fusion}
-    \caption{\red{语言模型的浅融合与深融合}}
+    \caption{\red{语言模型的浅融合与深融合，未修改}}
    \label{fig:16-6-xc}
 \end{figure}
 %-------------------------------------------
@@ -198,9 +195,7 @@

 \noindent 其中，$\theta_{TM}$和$\theta_{LM}$分别表示翻译模型和语言模型的参数。$\beta$是一个超参数，表示语言模型预测概率在解码过程中的权重。

-\parinterval 深融合是在解码过程中，动态地融合翻译模型和语言模型的隐藏层表示来计算预测概率。
-浅融合在解码过程对每个词均采用相同的语言模型权重，而深融合可以根据解码不同的词，动态选择语言模型的权重。
-比如，在汉语-英语翻译系统中，英语句子中的冠词可能在汉语句子中没有显式的单词对应，这种情况下，英语模型可以提供更多帮助，保证翻译结果更加符合英语的语言结构；而在翻译某些名词的时候，语言模型由于没有源语言句子的信息，反而会对解码过程产生干扰，因此权重越小越好。
+\parinterval 深融合是在解码过程中，动态地融合翻译模型和语言模型的隐藏层表示来计算预测概率。浅融合在解码过程对每个词均采用相同的语言模型权重，而深融合可以根据解码不同的词，动态选择语言模型的权重。比如，在汉语-英语翻译系统中，英语句子中的冠词可能在汉语句子中没有显式的单词对应，这种情况下，英语语言模型可以提供更多帮助，保证翻译结果更加符合英语的语言结构；而在翻译某些名词的时候，语言模型由于没有源语言句子的信息，反而会对解码过程产生干扰，因此权重越小越好。

 \parinterval 深融合的预测方式为：
 \begin{eqnarray}
@@ -222,105 +217,85 @@ g_{t} = \sigma (w^{T}s_{t}^{TM} + b)

 \noindent 其中，$w$和$b$是可学习的参数。$\sigma$是Sigmoid函数，将结果压缩到$(0, 1)$范围内。

-\parinterval 大多数情况下，译文端语言模型的使用可以提高翻译结果的流畅度。不过，它并不会增加翻译结果对源语言句子表达的{\small\bfnew{充分性}}\index{充分性}（Adequacy\index{Adequacy}），即源语言句子的信息是否被充分提现到了译文中。也有一些研究发现，神经机器翻译过于关注译文的流畅度，但是充分性的问题没有很好的考虑，比如，神经机器翻译系统的结果中经常出现漏译等问题。也有一些研究者提出控制翻译充分性的方法，让译文在流畅度和充分性之间达到平衡（{\color{red} 参考文献！Zhaopeng Tu组应该有工作，还有其它一些工作都可以引用}）。
+\parinterval 大多数情况下，译文端语言模型的使用可以提高翻译结果的流畅度。不过，它并不会增加翻译结果对源语言句子表达的{\small\bfnew{充分性}}\index{充分性}（Adequacy\index{Adequacy}），即源语言句子的信息是否被充分体现到了译文中。也有一些研究发现，神经机器翻译过于关注译文的流畅度，但是充分性的问题没有很好的考虑，比如，神经机器翻译系统的结果中经常出现漏译等问题。也有一些研究者提出控制翻译充分性的方法，让译文在流畅度和充分性之间达到平衡\upcite{DBLP:conf/acl/TuLLLL16,li-etal-2018-simple,DBLP:journals/tacl/TuLLLL17}。
+
+\parinterval 扩展阅读：语言模型除了应用在解码过程中来提高翻译结果的流畅度之外，另外一种常用的做法是用来对翻译结果进行重排序。翻译模型在解码过程中可以生成多个候选，可以利用语言模型、不同的翻译模型等分别对每个候选打分，选择分数最高的句子作为最终的翻译结果\upcite{DBLP:conf/wmt/WangCJYCLSWY17,ng2019facebook,DBLP:conf/wmt/WangLLJZLLXZ18,DBLP:conf/wmt/LiLXLLLWZXWFCLL19}，这一方法在各种机器翻译评测任务中得到了广泛使用。

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{2. 预训练（{\color{red} 参考文献较少}）}
+\subsubsection{2. 预训练词嵌入}

-{\red 预训练模型ELMo、GPT、BERT等在这里是否要详细介绍？}{\color{blue} 还是介绍一下，但是并不是深入讲，要不一些基础的概念大家可能不知道}
+% \subsubsection{2. 预训练}
+\parinterval 神经机器翻译模型所使用的编码器-解码器框架天然就包含了对输入（源语言）和输出（目标语言）进行表示学习的过程。在编码端，需要学习一种分布式表示来表示源语言句子的信息，这种分布式表示可以包含序列中每个位置的表示结果（见{\chapternine}）。从结构上看，神经机器翻译所使用的编码器与神经语言模型无异，或者说神经机器翻译的编码器其实就是一个源语言的语言模型。唯一的区别在于，神经机器翻译的编码器并不直接输出源语言句子的生成概率，而传统语言模型是建立在序列生成任务上的。既然神经机器翻译的编码器可以与解码器一起在双语数据上联合训练，那为什么不使用更大规模的数据单独对编码器进行训练呢？或者说，直接使用一个预先训练好的编码器，与机器翻译的解码器配合完成翻译过程。

-\parinterval 编码器-解码器框架天然就包含了对输入（源语言）和输出（目标语言）进行表示学习的过程。在编码端，需要学习一种分布式表示来表示源语言句子的信息，这种分布式表示可以包含序列中每个位置的表示结果（见{\chapternine}）。从结构上看，神经机器翻译所使用的编码器与神经语言模型无异，或者说神经机器翻译的编码器其实就是一个源语言的语言模型。唯一的区别在于，神经机器翻译的编码器并不直接输出源语言句子的生成概率，而传统语言模型是建立在序列生成任务上的。既然神经机器翻译的编码器可以与解码器一起在双语数据上联合训练，那为什么不使用更大规模的数据单独对编码器进行训练呢？或者说，直接使用一个预先训练好的编码器，与机器翻译的解码器配合完成翻译过程。
+\parinterval 实现上述想法的一种手段是{\small\sffamily\bfnew{预训练}}\index{预训练}（Pre-training）\index{Pre-training,DBLP:conf/nips/DaiL15,DBLP:journals/corr/abs-1802-05365,radford2018improving,devlin2019bert}。预训练的做法相当于将表示模型的学习任务从目标任务中分离出来，这样可以利用额外的更大规模的数据进行学习。常用的一种方法是使用语言建模等方式在大规模单语数据上进行训练，来得到神经机器翻译模型中的一部分（比如词嵌入和编码器等）的模型参数，作为模型的初始值。然后，神经机器翻译模型在双语数据上进行{\small\sffamily\bfnew{微调}}\index{微调}（Fine-tuning）\index{Fine-tuning}，以得到最终的翻译模型。

-\parinterval 实现上述想法的一种手段是{\small\sffamily\bfnew{预训练}}\index{预训练}（Pre-training）\index{Pre-training}（{\color{red} 参考文献！}）。常用的方法是将机器翻译模型中的一部分（比如，编码器）单独提抽取出来，之后用语言建模等方式在大规模单语数据上进行训练。得到优化后的参数后，将其重新放入神经机器翻译模型中，作为模型的初始值。最后，神经机器翻译模型在双语数据上进行{\small\sffamily\bfnew{微调}}\index{微调}（Fine-tuning）\index{Fine-tuning}，以得到最终的翻译模型。图\ref{fig:16-7-xc}给出了机器翻译编码器预训练流程的示意图。
+% \begin{itemize}
+% \vspace{0.5em}
+% \item {\small\sffamily\bfnew{词嵌入预训练}（{\color{red} 四级标题，这部分我感觉用四级标题不太恰当，但是如果不分开写，又显得内容太多了}）}

-%----------------------------------------------
-\begin{figure}[htp]
-\centering
-\input{./Chapter16/Figures/figure-encoder-fin}
-\caption{机器翻译编码器预训练流程（{\color{red} 图要重新构思}）}
-\label{fig:16-7-xc}
-\end{figure}
-%-------------------------------------------
+\parinterval 词嵌入可以被看作是对每个独立单词进行的表示学习，在自然语言处理的众多任务中都扮演着重要角色\upcite{DBLP:conf/icml/CollobertW08,2011Natural,DBLP:journals/corr/abs-1901-09069}。到目前为止已经有大量的词嵌入学习方法被提出（见{\chapternine}），因此可以直接应用这些方法在海量的单语数据上训练得到词嵌入，用来初始化神经机器翻译模型的词嵌入矩阵\upcite{DBLP:conf/aclwat/NeishiSTIYT17,2018When}。

-\parinterval 预训练的做法相当于将表示模型的学习任务从目标任务中分离出来了。这样，可以在更大规模的数据上学习一种更加通用的模型。此外，预训练的任务相比于机器翻译要更加“简单”，其学习过程相对“容易”。比如，最近非常流行的BERT就是一种基于Transformer结构的预训练模型，它可以给自然语言处理下游任务提供句子的表示结果（{\color{red} 参考文献！}）。对于机器翻译，预训练可以在单词、句子等多个层次上使用。
+\parinterval 需要注意的是，在神经机器翻译中使用预训练词嵌入有两种方法。一种方法是直接将词嵌入作为固定的输入，也就是在训练机器翻译模型的过程中，并不调整词嵌入的参数。这样做的目的是完全将词嵌入模块独立出来，机器翻译可以被看作是在固定的词嵌入输入上进行的建模，降低了机器翻译系统学习的难度。另一种方法是仍然遵循``预训练+微调''的策略，将词嵌入作为翻译模型的初始值。之后在机器翻译训练过程中，词嵌入模型结果会被进一步更新。近些年，在词嵌入预训练的基础上进行微调的方法受到研究者越来越多的青睐（{\color{red} 许：看一下是否有对应的参考文献，暂时没找到，没有的话考虑重写一下这部分}）。因为在实践中发现，完全用单语数据学习的单词表示，与双语上的翻译任务并不完全匹配。目标语言的信息也会影响源语言的表示学习，在预训练词嵌入的基础上进一步进行微调是更加有效的方案。

-\begin{itemize}
-\vspace{0.5em}
-\item {\small\sffamily\bfnew{词嵌入预训练}（{\color{red} 四级标题}）}
+\parinterval 虽然预训练词嵌入在海量的单语数据上学习到了丰富的表示，但词嵌入很主要的一个缺点是无法解决一词多义问题。在不同的上下文中，同一个单词经常表示不同的意思，但词嵌入是完全相同的。模型需要在编码过程中通过上下文去理解每个词在当前语境下的含义，从而增加了建模的复杂度。因此，上下文词向量在近些年得到了广泛的关注\upcite{DBLP:conf/acl/PetersABP17,mccann2017learned,DBLP:conf/naacl/PetersNIGCLZ18}。上下文词嵌入是指一个词的表示不仅依赖于单词自身，还要根据所在的上下文语境来得到。由于在不同的上下文中，每个词对应的词嵌入是不同的，因此无法简单地通过词嵌入矩阵来表示，通常的做法是使用海量的单语数据预训练语言模型任务，使模型具备丰富的特征提取能力\upcite{DBLP:conf/naacl/PetersNIGCLZ18,radford2018improving,devlin2019bert}。比如，ELMo(Embeddings from Language Models)通过BiLSTM模型预训练语言模型任务，通过线性融合不同层的表示来得到每个词的上下文词嵌入，在很多自然语言处理任务上均得到了最佳的性能\upcite{DBLP:conf/naacl/PetersNIGCLZ18}。（{\color{red} 许：可以加个图，类似于ELMo里的}）

-{\red（词嵌入预训练和语言模型关系不大，是否要放在这儿？）}{\color{blue} 没问题，用预训练的word embedding的工作还是不少的}
+\subsubsection{3. 预训练模型}

-\parinterval 词嵌入可以被看作是对每个独立单词进行的表示学习，在自然语言处理的众多任务中都扮演着重要角色\upcite{DBLP:journals/corr/abs-1901-09069}（{\color{red} 参考文献！}）。到目前为止已经有大量的词嵌入学习方法被提出（见{\chapternine}），因此可以直接应用这些方法在外部单语数据上训练得到词嵌入，并把它作为神经机器翻译系统的词嵌入输入。
+\parinterval 相比固定的词嵌入，上下文词嵌入包含了在当前语境中的语义信息，丰富了模型的输入表示，降低了训练难度。但是，模型仍有大量的参数需要从零学习，来进一步提取整个句子的表示。那么，能不能在预训练阶段中直接得到预训练好的模型参数，在下游任务中仅仅通过任务特定的数据对模型参数进行微调，来得到一个较强的模型呢？GPT（Generative Pre-Training，生成式预训练）和来自Transformer的双向编码器表示（Bidirectional Encoder Representations from Transformers，BERT）对这种方法进行了探索，并取得了令人振奋的实验结果。（{\color{red} 许：来个两种模型结构的对比图}）

-\parinterval 需要注意的是，在神经机器翻译中使用预训练的词嵌入有两种方法。一种方法是直接将词嵌入作为固定的输入，也就是在训练机器翻译模型的过程中，并不调整词嵌入的参数。这样做的目的是完全将词嵌入模块独立出来，机器翻译可以被看作是在固定的词嵌入输入上进行的建模，降低了机器翻译系统学习的难度。另一种方法是仍然遵循``预训练+微调''的策略，将词嵌入作为翻译模型的初始值。之后在机器翻译训练过程中，词嵌入模型结果会被进一步更新。近些年，在词嵌入预训练的基础上进行微调的方法受到研究者越来越多的青睐（{\color{red} 参考文献！}）。因为在实践中发现，完全用单语数据学习的单词表示，与双语上的翻译任务并不完全匹配。目标语言的信息也会影响源语言的表示学习。这时，在预训练词嵌入的基础上进一步进行微调是更加有效的方案。
+\parinterval GPT\upcite{radford2018improving}通过Transformer模型自回归地训练单向语言模型，类似于神经机器翻译模型的解码器，相比ELMo中使用的BiLSTM模型，Tranformer架构的表示能力更强。在大规模单语数据上预训练得到的模型结构只需要进行简单的修改，然后通过任务特定的训练数据进行微调，就可以在很好的适配到下游任务中，在多个任务中均取得了当时最佳的结果。之后提出的BERT模型更是将预训练的作用提升到了新的水平\upcite{devlin2019bert}。GPT模型十分严重的一个缺陷在于模型只能进行单向编码，也就是前面的文本在建模时无法获取到后面的信息。BERT提出了一种自编码的方式，使模型在预训练阶段可以通过双向编码的方式进行建模，进一步增强了模型的表示能力。

-\vspace{0.5em}
-\item {\small\sffamily\bfnew{编码器预训练}}
+\parinterval BERT的核心思想是通过掩码语言模型(Masked Language model，MLM)任务进行预训练。掩码语言模型的思想类似于完形填空，随机选择输入句子中的部分词掩码，模型来预测这些被掩码的词。掩码的具体做法是将被选中的词替换为一个特殊的词[Mask]，这样模型在训练过程中，无法得到掩码位置词的信息，需要联合上下文内容进行预测，因此提高了模型对上下文的特征提取能力。实验表明，相比在下游任务中仅利用上下文词嵌入，在大规模单语输数据上预训练的模型具有更强的表示能力。同时，对比单向预训练模型GPT，BERT这种双向编码的训练方式也展示出了更好的效果。

-\parinterval 编码器在神经机器翻译中的作用是对源语句子中的信息进行抽象和提取。通常这个过程会将离散的词序列编码成一组上下文相关的向量表示，即：序列的每个位置都会有一个向量。句子级预训练模型正是要学习这种序列的表示向量。从学习方式上看，预训练模型可以分为：自回归模型、自编吗模型 xxx {\color{red} 找一些综述看看，论文非常多，可以引用一些在这小节。然后进一步描述，稍微介绍一下基本概念和模型结构，还有训练方式}
+\parinterval BERT的提出引发了人们对预训练方法的关注，从多个维度对预训练方法进行了更广泛和更深入的探讨。{\color{red} 许：这部分内容较多，但是和NMT不是强相关，我再整理一下加到扩展阅读，比如训练方式、压缩、微调、下游任务使用等}）

-预训练的结果可以作为编码器的初始状态。然而在实践中发现，这种参数初始化的方法在一些富资源语种上提升效果并不明显，甚至反而有些下降\upcite{DBLP:journals/corr/abs-2002-06823}（{\color{red} 参考文献！}）。原因可能在于预训练模型和编码器虽然都是对句子进行表示，但是由于目标任务不一致，二者的参数状态还是存在区别的。因此，也有一些做法将预训练模型和翻译模型在结构上进行融合，将预训练句子模型作为一个独立的模块来为编码器或者解码器提供句子级表示信息\upcite{DBLP:journals/corr/abs-2002-06823}。
+\parinterval 在神经机器翻译任务中，预训练模型可以用于初始化编码器的模型参数\upcite{DBLP:conf/emnlp/ClinchantJN19,DBLP:conf/emnlp/ImamuraS19,DBLP:conf/naacl/EdunovBA19}。之所以用在编码器而不是解码器端，主要的原因在于编码器的作用主要在于特征提取，训练难度相对较高，而解码器的作用主要在于生成，和编码器提取到的表示是强依赖的，相对比较脆弱\upcite{DBLP:journals/corr/abs-1908-06259}。模型在预训练阶段的生成过程中并没有考虑到额外的表示信息，因此和神经机器翻译的编码器存在着明显的不一致问题，所以目前主流的做法是仅利用预训练模型对编码器的模型参数进行初始化。（{\color{red} 许：再找一下参考文献支撑}）

-\vspace{0.5em}
-\item {\small\sffamily\bfnew{序列到序列预训练}}
+\parinterval 然而，在实践中发现，参数初始化的方法在一些富资源语种上提升效果并不明显，甚至反而有些下降\upcite{DBLP:journals/corr/abs-2002-06823}。原因可能在于，预训练模型可以带来显著提升的一个重要原因在于预训练阶段的训练数据规模是非常大的，因此在下游任务数据量较少的情况下帮助较大。而在一些富资源语种上，双语句对的数据量可以达到千万级别，因此简单通过预训练模型来初始化模型参数无法带来明显的提升。此外，预训练模型的训练目标并没有考虑到序列到序列的生成，与神经机器翻译的训练目标并不完全一致，两者训练得到的模型参数可能存在一些区别。

-\parinterval 机器翻译是一种典型的语言生成任务，它不仅包含源语言表示学习的问题，还有序列到序列的映射，以及目标端序列生成的问题，这些知识是无法单独通过（源语言）单语数据学习到的。为了能够在序列到序列任务上更好地使用单语数据，另一种思路是用单语数据对编码器-解码器结构进行预训练（{\color{red} 参考文献！}）。相比对解码器结构进行单独预训练，对编码器-解码器的预训练更加贴合机器翻译的需要。
+\parinterval 因此，一些做法将预训练模型和翻译模型进行融合，将预训练模型作为一个独立的模块来为编码器或者解码器提供句子级表示信息\upcite{DBLP:journals/corr/abs-2002-06823,DBLP:conf/aaai/YangW0Z00020}。另外一种做法是针对生成任务进行预训练。机器翻译是一种典型的语言生成任务，不仅包含源语言表示学习的问题，还有序列到序列的映射，以及目标端序列生成的问题，这些知识是无法单独通过（源语言）单语数据学习到的。因此，可以使用单语数据对编码器-解码器结构进行预训练\upcite{song2019mass,DBLP:conf/acl/LewisLGGMLSZ20,DBLP:conf/emnlp/QiYGLDCZ020}。
+
+\parinterval 以MASS（MAsked Sequence to Sequence pre-training，掩码端到端预训练）方法为例\upcite{song2019mass}，其思想与BERT十分相似，也是在预训练过程中采用掩码的方式，随机选择编码器输入句子中的连续片段替换为特殊词[Mask]，然后在解码器端预测这个连续片段，如图\ref{fig:16-8-xc} 所示。这种做法可以使得编码器端捕捉上下文信息，同时迫使解码器依赖于编码器进行自回归地生成，从而学习到编码器和解码器之间的注意力。为了适配下游的机器翻译任务，使预训练模型可以学习到不同语言的表示，MASS对不同语言的句子采用共享词汇表和模型参数的方法，利用同一个预训练模型来进行不同语言句子的预训练。通过这种方式，模型既学到了对源语言句子的编码，也学习到了对目标语言句子的生成，之后通过双语句对对预训练模型的参数进行微调，模型可以快速收敛到较好的水平。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter16/Figures/figure-mass}
-\caption{MASS 预训练方法}
+\caption{\red{MASS 预训练方法，重画}}
 \label{fig:16-8-xc}
 \end{figure}
 %-------------------------------------------

-\parinterval 这里以MASS方法为例\upcite{song2019mass}。其思想与BERT预训练有相似之处，训练中采用掩码的方式，将源语词序列中的片段随机替换成特殊词<mask>，然后在解码器端预测这个未知片段，如图\ref{fig:16-8-xc} 所示，\#号表示特殊词<mask>。这种做法可以使得编码器端捕捉上下文信息，同时迫使解码器依赖于编码器，学习编码器和解码器之间的注意力进行预训练。同时。解码器端片段的预测也使得解码器能够学习到向前依赖的上下文表示。这种设计的好处在于，使用一种语言的数据同时学习了编码和解码的能力。而且这种预训练的结果可以直接用于初始化机器翻译模型。
-
-{\color{red} 没有其它的工作了？参考文献？}
+\parinterval  此外，还有很多工作对如何将语言模型应用到神经机器翻译模型中进行了研究。研究人员分析了预训练词嵌入何时为何在神经机器翻译模型中有效\cite{2018When}；如何在神经机器翻译模型中利用预训练的BERT模型\cite{DBLP:conf/emnlp/ClinchantJN19,DBLP:conf/emnlp/ImamuraS19,DBLP:conf/aaai/YangW0Z00020,DBLP:conf/aaai/WengYHCL20}；如何针对神经机器翻译任务进行预训练\cite{DBLP:journals/corr/abs-2001-08210,DBLP:conf/aaai/JiZDZCL20,DBLP:conf/acl/LewisLGGMLSZ20}；针对机器翻译中的Code-switching问题进行预训练\cite{DBLP:journals/corr/abs-2009-08088}；如何在微调过程中避免遗忘原始的语言模型任务\cite{DBLP:journals/corr/abs-2010-09403}。（{\color{red} 许：和NMT比较相关，放在正文，再全面一些}）

-\vspace{0.5em}
-\end{itemize}
-
-（扩展阅读）{\color{red} 是否放在扩展阅读，还是分布在这节的各个部分？}
-\parinterval  此外，还有很多工作对如何将语言模型应用到神经机器翻译模型中进行了研究。研究人员分析了预训练词嵌入何时为何在神经机器翻译模型中有效\upcite{2018When}；如何在神经机器翻译模型中利用预训练的BERT模型\upcite{DBLP:conf/emnlp/ClinchantJN19,DBLP:conf/emnlp/ImamuraS19,DBLP:conf/aaai/YangW0Z00020,DBLP:conf/aaai/WengYHCL20}；如何针对神经机器翻译任务进行预训练\upcite{DBLP:journals/corr/abs-2001-08210,DBLP:conf/aaai/JiZDZCL20,DBLP:conf/acl/LewisLGGMLSZ20}；针对机器翻译中的Code-switching问题进行预训练\upcite{DBLP:journals/corr/abs-2009-08088}；如何在微调过程中避免遗忘原始的语言模型任务\upcite{DBLP:journals/corr/abs-2010-09403}。
+% \vspace{0.5em}
+% \end{itemize}

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{3. 联合训练}
+\subsubsection{4. 多任务学习}

-\parinterval {\small\sffamily\bfnew{多任务学习}}\index{多任务学习}（Multitask Learning）\index{Multitask Learning}是机器学习的一个子领域，是指同时学习多个独立但是相关的任务\upcite{DBLP:journals/corr/Ruder17a}（{\color{red} 多一些参考文献？}）。多任务学习通过模型共享的方式，对多个模型进行学习，而这些模型都对应不同的任务，这样不同模型可以互相``促进''。在神经机器翻译中，为了使用单语数据，可以将翻译任务作为主任务，同时设置一些仅使用单语数据的子任务，通过这些子任务来捕捉单语数据中的语言知识\upcite{DBLP:conf/emnlp/DomhanH17}（{\color{red} 多一些参考文献？}）。
+\parinterval 在训练一个神经网络的时候，往往会给定模型一个训练目标，希望模型通过不断训练在这个目标上表现地越来越好。我们希望模型在训练过程中可以自动提取到与训练目标相关的所有信息。然而，过分地关注单个训练目标，可能使模型忽略掉其他可能有帮助的信息，这些信息可能来自于一些其他相关的任务\upcite{DBLP:journals/corr/Ruder17a}。通过联合多个独立但相关的任务共同学习，任务之间相互``促进''，就是{\small\sffamily\bfnew{多任务学习}}\index{多任务学习}（Multitask Learning）\index{Multitask Learning}方法\upcite{DBLP:journals/corr/Ruder17a,DBLP:books/sp/98/Caruana98,liu2019multi}。多任务学习的常用做法是针对多个相关的任务，共享模型的部分参数来学习不同任务之间相似的特征，并通过特定的模块来学习每个任务独立的特征。常用的策略是对底层的模型参数进行共享，顶层的模型参数用于独立学习各个不同的任务，如图所示。({\color{red} 许：加个图我感觉会合适一点，大致表达的意思是底层共享，上层接不同的任务})

-\parinterval 语言模型是使用目标端单语数据最直接的方式，但是翻译模型作为一个受限的语言模型，还需要依赖于源语言，并不能直接进行多任务学习。针对这个问题，对原有翻译模型结构进行了修改，在解码器中增加了一个语言模型子层，将这个子层用于语言模型任务（图\ref{fig:16-9-xc}）。在训练过程中，分别将双语数据和单语数据送入翻译模型和语言模型进行计算，得到的损失相加用于整体模型参数的梯度计算和参数更新，这里语言模型的参数是翻译模型的一部分。
+\parinterval 在神经机器翻译中，应用多任务学习的主要策略是将翻译任务作为主任务，同时设置一些仅使用单语数据的子任务，通过这些子任务来捕捉单语数据中的语言知识\upcite{DBLP:conf/emnlp/DomhanH17,DBLP:conf/emnlp/ZhangZ16,DBLP:journals/corr/LuongLSVK15}。一种多任务学习的方法是利用源语言单语数据，通过单个编码器对源语言数据进行建模，然后分别使用两个解码器来学习源语言排序和翻译任务。源语言排序任务是指对句子的顺序进行调整，可以通过单语数据来构造训练数据，从而使编码器训练地更加充分\upcite{DBLP:conf/emnlp/ZhangZ16}，如图所示。({\color{red}许： 加个图，单编码器，双解码器})
+
+\parinterval 虽然神经翻译模型可以看作一个受限的语言模型，但生成过程中需要依赖于源语言信息，因此无法直接利用目标语单语数据进行多任务学习。针对这个问题，可以对原有翻译模型结构进行修改，在解码器底层增加一个语言模型子层，这个子层用于学习语言模型任务，与编码器端是完全独立的，如图\ref{fig:16-9-xc}所示\upcite{DBLP:conf/emnlp/DomhanH17}。在训练过程中，可以分别将双语数据和单语数据送入翻译模型和语言模型进行计算，双语数据训练产生的梯度用于对整个模型进行参数更新，而单语数据产生的梯度只对语言模型子层进行参数更新。通过这种方式，可以有效利用单语数据使解码器端的底层网络训练地更加充分，从而提取到更有效的特征来生成翻译结果。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter16/Figures/figure-target-side-multi-task-learning}
-\caption{\red{机器翻译中的单任务学习和多任务学习}}
+\caption{\red{机器翻译中的多任务学习，重画}}
 \label{fig:16-9-xc}
 \end{figure}
 %-------------------------------------------

-\parinterval 除了多任务学习，还有一些方法将前向模型和反向模型一起训练，在训练过程中同时使用源语言端和目标语言端的单语数据来提升模型性能，在{\color{red} XXX}节中进行详细介绍。
-
-{\color{red}
-要说就全面一些，比如：
-
-Multi-task learning for multiple language translation
-
-Multi-task sequence to sequence learning
-
-Exploiting source-side monolingual data in neural machine translation
-
-在Neural Machine Translation: A Review and Survey中搜索一下关键词，还有别的survey
-}
-
+\parinterval 此外，还有一些工作对多任务学习进行了探讨。比如利用多任务学习来训练多到一模型（多个编码器，单个解码器）、一到多模型（单个编码器、多个解码器）和多到多模型（多个编码器、多个解码器），从而借助单语数据或其他数据来使编码器或解码器训练地更加充分\upcite{DBLP:journals/corr/LuongLSVK15}，任务的形式包括翻译任务、成分句法分析任务、图像标注等。另外一种策略是利用多任务学习的思想同时训练多个语言的翻译任务\upcite{DBLP:conf/acl/DongWHYW15,DBLP:journals/tacl/JohnsonSLKWCTVW17}，同样包括多到一翻译（多个语种到一个语种）、一到多翻译（一个语种到多个语种）以及多到多翻译（多个语种到多个语种），这种方法可以利用多种语言的训练数据进行学习，具有较大的潜力，逐渐受到了研究人员们的关注，具体内容可以参考\ref{multilingual-translation-model}一节。

 %----------------------------------------------------------------------------------------
 %    NEW SECTION
@@ -433,7 +408,7 @@ Joint training for neural machine translation models with monolingual data
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
-\section{多语言翻译模型}
+\section{多语言翻译模型}\label{multilingual-translation-model}

 \parinterval 低资源机器翻译面临的主要挑战是缺乏大规模高质量的双语数据。这个问题往往伴随着多语言的翻译任务\upcite{dabre2019brief}\upcite{dabre2020survey}。也就是，要同时开发多个不同语言之间的机器翻译系统，其中少部分语言是富资源语言，而其它语言是低资源语言。针对低资源语种双语数据稀少或者缺失的情况，一种常见的思路是利用富资源语种的数据或者系统帮助低资源机器翻译系统。这也构成了多语言翻译的思想，并延伸出大量的研究工作。有三个典型研究方向：


--- a/Chapter9/Figures/figure-4-gram.tex
+++ b/Chapter9/Figures/figure-4-gram.tex
@@ -35,9 +35,9 @@

 \begin{pgfonlayer}{background}
 {
-\node [rectangle,inner sep=0.1em,fill=ugreen!20!white] [fit = (w0) (index0)] (wordbox0) {};
-\node [rectangle,inner sep=0.1em,fill=ugreen!20!white] [fit = (w1) (index1)] (wordbox1) {};
-\node [rectangle,inner sep=0.1em,fill=ugreen!20!white] [fit = (w2) (index2)] (wordbox2) {};
+\node [rectangle,draw,inner sep=0.1em,fill=ugreen!20!white] [fit = (w0) (index0)] (wordbox0) {};
+\node [rectangle,draw,inner sep=0.1em,fill=ugreen!20!white] [fit = (w1) (index1)] (wordbox1) {};
+\node [rectangle,draw,inner sep=0.1em,fill=ugreen!20!white] [fit = (w2) (index2)] (wordbox2) {};
 }
 \end{pgfonlayer}


--- a/Chapter9/Figures/figure-embedding.tex
+++ b/Chapter9/Figures/figure-embedding.tex
@@ -8,7 +8,7 @@
 \node [anchor=south] (w1) at (o1.north) {\footnotesize{桌子}};
 \node [anchor=south] (w2) at (o2.north) {\footnotesize{椅子}};
 {
-\node [anchor=south,fill=red!20!white] (cosine) at (w1.north) {\footnotesize{$\textrm{cosine}(\textrm{‘桌子’},\textrm{‘椅子’})=0.5$}};
+\node [anchor=south,fill=red!20!white] (cosine) at (w1.north) {\footnotesize{$\textrm{cos}(\textrm{‘桌子’},\textrm{‘椅子’})=0.5$}};
 }
 \end{scope}
 }

--- a/Chapter9/Figures/figure-one-hot.tex
+++ b/Chapter9/Figures/figure-one-hot.tex
@@ -7,7 +7,7 @@
 \node [anchor=south] (w1) at (o1.north) {\footnotesize{桌子}};
 \node [anchor=south] (w2) at (o2.north) {\footnotesize{椅子}};
 {
-\node [anchor=south,fill=red!20!white] (cosine) at (w1.north) {\footnotesize{$\textrm{cosine}(\textrm{‘桌子’},\textrm{‘椅子’})=0$}};
+\node [anchor=south,fill=red!20!white] (cosine) at (w1.north) {\footnotesize{$\textrm{cos}(\textrm{‘桌子’},\textrm{‘椅子’})=0$}};
 }
 \end{scope}


--- a/Chapter9/chapter9.tex
+++ b/Chapter9/chapter9.tex
@@ -1564,9 +1564,9 @@ z_t&=&\gamma z_{t-1}+(1-\gamma) \frac{\partial J}{\partial {\theta}_t} \cdot  \f
 \parinterval  为了使神经网络模型训练更加稳定，通常还会考虑其他策略。

 \begin{itemize}
-\item {\small\bfnew{批量归一化}}\index{批量归一化}（Batch Normalization）\index{Batch Normalization}。批量归一化，顾名思义，是以进行学习时的小批量样本为单位进行归一化\upcite{ioffe2015batch}。具体而言，就是对神经网络隐层输出的每一个维度，沿着批次的方向进行均值为0、方差为1的归一化。在深层神经网络中，每一层网络都可以使用批量归一化操作。这样使神经网络任意一层的输入不至于过大或过小，从而防止隐层中异常值导致模型状态的巨大改变。
+\item {\small\bfnew{批量标准化}}\index{批量标准化}（Batch Normalization）\index{Batch Normalization}。批量标准化，顾名思义，是以进行学习时的小批量样本为单位进行标准化\upcite{ioffe2015batch}。具体而言，就是对神经网络隐层输出的每一个维度，沿着批次的方向进行均值为0、方差为1的标准化。在深层神经网络中，每一层网络都可以使用批量标准化操作。这样使神经网络任意一层的输入不至于过大或过小，从而防止隐层中异常值导致模型状态的巨大改变。

-\item {\small\bfnew{层归一化}}\index{层归一化}（Layer Normalization）\index{Layer Normalization}。类似的，层归一化更多是针对自然语言处理这种序列处理任务\upcite{Ba2016LayerN}，它和批量归一化的原理是一样的，只是归一化操作是在序列上同一层网络的输出结果上进行的，也就是归一化操作沿着序列方向进行。这种方法可以很好的避免序列上不同位置神经网络输出结果的不可比性。同时由于归一化后所有的结果都转化到一个可比的范围，使得隐层状态可以在不同层之间进行自由组合。
+\item {\small\bfnew{层标准化}}\index{层标准化}（Layer Normalization）\index{Layer Normalization}。类似的，层标准化更多是针对自然语言处理这种序列处理任务\upcite{Ba2016LayerN}，它和批量标准化的原理是一样的，只是标准化操作是在序列上同一层网络的输出结果上进行的，也就是标准化操作沿着序列方向进行。这种方法可以很好的避免序列上不同位置神经网络输出结果的不可比性。同时由于标准化后所有的结果都转化到一个可比的范围，使得隐层状态可以在不同层之间进行自由组合。

 \item {\small\bfnew{残差网络}}\index{残差网络}（Residual Networks）\index{Residual Networks}。最初，残差网络是为了解决神经网络持续加深时的模型退化问题\upcite{DBLP:journals/corr/HeZRS15}，但是残差结构对解决梯度消失和梯度爆炸问题也有所帮助。有了残差结构，可以很轻松的构建几十甚至上百层的神经网络，而不用担心层数过深造成的梯度消失问题。残差网络的结构如图\ref{fig:9-51}所示。图\ref{fig:9-51}中右侧的曲线叫做{\small\bfnew{跳接}}\index{跳接}（Skip Connection）\index{Skip Connection}，通过跳接在激活函数前，将上一层（或几层）之前的输出与本层计算的输出相加，将求和的结果输入到激活函数中作为本层的输出。假设残差结构的输入为$ {\mathbi{x}}_l $，输出为$ {\mathbi{x}}_{l+1} $，则有

@@ -1593,7 +1593,7 @@ z_t&=&\gamma z_{t-1}+(1-\gamma) \frac{\partial J}{\partial {\theta}_t} \cdot  \f
 \label{eq:9-45}
 \end{eqnarray}

-由上式可知，残差网络可以将后一层的梯度$ \frac{\partial L}{\partial {\mathbi{x}}_{l+1}} $不经过任何乘法项直接传递到$ \frac{\partial L}{\partial {\mathbi{x}}_l} $，从而缓解了梯度经过每一层后多次累乘造成的梯度消失问题。在{\chaptertwelve}中还会看到，在机器翻译中残差结构可以和层归一化一起使用，而且这种组合可以取得很好的效果。
+由上式可知，残差网络可以将后一层的梯度$ \frac{\partial L}{\partial {\mathbi{x}}_{l+1}} $不经过任何乘法项直接传递到$ \frac{\partial L}{\partial {\mathbi{x}}_l} $，从而缓解了梯度经过每一层后多次累乘造成的梯度消失问题。在{\chaptertwelve}中还会看到，在机器翻译中残差结构可以和层标准化一起使用，而且这种组合可以取得很好的效果。

 \end{itemize}

@@ -1946,7 +1946,7 @@ z_t&=&\gamma z_{t-1}+(1-\gamma) \frac{\partial J}{\partial {\theta}_t} \cdot  \f
 \label{eq:9-120}
 \end{eqnarray}

-\noindent 这里，exp($\cdot$)表示指数函数。Softmax函数是一个典型的归一化函数，它可以将输入的向量的每一维都转化为0-1之间的数，同时保证所有维的和等于1。Softmax的另一个优点是，它本身（对于输出的每一维）都是可微的（如图\ref{fig:softmax}所示），因此可以直接使用基于梯度的方法进行优化。实际上，Softmax经常被用于分类任务。也可以把机器翻译中目标语单词的生成看作一个分类问题，它的类别数是|$V$|。
+\noindent 这里，exp($\cdot$)表示指数函数。Softmax函数是一个典型的标准化函数，它可以将输入的向量的每一维都转化为0-1之间的数，同时保证所有维的和等于1。Softmax的另一个优点是，它本身（对于输出的每一维）都是可微的（如图\ref{fig:softmax}所示），因此可以直接使用基于梯度的方法进行优化。实际上，Softmax经常被用于分类任务。也可以把机器翻译中目标语单词的生成看作一个分类问题，它的类别数是|$V$|。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -2040,7 +2040,7 @@ z_t&=&\gamma z_{t-1}+(1-\gamma) \frac{\partial J}{\partial {\theta}_t} \cdot  \f

 \subsubsection{1. One-hot编码}

-\parinterval  {\small\sffamily\bfseries{One-hot编码}}\index{One-hot编码}（也称{\small\sffamily\bfseries{独热编码}}\index{独热编码}）是传统的单词表示方法。One-hot编码把单词表示为词汇表大小的0-1向量，其中只有该词所对应的那一项是1，而其余所有项都是零。举个简单的例子，假如有一个词典，里面包含10k个单词，并进行编号。那么每个单词都可以表示为一个10k维的One-hot向量，它仅在对应编号那个维度为1，其他维度都为0，如图\ref{fig:9-64}所示。
+\parinterval  {\small\sffamily\bfseries{One-hot编码}}\index{One-hot编码}（也称{\small\sffamily\bfseries{独热编码}}\index{独热编码}）是传统的单词表示方法。One-hot编码把单词表示为词汇表大小的0-1向量，其中只有该词所对应的那一项是1，而其余所有项都是0。举个简单的例子，假如有一个词典，里面包含10k个单词，并进行编号。那么每个单词都可以表示为一个10k维的One-hot向量，它仅在对应编号那个维度为1，其他维度都为0，如图\ref{fig:9-64}所示。

 %----------------------------------------------
 \begin{figure}[htp]

--- a/bibliography.bib
+++ b/bibliography.bib
@@ -4975,6 +4975,94 @@ author    = {Yoshua Bengio and

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%% chapter 11------------------------------------------------------
+@article{DBLP:journals/pami/RenHG017,
+  author    = {Shaoqing Ren and
+               Kaiming He and
+               Ross Girshick and
+               Jian Sun},
+  title     = {Faster {R-CNN:} Towards Real-Time Object Detection with Region Proposal
+               Networks},
+  journal   = {Institute of Electrical and Electronics Engineers},
+  volume    = {39},
+  number    = {6},
+  pages     = {1137--1149},
+  year      = {2017}
+}
+
+@inproceedings{DBLP:conf/eccv/LiuAESRFB16,
+  author    = {Wei Liu and
+               Dragomir Anguelov and
+               Dumitru Erhan and
+               Christian Szegedy and
+               Scott Reed and
+               Cheng-Yang Fu and
+               Alexander C. Berg},
+  title     = {{SSD:} Single Shot MultiBox Detector},
+  publisher    = {European Conference on Computer Vision},
+  volume    = {9905},
+  pages     = {21--37},
+  publisher = {Springer},
+  year      = {2016}
+}
+
+@inproceedings{devlin-etal-2014-fast,
+  author    = {Jacob Devlin and
+               Rabih Zbib and
+               Zhongqiang Huang and
+               Thomas Lamar and
+               Richard M. Schwartz and
+               John Makhoul},
+  title     = {Fast and Robust Neural Network Joint Models for Statistical Machine
+               Translation},
+  pages     = {1370--1380},
+  publisher = {Annual Meeting of the Association for Computational Linguistics},
+  year      = {2014}
+}
+
+@inproceedings{DBLP:conf/acl/WangLLJL15,
+  author    = {Mingxuan Wang and
+               Zhengdong Lu and
+               Hang Li and
+               Wenbin Jiang and
+               Qun Liu},
+  title     = {genCNN: {A} Convolutional Architecture for Word Sequence Prediction},
+  pages     = {1567--1576},
+  publisher = {The Association for Computer Linguistics},
+  year      = {2015}
+}
+
+@inproceedings{DBLP:conf/icassp/ZhangCJ17,
+  author    = {Yu Zhang and
+               William Chan and
+               Navdeep Jaitly},
+  title     = {Very deep convolutional networks for end-to-end speech recognition},
+  pages     = {4845--4849},
+  publisher = {Institute of Electrical and Electronics Engineers},
+  year      = {2017}
+}
+
+@inproceedings{DBLP:conf/icassp/DengAY13,
+  author    = {Li Deng and
+               Ossama Abdel-Hamid and
+               Dong Yu},
+  title     = {A deep convolutional neural network using heterogeneous pooling for
+               trading acoustic invariance with phonetic confusion},
+  pages     = {6669--6673},
+  publisher = {Institute of Electrical and Electronics Engineers},
+  year      = {2013}
+}
+
+@inproceedings{DBLP:journals/corr/LuongPM15,
+  author    = {Thang Luong and
+               Hieu Pham and
+               Christopher D. Manning},
+  title     = {Effective Approaches to Attention-based Neural Machine Translation},
+  publisher = {Conference on Empirical Methods in Natural
+               Language Processing},
+  pages     = {1412--1421},
+  year      = {2015}
+}
+
 @inproceedings{DBLP:conf/acl-codeswitch/WangCK18,
  author    = {Changhan Wang and
               Kyunghyun Cho and
@@ -5112,11 +5200,12 @@ author    = {Yoshua Bengio and
 }

 @article{Sennrich2016ImprovingNM,
-  title={Improving Neural Machine Translation Models with Monolingual Data},
-  author={Rico Sennrich and B. Haddow and Alexandra Birch},
-  journal={ArXiv},
-  year={2016},
-  volume={abs/1511.06709}
+  author    = {Rico Sennrich and
+               Barry Haddow and
+               Alexandra Birch},
+  title     = {Improving Neural Machine Translation Models with Monolingual Data},
+  publisher = {The Association for Computer Linguistics},
+  year      = {2016}
 }

 @inproceedings{bahdanau2014neural,
@@ -5130,7 +5219,7 @@ author    = {Yoshua Bengio and

 @article{Waibel1989PhonemeRU,
  title={Phoneme recognition using time-delay neural networks},
-  author={Alexander H. Waibel and Toshiyuki Hanazawa and Geoffrey E. Hinton and K. Shikano and K. Lang},
+  author={Alexander Waibel and Toshiyuki Hanazawa and Geoffrey Hinton and Kiyohiro Shikano and K.J. Lang},
  journal={IEEE Transactions on Acoustics, Speech, and Signal Processing},
  year={1989},
  volume={37},
@@ -5139,7 +5228,7 @@ author    = {Yoshua Bengio and

 @article{LeCun1989BackpropagationAT,
  title={Backpropagation Applied to Handwritten Zip Code Recognition},
-  author={Y. LeCun and B. Boser and J. Denker and D. Henderson and R. Howard and W. Hubbard and L. Jackel},
+  author={Yann LeCun and Bernhard Boser and John Denker and Don Henderson and R. Howard and W.E. Hubbard and Larry Jackel},
  journal={Neural Computation},
  year={1989},
  volume={1},
@@ -5147,7 +5236,7 @@ author    = {Yoshua Bengio and
 }

 @article{726791,
-  author={Y. {Lecun} and L. {Bottou} and Y. {Bengio} and P. {Haffner}},
+  author={Yann {Lecun} and Leon {Bottou} and Y. {Bengio} and Patrick {Haffner}},
  journal={Proceedings of the IEEE}, 
  title={Gradient-based learning applied to document recognition}, 
  year={1998},
@@ -5180,7 +5269,7 @@ author    = {Yoshua Bengio and

 @article{Girshick2015FastR,
  title={Fast R-CNN},
-  author={Ross B. Girshick},
+  author={Ross Girshick},
  journal={International Conference on Computer Vision},
  year={2015},
  pages={1440-1448}
@@ -5197,7 +5286,7 @@ author    = {Yoshua Bengio and

 @inproceedings{Kalchbrenner2014ACN,
  title={A Convolutional Neural Network for Modelling Sentences},
-  author={Nal Kalchbrenner and Edward Grefenstette and P. Blunsom},
+  author={Nal Kalchbrenner and Edward Grefenstette and Phil Blunsom},
  publisher={Annual Meeting of the Association for Computational Linguistics},
  pages={655--665},
  year={2014}
@@ -5414,26 +5503,11 @@ author    = {Yoshua Bengio and
  year={2017},
 }

-@article{Minaee2020DeepLB,
-  title={Deep Learning Based Text Classification: A Comprehensive Review},
-  author    = {Shervin Minaee and
-               Nal Kalchbrenner and
-               Erik Cambria and
-               Narjes Nikzad and
-               Meysam Chenaghlu and
-               Jianfeng Gao},
-  journal={CoRR},
-  year={2020},
-  volume={abs/2004.03705}
-}
-
-@article{Sifre2013RotationSA,
-  title={Rotation, Scaling and Deformation Invariant Scattering for Texture Discrimination},
-  author    = {Laurent Sifre and
-               St{\'{e}}phane Mallat},
-  journal={IEEE Conference on Computer Vision and Pattern Recognition},
-  year={2013},
-  pages={1233-1240}
+@article{sifre2014rigid,
+  title={Rigid-motion scattering for image classification},
+  author={Sifre, Laurent and Mallat, St{\'e}phane},
+  year={2014},
+  publisher={Citeseer}
 }

 @article{Taigman2014DeepFaceCT,
@@ -5475,6 +5549,27 @@ author    = {Yoshua Bengio and

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%% chapter 12------------------------------------------------------
+@inproceedings{DBLP:conf/coling/ZengLLZZ14,
+  author    = {Daojian Zeng and
+               Kang Liu and
+               Siwei Lai and
+               Guangyou Zhou and
+               Jun Zhao},
+  title     = {Relation Classification via Convolutional Deep Neural Network},
+  pages     = {2335--2344},
+  publisher = {International Conference on Computational Linguistics},
+  year      = {2014}
+}
+
+@inproceedings{DBLP:conf/acl/JohnsonZ17,
+  author    = {Rie Johnson and
+               Tong Zhang},
+  title     = {Deep Pyramid Convolutional Neural Networks for Text Categorization},
+  pages     = {562--570},
+  publisher = {Association for Computational Linguistics},
+  year      = {2017}
+}
+
 @inproceedings{DBLP:conf/interspeech/GulatiQCPZYHWZW20,
  author    = {Anmol Gulati and
               James Qin and
@@ -7495,7 +7590,502 @@ author    = {Yoshua Bengio and
  publisher = {Conference on Empirical Methods in Natural Language Processing},
  year      = {2019}
 }
-
+@inproceedings{DBLP:conf/acl/FadaeeBM17a,
+  author    = {Marzieh Fadaee and
+               Arianna Bisazza and
+               Christof Monz},
+  title     = {Data Augmentation for Low-Resource Neural Machine Translation},
+  pages     = {567--573},
+  publisher = {Association for Computational Linguistics},
+  year      = {2017}
+}
+@inproceedings{DBLP:conf/emnlp/WangPDN18,
+  author    = {Xinyi Wang and
+               Hieu Pham and
+               Zihang Dai and
+               Graham Neubig},
+  title     = {SwitchOut: an Efficient Data Augmentation Algorithm for Neural Machine
+               Translation},
+  pages     = {856--861},
+  publisher = {Conference on Empirical Methods in Natural Language Processing},
+  year      = {2018}
+}
+@inproceedings{DBLP:conf/emnlp/MartonCR09,
+  author    = {Yuval Marton and
+               Chris Callison-Burch and
+               Philip Resnik},
+  title     = {Improved Statistical Machine Translation Using Monolingually-Derived
+               Paraphrases},
+  pages     = {381--390},
+  publisher = {Annual Meeting of the Association for Computational Linguistics},
+  year      = {2009}
+}
+@inproceedings{DBLP:conf/eacl/LapataSM17,
+  author    = {Jonathan Mallinson and
+               Rico Sennrich and
+               Mirella Lapata},
+  title     = {Paraphrasing Revisited with Neural Machine Translation},
+  pages     = {881--893},
+  publisher = {European Association of Computational Linguistics},
+  year      = {2017}
+}
+@inproceedings{DBLP:conf/aclnmt/ImamuraFS18,
+  author    = {Kenji Imamura and
+               Atsushi Fujita and
+               Eiichiro Sumita},
+  title     = {Enhancement of Encoder and Attention Using Target Monolingual Corpora
+               in Neural Machine Translation},
+  pages     = {55--63},
+  publisher = {Association for Computational Linguistics},
+  year      = {2018}
+}
+@inproceedings{DBLP:conf/icml/VincentLBM08,
+  author    = {Pascal Vincent and
+               Hugo Larochelle and
+               Yoshua Bengio and
+               Pierre-Antoine Manzagol},
+  title     = {Extracting and composing robust features with denoising autoencoders},
+  series    = {{ACM} International Conference Proceeding Series},
+  volume    = {307},
+  pages     = {1096--1103},
+  publisher = {International Conference on Machine Learning}
+}
+@article{DBLP:journals/ipm/FarhanTAJATT20,
+  author    = {Wael Farhan and
+               Bashar Talafha and
+               Analle Abuammar and
+               Ruba Jaikat and
+               Mahmoud Al-Ayyoub and
+               Ahmad Bisher Tarakji and
+               Anas Toma},
+  title     = {Unsupervised dialectal neural machine translation},
+  journal   = {Inform Process Manag},
+  volume    = {57},
+  number    = {3},
+  pages     = {102181},
+  year      = {2020}
+}
+@inproceedings{DBLP:conf/iclr/LampleCDR18,
+  author    = {Guillaume Lample and
+               Alexis Conneau and
+               Ludovic Denoyer and
+               Marc'Aurelio Ranzato},
+  title     = {Unsupervised Machine Translation Using Monolingual Corpora Only},
+  publisher = {International Conference on Learning Representations},
+  year      = {2018}
+}
+@article{DBLP:journals/coling/BhagatH13,
+  author    = {Rahul Bhagat and
+               Eduard H. Hovy},
+  title     = {What Is a Paraphrase?},
+  journal   = {Computational Linguistics},
+  volume    = {39},
+  number    = {3},
+  pages     = {463--472},
+  year      = {2013}
+}
+@article{2010Generating,
+  title={Generating Phrasal and Sentential Paraphrases: A Survey of Data-Driven Methods},
+  author={ Madnani, Nitin  and  Dorr, Bonnie J. },
+  journal={Computational Linguistics},
+  volume={36},
+  number={3},
+  pages={341-387},
+  year={2010},
+}
+@inproceedings{DBLP:conf/wmt/GuoH19,
+  author    = {Yinuo Guo and
+               Junfeng Hu},
+  title     = {Meteor++ 2.0: Adopt Syntactic Level Paraphrase Knowledge into Machine
+               Translation Evaluation},
+  pages     = {501--506},
+  publisher = {Association for Computational Linguistics},
+  year      = {2019}
+}
+@inproceedings{DBLP:conf/acl/ZhouSW19,
+  author    = {Zhong Zhou and
+               Matthias Sperber and
+               Alexander H. Waibel},
+  title     = {Paraphrases as Foreign Languages in Multilingual Neural Machine Translation},
+  pages     = {113--122},
+  publisher = {Association for Computational Linguistics},
+  year      = {2019}
+}
+@inproceedings{DBLP:conf/eacl/LapataSM17,
+  author    = {Jonathan Mallinson and
+               Rico Sennrich and
+               Mirella Lapata},
+  title     = {Paraphrasing Revisited with Neural Machine Translation},
+  pages     = {881--893},
+  publisher = {European Association of Computational Linguistics},
+  year      = {2017}
+}
+@inproceedings{yasuda2008method,
+  title={Method for building sentence-aligned corpus from wikipedia},
+  author={Yasuda, Keiji and Sumita, Eiichiro},
+  publisher={2008 AAAI Workshop on Wikipedia and Artificial Intelligence},
+  pages={263--268},
+  year={2008}
+}
+@article{2005Improving,
+  title={Improving Machine Translation Performance by Exploiting Non-Parallel Corpora},
+  author={ Munteanu, Ds  and  Marcu, D },
+  journal={Computational Linguistics},
+  volume={31},
+  number={4},
+  pages={477-504},
+  year={2005},
+}
+@inproceedings{DBLP:conf/naacl/SmithQT10,
+  author    = {Jason R. Smith and
+               Chris Quirk and
+               Kristina Toutanova},
+  title     = {Extracting Parallel Sentences from Comparable Corpora using Document
+               Level Alignment},
+  pages     = {403--411},
+  publisher = {The Association for Computational Linguistics},
+  year      = {2010}
+}
+@article{DBLP:journals/jair/RuderVS19,
+  author    = {Sebastian Ruder and
+               Ivan Vulic and
+               Anders S{\o}gaard},
+  title     = {A Survey of Cross-lingual Word Embedding Models},
+  journal   = {J. Artif. Intell. Res.},
+  volume    = {65},
+  pages     = {569--631},
+  year      = {2019}
+}
+@inproceedings{DBLP:conf/acl/TuLLLL16,
+  author    = {Zhaopeng Tu and
+               Zhengdong Lu and
+               Yang Liu and
+               Xiaohua Liu and
+               Hang Li},
+  title     = {Modeling Coverage for Neural Machine Translation},
+  publisher = {The Association for Computer Linguistics},
+  year      = {2016}
+}
+@article{DBLP:journals/tacl/TuLLLL17,
+  author    = {Zhaopeng Tu and
+               Yang Liu and
+               Zhengdong Lu and
+               Xiaohua Liu and
+               Hang Li},
+  title     = {Context Gates for Neural Machine Translation},
+  journal   = {Annual Meeting of the Association for Computational Linguistics},
+  volume    = {5},
+  pages     = {87--99},
+  year      = {2017}
+}
+@inproceedings{DBLP:conf/wmt/WangCJYCLSWY17,
+  author    = {Yuguang Wang and
+               Shanbo Cheng and
+               Liyang Jiang and
+               Jiajun Yang and
+               Wei Chen and
+               Muze Li and
+               Lin Shi and
+               Yanfeng Wang and
+               Hongtao Yang},
+  title     = {Sogou Neural Machine Translation Systems for {WMT17}},
+  pages     = {410--415},
+  publisher = {Association for Computational Linguistics},
+  year      = {2017}
+}
+@article{ng2019facebook,
+  title={Facebook FAIR's WMT19 News Translation Task Submission},
+  author={Ng, Nathan and Yee, Kyra and Baevski, Alexei and Ott, Myle and Auli, Michael and Edunov, Sergey},
+  journal={arXiv preprint arXiv:1907.06616},
+  year={2019}
+}
+@inproceedings{DBLP:conf/wmt/WangLLJZLLXZ18,
+  author    = {Qiang Wang and
+               Bei Li and
+               Jiqiang Liu and
+               Bojian Jiang and
+               Zheyang Zhang and
+               Yinqiao Li and
+               Ye Lin and
+               Tong Xiao and
+               Jingbo Zhu},
+  title     = {The NiuTrans Machine Translation System for {WMT18}},
+  pages     = {528--534},
+  publisher = {Association for Computational Linguistics},
+  year      = {2018}
+}
+@inproceedings{DBLP:conf/wmt/LiLXLLLWZXWFCLL19,
+  author    = {Bei Li and
+               Yinqiao Li and
+               Chen Xu and
+               Ye Lin and
+               Jiqiang Liu and
+               Hui Liu and
+               Ziyang Wang and
+               Yuhao Zhang and
+               Nuo Xu and
+               Zeyang Wang and
+               Kai Feng and
+               Hexuan Chen and
+               Tengbo Liu and
+               Yanyang Li and
+               Qiang Wang and
+               Tong Xiao and
+               Jingbo Zhu},
+  title     = {The NiuTrans Machine Translation Systems for {WMT19}},
+  pages     = {257--266},
+  publisher = {Association for Computational Linguistics},
+  year      = {2019}
+}
+@inproceedings{DBLP:conf/nips/DaiL15,
+  author    = {Andrew M. Dai and
+               Quoc V. Le},
+  title     = {Semi-supervised Sequence Learning},
+  pages     = {3079--3087},
+  publisher = {Conference and Workshop on Neural Information Processing Systems},
+  year      = {2015}
+}
+@article{DBLP:journals/corr/abs-1802-05365,
+  author    = {Matthew E. Peters and
+               Mark Neumann and
+               Mohit Iyyer and
+               Matt Gardner and
+               Christopher Clark and
+               Kenton Lee and
+               Luke Zettlemoyer},
+  title     = {Deep contextualized word representations},
+  journal   = {CoRR},
+  volume    = {abs/1802.05365},
+  year      = {2018}
+}
+@inproceedings{DBLP:conf/icml/CollobertW08,
+  author    = {Ronan Collobert and
+               Jason Weston},
+  title     = {A unified architecture for natural language processing: deep neural
+               networks with multitask learning},
+  volume    = {307},
+  pages     = {160--167},
+  publisher = {International Conference on Machine Learning},
+  year      = {2008}
+}
+@inproceedings{DBLP:conf/aclwat/NeishiSTIYT17,
+  author    = {Masato Neishi and
+               Jin Sakuma and
+               Satoshi Tohda and
+               Shonosuke Ishiwatari and
+               Naoki Yoshinaga and
+               Masashi Toyoda},
+  title     = {A Bag of Useful Tricks for Practical Neural Machine Translation: Embedding
+               Layer Initialization and Large Batch Size},
+  pages     = {99--109},
+  publisher = {Asian Federation of Natural Language Processing},
+  year      = {2017}
+}
+@inproceedings{2018When,
+  title={When and Why are Pre-trainedWord Embeddings Useful for Neural Machine Translation?},
+  author={ Qi, Ye  and  Sachan, Devendra Singh  and  Felix, Matthieu  and  Padmanabhan, Sarguna Janani  and  Neubig, Graham },
+  publisher = {Annual Conference of the North American Chapter of the Association for Computational Linguistics},
+  year={2018},
+}
+@inproceedings{DBLP:conf/acl/PetersABP17,
+  author    = {Matthew E. Peters and
+               Waleed Ammar and
+               Chandra Bhagavatula and
+               Russell Power},
+  title     = {Semi-supervised sequence tagging with bidirectional language models},
+  pages     = {1756--1765},
+  publisher = {Association for Computational Linguistics},
+  year      = {2017}
+}
+@inproceedings{DBLP:conf/naacl/PetersNIGCLZ18,
+  author    = {Matthew E. Peters and
+               Mark Neumann and
+               Mohit Iyyer and
+               Matt Gardner and
+               Christopher Clark and
+               Kenton Lee and
+               Luke Zettlemoyer},
+  title     = {Deep Contextualized Word Representations},
+  pages     = {2227--2237},
+  publisher = {Association for Computational Linguistics},
+  year      = {2018}
+}
+@inproceedings{DBLP:conf/naacl/PetersNIGCLZ18,
+  author    = {Matthew E. Peters and
+               Mark Neumann and
+               Mohit Iyyer and
+               Matt Gardner and
+               Christopher Clark and
+               Kenton Lee and
+               Luke Zettlemoyer},
+  title     = {Deep Contextualized Word Representations},
+  pages     = {2227--2237},
+  publisher = {Association for Computational Linguistics},
+  year      = {2018}
+}
+@inproceedings{DBLP:conf/naacl/PetersNIGCLZ18,
+  author    = {Matthew E. Peters and
+               Mark Neumann and
+               Mohit Iyyer and
+               Matt Gardner and
+               Christopher Clark and
+               Kenton Lee and
+               Luke Zettlemoyer},
+  title     = {Deep Contextualized Word Representations},
+  pages     = {2227--2237},
+  publisher = {Annual Conference of the North American Chapter of the Association for Computational Linguistics},
+  year      = {2018}
+}
+@inproceedings{DBLP:conf/emnlp/ClinchantJN19,
+  author    = {St{\'{e}}phane Clinchant and
+               Kweon Woo Jung and
+               Vassilina Nikoulina},
+  title     = {On the use of {BERT} for Neural Machine Translation},
+  pages     = {108--117},
+  publisher = {Association for Computational Linguistics},
+  year      = {2019}
+}
+@inproceedings{DBLP:conf/emnlp/ImamuraS19,
+  author    = {Kenji Imamura and
+               Eiichiro Sumita},
+  title     = {Recycling a Pre-trained {BERT} Encoder for Neural Machine Translation},
+  pages     = {23--31},
+  publisher = {Association for Computational Linguistics},
+  year      = {2019}
+}
+@inproceedings{DBLP:conf/naacl/EdunovBA19,
+  author    = {Sergey Edunov and
+               Alexei Baevski and
+               Michael Auli},
+  title     = {Pre-trained language model representations for language generation},
+  pages     = {4052--4059},
+  publisher = {Annual Conference of the North American Chapter of the Association for Computational Linguistics},
+  year      = {2019}
+}
+@article{DBLP:journals/corr/abs-1908-06259,
+  author    = {Tianyu He and
+               Xu Tan and
+               Tao Qin},
+  title     = {Hard but Robust, Easy but Sensitive: How Encoder and Decoder Perform
+               in Neural Machine Translation},
+  journal   = {CoRR},
+  volume    = {abs/1908.06259},
+  year      = {2019}
+}
+@inproceedings{DBLP:conf/aaai/YangW0Z00020,
+  author    = {Jiacheng Yang and
+               Mingxuan Wang and
+               Hao Zhou and
+               Chengqi Zhao and
+               Weinan Zhang and
+               Yong Yu and
+               Lei Li},
+  title     = {Towards Making the Most of {BERT} in Neural Machine Translation},
+  pages     = {9378--9385},
+  publisher = {AAAI Conference on Artificial Intelligence},
+  year      = {2020}
+}
+@inproceedings{DBLP:conf/acl/LewisLGGMLSZ20,
+  author    = {Mike Lewis and
+               Yinhan Liu and
+               Naman Goyal and
+               Marjan Ghazvininejad and
+               Abdelrahman Mohamed and
+               Omer Levy and
+               Veselin Stoyanov and
+               Luke Zettlemoyer},
+  title     = {{BART:} Denoising Sequence-to-Sequence Pre-training for Natural Language
+               Generation, Translation, and Comprehension},
+  pages     = {7871--7880},
+  publisher = {Annual Meeting of the Association for Computational Linguistics},
+  year      = {2020}
+}
+@inproceedings{DBLP:conf/emnlp/QiYGLDCZ020,
+  author    = {Weizhen Qi and
+               Yu Yan and
+               Yeyun Gong and
+               Dayiheng Liu and
+               Nan Duan and
+               Jiusheng Chen and
+               Ruofei Zhang and
+               Ming Zhou},
+  title     = {ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training},
+  pages     = {2401--2410},
+  publisher = {Annual Meeting of the Association for Computational Linguistics},
+  year      = {2020}
+}
+@incollection{DBLP:books/sp/98/Caruana98,
+  author    = {Rich Caruana},
+  title     = {Multitask Learning},
+  pages     = {95--133},
+  publisher = {Springer},
+  year      = {1998}
+}
+@article{liu2019multi,
+  title={Multi-task deep neural networks for natural language understanding},
+  author={Liu, Xiaodong and He, Pengcheng and Chen, Weizhu and Gao, Jianfeng},
+  journal={arXiv preprint arXiv:1901.11504},
+  year={2019}
+}
+@inproceedings{DBLP:journals/corr/LuongLSVK15,
+  author    = {Minh-Thang Luong and
+               Quoc V. Le and
+               Ilya Sutskever and
+               Oriol Vinyals and
+               Lukasz Kaiser},
+  title     = {Multi-task Sequence to Sequence Learning},
+  publisher = {International Conference on Learning Representations},
+  year      = {2016}
+}
+@inproceedings{DBLP:conf/emnlp/ZhangZ16,
+  author    = {Jiajun Zhang and
+               Chengqing Zong},
+  title     = {Exploiting Source-side Monolingual Data in Neural Machine Translation},
+  pages     = {1535--1545},
+  publisher = {Conference on Empirical Methods in Natural Language Processing},
+  year      = {2016}
+}
+@article{DBLP:journals/tacl/JohnsonSLKWCTVW17,
+  author    = {Melvin Johnson and
+               Mike Schuster and
+               Quoc V. Le and
+               Maxim Krikun and
+               Yonghui Wu and
+               Zhifeng Chen and
+               Nikhil Thorat and
+               Fernanda B. Vi{\'{e}}gas and
+               Martin Wattenberg and
+               Greg Corrado and
+               Macduff Hughes and
+               Jeffrey Dean},
+  title     = {Google's Multilingual Neural Machine Translation System: Enabling
+               Zero-Shot Translation},
+  journal   = {Transactions of the Association for Computational Linguistics},
+  volume    = {5},
+  pages     = {339--351},
+  year      = {2017}
+}
+@article{DBLP:journals/csl/GulcehreFXCB17,
+  author    = {{\c{C}}aglar G{\"{u}}l{\c{c}}ehre and
+               Orhan Firat and
+               Kelvin Xu and
+               Kyunghyun Cho and
+               Yoshua Bengio},
+  title     = {On integrating a language model into neural machine translation},
+  journal   = {Computational Linguistics},
+  volume    = {45},
+  pages     = {137--148},
+  year      = {2017}
+}
+@inproceedings{DBLP:conf/wmt/StahlbergCS18,
+  author    = {Felix Stahlberg and
+               James Cross and
+               Veselin Stoyanov},
+  title     = {Simple Fusion: Return of the Language Model},
+  pages     = {204--211},
+  publisher = {Annual Meeting of the Association for Computational Linguistics},
+  year      = {2018}
+}

 %%%%% chapter 16------------------------------------------------------
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%