13章校对后修改，强化学习公式明天还需要和学长对

9163078f · 单韦乔 · 9a59e13c · 9163078f · 9163078f · 9163078f
Commit 9163078f authored Jan 22, 2021 by 单韦乔
--- a/Chapter13/Figures/figure-difference-between-word-level-and-sequence-level-in-knowledge-distillation.tex
+++ b/Chapter13/Figures/figure-difference-between-word-level-and-sequence-level-in-knowledge-distillation.tex
@@ -32,8 +32,8 @@
                    \node [prob,minimum size=0.1cm,anchor=center] (prob13) at ([xshift=1cm]prob12.center) {};
                    \node [prob,minimum size=0.1cm,anchor=center] (prob23) at ([yshift=-0.5cm]prob13.center) {};
                    \node [prob,minimum size=0.1cm,anchor=center] (prob33) at ([yshift=-0.5cm]prob23.center) {};
-                    \node [prob,minimum size=0.4cm,anchor=center] (prob43) at ([yshift=-0.5cm]prob33.center) {$.6$};
-                    \node [prob,minimum size=0.1cm,anchor=center] (prob53) at ([yshift=-0.5cm]prob43.center) {};
+                    \node [prob,minimum size=0.1cm,anchor=center] (prob43) at ([yshift=-0.5cm]prob33.center) {};
+                    \node [prob,minimum size=0.4cm,anchor=center] (prob53) at ([yshift=-0.5cm]prob43.center) {$.6$};
                    \begin{pgfonlayer}{background}
                        \coordinate (bottomleft) at ([shift={(-0.25cm,-0.25cm)}]prob53.center);
                        \coordinate (topright) at ([shift={(0.25cm,0.25cm)}]prob13.center);
@@ -76,15 +76,16 @@
                        \draw [-latex,thick] (prob\i.south) to ([yshift=-0.5cm]prob\i.south);
                
                    % Input
-                    \node [word,anchor=south] (input1) at ([yshift=-1.8cm]prob1.south) {$\langle$eos$\rangle$};
+                    \node [word,anchor=south] (input1) at ([yshift=-1.87cm]prob1.south) {$\langle$eos$\rangle$};
                    \node [word,anchor=south] (input2) at ([yshift=-1.8cm]prob2.south) {I};
                    \node [word,anchor=south] (input3) at ([yshift=-1.8cm]prob3.south) {am};
                    \node [word,anchor=south] (input4) at ([yshift=-1.8cm]prob4.south) {fine};
                
-                    \foreach \i in {1,2,...,4}
+                    \foreach \i in {2,3,4}
                        \draw [-latex,thick] ([yshift=0.3cm]input\i.south) to ([yshift=0.8cm]input\i.south);
+\draw [-latex,thick] ([yshift=0.36cm]input1.south) to ([yshift=0.86cm]input1.south);

-                    \node [word,anchor=south] (ns) at ([xshift=-1cm]input1.south) {输入:};
+                    \node [word,anchor=south] (ns) at ([xshift=-1.2cm]input1.south) {真实数据:};
 \node [word,anchor=north] () at ([xshift=2.1cm,yshift=-0.5cm]ns.south) {(a)\ Word-level};
 \end{scope}
               
@@ -163,16 +164,17 @@
                        \draw [-latex,thick] (prob\i.south) to ([yshift=-0.5cm]prob\i.south);
                
                    % Input
-                    \node [word,anchor=south] (input1) at ([yshift=-1.8cm]prob1.south) {$\langle$eos$\rangle$};
+                    \node [word,anchor=south] (input1) at ([yshift=-1.85cm]prob1.south) {$\langle$eos$\rangle$};
                    \node [word,anchor=south] (input2) at ([yshift=-1.8cm]prob2.south) {I};
                    \node [word,anchor=south] (input3) at ([yshift=-1.8cm]prob3.south) {am};
                    \node [word,anchor=center] (input4) at ([xshift=1cm]input3.center) {good};
                
-                    \foreach \i in {1,2,3}
+                    \foreach \i in {2,3}
                        \draw [-latex,thick] ([yshift=0.3cm]input\i.south) to ([yshift=0.8cm]input\i.south);
 \draw [-latex,thick] ([yshift=0.36cm]input4.south) to ([yshift=0.86cm]input4.south);
+\draw [-latex,thick] ([yshift=0.36cm]input1.south) to ([yshift=0.86cm]input1.south);

-                    \node [word,anchor=south] (ns) at ([xshift=-1cm]input1.south) {输入:};
+                    \node [word,anchor=south] (ns) at ([xshift=-1.2cm]input1.south) {教师译文:};
 \node [word,anchor=north] () at ([xshift=2.1cm,yshift=-0.5cm]ns.south) {(b)\ Sequence-level };
 \end{scope}          
 \end{tikzpicture}
--- a/Chapter13/Figures/figure-unk-of-bpe.tex
+++ b/Chapter13/Figures/figure-unk-of-bpe.tex
@@ -3,23 +3,27 @@
 		\node[rounded corners=3pt,minimum width=1.0em,minimum height=2.0em,font=\scriptsize,fill=red!10,drop shadow,thick](top) at (0,0) {
 		\begin{tabular}{lllllll}
 			\multicolumn{7}{c}{符号合并表}  \\
-			(r,$<$e$>$), & (e,s), & (l,o),  & (es,t), & (lo,w), & (est,$<$e$>$), & (e,r$<$e$>$),                             
+			(r,$<$e$>$), & (e,s), & (l,o),  & (es,t), & (lo,w), & (est,$<$e$>$), & (e,r$<$e$>$)                             
 			\end{tabular}
 		};
 		\node[font=\footnotesize,anchor=north] (l1) at ([xshift=0em,yshift=-1em]top.south) {(a) 符号合并表};
+
 		\node[font=\scriptsize,anchor=west] (n1) at ([xshift=-4.5em,yshift=-6em]top.west) {l\ o\ w\ e\ r\ $<$e$>$};
 		\node[font=\scriptsize,anchor=west] (n2) at ([xshift=2.6em]n1.east) {l\ o\ w\ e\ {\red r$<$e$>$}};
 		\node[font=\scriptsize,anchor=west] (n3) at ([xshift=2.6em]n2.east) {{\red lo}\ w\ e\ r$<$e$>$};
 		\node[font=\scriptsize,anchor=west] (n4) at ([xshift=2.6em]n3.east) {{\red low}\ e\ r$<$e$>$};
 		\node[font=\scriptsize,anchor=west] (n5) at ([xshift=2.6em]n4.east) {low\ {\red er$<$e$>$}};
 		
-		\node[font=\scriptsize,anchor=west] (t1) at ([yshift=-1.5em]n1.south west) {l\ o\ w\ e\ s\ t\ $<$e$>$};
+		\node[font=\scriptsize,anchor=west] (t1) at ([yshift=-2.5em]n1.south west) {l\ o\ w\ e\ s\ t\ $<$e$>$};
 		\node[font=\scriptsize,anchor=west] (t2) at ([xshift=0.8em]t1.east) {l\ o\ w\ {\red es}\ t\ $<$e$>$};
 		\node[font=\scriptsize,anchor=west] (t3) at ([xshift=0.8em]t2.east) {{\red lo}\ w\ es\ t\ $<$e$>$};
 		\node[font=\scriptsize,anchor=west] (t4) at ([xshift=0.8em]t3.east) {lo\ w\ {\red est}\ $<$e$>$};
 		\node[font=\scriptsize,anchor=west] (t5) at ([xshift=0.8em]t4.east) {{\red low}\ est\ $<$e$>$};
 		\node[font=\scriptsize,anchor=west] (t6) at ([xshift=0.8em]t5.east) {low\ {\red est$<$e$>$}};

+		\node[font=\scriptsize,anchor=north east] (s1) at ([yshift=0.1em]n1.north west) {样例1:};
+		\node[font=\scriptsize,anchor=north east] (s1) at ([yshift=0.1em]t1.north west) {样例2:};
+
 		\node[font=\footnotesize,anchor=north] (l2) at ([xshift=2em,yshift=-1em]t3.south) {(b) 合并样例};
 		
 		\draw[->,thick](n1.east) -- (n2.west);

--- a/Chapter13/chapter13.tex
+++ b/Chapter13/chapter13.tex
@@ -35,7 +35,7 @@
 \vspace{0.5em}
 \end{itemize}

-\parinterval 本章将就这些问题展开讨论，内容会覆盖开放词表、正则化、对抗样本训练、最小风险训练、知识蒸馏等多个主题。需要注意的是，神经机器翻译模型训练涉及的内容十分广泛。很多情况下，模型训练问题会和建模问题强相关。因此，本章的内容主要集中在相对独立的模型训练问题上。在后续章节中，仍然会有模型训练方面的介绍，其主要针对机器翻译的特定主题，如极深神经网络训练、无指导训练等。
+\parinterval 本章将就这些问题展开讨论，内容会覆盖开放词表、正则化、对抗样本训练、最小风险训练、知识蒸馏等多个主题。需要注意的是，神经机器翻译模型训练涉及的内容十分广泛。很多情况下，模型训练问题会和建模问题强相关。因此，本章的内容主要集中在相对独立的基础模型训练问题上。在后续章节中，仍然会有模型训练方面的介绍，其主要针对机器翻译的特定主题，如深层神经网络训练、无指导训练等。

 %----------------------------------------------------------------------------------------
 %    NEW SECTION
@@ -44,7 +44,7 @@
 \sectionnewpage
 \section{开放词表}

-\parinterval 对于神经机器翻译而言，研究人员通常希望使用更大的词表完成模型训练。因为大词表可以覆盖更多的语言现象，使模型对不同的语言现象有更强的区分能力。但是，人类的语言表达方式是十分多样的，这也体现在单词的构成上，甚至人们都无法想象数据中存在的不同单词的数量。比如，在WMT、CCMT等评测数据上，英语词表大小都会在100万以上。当然，这里面也包括很多的数字和字母的混合，还有一些组合词。不过，如果不加限制，机器翻译所面对的词表将会很“大”。这也会导致模型参数量变大，模型训练变得极为困难。更严重的问题是，测试数据中的一些单词根本就没有在训练数据中出现过，这时会出现未登录词翻译问题（即OOV问题），即系统无法对未见单词进行翻译。在神经机器翻译中，通常会考虑使用更小的翻译单元来缓解以上问题，因为小颗粒度的单元可以有效缓解数据稀疏问题。
+\parinterval 对于神经机器翻译而言，研究人员通常希望使用更大的词表完成模型训练。因为大词表可以覆盖更多的语言现象，使模型对不同的语言现象有更强的区分能力。但是，人类的语言表达方式是十分多样的，这也体现在单词的构成上，甚至人们都无法想象数据中存在的不同单词的数量。比如，在WMT、CCMT等评测数据上，英语词表大小都会在100万以上。如果不加限制，机器翻译的词表将会很“大”。这也会导致模型参数量变大，模型训练变得极为困难。更严重的问题是，测试数据中的一些单词根本就没有在训练数据中出现过，这时会出现未登录词翻译问题（即OOV问题），即系统无法对未见单词进行翻译。在神经机器翻译中，通常会考虑使用更小的翻译单元来缓解数据稀疏问题。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -72,7 +72,7 @@

 \parinterval 一种解决开放词表翻译问题的思路是改造输出层结构\upcite{garcia-martinez2016factored,DBLP:conf/acl/JeanCMB15}，比如，替换原始的Softmax层，用更加高效的神经网络结构进行超大规模词表上的预测。不过，模型结构和训练方法的调整使得系统开发与调试的工作量增加，并且这类方法仍然无法解决未登录词问题，因此在实用系统中并不常用。

-\parinterval 另一种思路是不改变机器翻译系统，而是从数据处理的角度来缓解未登录词问题。既然使用单词会带来数据稀疏问题，那么自然会想到使用更小的单元。比如，把字符作为最小的翻译单元 \footnote{汉语里的字符可以被看作是汉字。} \ \dash \ 也就是基于字符的翻译模型\upcite{DBLP:journals/tacl/LeeCH17}。以英语为例，只需要构造一个包含26个英语字母、数字和一些特殊符号的字符表，便可以表示所有的单词。
+\parinterval 另一种思路是不改变机器翻译系统，而是从数据处理的角度来缓解未登录词问题。既然使用单词会带来数据稀疏问题，那么自然会想到使用更小的单元,通过更小的单元的多种排列组合来表示更多的单词。比如，把字符作为最小的翻译单元 \footnote{汉语里的字符可以被看作是汉字。} \ \dash \ 也就是基于字符的翻译模型\upcite{DBLP:journals/tacl/LeeCH17}。以英语为例，只需要构造一个包含26个英语字母、数字和一些特殊符号的字符表，便可以表示所有的单词。

 \parinterval 但是字符级翻译也面临着新的问题\ \dash\ 使用字符增加了系统捕捉不同语言单元之间搭配的难度。假设平均一个单词由5个字符组成，系统所处理的序列长度便增大5倍。这使得具有独立意义的不同语言单元需要跨越更远的距离才能产生联系。此外，基于字符的方法也破坏了单词中天然存在的构词规律，或者说破坏了单词内字符的局部依赖。比如，英语单词“telephone”中的“tele”和“phone”都是有具体意义的词缀，但是如果把它们打散为字符就失去了这些含义。

@@ -87,7 +87,7 @@
 \end{figure}
 %----------------------------------------------

-\parinterval 在极端一些的情况下，子词仍然可以包含所有的字母和数字。这样，理论上，所有的单词都可以用子词进行组装。当然，理想的状况是：在子词词表不太大的前提下，使用尽可能少的子词单元拼装出每个单词。在神经机器翻译中，基于子词的切分是很常用的数据处理方法，称为子词切分。主要包括三个步骤：
+\parinterval 在一些极端的情况下，子词仍然可以包含所有的字母和数字。这样，理论上，所有的单词都可以用子词进行组装。当然，理想的状况是：在子词词表不太大的前提下，使用尽可能少的子词单元拼装出每个单词。在神经机器翻译中，基于子词的切分是很常用的数据处理方法，称为子词切分。主要包括三个步骤：

 \begin{itemize}
 \vspace{0.5em}
@@ -95,7 +95,7 @@
 \vspace{0.5em}
 \item 构建符号合并表；
 \vspace{0.5em}
-\item 通过合并表，按字符合并为子词。
+\item 根据合并表，将字符合并为子词。
 \vspace{0.5em}
 \end{itemize}

@@ -107,7 +107,7 @@

 \subsection{双字节编码}

-\parinterval 字节对编码或双字节编码（BPE）是一种常用的子词词表构建方法。BPE方法最早用于数据压缩，该方法将数据中常见的连续字符串替换为一个不存在的字符，之后通过构建一个替换关系的对应表，对压缩后的数据进行还原\upcite{Gage1994ANA}。机器翻译借用了这种思想，把子词切分看作是学习对自然语言句子进行压缩编码表示的问题\upcite{DBLP:conf/acl/SennrichHB16a}。其目的是，保证编码（即子词切分）后的结果占用的字节尽可能少。这样，子词单元会尽可能被不同单词复用，同时又不会因为使用过小的单元造成子词切分序列过长。
+\parinterval 字节对编码或双字节编码（BPE）是一种常用的子词词表构建方法。BPE方法最早用于数据压缩，该方法将数据中常见的连续字符串替换为一个不存在的字符，之后通过构建一个替换关系的对应表，对压缩后的数据进行还原\upcite{Gage1994ANA}。机器翻译借用了这种思想，把子词切分看作是学习对自然语言句子进行压缩编码表示的问题\upcite{DBLP:conf/acl/SennrichHB16a}。其目的是，保证编码（即子词切分）后的结果占用的字节尽可能少。这样，子词单元会尽可能被不同单词复用，同时又不会因为使用过小的单元造成子词切分后的序列过长。

 \parinterval 使用BPE算法进行子词切分包含两个步骤。首先，通过统计的方法构造符号合并表，具体的方式为：先对分过词的文本进行统计，得到词表和词频，同时将词表中的单词分割为字符表示；其次统计词表中所有出现的二元组的频次，选择当前频次最高的二元组加入符号合并表，并将所有词表中出现的该二元组合并为一个单元；不断地重复上述过程，直到合并表的大小达到预先设定的大小，或者无法继续合并。图\ref{fig:13-4}给出了一个使用字符合并表对单词进行子词切分的实例。红色单元为每次合并后得到的新符号，直至无法合并，或遍历结束，得到最终的合并结果。其中每一个单元为一个子词。

@@ -129,11 +129,11 @@
 \end{figure}
 %----------------------------------------------

-\parinterval 使用BPE方法后，翻译模型的输出也是子词序列，因此需要对最终得到的翻译结果进行子词还原，即将子词形式表达的单元重新组合为原本的单词。这一步操作也十分简单，只需要不断的将每个子词向后合并，直至遇到表示单词边界的结束符，便得到了一个完整的单词。
+\parinterval 使用BPE方法后，翻译模型的输出也是子词序列，因此需要对最终得到的翻译结果进行子词还原，即将子词形式表达的单元重新组合为原本的单词。这一步操作也十分简单，只需要不断的将每个子词向后合并，直至遇到表示单词边界的终结符，便得到了一个完整的单词。

 \parinterval 使用BPE方法的策略有很多。不仅可以单独对源语言和目标语言句子进行子词的切分，也可以联合两种语言，共同进行子词切分，被称作{\small\bfnew{双字节联合编码}}\index{双字节联合编码}（Joint-BPE\index{Joint-BPE}）\upcite{DBLP:conf/acl/SennrichHB16a}。 相比于单语BPE，Joint-BPE可以增加两种语言子词切分的一致性。对于相似语系中的语言，如英语和德语，常使用Joint-BPE 的方法联合构建词表。而对于汉语和英语这些差异比较大的语种，则需要独立地进行子词切分。

-\parinterval BPE还有很多变种方法。比如，可以设计更合理的符号合并优先级。这种方法的出发点在于，在不考虑优先级的情况下，在对一个单词用同一个合并表切分子词时，可能存在多种结果。如hello，可以被切分为“hell”和“o”，也可以被切分为“h” 和“ello”。 这种切分方式的多样性可以用来提高神经机器翻译系统的健壮性\upcite{DBLP:conf/acl/Kudo18}。此外，尽管BPE也被命名为字节对编码，但是在实践中该方法一般处理的是Unicode编码，而不是字节。相应的，在预训练模型GPT2 中也探索了字节级别的BPE，这种方法在机器翻译、自动问答等任务中取得了很好的效果\upcite{radford2019language}。
+\parinterval BPE还有很多变种方法。比如，可以设计更合理的符号合并优先级。这种方法的出发点在于，在不考虑优先级的情况下，在对一个单词用同一个合并表切分子词时，可能存在多种结果。如hello，可以被切分为“hell”和“o”，也可以被切分为“h” 和“ello”。 这种切分方式的多样性可以用来提高神经机器翻译系统的健壮性\upcite{DBLP:conf/acl/Kudo18}。此外，尽管BPE也被命名为双字节编码，但是在实践中该方法一般处理的是Unicode编码，而不是字节。相应的，在预训练模型GPT2 中也探索了字节级别的BPE，这种方法在机器翻译、自动问答等任务中取得了很好的效果\upcite{radford2019language}。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -172,9 +172,7 @@ y &=& f(x)

 \noindent 反问题是指：当观测到$y$时，能否求出$x$。反问题对应了很多实际问题，比如，可以把$y$看作经过美化的图片，$x$看作原始的图片，反问题就对应了图片还原。机器翻译的训练也是一种反问题，因为可以把$y$看作是正确的译文，$x$看作是输入句子或者模型参数\footnote{在训练中，如果把源语言句子看作是不变的量，这时函数$f(\cdot)$的输入只有模型参数。}。

-\parinterval 理想的情况下，研究人员希望反问题的解是{\small\bfnew{适定的}}\index{适定的}（Well-posed）\index{Well-posed}。所谓适定解，需要满足三个条件：解是存在的、解是唯一的、解是稳定的（即$y$微小的变化会导致$x$微小的变化，也被称作解连续）。所有不存在唯一稳定解的问题都被称作{\small\bfnew{不适定问题}}\index{不适定问题}（Ill-posed Problem）\index{Ill-posed Problem}。对于机器学习问题，解的存在性比较容易理解。解的唯一性大多由问题决定。比如，如果把描述问题的函数$f(\cdot)$看作一个$n\times n$矩阵$\mathbi{A}$，$x$和$y$都看作是$n$维向量。那么$x$不唯一的原因在于$\mathbi{A}$不满秩（非奇异矩阵）。不过，存在性和唯一性并不会对机器学习方法造成太大困扰，因为在实践中往往会找到近似的解。
-
-\parinterval 但是，解的稳定性却给神经机器翻译带来了很大的挑战。因为神经机器翻译模型非常复杂，里面存在大量的矩阵乘法和非线性变换。这导致$f(\cdot)$往往是不稳定的，也就是说，神经机器翻译中输出$y$的微小变化会导致输入$x$的巨大变化。比如，在系统研发中经常会发现，即使训练样本发生很小的变化，模型训练得到的参数都会有非常明显的区别。不仅如此，在神经机器翻译模型中，稳定性训练还面临两方面问题：
+\parinterval 理想的情况下，研究人员希望反问题的解是{\small\bfnew{适定的}}\index{适定的}（Well-posed）\index{Well-posed}。所谓适定解，需要满足三个条件：解是存在的、解是唯一的、解是稳定的（即$y$微小的变化会导致$x$微小的变化，也被称作解连续）。所有不存在唯一稳定解的问题都被称作{\small\bfnew{不适定问题}}\index{不适定问题}（Ill-posed Problem）\index{Ill-posed Problem}。对于机器学习问题，解的存在性比较容易理解。解的唯一性大多由问题决定。比如，如果把描述问题的函数$f(\cdot)$看作一个$n\times n$矩阵$\mathbi{A}$，$x$和$y$都看作是$n$维向量。那么$x$不唯一的原因在于$\mathbi{A}$不满秩（非奇异矩阵）。不过，存在性和唯一性并不会对机器学习方法造成太大困扰，因为在实践中往往会找到近似的解。但是，解的稳定性却给神经机器翻译带来了很大的挑战。因为神经机器翻译模型非常复杂，里面存在大量的矩阵乘法和非线性变换。这导致$f(\cdot)$往往是不稳定的，也就是说，神经机器翻译中输出$y$的微小变化会导致输入$x$的巨大变化。比如，在系统研发中经常会发现，即使训练样本发生很小的变化，模型训练得到的参数都会有非常明显的区别。不仅如此，在神经机器翻译模型中，稳定性训练还面临两方面问题：

 \begin{itemize}
 \vspace{0.5em}
@@ -197,11 +195,11 @@ y &=& f(x)

 \parinterval 正则化的一种实现是在训练目标中引入一个正则项。在神经机器翻译中，引入正则项的训练目标为：
 \begin{eqnarray}
-\widehat{\mathbi{w}} &=& \argmax_{\mathbi{w}}L(\mathbi{w}) + \lambda R(\mathbi{w})
+\widehat{\mathbi{w}} &=& \argmin_{\mathbi{w}}Loss(\mathbi{w}) + \lambda R(\mathbi{w})
 \label{eq:13-2}
 \end{eqnarray}

-\noindent 其中，$\mathbi{w}$是模型参数，$L(\mathbi{w})$是损失函数，$R(\mathbi{w})$是正则项，$\lambda$是正则项的系数，用于控制正则化对训练影响的程度。$R(\mathbi{w})$通常也可以被看作是一种先验，因为在数据不充分且存在噪声的情况下，可以根据一些先验知识让模型偏向正确的方向一些，而不是一味地根据受噪声影响的不准确的$L(\mathbi{w})$进行优化。相应的，引入正则化后的模型可以获得更好的{\small\bfnew{泛化}}\index{泛化}（Generalization）\index{Generalization}能力，即模型在新的未见数据上表现会更好。
+\noindent 其中，$\mathbi{w}$是模型参数，$Loss(\mathbi{w})$是损失函数，$R(\mathbi{w})$是正则项，$\lambda$是正则项的系数，用于控制正则化对训练影响的程度。$R(\mathbi{w})$通常也可以被看作是一种先验，因为在数据不充分且存在噪声的情况下，可以根据一些先验知识让模型偏向正确的方向一些，而不是一味地根据受噪声影响的$Loss(\mathbi{w})$进行优化。相应的，引入正则化后的模型可以获得更好的{\small\bfnew{泛化}}\index{泛化}（Generalization）\index{Generalization}能力，即模型在新的未见数据上表现会更好。

 \parinterval 实践中已经证明，正则化方法有助于使得像神经机器翻译模型这样复杂模型获得稳定的模型参数。甚至有些情况下，如果不引入正则化，训练得到的翻译模型根本无法使用。此外，正则化方法不仅可以用于提高模型的泛化能力，也可以作为干预模型学习的一种手段，比如，可以将一些先验知识作为正则项约束机器翻译模型的学习。类似的手段在本书后续的内容中也会被使用。

@@ -211,7 +209,7 @@ y &=& f(x)

 \subsection{L1/L2正则化}

-\parinterval L1/L2正则化是常用的正则化方法，虽然这种方法并不仅针对机器翻译模型。L1/L2正则化分别对应正则项是L1和L2范数的情况。具体来说，L1正则化是指：
+\parinterval L1/L2正则化是常用的正则化方法，虽然这种方法并不仅针对机器翻译模型。L1/L2正则化分别对应正则项是$l_1$和$l_2$范数的情况。具体来说，L1正则化是指：
 \begin{eqnarray}
 R(\mathbi{w}) & = & {\Vert{\mathbi{w}}\Vert}_1 \\
 			     & =  &\sum_{w_i}|w_i| \nonumber
@@ -225,7 +223,7 @@ R(\mathbi{w}) & = & ({\Vert{\mathbi{w}}\Vert}_2)^2 \\
 \label{eq:13-4}
 \end{eqnarray}

-\parinterval {\chapternine}已经介绍了L1和L2正则化方法，这里做一些展开。从几何的角度看，L1和L2正则项都是有物理意义的。二者都可以被看作是空间上的一个区域，比如，在二维平面上，L1范数表示一个以0点为中心的矩形，L2范数表示一个以0点为中心的圆。此时，$L(\mathbi{w})$和$R(\mathbi{w})$叠加在一起构成了一个新的区域，优化问题可以被看作是在这个新的区域上进行优化。由于L1和L2正则项都是在0点（坐标原点）附近形成的区域，因此优化的过程可以确保参数不会偏离0点太多。也就是说，L1和L2正则项引入了一个先验：模型的解不应该离0点太远。而L1和L2正则项实际上是在度量这个距离。
+\parinterval {\chapternine}已经介绍了L1和L2正则化方法，这里做一些展开。从几何的角度看，L1和L2正则项都是有物理意义的。二者都可以被看作是空间上的一个区域，比如，在二维平面上，$l_1$范数表示一个以0点为中心的菱形，$l_2$范数表示一个以0点为中心的圆。此时，$L(\mathbi{w})$和$R(\mathbi{w})$叠加在一起构成了一个新的区域，优化问题可以被看作是在这个新的区域上进行优化。由于L1和L2正则项都是在0点（坐标原点）附近形成的区域，因此优化的过程可以确保参数不会偏离0点太多。也就是说，L1和L2正则项引入了一个先验：模型的解不应该离0点太远。而L1和L2正则项实际上是在度量这个距离。

 \parinterval 那为什么要用L1和L2正则项惩罚离0点远的解呢？这还要从模型复杂度谈起。实际上，对于神经机器翻译这样的模型来说，模型的容量是足够的。所谓容量可以被简单的理解为独立参数的个数 \footnote{另一种定义是把容量看作神经网络所能表示的假设空间大小\upcite{DBLP:journals/nature/LeCunBH15}，也就是神经网络能表示的不同函数所构成的空间。}。也就是说，理论上存在一种模型可以完美的描述问题。但是，从目标函数拟合的角度来看，如果一个模型可以拟合很复杂的目标函数，那模型所表示的函数形态也会很复杂。这往往体现在模型中参数的值“偏大”。比如，用一个多项式函数拟合一些空间中的点，如果希望拟合得很好，各个项的系数往往是非零的。而且为了对每个点进行拟合，通常需要多项式中的某些项具有较大的系数，以期望函数在局部有较大的斜率。显然，这样的模型是很复杂的。模型的复杂度可以用函数中参数（比如多项式中各项的系数）的“值”进行度量，这也体现在模型参数的范数上。

@@ -281,7 +279,7 @@ R(\mathbi{w}) & = & ({\Vert{\mathbi{w}}\Vert}_2)^2 \\
 \end{figure}
 %----------------------------------------------

-\parinterval 具体实现时，可以设置一个参数$p \in (0,1)$。在每次参数更新所使用的前向和反向计算中，每个神经元都以概率$p$停止工作。相当于每层神经网络会有以$p$为概率的神经元被“屏蔽”掉。每一次参数更新中会随机屏蔽不同的神经元，图\ref{fig:13-8}给出了Dropout方法和传统方法计算方式的对比。其中，$x_{i}^{l}$代表第$l$层神经网络的第$i$个输入，$w_{i}^{l}$为输入所对应的权重，$b^{l}$表示第$l$层神经网络输入的偏置，$z_{i}^{l+1}$表示第$l$层神经网络的线性运算的结果，$f(\cdot)$表示激活函数，$r_{j}^{l}$的值服从于参数为$1-p$的伯努利分布。
+\parinterval 具体实现时，可以设置一个参数$p \in (0,1)$。在每次参数更新所使用的前向和反向计算中，每个神经元都以概率$p$停止工作。相当于每层神经网络会有以$p$为概率的神经元被“屏蔽”掉。每一次参数更新中会随机屏蔽不同的神经元，图\ref{fig:13-8}给出了Dropout方法和传统方法计算方式的对比。其中，$x_{i}^{l}$代表第$l$层神经网络的第$i$个输入，$w_{i}^{l}$为输入所对应的权重，$b^{l}$表示第$l$层神经网络输入的偏置，$z_{i}^{l+1}$表示第$l$层神经网络的线性运算的结果，$f(\cdot)$表示激活函数，$r_{i}^{l}$的值服从于参数为$1-p$的伯努利分布。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -294,7 +292,7 @@ R(\mathbi{w}) & = & ({\Vert{\mathbi{w}}\Vert}_2)^2 \\

 \parinterval 对于新的样本，可以使用Dropout训练之后的模型对其进行推断，但是每个神经元的输出要乘以$1-p$，以保证每层神经元输出的期望和训练时是一样的。另一种常用的做法是，在训练时对每个神经元的输出乘以$\frac{1}{1-p}$，然后在推断时神经网络可以不经过任何调整就直接使用。

-\parinterval Dropout方法的另一种解释是，在训练中屏蔽掉一些神经元相当于从原始的神经网络中抽取出了一个子网络。这样，每次训练都在一个随机生成的子网络上进行，而不同子网络之间的参数是共享的。在推断时，则把所有的子网络集成到一起。这种思想也有一些{\small\bfnew{集成学习}}\index{集成学习}（Ensemble Learning）\index{Ensemble Learning}的味道，只不过Dropout中子模型（或子网络）是在指数级空间中采样出来的。由于Dropout可以很好的缓解复杂神经模型的过拟合问题，因此也成为了大多数神经机器翻译系统的标配。
+\parinterval Dropout方法的另一种解释是，在训练中屏蔽掉一些神经元相当于从原始的神经网络中抽取出了一个子网络。这样，每次训练都在一个随机生成的子网络上进行，而不同子网络之间的参数是共享的。在推断时，则把所有的子网络集成到一起。这种思想也有一些{\small\bfnew{集成学习}}\index{集成学习}（Ensemble Learning）\index{Ensemble Learning}的味道，只不过Dropout中子模型（或子网络）是在指数级空间中采样出来的。由于Dropout可以很好的缓解复杂神经网络模型的过拟合问题，因此也成为了大多数神经机器翻译系统的标配。

 \parinterval 随着网络层数的增多，相互适应也会出现在不同层之间，甚至会出现在多头注意力机制的不同头之间。因此，Dropout方法也可以用于对模型局部结构的屏蔽，比如，对多层神经网络中的层进行屏蔽，即Layer Dropout。 特别是对于深层神经网络，Layer Dropout 也是一种有效的防止过拟合的方法。关于Layer Dropout的内容在{\chapterfifteen}还会有详细讨论。

@@ -306,7 +304,7 @@ R(\mathbi{w}) & = & ({\Vert{\mathbi{w}}\Vert}_2)^2 \\
 \section{对抗样本训练}
 \label{sec:adversarial-examples}

-\parinterval 同其它基于神经网络的方法一样，提高{\small\bfnew{健壮性}}\index{健壮性}（Robustness）\index{Robustness}也是神经机器翻译研发中需要关注的。比如，大容量模型可以很好地拟合训练数据，但是当测试样本与训练样本差异较大时，会导致很糟糕的翻译结果\upcite{JMLR:v15:srivastava14a,DBLP:conf/amta/MullerRS20}。另一方面，实践中也发现，有些情况下即使输入中有微小的扰动，神经网络模型的输出也会产生巨大变化。或者说，神经网络模型在输入样本上容易受到{\small\bfnew{攻击}}\index{攻击}（Attack）\index{Attack}\upcite{DBLP:conf/sp/Carlini017,DBLP:conf/cvpr/Moosavi-Dezfooli16,DBLP:conf/acl/ChengJM19}。表\ref{tab:13-1}展示了一个神经机器翻译系统的翻译结果，可以看到，把输入句子中的单词“jumped”换成“sunk”会得到完全不同的译文。这时神经机器翻译系统就存在健壮性问题。
+\parinterval 同其它基于神经网络的方法一样，提高{\small\bfnew{健壮性}}\index{健壮性}（Robustness）\index{Robustness}也是神经机器翻译研发中需要关注的。比如，大容量模型可以很好地拟合训练数据，但是当测试样本与训练样本差异较大时，会导致很糟糕的翻译结果\upcite{JMLR:v15:srivastava14a,DBLP:conf/amta/MullerRS20}。另一方面，实践中也发现，有些情况下即使输入中有微小的扰动，神经网络模型的输出也会产生巨大变化。或者说，神经网络模型在输入样本上容易受到攻击（Attack）\upcite{DBLP:conf/sp/Carlini017,DBLP:conf/cvpr/Moosavi-Dezfooli16,DBLP:conf/acl/ChengJM19}。表\ref{tab:13-1}展示了一个神经机器翻译系统的翻译结果，可以看到，把输入句子中的单词“jumped”换成“sunk”会得到完全不同的译文。这时神经机器翻译系统就存在健壮性问题。

 %----------------------------------------------
 \begin{table}[htp]{
@@ -349,7 +347,7 @@ R(\mathbi{w}) & = & ({\Vert{\mathbi{w}}\Vert}_2)^2 \\

 \parinterval 通过对抗样本训练来提升模型健壮性的首要问题是：如何生成对抗样本。通过当前模型$\funp{C}$和样本$(\mathbi{x},\mathbi{y})$，生成对抗样本的过程被称为{\small\bfnew{对抗攻击}}\index{对抗攻击}（Adversarial Attack）\index{Adversarial Attack}。对抗攻击可以被分为黑盒攻击和白盒攻击。在白盒攻击中，攻击算法可以访问模型的完整信息，包括模型结构、网络参数、损失函数、激活函数、输入和输出数据等。黑盒攻击通常依赖启发式方法来生成对抗样本\upcite{DBLP:conf/emnlp/JiaL17}，由于这种攻击方式不需要知道神经网络的详细信息，仅仅通过访问模型的输入和输出就可以达到攻击的目的。并且由于神经网络其本身便是一个黑盒模型，因此在神经网络的相关应用中黑盒攻击方法更加实用。

-\parinterval 在神经机器翻译中，输入所包含的细小的扰动会使模型变得脆弱\upcite{DBLP:conf/iclr/BelinkovB18}。但是，图像中的对抗攻击方法难以直接应用于自然语言处理任务，因为图像和文本数据之间存在着一定的差异。对计算机而言，以像素值等表示的图像数据本身就是连续的\upcite{DBLP:conf/naacl/MichelLNP19}，而文本中的一个个单词本身离散的。简单替换这些离散的单词，可能会生成语法错误或者语义错误的句子。而且，简单替换单词产生的扰动过大，模型很容易判别。即使对词嵌入等连续表示的部分进行扰动，也会产生无法与词嵌入空间中的任何词匹配的向量\upcite{Gong2018AdversarialTW}。针对这些问题，下面着重介绍神经机器翻译任务中如何有效生成、使用对抗样本。
+\parinterval 在神经机器翻译中，训练数据中含有的细微扰动会使得模型比较脆弱\upcite{DBLP:conf/iclr/BelinkovB18}。研究人员希望借鉴图像任务中的一些对抗攻击方法，并将其应用于自然语言处理任务中。然而，对计算机而言，以像素值等表示的图像数据本身就是连续的\upcite{DBLP:conf/naacl/MichelLNP19}，而文本中的一个个单词本身离散的，这种图像与文本数据间的差异使得这些方法在自然语言处理上并不适用。比如图像任务中对一幅图片的局部图像进行替换的方法，如果用于自然语言处理中，可能会生成语法错误或者语义错误的句子。而且，简单替换单词产生的扰动过大，模型很容易判别。即使对词嵌入等连续表示的部分进行扰动，也会产生无法与词嵌入空间中的任何词匹配的向量\upcite{Gong2018AdversarialTW}。针对这些问题，下面着重介绍神经机器翻译任务中如何有效生成、使用对抗样本。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -357,9 +355,9 @@ R(\mathbi{w}) & = & ({\Vert{\mathbi{w}}\Vert}_2)^2 \\

 \subsection{基于黑盒攻击的方法}

-\parinterval 一个好的对抗样本应该具有这种性质：对文本做最少的修改，并最大程度地保留原文的语义。一种简单的实现方式是对文本加噪声。这里，噪声可以分为自然噪声和人工噪声\upcite{DBLP:conf/iclr/BelinkovB18}。自然噪声一般是指人为的在语料库中收集自然出现的错误，如输入错误、拼写错误等。人为噪声是通过人工设计的自动方法修改文本，例如，可以通过规则或是噪声生成器，在干净的数据中以一定的概率引入拼写错误、语法错误等\upcite{DBLP:conf/naacl/VaibhavSSN19,DBLP:conf/naacl/AnastasopoulosL19,DBLP:conf/acl/SinghGR18}；此外，也可以在文本中加入人为设计过的毫无意义的单词序列。
+\parinterval 一个好的对抗样本应该具有这种性质：对文本做最少的修改，并最大程度地保留原文的语义。一种简单的实现方式是对文本加噪声。这里，噪声可以分为自然噪声和人工噪声\upcite{DBLP:conf/iclr/BelinkovB18}。自然噪声一般是指在语料库中自然出现的错误，如输入错误、拼写错误等。人为噪声是通过人工设计的自动方法修改文本，例如，可以通过规则或是噪声生成器，在干净的数据中以一定的概率引入拼写错误、语法错误等\upcite{DBLP:conf/naacl/VaibhavSSN19,DBLP:conf/naacl/AnastasopoulosL19,DBLP:conf/acl/SinghGR18}；此外，也可以在文本中加入人为设计过的毫无意义的单词序列。

-\parinterval 除了单纯的在文本中引入各种扰动外，还可以通过文本编辑的方式，在不改变语义的情况下尽可能修改文本，从而构建对抗样本\upcite{DBLP:journals/corr/SamantaM17,DBLP:conf/ijcai/0002LSBLS18}。文本的编辑方式主要包括交换，插入，替换和删除操作。表\ref{tab:13-2}给出了通过这几种方式生成对抗样本的例子。
+\parinterval 除了单纯的在文本中引入各种扰动外，还可以通过文本编辑的方式，在不改变语义的情况下尽可能修改文本，从而构建对抗样本\upcite{DBLP:journals/corr/SamantaM17,DBLP:conf/ijcai/0002LSBLS18}。文本的编辑方式主要包括交换、插入、替换和删除操作。表\ref{tab:13-2}给出了通过这几种方式生成对抗样本的例子。

 %----------------------------------------------
 \begin{table}[htp]{
@@ -380,7 +378,7 @@ R(\mathbi{w}) & = & ({\Vert{\mathbi{w}}\Vert}_2)^2 \\

 \parinterval 形式上，可以利用如FGSM等算法\upcite{DBLP:journals/corr/GoodfellowSS14}，验证文本中每一个单词的贡献度，同时为每一个单词构建一个候选池，包括该单词的近义词、拼写错误词、同音词等。对于贡献度较低的词，如语气词、副词等，可以使用插入、删除操作进行扰动。对于其他的单词，可以在候选池中选择相应的单词并进行替换。其中，交换操作可以是基于词级别的，比如交换序列中的单词，也可以是基于字符级别的，例如交换单词中的字符\upcite{DBLP:conf/coling/EbrahimiLD18}。重复进行上述的编辑操作，直至编辑出的文本可以误导模型做出错误的判断。

-\parinterval 在机器翻译中，常用的回译技术也是生成对抗样本的一种有效方式。回译就是，通过反向模型将目标语言翻译成源语言，并将翻译得到的双语数据用于模型训练。除了翻译模型，语言模型也可以用于生成对抗样本。{\chaptertwo}已经介绍过，语言模型可以用于检测句子的流畅度，它根据上文预测当前位置可能出现的单词。因此，此时可以使用语言模型预测出当前位置最可能出现的多个单词，并用这些词替换序列中原本的单词。在机器翻译任务中，可以通过与神经机器翻译系统联合训练，共享词向量矩阵的方式得到语言模型\upcite{DBLP:conf/acl/GaoZWXQCZL19}。
+\parinterval 在机器翻译中，常用的回译技术也是生成对抗样本的一种有效方式。回译就是，通过反向模型将目标语言翻译成源语言，并将翻译得到的双语数据用于模型训练（见{\chaptersixteen}）。除了翻译模型，语言模型也可以用于生成对抗样本。{\chaptertwo}已经介绍过，语言模型可以用于检测句子的流畅度，它根据上文预测当前位置可能出现的单词。因此，此时可以使用语言模型预测出当前位置最可能出现的多个单词，并用这些词替换序列中原本的单词。在机器翻译任务中，可以通过与神经机器翻译系统联合训练，共享词向量矩阵的方式得到语言模型\upcite{DBLP:conf/acl/GaoZWXQCZL19}。

 \parinterval 此外，{\small\bfnew{生成对抗网络}}\index{生成对抗网络}（Generative Adversarial Networks\index{Generative Adversarial Networks}, GANs）也可以被用来生成对抗样本\upcite{DBLP:conf/iclr/ZhaoDS18}。与回译方法类似，基于生成对抗网络的方法将原始的输入映射为潜在分布$\funp{P}$，并在其中搜索出服从相同分布的文本构成对抗样本。一些研究也对这种方法进行了优化\upcite{DBLP:conf/iclr/ZhaoDS18}，在稠密的向量空间中进行搜索，也就是说在定义$\funp{P}$的基础稠密向量空间中找到对抗性表示$\mathbi{z}'$，然后利用生成模型将其映射回$\mathbi{x}'$，使最终生成的对抗样本在语义上接近原始输入。

@@ -577,7 +575,7 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=&  \frac{1}{N}\sum_{(\mathbi{x},\
 \label{eq:13-16}
 \end{eqnarray}

-\noindent 其中，$\funp{r}_j(a;\hat{{y}}_{1 \ldots j-1},\seq{y})$是$j$时刻做出行动$a$获得的奖励，$\funp{r}_i(\hat{{y}}_i;\hat{{y}}_{1 \ldots j-1}a\hat{{y}}_{j+1 \ldots i},\seq{y})$是在$j$时刻的行动为$a$的前提下，$i$时刻的做出行动$\hat{{y}}_i$获得的奖励，$\seq{x}$是源语言句子，$\seq{y}$是正确译文，$\hat{{y}}_{1 \ldots j-1}$是策略$\funp{p}$产生的译文的前$j-1$个词，$J$是生成译文的长度。对于源语句子$x$，最优策略$\hat{p}$可以被定义为：
+\noindent 其中，$\funp{r}_j(a;\hat{{y}}_{1 \ldots j-1},\seq{y})$是$j-1$时刻做出行动$a$获得的奖励，$\funp{r}_i(\hat{{y}}_i;\hat{{y}}_{1 \ldots j-1}a\hat{{y}}_{j+1 \ldots i},\seq{y})$是在$j$时刻的行动为$a$的前提下，$i$时刻的做出行动$\hat{{y}}_i$获得的奖励，$\seq{x}$是源语言句子，$\seq{y}$是正确译文，$\hat{{y}}_{1 \ldots j-1}$是策略$\funp{p}$产生的译文的前$j-1$个词，$J$是生成译文的长度。对于源语句子$x$，最优策略$\hat{p}$可以被定义为：
 \begin{eqnarray}
 \hat{p} & = & \argmax_{\funp{p}}\mathbb{E}_{\hat{\seq{y}} \sim \funp{p}(\hat{\seq{y}} | \seq{x})}\sum_{j=1}^J\sum_{a \in A}\funp{p}(a|\hat{{y}}_{1 \ldots j},\seq{x})\funp{Q}(a;\hat{{y}}_{1 \ldots j},\seq{y})
 \label{eq:13-17}