合并分支 'caorunzhe' 到 'master'

Caorunzhe 查看合并请求 !630

合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求 !630
6bda3fd7 · 曹润柘 · c39382ec · b2f06f4a · 6bda3fd7 · 6bda3fd7
Commit 6bda3fd7 authored Dec 17, 2020 by 曹润柘
--- a/Chapter16/chapter16.tex
+++ b/Chapter16/chapter16.tex
@@ -194,14 +194,14 @@
 %----------------------------------------------------------------------------------------
 \subsubsection{3. 预训练模型}

-\parinterval 相比固定的词嵌入，上下文词嵌入包含了在当前语境中的语义信息，丰富了模型的输入表示，降低了训练难度。但是，模型仍有大量的参数需要从零学习，来进一步提取整个句子的表示。那么，能不能在预训练阶段中直接得到预训练好的模型参数，在下游任务中仅仅通过任务特定的数据对模型参数进行微调，来得到一个较强的模型呢？{\small\bfnew{生成式预训练}}（Generative Pre-Training，GPT）\index{生成式预训练}\index{GPT}和来自Transformer的{\small\bfnew{双向编码器表示}}（Bidirectional Encoder Representations from Transformers，BERT）\index{双向编码器表示}\index{BERT}对这个问题进行了探索。
+\parinterval 相比固定的词嵌入，上下文词嵌入包含了在当前语境中的语义信息，丰富了模型的输入表示，降低了训练难度。但是，模型仍有大量的参数需要从零学习，来进一步提取整个句子的表示。那么，能不能在预训练阶段中直接得到预训练好的模型参数，在下游任务中仅仅通过任务特定的数据对模型参数进行微调，来得到一个较强的模型呢？{\small\bfnew{生成式预训练}}（Generative Pre-Training，GPT）\index{生成式预训练}\index{GPT}和来自Transformer的{\small\bfnew{双向编码器表示}}（Bidirectional Encoder Representations from Transformers，BERT）\index{双向编码器表示}\index{BERT}对这个问题进行了探索，图\ref{fig:16-5}对比了GPT和BERT的模型结构。

 %----------------------------------------------
 \begin{figure}[htp]
    \centering
    \input{./Chapter16/Figures/figure-comparison-of-structure-between-gpt-and-bert-model}
    \caption{GPT模型结构和BERT模型结构对比示意图}
-    \label{fig:16-6}
+    \label{fig:16-5}
 \end{figure}
 %----------------------------------------------

@@ -215,14 +215,14 @@

 \parinterval 因此，一些做法将预训练模型和翻译模型进行融合，将预训练模型作为一个独立的模块来为编码器或者解码器提供句子级表示信息\upcite{DBLP:journals/corr/abs-2002-06823,DBLP:conf/aaai/YangW0Z00020}。另外一种做法是针对生成任务进行预训练。机器翻译是一种典型的语言生成任务，不仅包含源语言表示学习的问题，还有序列到序列的映射，以及目标端序列生成的问题，这些知识是无法单独通过（源语言）单语数据学习到的。因此，可以使用单语数据对编码器-解码器结构进行预训练\upcite{song2019mass,DBLP:conf/acl/LewisLGGMLSZ20,DBLP:conf/emnlp/QiYGLDCZ020}。

-\parinterval 以{\small\bfnew{掩码端到端预训练}}（Masked Sequence to Sequence Pre-training，MASS）\index{掩码端到端预训练}\index{MASS}方法为例\upcite{song2019mass}，其思想与BERT十分相似，也是在预训练过程中采用掩码的方式，随机选择编码器输入句子中的连续片段替换为特殊词[Mask]，然后在解码器端预测这个连续片段，如图\ref{fig:16-7} 所示。这种做法可以使得编码器端捕捉上下文信息，同时迫使解码器依赖于编码器进行自回归地生成，从而学习到编码器和解码器之间的注意力。为了适配下游的机器翻译任务，使预训练模型可以学习到不同语言的表示，MASS对不同语言的句子采用共享词汇表和模型参数的方法，利用同一个预训练模型来进行不同语言句子的预训练。通过这种方式，模型既学到了对源语言句子的编码，也学习到了对目标语言句子的生成方法，之后通过使用双语句对来对预训练模型的参数进行微调，模型可以快速收敛到较好的水平。
+\parinterval 以{\small\bfnew{掩码端到端预训练}}（Masked Sequence to Sequence Pre-training，MASS）\index{掩码端到端预训练}\index{MASS}方法为例\upcite{song2019mass}，其思想与BERT十分相似，也是在预训练过程中采用掩码的方式，随机选择编码器输入句子中的连续片段替换为特殊词[Mask]，然后在解码器端预测这个连续片段，如图\ref{fig:16-6} 所示。这种做法可以使得编码器端捕捉上下文信息，同时迫使解码器依赖于编码器进行自回归地生成，从而学习到编码器和解码器之间的注意力。为了适配下游的机器翻译任务，使预训练模型可以学习到不同语言的表示，MASS对不同语言的句子采用共享词汇表和模型参数的方法，利用同一个预训练模型来进行不同语言句子的预训练。通过这种方式，模型既学到了对源语言句子的编码，也学习到了对目标语言句子的生成方法，之后通过使用双语句对来对预训练模型的参数进行微调，模型可以快速收敛到较好的水平。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter16/Figures/figure-mass}
 \caption{MASS 预训练方法}
-\label{fig:16-7}
+\label{fig:16-6}
 \end{figure}
 %----------------------------------------------

@@ -235,24 +235,24 @@

 \parinterval 在训练一个神经网络的时候，会给定模型一个训练目标，希望模型通过不断训练在这个目标上表现地越来越好。我们希望模型在训练过程中可以自动提取到与训练目标相关的所有信息。然而，过分地关注单个训练目标，可能使模型忽略掉其他可能有帮助的信息，这些信息可能来自于一些其他相关的任务\upcite{DBLP:journals/corr/Ruder17a}。通过联合多个独立但相关的任务共同学习，任务之间相互``促进''，就是{\small\sffamily\bfnew{多任务学习}}\index{多任务学习}（Multitask Learning）\index{Multitask Learning}方法\upcite{DBLP:journals/corr/Ruder17a,DBLP:books/sp/98/Caruana98,liu2019multi}。多任务学习的常用做法是针对多个相关的任务，共享模型的部分参数来学习不同任务之间相似的特征，并通过特定的模块来学习每个任务独立的特征（见\chapterfifteen）。常用的策略是对底层的模型参数进行共享，顶层的模型参数用于独立学习各个不同的任务。

-\parinterval 在神经机器翻译中，应用多任务学习的主要策略是将翻译任务作为主任务，同时设置一些仅使用单语数据的子任务，通过这些子任务来捕捉单语数据中的语言知识\upcite{DBLP:conf/emnlp/DomhanH17,DBLP:conf/emnlp/ZhangZ16,DBLP:journals/corr/LuongLSVK15}。一种多任务学习的方法是利用源语言单语数据，通过单个编码器对源语言数据进行建模，然后分别使用两个解码器来学习源语言排序和翻译任务。源语言排序任务是指对句子的顺序进行调整，可以通过单语数据来构造训练数据，从而使编码器被训练得更加充分\upcite{DBLP:conf/emnlp/ZhangZ16}，如图\ref{fig:16-8}所示。
+\parinterval 在神经机器翻译中，应用多任务学习的主要策略是将翻译任务作为主任务，同时设置一些仅使用单语数据的子任务，通过这些子任务来捕捉单语数据中的语言知识\upcite{DBLP:conf/emnlp/DomhanH17,DBLP:conf/emnlp/ZhangZ16,DBLP:journals/corr/LuongLSVK15}。一种多任务学习的方法是利用源语言单语数据，通过单个编码器对源语言数据进行建模，然后分别使用两个解码器来学习源语言排序和翻译任务。源语言排序任务是指对句子的顺序进行调整，可以通过单语数据来构造训练数据，从而使编码器被训练得更加充分\upcite{DBLP:conf/emnlp/ZhangZ16}，如图\ref{fig:16-7}所示。
 %----------------------------------------------
 \begin{figure}[htp]
    \centering
    \input{./Chapter16/Figures/figure-multitask-learning-in-machine-translation-1}
    \caption{利用源语言单语数据的多任务学习}
-    \label{fig:16-8}
+    \label{fig:16-7}
 \end{figure}
 %----------------------------------------------

-\parinterval 虽然神经翻译模型可以看作一种语言生成模型，但生成过程中却依赖于源语言信息，因此无法直接利用目标语言单语数据进行多任务学习。针对这个问题，可以对原有翻译模型结构进行修改，在解码器底层增加一个语言模型子层，这个子层用于学习语言模型任务，与编码器端是完全独立的，如图\ref{fig:16-9}所示\upcite{DBLP:conf/emnlp/DomhanH17}。在训练过程中，可以分别将双语数据和单语数据送入翻译模型和语言模型进行计算，双语数据训练产生的梯度用于对整个模型进行参数更新，而单语数据产生的梯度只对语言模型子层进行参数更新。通过这种方式，可以有效利用单语数据使解码器端的底层网络训练得更加充分，从而提取到更有效的特征来生成翻译结果。
+\parinterval 虽然神经翻译模型可以看作一种语言生成模型，但生成过程中却依赖于源语言信息，因此无法直接利用目标语言单语数据进行多任务学习。针对这个问题，可以对原有翻译模型结构进行修改，在解码器底层增加一个语言模型子层，这个子层用于学习语言模型任务，与编码器端是完全独立的，如图\ref{fig:16-8}所示\upcite{DBLP:conf/emnlp/DomhanH17}。在训练过程中，可以分别将双语数据和单语数据送入翻译模型和语言模型进行计算，双语数据训练产生的梯度用于对整个模型进行参数更新，而单语数据产生的梯度只对语言模型子层进行参数更新。通过这种方式，可以有效利用单语数据使解码器端的底层网络训练得更加充分，从而提取到更有效的特征来生成翻译结果。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter16/Figures/figure-multitask-learning-in-machine-translation-2}
 \caption{利用语言模型的多任务学习}
-\label{fig:16-9}
+\label{fig:16-8}
 \end{figure}
 %----------------------------------------------

@@ -281,14 +281,14 @@

 \parinterval 这个例子说明$\funp{P}(\seq{y}|\seq{x})$和$\funp{P}(\seq{x}|\seq{y})$直觉上应当存在联系。当然，$\seq{x}$和$\seq{y}$之间是否存在简单的线性变换关系并没有结论，但是上面的例子给出了一种对源语言句子和目标语言句子进行相互转化的思路。实际上，研究人员已经通过一些数学技巧用目标函数来把$\funp{P}(\seq{y}|\seq{x})$和$\funp{P}(\seq{x}|\seq{y})$联系起来，这样训练神经机器翻译系统一次就可以同时得到两个方向的翻译模型，使得训练变得更加高效\upcite{Hassan2018AchievingHP,DBLP:conf/aaai/Zhang0LZC18,DBLP:conf/wmt/SunJXHWW19}。双向联合训练的基本思想是：使用两个方向的翻译模型对单语数据进行解码，之后用解码后的翻译结果与原始的单语数据作为训练语料，通过多次迭代更新两个方向上的机器翻译模型。

-\parinterval 图\ref{fig:16-10}给出了一个双向训练的详细流程，其中$M_{x \rightarrow y}^{k}$表示第$k$轮得到的$x$到$y$的翻译模型，$M_{y \rightarrow x}^{k}$表示第$k$轮得到的$y$到$x$的翻译模型。这里只展示了前两轮迭代。在第一次迭代开始之前，首先使用双语数据对两个初始翻译模型进行预训练。为了保持一致性，这里称之为第0 轮迭代。在第一轮迭代中，首先使用这两个翻译模型$M_{x \rightarrow y}^{0}$和$M_{y \rightarrow x}^{0}$ 翻译单语数据$X=\{ x_i \}$ 和$Y= \{ y_i \}$ 后得到译文$\{\hat{y}_i^{0} \}$和$\{ \hat{x}_i^{0}\}$。进一步，构建伪训练数据集$\{ x_i,\hat{y}_i^{0}\}$ 与$\{ \hat{x}_i^{0},y_i \}$。然后使用上面的两个伪训练集和原始双语数据混合训练得到模型$M_{x \rightarrow y}^{1}$和$M_{y \rightarrow x}^{1}$并执行参数更新，即用$\{ x_i,\hat{y}_i^{0}\} \bigcup \{ x_i,y_i\}$训练$M_{x \rightarrow y}^{1}$，用$\{ y_i,\hat{x}_i^{0}\} \bigcup \{ y_i,x_i\}$训练$M_{y \rightarrow x}^{1}$。第二轮迭代继续重复上述过程，使用更新参数后的翻译模型$M_{x \rightarrow y}^{1}$和$M_{y \rightarrow x}^{1}$ 得到新的伪数据集$\{ x_i,\hat{y}_i^{1}\}$ 与$\{ \hat{x}_i^{1},y_i \}$。然后，进一步得到翻译模型$M_{x \rightarrow y}^{2}$和$M_{y \rightarrow x}^{2}$。这种方式本质上也是一种自学习的过程，通过逐步生成更好的伪数据来提升模型质量。
+\parinterval 图\ref{fig:16-9}给出了一个双向训练的详细流程，其中$M_{x \rightarrow y}^{k}$表示第$k$轮得到的$x$到$y$的翻译模型，$M_{y \rightarrow x}^{k}$表示第$k$轮得到的$y$到$x$的翻译模型。这里只展示了前两轮迭代。在第一次迭代开始之前，首先使用双语数据对两个初始翻译模型进行预训练。为了保持一致性，这里称之为第0 轮迭代。在第一轮迭代中，首先使用这两个翻译模型$M_{x \rightarrow y}^{0}$和$M_{y \rightarrow x}^{0}$ 翻译单语数据$X=\{ x_i \}$ 和$Y= \{ y_i \}$ 后得到译文$\{\hat{y}_i^{0} \}$和$\{ \hat{x}_i^{0}\}$。进一步，构建伪训练数据集$\{ x_i,\hat{y}_i^{0}\}$ 与$\{ \hat{x}_i^{0},y_i \}$。然后使用上面的两个伪训练集和原始双语数据混合训练得到模型$M_{x \rightarrow y}^{1}$和$M_{y \rightarrow x}^{1}$并执行参数更新，即用$\{ x_i,\hat{y}_i^{0}\} \bigcup \{ x_i,y_i\}$训练$M_{x \rightarrow y}^{1}$，用$\{ y_i,\hat{x}_i^{0}\} \bigcup \{ y_i,x_i\}$训练$M_{y \rightarrow x}^{1}$。第二轮迭代继续重复上述过程，使用更新参数后的翻译模型$M_{x \rightarrow y}^{1}$和$M_{y \rightarrow x}^{1}$ 得到新的伪数据集$\{ x_i,\hat{y}_i^{1}\}$ 与$\{ \hat{x}_i^{1},y_i \}$。然后，进一步得到翻译模型$M_{x \rightarrow y}^{2}$和$M_{y \rightarrow x}^{2}$。这种方式本质上也是一种自学习的过程，通过逐步生成更好的伪数据来提升模型质量。

 %----------------------------------------------
 \begin{figure}[h]
 \centering
 \input{Chapter16/Figures/figure-the-iterative-process-of-bidirectional-training}
 \caption{双向训练的迭代过程}
-\label{fig:16-10}
+\label{fig:16-9}
 \end{figure}
 %----------------------------------------------
 %----------------------------------------------------------------------------------------
@@ -331,7 +331,7 @@

 \parinterval 如上一节所述，有监督的对偶学习需要使用双语数据来训练两个翻译模型。幸运的是，存在大量的单语数据可供使用。因此，如何使用这些单语数据来提升翻译模型的性能是一个关键问题。

-\parinterval 无监督对偶学习为我们提供了一个思路\upcite{qin2020dual}。假设目前有两个比较弱的翻译模型，一个原始任务模型$f$将源语言句子$\seq{x}$翻译成目标语言句子$\seq{y}$，一个对偶任务模型$g$将目标语言句子$\seq{y}$翻译成源语言句子$\seq{x}$。翻译模型可由有限的双语训练或者使用无监督机器翻译的方法得到。如图\ref{fig:16-11}所示，无监督对偶学习的做法是，先通过原始任务模型$f$将一个源语言单语句子$x$翻译为目标语言句子$y$，由于没有参考译文，我们无法判断$y$的正确性。但通过语言模型，可以判断这个句子是否通顺、符合语法规范，这些信息可用来评估翻译模型$f$的翻译流畅性。随后，再通过对偶任务模型$g$将目标语言句子$y$再翻译为源语言句子$x^{'}$。如果模型$f$和$g$的翻译性能较好，那么$x^{'}$和$x$会十分相似。通过计算二者的{\small\bfnew{重构损失}}\index{重构损失}（Reconstruction Loss）\index{Reconstruction Loss}，就可以优化模型$f$和$g$的参数。这个过程可以多次迭代，从大量的无标注单语数据上不断提升性能。
+\parinterval 无监督对偶学习为我们提供了一个思路\upcite{qin2020dual}。假设目前有两个比较弱的翻译模型，一个原始任务模型$f$将源语言句子$\seq{x}$翻译成目标语言句子$\seq{y}$，一个对偶任务模型$g$将目标语言句子$\seq{y}$翻译成源语言句子$\seq{x}$。翻译模型可由有限的双语训练或者使用无监督机器翻译的方法得到。如图\ref{fig:16-10}所示，无监督对偶学习的做法是，先通过原始任务模型$f$将一个源语言单语句子$x$翻译为目标语言句子$y$，由于没有参考译文，我们无法判断$y$的正确性。但通过语言模型，可以判断这个句子是否通顺、符合语法规范，这些信息可用来评估翻译模型$f$的翻译流畅性。随后，再通过对偶任务模型$g$将目标语言句子$y$再翻译为源语言句子$x^{'}$。如果模型$f$和$g$的翻译性能较好，那么$x^{'}$和$x$会十分相似。通过计算二者的{\small\bfnew{重构损失}}\index{重构损失}（Reconstruction Loss）\index{Reconstruction Loss}，就可以优化模型$f$和$g$的参数。这个过程可以多次迭代，从大量的无标注单语数据上不断提升性能。

 \parinterval 从统计建模的角度看，如果在有监督对偶学习对联合分布$\funp{P}(y|x)$建模的基础上把$y$看作一个隐变量，那么可以得到边缘分布$\funp{P}(x)$，也就是关于$x$的语言模型：
 \begin{eqnarray}
@@ -340,14 +340,14 @@
 \label{eq:16-6}
 \end{eqnarray}

-\parinterval 公式\eqref{eq:16-6}使用了$\funp{P}(\seq{x}|\seq{x},\seq{y}) \ge \funp{P}(\seq{x}|\seq{y})$。这样，$\sum_{\seq{y}}\funp{P}(\seq{x}|\seq{y})\funp{P}(\seq{y}|\seq{x})$描述了$\funp{P}(\seq{x})$的一个下界。因此，如果直接优化（最大化）公式\eqref{eq:16-6}右端，相当于对$\funp{P}(\seq{x}|\seq{y})$和$\funp{P}(\seq{y}|\seq{x})$施加了{\small\sffamily\bfnew{循环一致性}}\index{循环一致性}（Circle Consistency）\index{Circle Consistency}的约束\upcite{DBLP:conf/iccv/ZhuPIE17}，也就是对于一个句子$\seq{x}$，通过$\funp{P}(\seq{y}|\seq{x})$把它翻译成$\seq{y}$后，根据$\funp{P}(\seq{x}|\seq{y})$应该能重新翻译出$\seq{x}$，如图\ref{fig:16-11}所示。公式\eqref{eq:16-6}给出了同时优化$\funp{P}(\seq{x}|\seq{y})$ 和$\funp{P}(\seq{y}|\seq{x})$的一个目标函数形式。这个目标函数的一个额外的好处是它本质上是在学习一个由$\funp{P}(\seq{x}|\seq{y})$和$\funp{P}(\seq{y}|\seq{x})$组成的语言模型$\funp{P}(\seq{x})$，而$\funp{P}(\seq{x})$的学习依赖于单语数据，这意味着这个目标函数可以很自然地直接使用大量单语数据来同时训练两个翻译模型。相同的结论可以推广到$\funp{P}(\seq{y})$ 上\upcite{DBLP:conf/nips/HeXQWYLM16}。
+\parinterval 公式\eqref{eq:16-6}使用了$\funp{P}(\seq{x}|\seq{x},\seq{y}) \ge \funp{P}(\seq{x}|\seq{y})$。这样，$\sum_{\seq{y}}\funp{P}(\seq{x}|\seq{y})\funp{P}(\seq{y}|\seq{x})$描述了$\funp{P}(\seq{x})$的一个下界。因此，如果直接优化（最大化）公式\eqref{eq:16-6}右端，相当于对$\funp{P}(\seq{x}|\seq{y})$和$\funp{P}(\seq{y}|\seq{x})$施加了{\small\sffamily\bfnew{循环一致性}}\index{循环一致性}（Circle Consistency）\index{Circle Consistency}的约束\upcite{DBLP:conf/iccv/ZhuPIE17}，也就是对于一个句子$\seq{x}$，通过$\funp{P}(\seq{y}|\seq{x})$把它翻译成$\seq{y}$后，根据$\funp{P}(\seq{x}|\seq{y})$应该能重新翻译出$\seq{x}$，如图\ref{fig:16-10}所示。公式\eqref{eq:16-6}给出了同时优化$\funp{P}(\seq{x}|\seq{y})$ 和$\funp{P}(\seq{y}|\seq{x})$的一个目标函数形式。这个目标函数的一个额外的好处是它本质上是在学习一个由$\funp{P}(\seq{x}|\seq{y})$和$\funp{P}(\seq{y}|\seq{x})$组成的语言模型$\funp{P}(\seq{x})$，而$\funp{P}(\seq{x})$的学习依赖于单语数据，这意味着这个目标函数可以很自然地直接使用大量单语数据来同时训练两个翻译模型。相同的结论可以推广到$\funp{P}(\seq{y})$ 上\upcite{DBLP:conf/nips/HeXQWYLM16}。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter16/Figures/figure-unsupervised-dual-learning-process}
 \caption{无监督对偶学习流程}
-\label{fig:16-11}
+\label{fig:16-10}
 \end{figure}
 %----------------------------------------------

@@ -392,13 +392,13 @@

 \parinterval 基于枢轴语的方法很早就出现在基于统计机器翻译中。在基于短语的机器翻译中，已经有很多方法建立了源到枢轴和枢轴到目标的短语/单词级别特征，并基于这些特征开发了源语言到目标语言的系统\upcite{DBLP:conf/naacl/UtiyamaI07,DBLP:journals/mt/WuW07,DBLP:conf/acl/ZahabiBK13,DBLP:conf/emnlp/ZhuHWZWZ14,DBLP:conf/acl/MiuraNSTN15}，这些系统也已经广泛用于翻译稀缺资源语言对\upcite{DBLP:conf/acl/CohnL07,DBLP:journals/mt/WuW07,DBLP:conf/acl/WuW09,de2006catalan}。由于基于枢轴语的方法与模型结构无关，因此该方法也快速适用于神经机器翻译，并且取得了不错的效果\upcite{DBLP:conf/emnlp/KimPPKN19,DBLP:journals/corr/ChengLYSX16}。

-\parinterval 基于枢轴语言的方法可以被描述为如图\ref{fig:16-12}所示的过程。这里，使用虚线表示具有双语平行语料库的语言对，并使用带有箭头的实线表示翻译方向，令$\seq{x}$、$\seq{y}$和$\seq{p}$ 分别表示源语言、目标语言和枢轴语言，对于输入源语言句子$\seq{x}$和目标语言句子$\seq{y}$，其翻译过程可以被建模为如下公式：
+\parinterval 基于枢轴语言的方法可以被描述为如图\ref{fig:16-11}所示的过程。这里，使用虚线表示具有双语平行语料库的语言对，并使用带有箭头的实线表示翻译方向，令$\seq{x}$、$\seq{y}$和$\seq{p}$ 分别表示源语言、目标语言和枢轴语言，对于输入源语言句子$\seq{x}$和目标语言句子$\seq{y}$，其翻译过程可以被建模为如下公式：
 %----------------------------------------------
 \begin{figure}[h]
 \centering
 \input{Chapter16/Figures/figure-pivot-based-translation-process}
 \caption{基于枢轴语言的翻译过程}
-\label{fig:16-12}
+\label{fig:16-11}
 \end{figure}
 %----------------------------------------------
 \begin{eqnarray}
@@ -418,13 +418,13 @@

 \subsection{基于知识蒸馏的方法}

-\parinterval 为了解决基于枢轴语言的方法的问题，研究人员提出基于知识蒸馏的方法\upcite{DBLP:conf/acl/ChenLCL17,DBLP:conf/iclr/TanRHQZL19}。知识蒸馏是一种常用的模型压缩方法\upcite{Hinton2015Distilling}，基于教师-学生框架，在第十三章已经进行了详细介绍。针对稀缺资源任务，基于教师-学生框架的方法基本思想如图\ref{fig:16-13}所示。其中，虚线表示具有平行语料库的语言对，带有箭头的实线表示翻译方向。这里，将枢轴语言（$\seq{p}$）到目标语言（$\seq{y}$）的翻译模型$\funp{P}(\seq{y}|\seq{p})$当作教师模型，源语言（$\seq{x}$）到目标语言（$\seq{y}$）的翻译模型$\funp{P}(\seq{y}|\seq{x})$当作学生模型。然后，用教师模型来指导学生模型的训练，这个过程中学习的目标就是让$\funp{P}(\seq{y}|\seq{x})$尽可能接近$\funp{P}(\seq{y}|\seq{p})$，这样学生模型就可以学习到源语言到目标语言的翻译知识。
+\parinterval 为了解决基于枢轴语言的方法的问题，研究人员提出基于知识蒸馏的方法\upcite{DBLP:conf/acl/ChenLCL17,DBLP:conf/iclr/TanRHQZL19}。知识蒸馏是一种常用的模型压缩方法\upcite{Hinton2015Distilling}，基于教师-学生框架，在第十三章已经进行了详细介绍。针对稀缺资源任务，基于教师-学生框架的方法基本思想如图\ref{fig:16-12}所示。其中，虚线表示具有平行语料库的语言对，带有箭头的实线表示翻译方向。这里，将枢轴语言（$\seq{p}$）到目标语言（$\seq{y}$）的翻译模型$\funp{P}(\seq{y}|\seq{p})$当作教师模型，源语言（$\seq{x}$）到目标语言（$\seq{y}$）的翻译模型$\funp{P}(\seq{y}|\seq{x})$当作学生模型。然后，用教师模型来指导学生模型的训练，这个过程中学习的目标就是让$\funp{P}(\seq{y}|\seq{x})$尽可能接近$\funp{P}(\seq{y}|\seq{p})$，这样学生模型就可以学习到源语言到目标语言的翻译知识。
 %----------------------------------------------
 \begin{figure}[h]
 \centering
 \input{Chapter16/Figures/figure-knowledge-distillation-based-translation-process}
 \caption{基于知识蒸馏的翻译过程}
-\label{fig:16-13}
+\label{fig:16-12}
 \end{figure}
 %----------------------------------------------

@@ -435,7 +435,7 @@
 \label{eq:16-8}
 \end{eqnarray}

-\parinterval 和基于枢轴语言的方法相比，基于教师-学生框架的方法无需训练源语言到枢轴语言的翻译模型，也就无需经历两次翻译过程，翻译效率有所提升，又避免了两次翻译所面临的错误传播问题。举个例子，假设图\ref{fig:16-13}中$\seq{x}$为源语言德语 “hallo”，$\seq{p}$为中间语言英语 “hello”，$\seq{y}$为目标语言法语“bonjour”，则德语“hallo”翻译为法语“bonjour”的概率应该与英语“hello”翻译为法语“bonjour”的概率相近。
+\parinterval 和基于枢轴语言的方法相比，基于教师-学生框架的方法无需训练源语言到枢轴语言的翻译模型，也就无需经历两次翻译过程，翻译效率有所提升，又避免了两次翻译所面临的错误传播问题。举个例子，假设图\ref{fig:16-12}中$\seq{x}$为源语言德语 “hallo”，$\seq{p}$为中间语言英语 “hello”，$\seq{y}$为目标语言法语“bonjour”，则德语“hallo”翻译为法语“bonjour”的概率应该与英语“hello”翻译为法语“bonjour”的概率相近。

 \parinterval 不过，基于知识蒸馏的方法仍然需要显性的使用枢轴语言进行桥接，因此仍然面临着“源语言$\to$枢轴语言$\to$目标语言”转换中信息丢失的问题。比如，当枢轴语言到目标语言翻译效果较差时，由于教师模型无法提供准确的指导，学生模型也无法取得很好的学习效果。

@@ -449,13 +449,13 @@

 \parinterval 基于枢轴语言的方法需要显性地建立“源语言$\to$枢轴语言$\to$目标语言”的路径。这时，如果路径中某处出现了问题，就会成为整个路径的瓶颈。如果使用多个枢轴语言，这个问题就会更加严重。不同于基于枢轴语言的方法，迁移学习无需进行两步解码，也就避免了翻译路径中累积错误的问题。

-\parinterval 基于迁移学习的方法思想非常简单，如图\ref{fig:16-14}所示。这种方法无需像传统的机器学习一样为每个任务单独训练一个模型，它将所有任务分类为源任务和目标任务，目标就是将源任务中的知识迁移到目标任务当中
+\parinterval 基于迁移学习的方法思想非常简单，如图\ref{fig:16-13}所示。这种方法无需像传统的机器学习一样为每个任务单独训练一个模型，它将所有任务分类为源任务和目标任务，目标就是将源任务中的知识迁移到目标任务当中
 %----------------------------------------------
 \begin{figure}[h]
 \centering
 \input{Chapter16/Figures/figure-contrast-of-traditional-machine-learning&transfer-learning}
 \caption{传统机器学习和迁移学习方法对比}
-\label{fig:16-14}
+\label{fig:16-13}
 \end{figure}
 %----------------------------------------------

@@ -466,14 +466,14 @@
 %----------------------------------------------------------------------------------------
 \subsubsection{1. 参数初始化方法}

-\parinterval 在解决多语言翻译问题时，首先需要在富资源语言上训练一个翻译模型，将其称为{\small\bfnew{父模型}}\index{父模型}（Parent Model）\index{Parent Model}。在对父模型的参数进行初始化的基础上，训练低资源语言的翻译模型，称之为{\small\bfnew{子模型}}\index{子模型}（Child Model）\index{Child Model}，这意味着低资源翻译模型将不会从随机初始化的参数开始学习，而是从父模型的参数开始\upcite{gu2018meta,DBLP:conf/icml/FinnAL17,DBLP:conf/naacl/GuHDL18}。这时，也可以把参数初始化看作是迁移学习。在图\ref{fig:16-15}中，左侧模型为父模型，右侧模型为子模型。这里假设从英语到汉语的翻译为富资源翻译，从英语到德语的翻译为低资源翻译，则首先用英中双语平行语料库训练出一个初始化的父模型，之后再用英语到德语的数据在父模型上微调得到子模型，这个子模型即为我们想要得到的迁移学习的模型。此过程可以看作是在富资源训练模型上对低资源语言进行微调，将富资源语言中的知识迁移到低资源语言中，从而提升低资源语言的模型性能。
+\parinterval 在解决多语言翻译问题时，首先需要在富资源语言上训练一个翻译模型，将其称为{\small\bfnew{父模型}}\index{父模型}（Parent Model）\index{Parent Model}。在对父模型的参数进行初始化的基础上，训练低资源语言的翻译模型，称之为{\small\bfnew{子模型}}\index{子模型}（Child Model）\index{Child Model}，这意味着低资源翻译模型将不会从随机初始化的参数开始学习，而是从父模型的参数开始\upcite{gu2018meta,DBLP:conf/icml/FinnAL17,DBLP:conf/naacl/GuHDL18}。这时，也可以把参数初始化看作是迁移学习。在图\ref{fig:16-14}中，左侧模型为父模型，右侧模型为子模型。这里假设从英语到汉语的翻译为富资源翻译，从英语到德语的翻译为低资源翻译，则首先用英中双语平行语料库训练出一个初始化的父模型，之后再用英语到德语的数据在父模型上微调得到子模型，这个子模型即为我们想要得到的迁移学习的模型。此过程可以看作是在富资源训练模型上对低资源语言进行微调，将富资源语言中的知识迁移到低资源语言中，从而提升低资源语言的模型性能。

 %----------------------------------------------
 \begin{figure}[h]
 \centering
 \input{Chapter16/Figures/figure-parameter-initialization-method-diagram}
 \caption{参数初始化方法示意图}
-\label{fig:16-15}
+\label{fig:16-14}
 \end{figure}
 %----------------------------------------------

@@ -488,13 +488,13 @@

 \parinterval 多语言单模型系统是指用单个模型训练具有多个语言翻译方向的系统。对于源语言集合$\seq{G}_x$和目标语言集合$\seq{G}_y$，多语言单模型的学习目标是学习一个单一的模型，这个模型可以进行任意源语言到任意目标语言的翻译，即同时支持所有$(x,y) \in (\seq{G}_x,\seq{G}_y)$的翻译。多语言单模型方法又可以进一步分为一对多\upcite{DBLP:conf/acl/DongWHYW15}、多对一\upcite{DBLP:journals/tacl/LeeCH17}和多对多\upcite{DBLP:conf/naacl/FiratCB16}的方法。不过这些方法本质上是相同的，因此这里以多对多翻译为例进行介绍。

-\parinterval 在模型结构方面，多语言模型与普通的神经机器翻译模型相同，都是标准的编码器-解码器结构。多语言单模型方法的一个假设是：不同语言可以共享同一个表示空间。因此，该方法使用同一个编码器处理所有的源语言句子，使用同一个解码器处理所有的目标语言句子。为了使多个语言共享同一个解码器（或编码器），一种简单的方法是直接在输入句子上加入语言标记，让模型显性地知道当前句子属于哪个语言。如图\ref{fig:16-16}所示，在此示例中，标记“ <spanish>”表示目标句子为西班牙语，标记“ <german>”表示目标句子为德语，则模型在进行翻译时便会将句子开头加有<spanish>标签的句子翻译为西班牙语\upcite{DBLP:journals/tacl/JohnsonSLKWCTVW17}。假设训练时有英语到西班牙语 “<spanish> Hello”$\to$“Hola”和法语到德语“<german> Bonjour”$\to$“Hallo” 的双语句对，则在解码时候输入英语“<german> Hello”时就会得到解码结果“Hallo”。
+\parinterval 在模型结构方面，多语言模型与普通的神经机器翻译模型相同，都是标准的编码器-解码器结构。多语言单模型方法的一个假设是：不同语言可以共享同一个表示空间。因此，该方法使用同一个编码器处理所有的源语言句子，使用同一个解码器处理所有的目标语言句子。为了使多个语言共享同一个解码器（或编码器），一种简单的方法是直接在输入句子上加入语言标记，让模型显性地知道当前句子属于哪个语言。如图\ref{fig:16-15}所示，在此示例中，标记“ <spanish>”表示目标句子为西班牙语，标记“ <german>”表示目标句子为德语，则模型在进行翻译时便会将句子开头加有<spanish>标签的句子翻译为西班牙语\upcite{DBLP:journals/tacl/JohnsonSLKWCTVW17}。假设训练时有英语到西班牙语 “<spanish> Hello”$\to$“Hola”和法语到德语“<german> Bonjour”$\to$“Hallo” 的双语句对，则在解码时候输入英语“<german> Hello”时就会得到解码结果“Hallo”。
 %----------------------------------------------
 \begin{figure}[h]
 \centering
 \input{Chapter16/Figures/figure-multi-language-single-model-system-diagram}
 \caption{多语言单模型结构示意图}
-\label{fig:16-16}
+\label{fig:16-15}
 \end{figure}
 %----------------------------------------------

@@ -536,13 +536,13 @@

 \subsection{无监督词典归纳}\label{unsupervised-dictionary-induction}

-\parinterval {\small\bfnew{词典归纳}}\index{词典归纳}（Bilingual Dictionary Induction，BDI\index{Bilingual Dictionary Induction}），也叫{\small\bfnew{词典推断}}，是实现语种间单词级别翻译的任务。在统计机器翻译中，词典归纳是一项核心的任务，它从双语平行语料中发掘互为翻译的单词，是翻译知识的主要来源\upcite{黄书剑0统计机器翻译中的词对齐研究}。在端到端神经机器翻译中，词典归纳通常被用到无监督机器翻译、多语言机器翻译等任务中。在神经机器翻译中，单词通过实数向量来表示，即词嵌入。所有单词分布在一个多维空间中，而且研究人员发现：单词嵌入空间在各种语言中显示出类似的结构，这使得直接利用词嵌入来构建双语词典成为可能\upcite{DBLP:journals/corr/MikolovLS13}。其基本想法是先将来自不同语言的词嵌入投影到共享嵌入空间中，然后在这个共享空间中归纳出双语词典，原理图如图\ref{fig:16-17}所示。较早的尝试是使用一个包含数千词对的种子词典作为锚点来学习从源语言到目标语词言嵌入空间的线性映射，将两个语言的单词投影到共享的嵌入空间之后，执行一些对齐算法即可得到双语词典\upcite{DBLP:journals/corr/MikolovLS13}。最近的研究表明，词典归纳可以在更弱的监督信号下完成，这些监督信号来自更小的种子词典\upcite{DBLP:conf/acl/VulicK16}、 相同的字符串\upcite{DBLP:conf/iclr/SmithTHH17}，甚至仅仅是共享的数字\upcite{DBLP:conf/acl/ArtetxeLA17}。
+\parinterval {\small\bfnew{词典归纳}}\index{词典归纳}（Bilingual Dictionary Induction，BDI\index{Bilingual Dictionary Induction}），也叫{\small\bfnew{词典推断}}，是实现语种间单词级别翻译的任务。在统计机器翻译中，词典归纳是一项核心的任务，它从双语平行语料中发掘互为翻译的单词，是翻译知识的主要来源\upcite{黄书剑0统计机器翻译中的词对齐研究}。在端到端神经机器翻译中，词典归纳通常被用到无监督机器翻译、多语言机器翻译等任务中。在神经机器翻译中，单词通过实数向量来表示，即词嵌入。所有单词分布在一个多维空间中，而且研究人员发现：单词嵌入空间在各种语言中显示出类似的结构，这使得直接利用词嵌入来构建双语词典成为可能\upcite{DBLP:journals/corr/MikolovLS13}。其基本想法是先将来自不同语言的词嵌入投影到共享嵌入空间中，然后在这个共享空间中归纳出双语词典，原理图如图\ref{fig:16-16}所示。较早的尝试是使用一个包含数千词对的种子词典作为锚点来学习从源语言到目标语词言嵌入空间的线性映射，将两个语言的单词投影到共享的嵌入空间之后，执行一些对齐算法即可得到双语词典\upcite{DBLP:journals/corr/MikolovLS13}。最近的研究表明，词典归纳可以在更弱的监督信号下完成，这些监督信号来自更小的种子词典\upcite{DBLP:conf/acl/VulicK16}、 相同的字符串\upcite{DBLP:conf/iclr/SmithTHH17}，甚至仅仅是共享的数字\upcite{DBLP:conf/acl/ArtetxeLA17}。
 %----------------------------------------------
 \begin{figure}[h]
 \centering
 \input{Chapter16/Figures/figure-shared-space-inductive-bilingual-dictionary.tex}
 \caption{词典归纳原理图}
-\label{fig:16-17}
+\label{fig:16-16}
 \end{figure}
 %----------------------------------------------

@@ -563,15 +563,15 @@
 \vspace{0.5em}
 \end{itemize}

-\parinterval 其具体流程图如\ref{fig:16-18}所示，包括：
+\parinterval 其具体流程图如\ref{fig:16-17}所示，包括：

 \begin{itemize}
 \vspace{0.5em}
-\item 对于图\ref{fig:16-18}(a)中的分布在不同空间中的两个单语词嵌入$\mathbi{X}$和$\mathbi{Y}$，基于两者近似同构的假设，利用无监督匹配的方法来得到一个粗糙的线性映射$\mathbi{W}$，使得两个空间能大致对齐，结果如图\ref{fig:16-18}(b)所示。
+\item 对于图\ref{fig:16-17}(a)中的分布在不同空间中的两个单语词嵌入$\mathbi{X}$和$\mathbi{Y}$，基于两者近似同构的假设，利用无监督匹配的方法来得到一个粗糙的线性映射$\mathbi{W}$，使得两个空间能大致对齐，结果如图\ref{fig:16-17}(b)所示。
 \vspace{0.5em}
-\item 在此共享空间中执行对齐算法从而归纳出一个种子词典，如图\ref{fig:16-18}(c)所示。
+\item 在此共享空间中执行对齐算法从而归纳出一个种子词典，如图\ref{fig:16-17}(c)所示。
 \vspace{0.5em}
-\item 利用种子词典不断迭代微调进一步提高映射$\mathbi{W}$的性能，最终映射的效果如图\ref{fig:16-18}(d)所示，之后即可从中推断出词典作为最后的结果。
+\item 利用种子词典不断迭代微调进一步提高映射$\mathbi{W}$的性能，最终映射的效果如图\ref{fig:16-17}(d)所示，之后即可从中推断出词典作为最后的结果。
 \vspace{0.5em}
 \end{itemize}
 %----------------------------------------------
@@ -579,7 +579,7 @@
 \centering
 \input{Chapter16/Figures/figure-bilingual-dictionary-Induction}
 \caption{无监督词典归纳流程图\upcite{DBLP:conf/iclr/LampleCRDJ18}}
-\label{fig:16-18}
+\label{fig:16-17}
 \end{figure}
 %----------------------------------------------

@@ -706,13 +706,13 @@ P(\mathbi{y}|\mathbi{x}) & = & \frac{\mathrm{cos}(\mathbi{x},\mathbi{y})/\tau}{\
 %----------------------------------------------------------------------------------------
 \subsubsection{3. 更深层的融合}

-\parinterval 为了获得更好的神经机器翻译模型，可以对训练流程和模型做更深度的整合。{\chapterten}已经介绍，神经机器翻译模型的训练包含两个阶段：初始化和优化。而无监督神经机器翻译的核心思路也对应这两个阶段：无监督方法提供初始的监督信号和数据优化，因此可以考虑在模型的初始化阶段使用无监督方法提供初始的监督信号，然后优化过程不但优化模型的参数，还优化训练使用的数据，从而避免流水线带来的错误传播。其中初始的监督信号可以通过两种方法提供给模型，一种是直接使用无监督方法提供最初的伪双语数据来训练最初的翻译模型，另一种则是借助无监督方法来初始化模型，得到最初的翻译模型后直接使用初始化好的翻译模型产生伪双语数据来训练自己，如图\ref{fig:16-19}所示。图\ref{fig:16-19}(a)的一个简单实现是利用无监督词典归纳得到的词典对单语数据进行逐词的翻译，得到最初的伪双语数据，然后在这些数据上训练最初的翻译模型，最后不断地交替优化数据和模型，得到更好的翻译模型和质量更好的伪数据\upcite{DBLP:conf/iclr/LampleCDR18}。这样的做法通过不断优化训练用的双语数据，摆脱了无监督词典归纳在最初的伪双语数据中遗留下来的错误，同时也避免了使用无监督统计机器翻译模型的代价。图\ref{fig:16-19}(b)的实现则依赖于具体的翻译模型初始化方法，下一节会讨论翻译模型的不同初始化方法。
+\parinterval 为了获得更好的神经机器翻译模型，可以对训练流程和模型做更深度的整合。{\chapterten}已经介绍，神经机器翻译模型的训练包含两个阶段：初始化和优化。而无监督神经机器翻译的核心思路也对应这两个阶段：无监督方法提供初始的监督信号和数据优化，因此可以考虑在模型的初始化阶段使用无监督方法提供初始的监督信号，然后优化过程不但优化模型的参数，还优化训练使用的数据，从而避免流水线带来的错误传播。其中初始的监督信号可以通过两种方法提供给模型，一种是直接使用无监督方法提供最初的伪双语数据来训练最初的翻译模型，另一种则是借助无监督方法来初始化模型，得到最初的翻译模型后直接使用初始化好的翻译模型产生伪双语数据来训练自己，如图\ref{fig:16-18}所示。图\ref{fig:16-18}(a)的一个简单实现是利用无监督词典归纳得到的词典对单语数据进行逐词的翻译，得到最初的伪双语数据，然后在这些数据上训练最初的翻译模型，最后不断地交替优化数据和模型，得到更好的翻译模型和质量更好的伪数据\upcite{DBLP:conf/iclr/LampleCDR18}。这样的做法通过不断优化训练用的双语数据，摆脱了无监督词典归纳在最初的伪双语数据中遗留下来的错误，同时也避免了使用无监督统计机器翻译模型的代价。图\ref{fig:16-18}(b)的实现则依赖于具体的翻译模型初始化方法，下一节会讨论翻译模型的不同初始化方法。
 %----------------------------------------------
 \begin{figure}[h]
 \centering
 \input{Chapter16/Figures/figure-optimization-of-the-model-initialization-method}
 \caption{模型参数初始化方法的优化}
-\label{fig:16-19}
+\label{fig:16-18}
 \end{figure}
 %----------------------------------------------

@@ -735,13 +735,13 @@ P(\mathbi{y}|\mathbi{x}) & = & \frac{\mathrm{cos}(\mathbi{x},\mathbi{y})/\tau}{\
 \vspace{0.5em}
 \end{itemize}

-\parinterval 最后图\ref{fig:16-20}简单总结了无监督神经机器翻译的流程。下面分别讨论：无监督神经机器翻译里面模型的初始化，以及语言模型目标函数的选择。
+\parinterval 最后图\ref{fig:16-19}简单总结了无监督神经机器翻译的流程。下面分别讨论：无监督神经机器翻译里面模型的初始化，以及语言模型目标函数的选择。
 %----------------------------------------------
 \begin{figure}[h]
 \centering
 \input{Chapter16/Figures/figure-unmt-process}
 \caption{无监督神经机器翻译模型训练流程}
-\label{fig:16-20}
+\label{fig:16-19}
 \end{figure}
 %----------------------------------------------
 \begin{itemize}
@@ -944,7 +944,7 @@ P(\mathbi{y}|\mathbi{x}) & = & \frac{\mathrm{cos}(\mathbi{x},\mathbi{y})/\tau}{\
 %----------------------------------------------------------------------------------------
 \subsubsection{1. 基于模型结构的方法}

-\parinterval 在使用多领域数据时，混合多个相差较大的领域数据进行训练会使单个领域的翻译性能下降\upcite{DBLP:conf/eacl/NegriTFBF17}。 为了解决这一问题，一个比较典型的做法是在使用多领域数据训练时，如图\ref{fig:16-21}所示，在神经机器翻译模型的编码器中添加一个判别器，使用判别器预测输入句子的领域\upcite{DBLP:conf/wmt/BritzLP17}，具体的做法为：在编码器的顶部添加一个判别器网络，这个判别器使用源语言句子$x$的编码器表示$\mathbi{x}'$作为输入，预测句子所属的领域标签$d$。为了使预测领域标签$d$的正确概率$\funp{P(d|H)}$最大，模型在训练过程中最小化如下损失函数$\funp{L}_{\rm{disc}}$：
+\parinterval 在使用多领域数据时，混合多个相差较大的领域数据进行训练会使单个领域的翻译性能下降\upcite{DBLP:conf/eacl/NegriTFBF17}。 为了解决这一问题，一个比较典型的做法是在使用多领域数据训练时，如图\ref{fig:16-20}所示，在神经机器翻译模型的编码器中添加一个判别器，使用判别器预测输入句子的领域\upcite{DBLP:conf/wmt/BritzLP17}，具体的做法为：在编码器的顶部添加一个判别器网络，这个判别器使用源语言句子$x$的编码器表示$\mathbi{x}'$作为输入，预测句子所属的领域标签$d$。为了使预测领域标签$d$的正确概率$\funp{P(d|H)}$最大，模型在训练过程中最小化如下损失函数$\funp{L}_{\rm{disc}}$：

 \begin{eqnarray}
 \funp{L}_{\rm{disc}}& = &-\log\funp{P}(d|H)
@@ -971,7 +971,7 @@ P(\mathbi{y}|\mathbi{x}) & = & \frac{\mathrm{cos}(\mathbi{x},\mathbi{y})/\tau}{\
 \centering
 \input{Chapter16/Figures/figure-schematic-of-the-domain-discriminator}
 \caption{领域判别器示意图}
-\label{fig:16-21}
+\label{fig:16-20}
 \end{figure}
 %----------------------------------------------


--- a/bibliography.bib
+++ b/bibliography.bib
@@ -2713,9 +2713,8 @@ year = {2012}
               Franz Josef Och and
               Hermann Ney},
  title     = {Phrase-Based Statistical Machine Translation},
-  volume    = {2479},
  pages     = {18--32},
-  publisher = {Springer},
+  publisher = {Annual Conference on Artificial Intelligence},
  year      = {2002}
 }
 @inproceedings{DBLP:conf/naacl/ZensN04,