更新 chapter16.tex

fce04127 · 曹润柘 · 01975bdd · fce04127
Commit fce04127 authored Nov 17, 2020 by 曹润柘
--- a/Chapter16/chapter16.tex
+++ b/Chapter16/chapter16.tex
@@ -46,14 +46,15 @@

 \subsubsection{1. 回译}

-\parinterval {\small\bfnew{回译}}（Back Translation, BT）是目前机器翻译任务上最常用的一种数据增强方法（{\color{red} 参考文献！有很多}）。回译的主要思想是：利用目标语言-源语言模型（反向翻译模型）来生成伪双语句对，用于训练源语言-目标语言翻译模型（前向翻译模型）。假设我们的目标是训练一个英汉翻译模型。首先，使用双语数据训练汉英翻译模型，即反向翻译模型。然后通过该模型将额外的汉语单语句子翻译为英语句子，从而得到大量的生成英语- 真实汉语伪双语句对。然后，将回译得到的伪双语句对和真实双语句对混合，训练得到最终的英汉神经机器翻译模型。
-回译方法是模型无关的，只需要训练一个反向翻译模型，就可以简单有效地利用单语数据来增加训练数据的数量，因此在工业界也得到了广泛采用（{\color{red} 参考文献！可以引用google和fb的论文，是不是多语言或者无监督的方法里有}）。图\ref{fig:16-1-xc} 给出了回译方法的一个简要流程。
+\parinterval {\small\bfnew{回译}}（Back Translation, BT）是目前机器翻译任务上最常用的一种数据增强方法（{\color{red} 参考文献！有很多}）。回译的主要思想是：利用目标语言$-$源语言模型（反向翻译模型）来生成伪双语句对，用于训练源语言$-$目标语言翻译模型（前向翻译模型）。假设我们的目标是训练一个英汉翻译模型。首先，使用双语数据训练汉英翻译模型，即反向翻译模型。然后通过该模型将额外的汉语单语句子翻译为英语句子，从而得到大量的生成英语- 真实汉语伪双语句对。然后，将回译得到的伪双语句对和真实双语句对混合，训练得到最终的英汉神经机器翻译模型。
+
+\parinterval 回译方法是模型无关的，只需要训练一个反向翻译模型，就可以简单有效地利用单语数据来增加训练数据的数量，因此在工业界也得到了广泛采用（{\color{red} 参考文献！可以引用google和fb的论文，是不是多语言或者无监督的方法里有}）。图\ref{fig:16-1-xc} 给出了回译方法的一个简要流程。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter16/Figures/figure-application-process-of-back-translation}
-\caption{回译方法的流程}
+\caption{\red{回译方法的流程}}
 \label{fig:16-1-xc}
 \end{figure}
 %-------------------------------------------
@@ -66,7 +67,7 @@
 \begin{figure}[htp]
 \centering
 \input{./Chapter16/Figures/figure-example-of-iterative-back-translation}
-\caption{迭代式回译方法的流程}
+\caption{\red{迭代式回译方法的流程}}
 \label{fig:16-2-xc}
 \end{figure}
 %-------------------------------------------
@@ -97,7 +98,7 @@
    \vspace{0.5em}
 \end{itemize}

-图\ref{fig:16-4-xc}展示了三种加噪方法的示例。这里，$\funp{P}_{\rm{drop}}$和$\funp{P}_{\rm{mask}}$均设置为0.1，表示每个词有$10\%$的概率被丢弃或屏蔽。打乱顺序的操作略微复杂，一种实现方法是，通过一个数字来表示每个词在句子中的位置，如“我”是第一个词，“你”是第三个词，然后，在每个位置生成一个$1$到$n$的随机数，$n$一般设置为3，然后将每个词的位置数和对应的随机数相加，即图中的$S$（{\color{red} 在图中把数重新算一下，前面我改了}）。 对$S$ 按照从小到大排序，根据排序后每个位置的索引从原始句子中选择对应的词，从而得到最终打乱顺序后的结果。比如，在排序后，$S_1$的值小于$S_0$，其余词则保持递增顺序，则将原始句子中的第零个词和第一个词的顺序进行交换，其他词保持不变。
+图\ref{fig:16-4-xc}展示了三种加噪方法的示例。这里，$\funp{P}_{\rm{drop}}$和$\funp{P}_{\rm{mask}}$均设置为0.1，表示每个词有$10\%$的概率被丢弃或屏蔽。打乱顺序的操作略微复杂，一种实现方法是，通过一个数字来表示每个词在句子中的位置，如“我”是第一个词，“你”是第三个词，然后，在每个位置生成一个$1$到$n$的随机数，$n$一般设置为3，然后将每个词的位置数和对应的随机数相加，即图中的$S$（{\color{red} 在图中把数重新算一下，前面我改了}）。 对$S$ 按照从小到大排序，根据排序后每个位置的索引从原始句子中选择对应的词，从而得到最终打乱顺序后的结果。比如，在排序后，$S_2$的值小于$S_1$，其余词则保持递增顺序，则将原始句子中的第零个词和第一个词的顺序进行交换，其他词保持不变。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -108,7 +109,7 @@
 \end{figure}
 %-------------------------------------------

-\parinterval 和回译方法相似，加噪方法一般仅在源语言句子上进行操作，既保证了目标语言句子的流畅度，又可以提高训练数据量，增加数据的多样性（{\color{red} 参考文献!}）。加噪方法也被用于训练降噪自编码器，在无监督机器翻译中也得到了广泛应用，详细方法可以参考xxx节。
+\parinterval 和回译方法相似，加噪方法一般仅在源语言句子上进行操作，既保证了目标语言句子的流畅度，又可以提高训练数据量，增加数据的多样性（{\color{red} 参考文献!}）。加噪方法也被用于训练降噪自编码器，在无监督机器翻译中也得到了广泛应用，详细方法可以参考\ref{unsupervised-NMT}节。

 \vspace{0.5em}
 \item {\small\sffamily\bfnew{单词替换}}
@@ -155,10 +156,7 @@

 \parinterval 可比语料大多存在于网页中，内容较为复杂，可能会存在较大比例的噪声，如HTML字符、乱码等。首先需要进行充分的数据清洗操作，得到干净的可比语料，然后从中抽取出可用的双语句对。传统的抽取方法一般通过统计模型或双语词典来得到，比如，通过计算两个不同语言句子之间的单词重叠数或BLEU值\upcite{finding2006adafre,method2008keiji},通过排序模型或二分类器判断一个目标语言句子和一个源语言句子互译的可能性\upcite{DBLP:journals/coling/MunteanuM05,DBLP:conf/naacl/SmithQT10} 。

-\parinterval 另外一种比较有效的方法是根据两种语言中每个句子的表示向量来抽取。首先，对于两种语言的每个句子，分别使用词嵌入加权平均等方法计算得到句子的表示向量，然后计算每个源语言句子和目标语言句子之间的余弦相似度，相似度大于一定阈值的句对则认为是可用的双语句对\upcite{DBLP:conf/emnlp/WuZHGQLL19}。然而，不同语言单独训练得到的词嵌入可能多对应不同的表示空间，因此得到的句向量无法用于衡量两个句子的相似度。为了解决这个问题，一般使用在同一表示空间的跨语言词嵌入来表示两种语言的单词。在跨语言词嵌入中，不同语言相同意思的词对应的词嵌入具有较高的相似性，因此得到的句向量也就可以用于衡量两个句子是否表示相似的语义（{\color{red} 参考文献！}）。关于跨语言词嵌入的具体内容，可以参考xxx节({\color{red} 双语词典归纳一节!})。
-
-(扩展阅读)
-\parinterval 除此之外，还有很多工作对数据增强方法进行了深入的研究与探讨。探索源语言单语数据在神经机器翻译中的使用方法\upcite{DBLP:conf/emnlp/ZhangZ16}；选择何种单语数据来生成伪数据带来的收益更大\upcite{DBLP:conf/emnlp/FadaeeM18,DBLP:conf/nlpcc/XuLXLLXZ19}；通过特别标识对真实双语和回译生成的伪双语数据进行区分\upcite{DBLP:conf/wmt/CaswellCG19}；在回译过程中对训练数据进行动态选择与加权\upcite{DBLP:journals/corr/abs200403672}；利用目标端单语数据和相关的富资源语言进行数据增强\upcite{DBLP:conf/acl/XiaKAN19}；通过在源语言或目标语言中随机选择某些词，将这些词替换为词表中随机的一个词，可以得到伪双语数据\upcite{DBLP:conf/emnlp/WangPDN18}；随机选择句子中的某个词，将这个词的词嵌入替换为多个语义相似词的加权表示融合\upcite{DBLP:conf/acl/GaoZWXQCZL19}；基于模型的不确定性来量化预测结果的置信度，从而提升回译方法的性能\upcite{DBLP:conf/emnlp/WangLWLS19}；探索如何利用大规模单语数据\upcite{DBLP:conf/emnlp/WuWXQLL19}；还有一些工作对数据增强进行了理论分析\upcite{DBLP:conf/emnlp/LiLHZZ19}{\color{red}，发现XXXX？}。（{\color{red} 这部分写得不错}）
+\parinterval 另外一种比较有效的方法是根据两种语言中每个句子的表示向量来抽取。首先，对于两种语言的每个句子，分别使用词嵌入加权平均等方法计算得到句子的表示向量，然后计算每个源语言句子和目标语言句子之间的余弦相似度，相似度大于一定阈值的句对则认为是可用的双语句对\upcite{DBLP:conf/emnlp/WuZHGQLL19}。然而，不同语言单独训练得到的词嵌入可能多对应不同的表示空间，因此得到的句向量无法用于衡量两个句子的相似度。为了解决这个问题，一般使用在同一表示空间的跨语言词嵌入来表示两种语言的单词。在跨语言词嵌入中，不同语言相同意思的词对应的词嵌入具有较高的相似性，因此得到的句向量也就可以用于衡量两个句子是否表示相似的语义（{\color{red} 参考文献！}）。关于跨语言词嵌入的具体内容，可以参考\ref{unsupervised-dictionary-induction}节。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -173,14 +171,13 @@

 \subsubsection{1. 语言模型融合（{\color{red} 参考文献较少}）}

-\parinterval 融合目标语言端的语言模型是一种最直接的使用单语数据的方法。实际上，神经机器翻译模型本身也具备了语言模型的作用，因为在解码器本质上也是一个语言模型，用于描述生成译文词串的规律。类似于语言模型，神经机器翻译模型可以自回归地生成翻译结果。对于一个双语句对$(x, y)$，神经机器翻译模型根据源语言句子$x$和前面生成的词来预测当前位置词的概率分布：
+\parinterval 融合目标语言端的语言模型是一种最直接的使用单语数据的方法。实际上，神经机器翻译模型本身也具备了语言模型的作用，因为在解码器本质上也是一个语言模型，用于描述生成译文词串的规律。类似于语言模型，神经机器翻译模型可以自回归地生成翻译结果。对于一个双语句对$(\mathbi{x}, \mathbi{y})$，神经机器翻译模型根据源语言句子$\mathbi{x}$和前面生成的词来预测当前位置词的概率分布：

 \begin{eqnarray}
-\log{P(y | x; \theta)} = \sum_{t}{\log{P(y_t | x, y_{<t}; \theta)}}
+\log{P(\mathbi{y} | \mathbi{x}; \theta)} = \sum_{t}{\log{P(y_t | \mathbi{x}, {\mathbi{y}}_{<t}; \theta)}}
 \label{eq:16-1-xc}
 \end{eqnarray}

-{\color{red} 这个公式和第九章的公式最好一致!!!}

 \noindent 这里，$\theta$是神经机器翻译模型的参数，$y_{<t}$表示第$t$个词前面生成的词。语言模型可以与上述过程融合，具体分为浅融合和深融合两种方法\upcite{2015OnGulcehre}，如图\ref{fig:16-6-xc}所示。

@@ -188,14 +185,14 @@
 \begin{figure}[htp]
    \centering
    \input{./Chapter16/Figures/lm-fusion}
-    \caption{语言模型的浅融合与深融合}
+    \caption{\red{语言模型的浅融合与深融合}}
    \label{fig:16-6-xc}
 \end{figure}
 %-------------------------------------------

 \parinterval 浅融合通过对神经机器翻译模型和语言模型的预测概率进行插值来得到最终的预测概率：
 \begin{eqnarray}
-\log{\funp{P}(y_t | x, y_{<t})} = \log{\funp{P}(y_t | x, y_{<t}; \theta_{TM})} + \beta \log{\funp{P}(y_t | y_{<t}; \theta_{LM})}
+\log{\funp{P}(y_t | \mathbi{x}, \mathbi{y}_{<t})} = \log{\funp{P}(y_t | \mathbi{x}, \mathbi{y}_{<t}; \theta_{TM})} + \beta \log{\funp{P}(y_t | \mathbi{y}_{<t}; \theta_{LM})}
 \label{eq:16-2-xc}
 \end{eqnarray}

@@ -207,7 +204,7 @@

 \parinterval 深融合的预测方式为：
 \begin{eqnarray}
-\log{\funp{P}(y_t | x, y_{<t})}= \log{\funp{P}(y_t | x, y_{<t}; s_{t})}
+\log{\funp{P}(y_t | \mathbi{x}, \mathbi{y}_{<t})}= \log{\funp{P}(y_t | \mathbi{x}, \mathbi{y}_{<t}; s_{t})}
 \label{eq:16-3-xc}
 \end{eqnarray}

@@ -305,7 +302,7 @@ g_{t} = \sigma (w^{T}s_{t}^{TM} + b)
 \begin{figure}[htp]
 \centering
 \input{./Chapter16/Figures/figure-target-side-multi-task-learning}
-\caption{机器翻译中的单任务学习和多任务学习}
+\caption{\red{机器翻译中的单任务学习和多任务学习}}
 \label{fig:16-9-xc}
 \end{figure}
 %-------------------------------------------
@@ -458,11 +455,11 @@ Joint training for neural machine translation models with monolingual data

 \subsection{基于枢轴语的方法}

-\parinterval 传统的多语言翻译中，广泛使用的是{\small\bfnew{基于枢轴语言的翻译}}（Pivot-based Translation）\upcite{DBLP:conf/emnlp/KimPPKN19}。在这种方法中，会使用一种数据丰富语言作为{\small\bfnew{中介语言}}或者{\small\bfnew{枢轴语言}}（Pivot Language），之后让源语言和目标语言向枢轴语言进行翻译。这样，通过资源丰富的中介语言将源语言和目标语言桥接在一起，达到解决源语言-目标语言双语数据缺乏的问题。比如，想要得到泰语到波兰语的翻译，可以通过英语做枢轴语言。通过“泰语$\rightarrow$英语$\rightarrow$波兰语”的翻译过程完成泰语到波兰语的转换。
+\parinterval 传统的多语言翻译中，广泛使用的是{\small\bfnew{基于枢轴语言的翻译}}（Pivot-based Translation）\upcite{DBLP:conf/emnlp/KimPPKN19}。在这种方法中，会使用一种数据丰富语言作为{\small\bfnew{中介语言}}或者{\small\bfnew{枢轴语言}}（Pivot Language），之后让源语言和目标语言向枢轴语言进行翻译。这样，通过资源丰富的中介语言将源语言和目标语言桥接在一起，达到解决源语言-目标语言双语数据缺乏的问题。比如，想要得到泰语到波兰语的翻译，可以通过英语做枢轴语言。通过“泰语$\to$英语$\to$波兰语”的翻译过程完成泰语到波兰语的转换。

 \parinterval 基于枢轴语的方法很早就出现在基于统计机器翻译中。在基于短语的机器翻译中，已经有很多方法建立了源到枢轴和枢轴到目标的短语/单词级别特征，并基于这些特征开发了源语言到目标语言的系统\upcite{DBLP:conf/naacl/UtiyamaI07,DBLP:journals/mt/WuW07,Farsi2010somayeh,DBLP:conf/acl/ZahabiBK13,DBLP:conf/emnlp/ZhuHWZWZ14,DBLP:conf/acl/MiuraNSTN15}，这些系统也已经广泛用于翻译稀缺资源语言对\upcite{DBLP:conf/acl/CohnL07,DBLP:journals/mt/WuW07,DBLP:conf/acl/WuW09}。由于基于枢轴语的方法与模型结构无关，因此该方法也快速适用于神经机器翻译，并且取得了不错的效果\upcite{DBLP:conf/emnlp/KimPPKN19,DBLP:journals/corr/ChengLYSX16}。比如，可以直接使用源到枢轴和枢轴到目标的两个神经机器翻译模型，之后分别用两个模型进行翻译，得到最终的结果\upcite{DBLP:conf/interspeech/KauersVFW02,de2006catalan}。在实现过程中，可以在枢轴语言中保留多个最佳翻译假设，以减少预测偏差\upcite{DBLP:conf/naacl/UtiyamaI07}，并通过多系统融合改进最终翻译\upcite{DBLP:conf/ijcnlp/Costa-JussaHB11}。

-\parinterval 基于枢轴的方法可以被描述为如图\ref{fig:16-1-ll}所示的过程。这里，使用虚线表示具有双语平行语料库的语言对，并使用带有箭头的实线表示翻译方向，令$x$，$y$和$p$分别表示源语言，目标语言和枢轴语言，对于输入源语言句子$x$和目标语言句子$y$，其翻译过程可以被建模为如下公式：
+\parinterval 基于枢轴的方法可以被描述为如图\ref{fig:16-1-ll}所示的过程。这里，使用虚线表示具有双语平行语料库的语言对，并使用带有箭头的实线表示翻译方向，令$\mathbi{x}$，$\mathbi{y}$和$\mathbi{p}$分别表示源语言，目标语言和枢轴语言，对于输入源语言句子$\mathbi{x}$和目标语言句子$\mathbi{y}$，其翻译过程可以被建模为如下公式：

 \begin{figure}[h]
 \centering
@@ -472,13 +469,13 @@ Joint training for neural machine translation models with monolingual data
 \end{figure}

 \begin{equation}
-\funp{P}(y|x) =\sum_{p}{\funp{P}(p|x)\funp{P}(y|p)}
+\funp{P}(\mathbi{y}|\mathbi{x}) =\sum_{\mathbi{p}}{\funp{P}(\mathbi{p}|\mathbi{x})\funp{P}(\mathbi{y}|\mathbi{p})}
 \label{eq:ll-1}
 \end{equation}

-\noindent 其中，$p$表示一个枢轴语言句子， $\funp{P(y|x)}$为从源语句子$x$翻译到目标语句子$y$的概率，$\funp{P}(p|x)$为从源语言句子$x$翻译到枢轴语言语句子$p$的概率，$\funp{P}(y|p)$为从枢轴语言句子$p$到目标语言句子$y$的概率。
+\noindent 其中，$\mathbi{p}$表示一个枢轴语言句子， $\funp{P(\mathbi{y}|\mathbi{x})}$为从源语句子$\mathbi{x}$翻译到目标语句子$\mathbi{y}$的概率，$\funp{P}(\mathbi{p}|\mathbi{x})$为从源语言句子$\mathbi{x}$翻译到枢轴语言语句子$\mathbi{p}$的概率，$\funp{P}(\mathbi{y}|\mathbi{p})$为从枢轴语言句子$\mathbi{p}$到目标语言句子$\mathbi{y}$的概率。

-\parinterval $\funp{P}(p|x)$和$\funp{P}(y|p)$可以直接复用既有的模型和方法。不过，枚举所有的枢轴语言语句子$p$是不可行的。因此一部分研究工作也探讨了如何选择有效的路径，从$x$经过少量$p$到达$y$\upcite{DBLP:conf/naacl/PaulYSN09}。
+\parinterval $\funp{P}(\mathbi{p}|\mathbi{x})$和$\funp{P}(\mathbi{y}|\mathbi{p})$可以直接复用既有的模型和方法。不过，枚举所有的枢轴语言语句子$\mathbi{p}$是不可行的。因此一部分研究工作也探讨了如何选择有效的路径，从$\mathbi{x}$经过少量$\mathbi{p}$到达$\mathbi{y}$\upcite{DBLP:conf/naacl/PaulYSN09}。

 \parinterval 虽然基于枢轴语的方法简单且易于实现，但该方法仍有一些不足。例如，它需要两次翻译过程，因此增加了翻译时间。而且在两次翻译中，翻译错误会进行累积从而产生错误传播问题，导致模型翻译准确性降低。此外，基于枢轴的语言仍然假设源语言和枢轴语言（或者目标语言和枢轴语言）之间存在一定规模的双语平行数据，但是这个假设在很多情况下并不成立。比如，对于一些资源极度稀缺的语言，其到英语或者汉语的双语数据仍然十分缺乏，这时使用基于枢轴的方法的效果往往也并不理想。虽然存在以上问题，但是基于枢轴的方法仍然受到工业界的青睐，很多在线翻译引擎也在大量使用这种方法进行多语言的翻译。

@@ -488,7 +485,7 @@ Joint training for neural machine translation models with monolingual data

 \subsection{基于知识蒸馏的方法}

-\parinterval 为了解决基于使用枢轴语言的问题，研究人员提出基于知识蒸馏的方法\upcite{DBLP:conf/acl/ChenLCL17,DBLP:conf/iclr/TanRHQZL19}。知识蒸馏是一种常用的模型压缩方法\upcite{DBLP:journals/corr/HintonVD15}，基于教师-学生框架，在第十三章已经进行了详细介绍。针对稀缺资源任务，基于教师-学生框架的方法基本思想如图\ref{fig:16-2-ll}所示。其中，虚线表示具有平行语料库的语言对，带有箭头的实线表示翻译方向。这里，将枢轴语言（$p$）到目标语言（$y$）的翻译模型$\funp{P}(y|p)$当作教师模型，源语言（$x$）到目标语言（$y$）的翻译模型$\funp{P}(y|x)$当作学生模型。然后，用教师模型来指导学生模型的训练，这个过程中学习的目标就是让$\funp{P}(y|x)$尽可能地接近$\funp{P}(y|p)$，这样学生模型就可以学习到源语言到目标语言的翻译知识。
+\parinterval 为了解决基于使用枢轴语言的问题，研究人员提出基于知识蒸馏的方法\upcite{DBLP:conf/acl/ChenLCL17,DBLP:conf/iclr/TanRHQZL19}。知识蒸馏是一种常用的模型压缩方法\upcite{DBLP:journals/corr/HintonVD15}，基于教师-学生框架，在第十三章已经进行了详细介绍。针对稀缺资源任务，基于教师-学生框架的方法基本思想如图\ref{fig:16-2-ll}所示。其中，虚线表示具有平行语料库的语言对，带有箭头的实线表示翻译方向。这里，将枢轴语言（$\mathbi{p}$）到目标语言（$\mathbi{y}$）的翻译模型$\funp{P}(\mathbi{y}|\mathbi{p})$当作教师模型，源语言（$\mathbi{x}$）到目标语言（$\mathbi{y}$）的翻译模型$\funp{P}(\mathbi{y}|\mathbi{x})$当作学生模型。然后，用教师模型来指导学生模型的训练，这个过程中学习的目标就是让$\funp{P}(\mathbi{y}|\mathbi{x})$尽可能地接近$\funp{P}(\mathbi{y}|\mathbi{p})$，这样学生模型就可以学习到源语言到目标语言的翻译知识。

 \begin{figure}[h]
 \centering
@@ -497,16 +494,16 @@ Joint training for neural machine translation models with monolingual data
 \label{fig:16-2-ll}
 \end{figure}

-\parinterval 需要注意的是，基于知识蒸馏的方法需要基于翻译对等假设，该假设为：如果源语言句子$x$、枢轴语言句子$p$和目标语言句子$y$这三个句子互译，则从源语言句子$x$生成目标语言句子$y$的概率$\funp{P}(y|x)$应接近与源语言句子$x$对应的$p$的概率$\funp{P}(y|p)$，即：
+\parinterval 需要注意的是，基于知识蒸馏的方法需要基于翻译对等假设，该假设为：如果源语言句子$\mathbi{x}$、枢轴语言句子$\mathbi{p}$和目标语言句子$\mathbi{y}$这三个句子互译，则从源语言句子$\mathbi{x}$生成目标语言句子$\mathbi{y}$的概率$\funp{P}(\mathbi{y}|\mathbi{x})$应接近与源语言句子$\mathbi{x}$对应的$p$的概率$\funp{P}(\mathbi{y}|\mathbi{p})$，即：

 \begin{equation}
-\funp{P}(y|x) \approx \funp{P}(y|p)
+\funp{P}(\mathbi{y}|\mathbi{x}) \approx \funp{P}(\mathbi{y}|\mathbi{p})
 \label{eq:ll-2}
 \end{equation}

-\parinterval 和基于枢轴语言的方法相比，基于教师-学生框架的方法无需训练源语言到枢轴语言的翻译模型，也就无需经历两次翻译过程，翻译效率有所提升，又避免了两次翻译所面临的错误传播问题。举个例子，假如图\ref{fig:16-2-ll}中$x$为源语言德语 “hallo”，$p$为中间语言英语 “hello”，$y$为目标语言法语“bonjour”，则德语“hallo”翻译为法语“bonjour”的概率应该与英语“hello”翻译为法语“bonjour”的概率相近。
+\parinterval 和基于枢轴语言的方法相比，基于教师-学生框架的方法无需训练源语言到枢轴语言的翻译模型，也就无需经历两次翻译过程，翻译效率有所提升，又避免了两次翻译所面临的错误传播问题。举个例子，假如图\ref{fig:16-2-ll}中$\mathbi{x}$为源语言德语 “hallo”，$\mathbi{p}$为中间语言英语 “hello”，$\mathbi{y}$为目标语言法语“bonjour”，则德语“hallo”翻译为法语“bonjour”的概率应该与英语“hello”翻译为法语“bonjour”的概率相近。

-\parinterval 相较于基于枢轴语言的方法，基于知识蒸馏的方法无论在性能还是效率上都具有一定优势。但是，它仍然需要显性的使用枢轴语言进行桥接，因此仍然面临着“源语言$\rightarrow$枢轴语言$\rightarrow$目标语言”转换中信息丢失的问题。比如，当枢轴语言到目标语言翻译效果较差时，由于教师模型无法提供准确的指导，学生模型也无法取得很好的学习效果。
+\parinterval 相较于基于枢轴语言的方法，基于知识蒸馏的方法无论在性能还是效率上都具有一定优势。但是，它仍然需要显性的使用枢轴语言进行桥接，因此仍然面临着“源语言$\to$枢轴语言$\to$目标语言”转换中信息丢失的问题。比如，当枢轴语言到目标语言翻译效果较差时，由于教师模型无法提供准确的指导，学生模型也无法取得很好的学习效果。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -516,7 +513,7 @@ Joint training for neural machine translation models with monolingual data

 \parinterval {\small\bfnew{迁移学习}}（Transfer Learning）是一种机器学习的方法，指的是一个预训练的模型被重新用在另一个任务中，而并不是从头训练一个新的模型\upcite{DBLP:conf/ijcnlp/Costa-JussaHB11,DBLP:journals/corr/HintonVD15}。迁移学习的目标是将某个领域或任务上学习到的知识应用到不同但相关的领域或问题中。在机器翻译中，可以用资源丰富的语言对中知识来改进稀缺资源语言对上的神经机器翻译性能，即将富资源语言对中知识迁移到稀缺资源知识中。

-\parinterval 基于枢轴语言的方法需要显性的建立“源语言$\rightarrow$枢轴语言$\rightarrow$目标语言”的路径。这时，如果路径中某处出现了问题，就会成为整个路径的瓶颈。如果使用多个枢轴语言，这个问题会更加严重。不同于基于枢轴语言的方法，迁移学习无需进行两步解码，也就避免了翻译路径中累积错误的问题。
+\parinterval 基于枢轴语言的方法需要显性的建立“源语言$\to$枢轴语言$\to$目标语言”的路径。这时，如果路径中某处出现了问题，就会成为整个路径的瓶颈。如果使用多个枢轴语言，这个问题会更加严重。不同于基于枢轴语言的方法，迁移学习无需进行两步解码，也就避免了翻译路径中累积错误的问题。

 \parinterval 基于迁移学习的方法思想非常简单，如图\ref{fig:16-3-ll}所示。这种方法无需像传统的机器学习一样为每个任务单独训练一个模型，它将所有任务分类为源任务和目标任务，目标就是将源任务中的知识迁移到目标任务当中

@@ -554,9 +551,9 @@ Joint training for neural machine translation models with monolingual data

 \parinterval 多语言单模型方法也可以被看做是一种迁移学习。多语言单模型方法能够有效地改善低资源神经机器翻译性能\upcite{DBLP:journals/tacl/JohnsonSLKWCTVW17,DBLP:conf/lrec/RiktersPK18,dabre2019brief}，尤其适用于翻译方向较多的情况，因为为每一个翻译方向单独训练一个模型是不实际的，不仅由于设备资源和时间上的限制，还由于很多翻译方向都没有双语平行数据。比如，要翻译100个语言之间的互译的系统，理论上就需要训练$100 \times 99$个翻译模型，代价是十分巨大的。这时就需要用到{\small\bfnew{多语言单模型方法}}\index{多语言单模型方法}（Multi-lingual Single Model-based Method\index{Multi-lingual Single Model-based Method}）。

-\parinterval 多语言单模型系统即用单个模型训练具有多个语言翻译方向的系统。对于源语言集合$G_x$和目标语言集合$G_y$，多语言单模型的学习目标是学习一个单一的模型，这个模型可以进行任意源语言到任意目标语言的翻译，即同时支持所有$(x,y) \in (G_x,G_y)$的翻译。多语言单模型方法又可以进一步分为一对多\upcite{DBLP:conf/acl/DongWHYW15}、多对一\upcite{DBLP:journals/tacl/LeeCH17}和多对多\upcite{DBLP:conf/naacl/FiratCB16}的方法。不过这些方法本质上是相同的，因此这里以多对多翻译为例进行介绍。
+\parinterval 多语言单模型系统即用单个模型训练具有多个语言翻译方向的系统。对于源语言集合$\seq{G}_x$和目标语言集合$\seq{G}_y$，多语言单模型的学习目标是学习一个单一的模型，这个模型可以进行任意源语言到任意目标语言的翻译，即同时支持所有$(x,y) \in (\seq{G}_x,\seq{G}_y)$的翻译。多语言单模型方法又可以进一步分为一对多\upcite{DBLP:conf/acl/DongWHYW15}、多对一\upcite{DBLP:journals/tacl/LeeCH17}和多对多\upcite{DBLP:conf/naacl/FiratCB16}的方法。不过这些方法本质上是相同的，因此这里以多对多翻译为例进行介绍。

-\parinterval 在模型结构方面，多语言模型与普通的神经机器翻译模型相同，都是标准的编码-解码结构。多语言单模型方法的一个假设是：不同语言可以共享同一个表示空间。因此，该方法使用同一个编码器处理所有的源语言句子，使用同一个解码器处理所有的目标语言句子。为了使多个语言共享同一个解码器（或编码器），一种简单的方法是直接在输入句子上加入语言标记，让模型显性地知道当前句子属于哪个语言。如图\ref{fig:16-5-ll}所示，在此示例中，标记“ <spanish>”指示目标句子为西班牙语，标记“ <german>”指示目标句子为德语，则模型在进行翻译时便会将句子开头加<spanish>标签的句子翻译为西班牙语\upcite{DBLP:journals/tacl/JohnsonSLKWCTVW17}。假设训练时有英语到西班牙语 “<spanish> Hello”$\rightarrow$“Hola”和法语到德语“<german> Bonjour”$\rightarrow$“Hallo” 的双语句对，则在解码时候输入英语“<german> Hello”时就会得到解码结果“Hallo”。
+\parinterval 在模型结构方面，多语言模型与普通的神经机器翻译模型相同，都是标准的编码-解码结构。多语言单模型方法的一个假设是：不同语言可以共享同一个表示空间。因此，该方法使用同一个编码器处理所有的源语言句子，使用同一个解码器处理所有的目标语言句子。为了使多个语言共享同一个解码器（或编码器），一种简单的方法是直接在输入句子上加入语言标记，让模型显性地知道当前句子属于哪个语言。如图\ref{fig:16-5-ll}所示，在此示例中，标记“ <spanish>”指示目标句子为西班牙语，标记“ <german>”指示目标句子为德语，则模型在进行翻译时便会将句子开头加<spanish>标签的句子翻译为西班牙语\upcite{DBLP:journals/tacl/JohnsonSLKWCTVW17}。假设训练时有英语到西班牙语 “<spanish> Hello”$\to$“Hola”和法语到德语“<german> Bonjour”$\to$“Hallo” 的双语句对，则在解码时候输入英语“<german> Hello”时就会得到解码结果“Hallo”。

 \begin{figure}[h]
 \centering
@@ -601,7 +598,7 @@ Joint training for neural machine translation models with monolingual data
 %    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsection{无监督词典归纳}
+\subsection{无监督词典归纳}\label{unsupervised-dictionary-induction}

 \parinterval {\small\bfnew{词典归纳}}\index{词典归纳}（Bilingual Dictionary Induction，BDI\index{Bilingual Dictionary Induction}），也叫{\small\bfnew{词典推断}}，是实现语种间单词级别翻译的任务。在统计机器翻译中，词典归纳是一项核心的任务，它从双语平行语料中发掘互为翻译的单词，是翻译知识的主要来源\upcite{黄书剑0统计机器翻译中的词对齐研究}。在端到端神经机器翻译中，词典归纳通常作为一个下游任务被用到无监督机器翻译、多语言机器翻译等任务中。在神经机器翻译中，单词通过连续化的向量来表示，即词嵌入。所有单词分布在一个高维的空间中，基于人们对词嵌入空间的观察发现：连续的单词嵌入空间在各种语言中显示出类似的结构，这使得直接利用词嵌入来构建双语词典成为可能（{\color{red} 参考文献！}）。其基本想法是先将来自不同语言的词嵌入投影到共享嵌入空间中，然后在此共享空间中归纳出双语词典（{\color{red} 最好有一个图！}）。研究人员们进行了众多的尝试，较早的尝试是使用一个包含数千词对的种子词典作为锚点来学习从源语到目标语词嵌入空间的线性映射，将两个语言的词汇投影到共享的嵌入空间之后，执行一些对齐算法即可得到双语词典\upcite{DBLP:journals/corr/MikolovLS13}。最近的研究表明，词典归纳可以在更弱的监督信号下完成，这些监督信号来自数百对小词典\upcite{DBLP:conf/acl/VulicK16}、 相同的字符串\upcite{DBLP:conf/iclr/SmithTHH17}，甚至仅仅是共享的数字\upcite{DBLP:conf/acl/ArtetxeLA17}。

@@ -627,9 +624,9 @@ Joint training for neural machine translation models with monolingual data

 \begin{itemize}
 \vspace{0.5em}
-\item 对于图XX(a)中的分布在不同空间中的两个单语词嵌入X和Y，基于两者近似同构的假设，利用无监督匹配的方法来得到一个粗糙的线性映射W，结果如图XX(b)所示。
+\item 对于图XX(a)中的分布在不同空间中的两个单语词嵌入$\mathbi{X}$和$\mathbi{Y}$，基于两者近似同构的假设，利用无监督匹配的方法来得到一个粗糙的线性映射$\mathbi{W}$，结果如图XX(b)所示。
 \vspace{0.5em}
-\item 利用映射W可以执行对齐算法从而归纳出一个种子词典，如图XX(c)所示。
+\item 利用映射$\mathbi{W}$可以执行对齐算法从而归纳出一个种子词典，如图XX(c)所示。
 \vspace{0.5em}
 \item 利用种子词典不断迭代微调进一步提高映射性能，最终映射的效果如图XX(d)所示，之后即可从中推断出词典作为最后的结果。
 \vspace{0.5em}
@@ -646,23 +643,23 @@ Joint training for neural machine translation models with monolingual data

 \begin{itemize}
 \vspace{0.5em}
-\item 基于GAN的方法\upcite{DBLP:conf/iclr/LampleCRDJ18,DBLP:conf/acl/ZhangLLS17,DBLP:conf/emnlp/XuYOW18,DBLP:conf/naacl/MohiuddinJ19}。在这个任务中，通过生成器来产生映射W，鉴别器负责区分随机抽样的元素WX 和Y，两者共同优化收敛后即可得到映射W。
+\item 基于GAN的方法\upcite{DBLP:conf/iclr/LampleCRDJ18,DBLP:conf/acl/ZhangLLS17,DBLP:conf/emnlp/XuYOW18,DBLP:conf/naacl/MohiuddinJ19}。在这个任务中，通过生成器来产生映射$\mathbi{W}$，鉴别器负责区分随机抽样的元素$\mathbi{W}\cdot \mathbi{X}$ 和$\mathbi{Y}$，两者共同优化收敛后即可得到映射$\mathbi{W}$。
 \vspace{0.5em}
-\item 基于Gromov-Wasserstein 的方法\upcite{DBLP:conf/emnlp/Alvarez-MelisJ18,DBLP:conf/lrec/GarneauGBDL20,DBLP:journals/corr/abs-1811-01124,DBLP:conf/emnlp/XuYOW18}。Wasserstein距离是度量空间中定义两个概率分布之间距离的函数。在这个任务中，它用来衡量不同语言中单词对之间的相似性，利用空间近似同构的信息可以定义出一些目标函数，之后通过优化该目标函数也可以得到映射W。
+\item 基于Gromov-Wasserstein 的方法\upcite{DBLP:conf/emnlp/Alvarez-MelisJ18,DBLP:conf/lrec/GarneauGBDL20,DBLP:journals/corr/abs-1811-01124,DBLP:conf/emnlp/XuYOW18}。Wasserstein距离是度量空间中定义两个概率分布之间距离的函数。在这个任务中，它用来衡量不同语言中单词对之间的相似性，利用空间近似同构的信息可以定义出一些目标函数，之后通过优化该目标函数也可以得到映射$\mathbi{W}$。
 \vspace{0.5em}
 \end{itemize}

-\parinterval 在得到映射W之后，对于X中的任意一个单词x，通过 Wx将其映射到空间Y中，然后在Y中找到该点的最近邻点y，于是y就是x的翻译词，重复该过程即可归纳出种子词典D，第一阶段结束。事实上，由于第一阶段缺乏监督信号，得到的种子词典D会包含大量的噪音，性能并不高，因此需要进行进一步的微调。
+\parinterval 在得到映射$\mathbi{W}$之后，对于$\mathbi{X}$中的任意一个单词$x$，通过$W_x$将其映射到空间$\mathbi{Y}$中，然后在$\mathbi{Y}$中找到该点的最近邻点$y$，于是$y$就是$x$的翻译词，重复该过程即可归纳出种子词典D，第一阶段结束。事实上，由于第一阶段缺乏监督信号，得到的种子词典D会包含大量的噪音，性能并不高，因此需要进行进一步的微调。

-\parinterval 微调的原理普遍基于普氏分析\upcite{DBLP:journals/corr/MikolovLS13}。假设现在有一个种子词典$D=\left\{x_{i}, y_{i}\right\}$其中${i \in\{1, n\}}$，和两个单语词嵌入X和Y，那么就可以将D 作为{\small\bfnew{映射锚点}}\index{映射锚点}（Anchor\index{Anchor}）学习一个转移矩阵 W，使得 WX与 Y这两个空间尽可能相近，此外通过对W施加正交约束可以显著提高能\upcite{DBLP:conf/naacl/XingWLL15}，于是这个优化问题就转变成了{\small\bfnew{普鲁克问题}}\index{普鲁克问题}（Procrustes Problem\index{Procrustes Problem}）\upcite{DBLP:conf/iclr/SmithTHH17}，可以通过{\small\bfnew{奇异值分解}}\index{奇异值分解}（Singular Value Decomposition，SVD\index{Singular Value Decomposition，SVD}）来获得近似解：
+\parinterval 微调的原理普遍基于普氏分析\upcite{DBLP:journals/corr/MikolovLS13}。假设现在有一个种子词典$D=\left\{x_{i}, y_{i}\right\}$其中${i \in\{1, n\}}$，和两个单语词嵌入$\mathbi{X}$和$\mathbi{Y}$，那么就可以将D作为{\small\bfnew{映射锚点}}\index{映射锚点}（Anchor\index{Anchor}）学习一个转移矩阵$\mathbi{W}$，使得$\mathbi{W}\cdot \mathbi{X}$与$\mathbi{Y}$这两个空间尽可能相近，此外通过对$\mathbi{W}$施加正交约束可以显著提高能\upcite{DBLP:conf/naacl/XingWLL15}，于是这个优化问题就转变成了{\small\bfnew{普鲁克问题}}\index{普鲁克问题}（Procrustes Problem\index{Procrustes Problem}）\upcite{DBLP:conf/iclr/SmithTHH17}，可以通过{\small\bfnew{奇异值分解}}\index{奇异值分解}（Singular Value Decomposition，SVD\index{Singular Value Decomposition，SVD}）来获得近似解：

 \begin{eqnarray}
-W^{\star} & = &\underset{W \in O_{d}(\mathbb{R})}{\operatorname{argmin}}\|W X-Y\|_{\mathrm{F}}=U V^{T} \\
-\textrm{s.t.\ \ \ \ } U \Sigma V^{T} &= &\operatorname{SVD}\left(Y X^{T}\right)
+\mathbi{W}^{\star} & = &\underset{\mathbi{W} \in O_{d}(\mathbb{R})}{\operatorname{argmin}}\|\mathbi{W}\cdot \mathbi{X}- \mathbi{Y} \|_{\mathrm{F}}=\mathbi{U}\cdot \mathbi{V}^{T} \\
+\textrm{s.t.\ \ \ \ } \mathbi{U} \Sigma \mathbi{V}^{T} &= &\operatorname{SVD}\left(\mathbi{Y}\cdot \mathbi{X}^{T}\right)
 \label{eq:16-1}
 \end{eqnarray}

-\noindent 其中，{\color{red} $\operatorname{SVD}(\cdot)$表示XXX}，Y和X行对齐。利用上式可以获得新的W，通过W可以归纳出新的D，如此迭代进行微调最后即可以得到收敛的D。
+\noindent 其中，{\color{red} $\operatorname{SVD}(\cdot)$表示XXX}，$\mathbi{Y}$和$\mathbi{X}$行对齐。利用上式可以获得新的$\mathbi{W}$，通过$\mathbi{W}$可以归纳出新的D，如此迭代进行微调最后即可以得到收敛的D。

 \parinterval 目前，无监督词典归纳工作主要集中在两个方向，一个方向是通过用新的建模方法或改进上述两阶段方法来提升无监督词典归纳的性能。{\color{red} 稍微扩展一下说，把下面的参考文献使用上可以}。

@@ -715,18 +712,18 @@ W^{\star} & = &\underset{W \in O_{d}(\mathbb{R})}{\operatorname{argmin}}\|W X-Y\

 \parinterval 回顾统计机器翻译中的短语表，其实它类似于一个词典，对一个源语言短语给出相应的短语翻译（{\color{red} 引用PBMT的论文，NAACL2003！}）。只不过词典的基本单元是词，而短语表的基本单元是短语（或$n$-gram）。此外短语表还提供短语翻译的得分。既然短语表跟词典如此相似，那么很容易就可以把无监督词典归纳的方法移植到处理短语上，也就是把里面的词替换成短语，就可以无监督地得到短语表。

-\parinterval 如XXX节所示，无监督词典归纳的方法依赖于词的分布式表达，也就是词嵌入。因此当把无监督词典归纳拓展到短语上时，首先需要获得短语的分布式表达。比较简单的方法是把词换成短语，然后借助无监督词典归纳相同的算法得到短语的分布式表达。最后直接应用无监督词典归纳方法，得到源语言短语与目标语言短语之间的对应。
+\parinterval 如\ref{unsupervised-dictionary-induction}节所示，无监督词典归纳的方法依赖于词的分布式表达，也就是词嵌入。因此当把无监督词典归纳拓展到短语上时，首先需要获得短语的分布式表达。比较简单的方法是把词换成短语，然后借助无监督词典归纳相同的算法得到短语的分布式表达。最后直接应用无监督词典归纳方法，得到源语言短语与目标语言短语之间的对应。

 \parinterval 尽管已经得到了短语的翻译，短语表的另外一个重要的组成部分，也就是短语对的得分（概率）无法直接由词典归纳方法直接给出，而这些得分在统计机器翻译模型中非常重要。在无监督词典归纳中，在推断词典的时候会为一对源语言单词和目标语言单词打分（词嵌入之间的相似度），然后根据打分来决定哪一个目标语言单词更有可能是当前源语言单词的翻译。在无监督短语归纳中，这样一个打分已经提供了对短语对质量的度量，因此经过适当的归一化处理后就可以得到短语对的得分：

 \begin{eqnarray}
-P(t|s)=\frac{\mathrm{cos}(s,t)/\tau}{\sum_{t'}\mathrm{cos}(s,t')\tau}
+P(t|s)=\frac{\mathrm{cos}(\mathbi{x},\mathbi{y})/\tau}{\sum_{\mathbi{y}^{'}}\mathrm{cos}(\mathbi{x},\mathbi{y}^{'})\tau}
 \label{eq:16-2}
 \end{eqnarray}

-\noindent 其中，$\mathrm{cos}$是余弦相似度，$s$是经过无监督词典归纳里$W$转换的源语言短语嵌入，$t$是目标语言短语嵌入，$t'$是所有可能的目标语短语嵌入，$\tau$控制产生的分布$P$的尖锐程度的一个超参数。
+\noindent 其中，$\mathrm{cos}$是余弦相似度，$\mathbi{x}$是经过无监督词典归纳里$\mathbi{W}$转换的源语言短语嵌入，$\mathbi{y}$是目标语言短语嵌入，$\mathbi{y}^{'}$是所有可能的目标语短语嵌入，$\tau$控制产生的分布$P$的尖锐程度的一个超参数。

-\parinterval 一个问题是在无监督的情景下我们没有任何双语数据，那么如何得到最优的$\tau$？这里，可以寻找一个$\tau$使得所有$P(t|s)$ 最大（{\color{red} 参考文献！}）。通常，取离一个给定的$t$最接近的$s$ 而不是给定$s$ 选取最近的$t$来计算$P(t|s)$，因为给定$s$得到的最近$t$总是$P(t|s)$里概率最大的元素，这时候$\tau$总是可以通过逼近0来使得所有$P$的取值都接近1。实际中为了选取最优$\tau$我们会为$P(t|s)$ 和$P(s|t)$ 同时优化$\tau$。
+\parinterval 一个问题是在无监督的情景下我们没有任何双语数据，那么如何得到最优的$\tau$？这里，可以寻找一个$\tau$使得所有$P(\mathbi{y}|\mathbi{x})$ 最大（{\color{red} 参考文献！}）。通常，取离一个给定的$\mathbi{y}$最接近的$\mathbi{x}$ 而不是给定$\mathbi{x}$ 选取最近的$\mathbi{y}$来计算$P(\mathbi{y}|\mathbi{x})$，因为给定$\mathbi{x}$得到的最近$\mathbi{y}$总是$P(\mathbi{y}|\mathbi{x})$里概率最大的元素，这时候$\tau$总是可以通过逼近0来使得所有$P$的取值都接近1。实际中为了选取最优$\tau$我们会为$P(\mathbi{y}|\mathbi{x})$ 和$P(\mathbi{x}|\mathbi{y})$ 同时优化$\tau$。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SUB-SECTION
@@ -738,21 +735,20 @@ P(t|s)=\frac{\mathrm{cos}(s,t)/\tau}{\sum_{t'}\mathrm{cos}(s,t')\tau}

 \parinterval 经过上述的无监督模型调优后，就获得了一个比未经调优效果更好的翻译模型。这时候一个自然的想法就是可以使用这个更好更强的翻译模型去产生质量更高的数据，然后用这些数据来继续对翻译模型进行调优，如此反复迭代一定次数后停止。这个方法也被称为{\small\bfnew{迭代优化}}\index{迭代优化}（Iterative Refinement\index{Iterative Refinement}）（{\color{red} 参考文献！}）。

-\parinterval 迭代优化也会带来另外一个问题：在每一次迭代中都会产生新的模型，应该什么时候停止生成新模型，挑选哪一个模型？因为在无监督的场景当中，没有任何真实的双语数据可以使用，所以无法使用监督学习里的校验集来对每个模型进行检验并筛选。另外，即使有很少量的双语数据（比如数百条双语句对），直接在上面挑选模型和调整超参数会导致过拟合问题，使得最后结果越来越差。一个经验上非常高效的模型选择方法是：可以（{\color{red} 从？？？里}）挑选一些句子，然后使用当前的模型把这些句子翻译过去之后再翻译回来（源语言$\to$目标语言$\to$源语言，或者目标语言$\to$源语言$\to$目标语言），得到的结果跟原始的结果计算BLEU，得分越高则效果越好。这样一种无监督模型挑选标准经验上被证明是跟使用大的双语校验集的结果高度相关的\upcite{DBLP:conf/emnlp/LampleOCDR18}。
+\parinterval 迭代优化也会带来另外一个问题：在每一次迭代中都会产生新的模型，应该什么时候停止生成新模型，挑选哪一个模型？因为在无监督的场景当中，没有任何真实的双语数据可以使用，所以无法使用监督学习里的校验集来对每个模型进行检验并筛选。另外，即使有很少量的双语数据（比如数百条双语句对），直接在上面挑选模型和调整超参数会导致过拟合问题，使得最后结果越来越差。一个经验上非常高效的模型选择方法是：可以（{\color{red} 从？？？里}）挑选一些句子，然后使用当前的模型把这些句子翻译过去之后再翻译回来（源语言$\to $目标语言$\to$源语言，或者目标语言$\to$源语言$\to$目标语言），得到的结果跟原始的结果计算BLEU，得分越高则效果越好。这样一种无监督模型挑选标准经验上被证明是跟使用大的双语校验集的结果高度相关的\upcite{DBLP:conf/emnlp/LampleOCDR18}。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsection{无监督神经机器翻译（{\color{red} 参考文献较少！或者加一个拓展阅读！}）}
+\subsection{无监督神经机器翻译（{\color{red} 参考文献较少！或者加一个拓展阅读！}）}\label{unsupervised-NMT}

 \parinterval 既然神经机器翻译已经在很多任务上优于统计机器翻译，为什么不直接做无监督神经机器翻译呢？实际上，由于神经网络的黑盒特性使得我们无法像统计机器翻译那样对其进行拆解，并定位问题。因此需要借用其它无监督翻译系统来训练神经机器翻译模型。
-
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{基于无监督统计机器翻译的方法}
+\subsubsection{1. 基于无监督统计机器翻译的方法}

 一个简单的方法是，借助已经成功的无监督方法来为神经机器翻译模型提供少量双语监督信号，然后在这个基础上训练模型。由于初始的监督信号可能很少或者包含大量噪声，因此需要逐步优化数据来重新训练出更好的模型。这个方案最简单直接的实现就是借助已经成功的无监督统计机器翻译模型产生伪双语数据来训练神经机器翻译模型 ，然后模型进行迭代回译来进行数据优化，如图\ref{fig:16-1} 所示\upcite{DBLP:conf/acl/ArtetxeLA19}。这个方法的优点是直观，并且性能稳定，容易调试（所有模块都互相独立）。缺点是复杂繁琐，涉及许多超参数调整工作，而且训练代价较大（{\color{red} 再来一些参考文献？}）。

@@ -767,7 +763,7 @@ P(t|s)=\frac{\mathrm{cos}(s,t)/\tau}{\sum_{t'}\mathrm{cos}(s,t')\tau}
 %    NEW SUB-SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{基于无监督词典归纳的方法}
+\subsubsection{2. 基于无监督词典归纳的方法}

 \parinterval 既然无监督神经机器翻译问题的核心在于通过无监督方法提供初始的监督信号，另一个思路就是直接从无监督词典归纳中得到神经机器翻译模型，从而避免繁琐的无监督统计机器翻译模型训练过程，同时也避免神经机器翻译模型继承统计机器翻译模型的错误，如图\ref{fig:16-2}所示。这种方法的核心就是把翻译看成一个两阶段的过程：

@@ -792,7 +788,7 @@ P(t|s)=\frac{\mathrm{cos}(s,t)/\tau}{\sum_{t'}\mathrm{cos}(s,t')\tau}
 %    NEW SUB-SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{更深层的融合}
+\subsubsection{3. 更深层的融合}

 \parinterval 为了获得更好的神经机器翻译模型，可以对训练流程和模型做更深度的整合。{\chapternine}已经介绍，神经机器翻译模型的训练包含两个阶段：初始化和优化，而无监督神经机器翻译的核心思路也是对应的两个阶段：无监督方法提供初始的监督信号和数据优化，因此可以考虑通过在模型的初始化阶段使用无监督方法提供初始的监督信号，然后优化过程不但优化模型的参数，还优化训练使用的数据，从而避免流水线带来的错误传播，如图\ref{fig:16-3}所示\upcite{DBLP:conf/nips/ConneauL19}。

@@ -832,21 +828,16 @@ P(t|s)=\frac{\mathrm{cos}(s,t)/\tau}{\sum_{t'}\mathrm{cos}(s,t')\tau}
 \label{fig:16-4}
 \end{figure}

+\begin{itemize}
 \vspace{0.5em}
-\noindent {\small\bfnew{(1) 模型参数初始化}}
-\vspace{0.5em}
-
-\parinterval 无监督神经机器翻译的关键在于如何提供最开始的监督信号，从而启动后续的迭代流程。无监督词典归纳已经可以提供一些可靠的监督信号，那么如何在模型初始化中融入这些信息？既然神经机器翻译模型都使用词嵌入层作为输入，而无监督词典归纳总是首先把两个语言各自的单语词嵌入映射到一个空间后才归纳双语词典，那么可以使用这些映射后的词嵌入来初始化模型的词嵌入层，然后在这个基础上训练模型，因为这些映射后的词嵌入天然就包含了大量的监督信号，比如，两个语言里意思相近的词对应的词嵌入会比其他词更靠近对方\upcite{DBLP:journals/ipm/FarhanTAJATT20}。 为了防止训练过程中模型参数的更新会破坏词嵌入当中的词对齐信息，通常初始化后会固定模型的词嵌入层不让其更新。
+\item {\small\bfnew{模型参数初始化}}。无监督神经机器翻译的关键在于如何提供最开始的监督信号，从而启动后续的迭代流程。无监督词典归纳已经可以提供一些可靠的监督信号，那么如何在模型初始化中融入这些信息？既然神经机器翻译模型都使用词嵌入层作为输入，而无监督词典归纳总是首先把两个语言各自的单语词嵌入映射到一个空间后才归纳双语词典，那么可以使用这些映射后的词嵌入来初始化模型的词嵌入层，然后在这个基础上训练模型，因为这些映射后的词嵌入天然就包含了大量的监督信号，比如，两个语言里意思相近的词对应的词嵌入会比其他词更靠近对方\upcite{DBLP:journals/ipm/FarhanTAJATT20}。 为了防止训练过程中模型参数的更新会破坏词嵌入当中的词对齐信息，通常初始化后会固定模型的词嵌入层不让其更新。

 \parinterval 进一步的研究表明，无监督神经机器翻译能在提供更少监督信号的情况下启动，也就是可以去除无监督词典归纳这一步骤（{\color{red} 参考文献！}）。这时候模型的初始化直接使用共享词表的预训练模型的参数作为起始点。这个预训练模型直接使用前面提到的预训练方法（如MASS）进行训练，区别在于模型的大小如宽度和深度需要严格匹配翻译模型。此外，这个模型不仅仅只在一个语言的单语数据上进行训练，而是同时在两个语言的单语数据上进行训练，并且两个语言的词表进行共享。前面提到，在共享词表特别是共享子词词表的情况下，已经隐式的告诉模型源语言和目标语言里一样的（子）词互为翻译，相当于模型使用了少量的监督信号。在这基础上使用两个语言的单语数据进行预训练，则通过模型共享进一步挖掘了语言之间共通的部分。因此，使用预训练模型进行初始化后，无监督神经机器翻译模型已经得到大量的监督信号，从而得以不断通过优化来提升模型性能。

 \vspace{0.5em}
-\noindent {\small\bfnew{(2) 语言模型的使用}}
-\vspace{0.5em}
+\item {\small\bfnew{语言模型的使用}}。无监督神经机器翻译的一个重要部分就是来自语言模型的目标函数。因为翻译模型本质上是在完成文本生成任务，所以只有文本生成类型的语言模型建模方法才可以应用到无监督神经机器翻译里。比如，经典的给定前文预测下一词就是一个典型的自回归生成任务（见{\chaptertwo}），因此可以运用到无监督神经机器翻译里。但是，目前在预训练里流行的BERT等模型是自编码模型（{\color{red} 参考文献！}），就不能直接在无监督神经翻译里使用。

-\parinterval 无监督神经机器翻译的一个重要部分就是来自语言模型的目标函数。因为翻译模型本质上是在完成文本生成任务，所以只有文本生成类型的语言模型建模方法才可以应用到无监督神经机器翻译里。比如，经典的给定前文预测下一词就是一个典型的自回归生成任务（见{\chaptertwo}），因此可以运用到无监督神经机器翻译里。但是，目前在预训练里流行的BERT等模型是自编码模型（{\color{red} 参考文献！}），就不能直接在无监督神经翻译里使用。
-
-\parinterval 另外一个在无监督神经机器翻译中比较常见的语言模型目标函数则是{\small\bfnew{降噪自编码器}}\index{降噪自编码器}（Denoising Autoencoder\index{降噪自编码器}）。它也是文本生成类型的语言模型建模方法。对于一个句子$x$，首先使用一个噪声函数$x'=\mathrm{noise}(x)$ 来对$x$注入噪声，产生一个质量较差的句子$x'$。然后，让模型学习如何从$x'$还原出$x$。这样一个目标函数比预测下一词更贴近翻译任务的本质，因为它是一个序列到序列的映射，并且输入输出两个序列在语义上是等价的。通常来说，噪声函数$\mathrm{noise}$有三种形式，如表\ref{tab:16-1}所示。
+\parinterval 另外一个在无监督神经机器翻译中比较常见的语言模型目标函数则是{\small\bfnew{降噪自编码器}}\index{降噪自编码器}（Denoising Autoencoder\index{降噪自编码器}）。它也是文本生成类型的语言模型建模方法。对于一个句子$\mathbi{x}$，首先使用一个噪声函数$\mathbi{x}^{'}=\mathrm{noise}(\mathbi{x})$ 来对$x$注入噪声，产生一个质量较差的句子$\mathbi{x}^{'}$。然后，让模型学习如何从$\mathbi{x}^{'}$还原出$\mathbi{x}$。这样一个目标函数比预测下一词更贴近翻译任务的本质，因为它是一个序列到序列的映射，并且输入输出两个序列在语义上是等价的。通常来说，噪声函数$\mathrm{noise}$有三种形式，如表\ref{tab:16-1}所示。

 \begin{table}[h]
 \centering
@@ -864,6 +855,19 @@ P(t|s)=\frac{\mathrm{cos}(s,t)/\tau}{\sum_{t'}\mathrm{cos}(s,t')\tau}
 \end{table}

 \parinterval 实际当中三种形式的噪声函数都会被使用到，其中在交换方法中越相近的词越容易被交换，并且保证被交换的词的对数有限，而删除和空白方法里词的删除和替换概率通常都非常低，如$0.1$等。
+\vspace{0.5em}
+\end{itemize}

 {\color{red} 降噪自编码器需要再多说一下，因为这部分还是挺新颖的。比如，它解决了什么问题？为什么要降噪？数学本质是什么？常用的结构？等等}

+%----------------------------------------------------------------------------------------
+%    NEW SECTION
+%----------------------------------------------------------------------------------------
+
+\section{小结及深入阅读}
+
+(扩展阅读)
+\parinterval 除此之外，还有很多工作对数据增强方法进行了深入的研究与探讨。探索源语言单语数据在神经机器翻译中的使用方法\upcite{DBLP:conf/emnlp/ZhangZ16}；选择何种单语数据来生成伪数据带来的收益更大\upcite{DBLP:conf/emnlp/FadaeeM18,DBLP:conf/nlpcc/XuLXLLXZ19}；通过特别标识对真实双语和回译生成的伪双语数据进行区分\upcite{DBLP:conf/wmt/CaswellCG19}；在回译过程中对训练数据进行动态选择与加权\upcite{DBLP:journals/corr/abs200403672}；利用目标端单语数据和相关的富资源语言进行数据增强\upcite{DBLP:conf/acl/XiaKAN19}；通过在源语言或目标语言中随机选择某些词，将这些词替换为词表中随机的一个词，可以得到伪双语数据\upcite{DBLP:conf/emnlp/WangPDN18}；随机选择句子中的某个词，将这个词的词嵌入替换为多个语义相似词的加权表示融合\upcite{DBLP:conf/acl/GaoZWXQCZL19}；基于模型的不确定性来量化预测结果的置信度，从而提升回译方法的性能\upcite{DBLP:conf/emnlp/WangLWLS19}；探索如何利用大规模单语数据\upcite{DBLP:conf/emnlp/WuWXQLL19}；还有一些工作对数据增强进行了理论分析\upcite{DBLP:conf/emnlp/LiLHZZ19}{\color{red}，发现XXXX？}。（{\color{red} 这部分写得不错}）
+
+
+