wording (sec 16)

6f8da096 · xiaotong · a5eb4af0 · 6f8da096
Commit 6f8da096 authored Dec 27, 2020 by xiaotong
--- a/Chapter16/chapter16.tex
+++ b/Chapter16/chapter16.tex
@@ -764,7 +764,7 @@ P(\mathbi{y}|\mathbi{x}) & = & \frac{\mathrm{cos}(\mathbi{x},\mathbi{y})/\tau}{\

 \section{领域适应}

-\parinterval 机器翻译常常面临训练时与应用时所处领域不一致的问题，比如，一个在新闻类数据上训练的系统应用在医学文献翻译任务上。不同领域的句子通常存在着很大的区别，比如，日常用语的结构较为简单，而化学领域中论文的单词和句子结构较为复杂。此外，不同领域之间存在着较为严重的一词多义问题，即同一个词在不同领域中经常会有不同的含义。实例\ref{eg:16-1}展示了英语单词pitch在不同领域的不同词义。
+\parinterval 机器翻译常常面临训练时与应用时所处领域不一致的问题，比如，一个在新闻类数据上训练的系统应用在医学文献翻译任务上。不同领域的句子通常存在着很大的区别，比如，日常用语的结构较为简单，而化学领域的学术论文的单词和句子结构较为复杂。此外，不同领域之间存在着较为严重的一词多义问题，即同一个词在不同领域中经常会有不同的含义。实例\ref{eg:16-1}展示了英语单词pitch在不同领域的不同词义。
 %----------------------------------------------
 \begin{example}
 单词pitch在不同领域的不同词义
@@ -784,15 +784,15 @@ P(\mathbi{y}|\mathbi{x}) & = & \frac{\mathrm{cos}(\mathbi{x},\mathbi{y})/\tau}{\
 \end{example}
 %----------------------------------------------

-\parinterval 在机器翻译任务中，像新闻等领域的双语数据相对容易获取，所以机器翻译在这些领域上表现较佳。然而，即使在富资源语种上，化学、医学等专业领域的双语数据依然十分有限。如果直接使用低资源领域的数据来训练机器翻译模型，由于数据稀缺问题，会导致模型的性能较差\upcite{DBLP:conf/iccv/SunSSG17}。而混合多个领域的数据进行训练，不同领域的数据量不平衡会导致数据较少的领域训练不充分，模型容易忽略低资源领域的知识，使得在低资源领域上的翻译结果不尽人意\upcite{DBLP:conf/acl/DuhNST13}。
+\parinterval 在机器翻译任务中，像新闻等领域的双语数据相对容易获取，所以机器翻译在这些领域上表现较佳。然而，即使在富资源语种上，化学、医学等专业领域的双语数据依然十分有限。如果直接使用低资源领域的数据来训练机器翻译模型，由于数据稀缺问题，会导致模型的性能较差\upcite{DBLP:conf/iccv/SunSSG17}。而混合多个领域的数据进行训练，不同领域的数据量不平衡会导致数据较少的领域训练不充分，使得在低资源领域上的翻译结果不尽人意\upcite{DBLP:conf/acl/DuhNST13}。

-\parinterval {\small\bfnew{领域适应}}（Domain Adaptation）方法是利用其他领域（Source Domain\index{Source Domain}, 又称{\small\bfnew{源领域}}\index{源领域}）的知识来改进特定领域（Target Domain\index{Target Domain}, 又称{\small\bfnew{目标领域}}\index{目标领域}）翻译效果的方法，该方法可以有效地减少模型对目标领域数据的依赖。领域适应的研究方向主要有以下两点：
+\parinterval {\small\bfnew{领域适应}}（Domain Adaptation）方法是利用其他领域（Source Domain, 又称源领域）的知识来改进特定领域（Target Domain, 又称目标领域）翻译效果的方法，该方法可以有效地减少模型对目标领域数据的依赖。领域适应的研究方向主要有以下两点：

 \begin{itemize}
 \vspace{0.5em}
 \item 基于数据的方法。利用源领域的双语数据或目标领域单语数据进行数据选择或数据增强，来增加模型训练的数据量。
 \vspace{0.5em}
-\item 基于模型的方法。针对领域适应开发特定的模型结构或训练策略、推断方法。
+\item 基于模型的方法。针对领域适应开发特定的模型结构、训练策略和推断方法。
 \vspace{0.5em}
 \end{itemize}

@@ -801,7 +801,7 @@ P(\mathbi{y}|\mathbi{x}) & = & \frac{\mathrm{cos}(\mathbi{x},\mathbi{y})/\tau}{\
 %----------------------------------------------------------------------------------------
 \subsection{统计机器翻译中的领域适应}

-\parinterval 在统计机器翻译时代，使用基于数据或模型的方法来提升机器翻译模型在特定领域上的翻译性能就已经备受关注，而这些技术和思想也为神经机器翻译中的领域适应技术提供了参考。统计机器翻译中，领域适应可以分为基于混合模型的方法\upcite{DBLP:conf/iwslt/BisazzaRF11,niehues2012detailed,DBLP:conf/acl/SennrichSA13}、基于数据加权的方法\upcite{DBLP:conf/emnlp/MatsoukasRZ09,DBLP:conf/emnlp/FosterGK10,shah2012general}、基于数据选择的方法\upcite{DBLP:conf/lrec/EckVW04,DBLP:conf/acl/MooreL10,DBLP:conf/acl/DuhNST13,DBLP:conf/coling/HoangS14}和基于伪数据的方法\upcite{DBLP:conf/iwslt/Ueffing06,DBLP:conf/coling/WuWZ08,DBLP:conf/iwslt/Schwenk08,DBLP:conf/wmt/BertoldiF09}，本节将对这四种方法进行简单介绍。
+\parinterval 在统计机器翻译时代，使用基于数据或模型的方法来提升机器翻译模型在特定领域上的翻译性能就已经备受关注，而这些技术和思想也为神经机器翻译中的领域适应技术提供了参考。统计机器翻译中，领域适应可以分为基于混合模型的方法\upcite{DBLP:conf/iwslt/BisazzaRF11,niehues2012detailed,DBLP:conf/acl/SennrichSA13}、基于数据加权的方法\upcite{DBLP:conf/emnlp/MatsoukasRZ09,DBLP:conf/emnlp/FosterGK10,shah2012general}、基于数据选择的方法\upcite{DBLP:conf/lrec/EckVW04,DBLP:conf/acl/MooreL10,DBLP:conf/acl/DuhNST13,DBLP:conf/coling/HoangS14}和基于伪数据的方法\upcite{DBLP:conf/iwslt/Ueffing06,DBLP:conf/coling/WuWZ08,DBLP:conf/iwslt/Schwenk08,DBLP:conf/wmt/BertoldiF09}，本节将对这四种方法进行介绍。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SUB-SECTION
@@ -834,7 +834,7 @@ P(\mathbi{y}|\mathbi{x}) & = & \frac{\mathrm{cos}(\mathbi{x},\mathbi{y})/\tau}{\

 \parinterval 在真实场景中，由于每个领域的数据量有限，同时领域数量较多，针对每个领域单独训练一个机器翻译模型是不现实的。所以，通常的策略是训练一个机器翻译模型来支持多领域的翻译。虽然混合多个领域的数据可以有效增加训练数据规模，但正如前面所说，由于各个领域样本的数据量不平衡，在训练数据稀缺的领域上，模型表现往往差强人意。一种观点认为，数据量较少的领域数据具有更大的学习价值，可以提供较为珍贵的知识和信息，应该在训练过程中获得更大的权重，从而使这些更有价值的数据发挥出更大的作用\upcite{DBLP:conf/emnlp/MatsoukasRZ09,DBLP:conf/emnlp/FosterGK10}。数据加权方法使用规则或统计方法对每个实例或领域进行评分，作为它们的权重，然后赋予每个样本或领域不同的权重来训练统计机器翻译模型。

-\parinterval 上述思想本质上在解决{\small\bfnew{类别不均衡问题}}\upcite{DBLP:conf/emnlp/ZhuH07}\index{类别不均衡问题}（Class Imbalance Problem\index{Class Imbalance Problem}）。另一种方法是通过数据重新采样对语料库进行加权\upcite{DBLP:conf/wmt/ShahBS10,rousseau2011lium}。语料库加权方法通过构建目标领域的语言模型，比较各个语料库与目标领域的相似性，赋予相似的语料库更高的权重。
+\parinterval 上述思想本质上在解决{\small\bfnew{类别不均衡问题}}\index{类别不均衡问题}（Class Imbalance Problem\index{Class Imbalance Problem}）\upcite{DBLP:conf/emnlp/ZhuH07}。另一种方法是通过数据重新采样对语料库进行加权\upcite{DBLP:conf/wmt/ShahBS10,rousseau2011lium}。语料库加权方法通过构建目标领域的语言模型，比较各个语料库与目标领域的相似性，赋予相似的语料库更高的权重。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SUB-SECTION
@@ -891,16 +891,16 @@ P(\mathbi{y}|\mathbi{x}) & = & \frac{\mathrm{cos}(\mathbi{x},\mathbi{y})/\tau}{\

 \parinterval 既然多领域数据的方法会对模型产生一些干扰，那么能否从其他领域数据中选择与目标领域比较相近的数据来提升数据量呢？与统计机器翻译相似，可以通过使用困惑度\upcite{DBLP:conf/emnlp/AxelrodHG11}或JS散度\upcite{DBLP:conf/icdm/Remus12}等方法计算源领域数据与目标领域数据的相似度，从而选择较为相似的数据以增加目标领域的数据量，提升模型能力。

-\parinterval 一种相似度衡量方法是根据句子的句嵌入来计算\upcite{DBLP:conf/acl/WangFUS17}，即把其他领域的双语数据根据与目标领域句子的词嵌入相似度进行排序，设定一个阈值来选择与目标领域比较相似的句子，将其与目标领域的数据混合用于模型训练。除了直接混合两部分数据，还可以修改数据的训练方式，从而更有效地利用训练数据，具体方法可以参考\ref{modeling-methods-in neural-machine-translation}节的内容。数据选择充分地利用了其他领域的双语数据，使低资源问题得到了一定程度的缓解，模型可以学到更多目标领域相关的语言学知识，是目前比较常用的一个方法。
+\parinterval 另一种相似度衡量方法是根据句子的句嵌入来计算\upcite{DBLP:conf/acl/WangFUS17}，即把其他领域的双语数据根据与目标领域句子的词嵌入相似度进行排序，设定一个阈值来选择与目标领域比较相似的句子，将其与目标领域的数据混合用于模型训练。除了直接混合两部分数据，还可以修改数据的训练方式，从而更有效地利用训练数据，具体方法可以参考\ref{modeling-methods-in neural-machine-translation}节的内容。数据选择充分地利用了其他领域的双语数据，使低资源问题得到了一定程度的缓解，模型可以学到更多目标领域相关的语言学知识，是目前比较常用的一个方法。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SUB-SECTION
 %----------------------------------------------------------------------------------------
 \subsubsection{3. 基于单语数据的方法}

-\parinterval 虽然目标领域的双语数据十分有限，但通常存在大量可用的单语数据。例如在网络小说翻译任务中，只有少量的双语数据可用，但是网络上有丰富的小说单语数据可以使用。本章\ref{effective-use-of-data}节中提到了很多在低资源场景下利用单语数据的方法，比如进行数据增强或利用语言模型等，这些方法均可以直接应用在领域适应任务上。有效地利用领域内的单语数据可以显著提高机器翻译性能。
+\parinterval 虽然目标领域的双语数据十分有限，但通常存在一定量可用的单语数据。例如在网络小说翻译任务中，只有少量的双语数据可用，但是网络上有丰富的小说单语数据可以使用。本章\ref{effective-use-of-data}节中提到了很多在低资源场景下利用单语数据的方法，比如进行数据增强或利用语言模型等，这些方法均可以直接应用在领域适应任务上。有效地利用领域内的单语数据可以显著提高机器翻译性能。

-\parinterval 此外，如果目标领域的双语数据极度稀缺，甚至没有任何双语数据，这时可以使用\ref{unsupervised-dictionary-induction}节中提到的无监督词典归纳方法从目标领域中归纳出双语词典，然后将目标领域的目标端单语数据通过逐词翻译的方法生成伪数据\upcite{DBLP:conf/acl/HuXNC19}，即对每个单词根据双语词典进行对应翻译，构建伪平行语料，用来训练目标领域的神经机器翻译模型。
+\parinterval 此外，如果目标领域的双语数据极度稀缺，甚至没有任何双语数据，这时可以使用\ref{unsupervised-dictionary-induction}节中提到的无监督词典归纳方法从目标领域中归纳出双语词典，然后将目标领域的译文端单语数据通过逐词翻译的方法生成伪数据\upcite{DBLP:conf/acl/HuXNC19}，即对每个单词根据双语词典进行对应翻译，构建伪平行语料，用来训练目标领域的神经机器翻译模型。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -914,7 +914,7 @@ P(\mathbi{y}|\mathbi{x}) & = & \frac{\mathrm{cos}(\mathbi{x},\mathbi{y})/\tau}{\
 \vspace{0.5em}
 \item 基于模型结构的方法，设计更适用于领域适应问题的模型结构\upcite{2015OnGulcehre,DBLP:conf/naacl/BapnaF19,britz2017effective,DBLP:conf/ranlp/KobusCS17}。
 \vspace{0.5em}
-\item 基于训练策略的方法，制定能够更好利用多领域数据的训练方法\upcite{DBLP:conf/emnlp/WangULCS17,DBLP:conf/emnlp/WeesBM17,DBLP:conf/acl/ChuDK17}。
+\item 基于训练策略的方法，制定能够更有效利用多领域数据的训练方法\upcite{DBLP:conf/emnlp/WangULCS17,DBLP:conf/emnlp/WeesBM17,DBLP:conf/acl/ChuDK17}。
 \vspace{0.5em}
 \item 基于模型推断的方法，在推断阶段完成领域适应\upcite{DBLP:conf/emnlp/DouWHN19,khayrallah2017neural,DBLP:journals/corr/FreitagA16,DBLP:conf/acl/SaundersSGB19}。

@@ -964,11 +964,11 @@ P(\mathbi{y}|\mathbi{x}) & = & \frac{\mathrm{cos}(\mathbi{x},\mathbi{y})/\tau}{\

 \parinterval 因为特定领域的训练数据通常十分稀缺，所以如何更充分地利用数据是一个重要问题\upcite{DBLP:conf/naacl/SimianerWD19}。受到统计机器翻译中数据加权方法的启发，一个简单的思路是给神经机器翻译的训练数据分配不同的训练权重，从而使和目标领域更相关的数据发挥更大的作用，并减少不相关数据的干扰。一种常用的做法是使用目标领域内和领域外语言模型来计算样本的权重\upcite{DBLP:conf/emnlp/WangULCS17}。领域内语言模型对句子的打分越高，表示该句子与目标领域越相似，反之，领域外语言模型对句子的打分越高，表示该句子可能与目标领域无关，会对训练过程造成一些干扰。与句子级别进行加权方法相似，加权思想还可以应用在词级别，即对每个词进行权重评分，对目标领域中的词赋予更高的权重，以使模型倾向于生成更多目标领域的词\upcite{DBLP:journals/corr/abs-1906-03129}。

-\parinterval 数据选择方法会降低训练数据的数据量，而在数据量较少的时候模型性能表现可能较差。针对这个问题，一种方法是在不同的训练轮次动态地改变训练数据子集。动态数据选择使得每轮的训练数据均小于全部数据量，但是在每轮中的训练数据均不同，可能前一轮没有训练的数据在当前轮被包括进来，由此可以缓解训练数据减小的问题。另一种做法是先将完整的数据送入模型，再根据相似度逐次减少每轮的数据量，最后得到在目标领域上效果最好的领域适应模型\upcite{DBLP:conf/emnlp/WeesBM17}。或者将与领域相关的句子先送入模型，让模型可以最先学到跟目标领域最相关的知识\upcite{DBLP:conf/naacl/ZhangSKMCD19}。
+\parinterval 数据选择方法会降低训练数据的数据量，而在数据量较少的时候模型性能表现可能较差。针对这个问题，一种方法是在不同的训练轮次动态地改变训练数据子集。动态数据选择使得每轮的训练数据均小于全部数据量，但是在每轮中的训练数据均不同，可能前一轮没有训练的数据在当前轮被包括进来，由此可以缓解训练数据覆盖度不足的问题。另一种做法是先将完整的数据送入模型，再根据相似度逐次减少每轮的数据量，最后得到在目标领域上效果最好的领域适应模型\upcite{DBLP:conf/emnlp/WeesBM17}。或者将与领域相关的句子先送入模型，让模型可以最先学到跟目标领域最相关的知识\upcite{DBLP:conf/naacl/ZhangSKMCD19}。

 \parinterval 还有一种方法是不从随机状态开始训练网络，而是使用翻译性能较好的源领域模型作为初始状态，因为源领域模型中包含着一些通用知识可以被目标领域借鉴。比如，想获得口语的翻译模型，可以使用新闻的翻译模型作为初始状态进行训练。这也可以被看做是一种模型预训练方法。

-\parinterval 同时，微调方法经常配合预训练使用。不过微调的方法会带来灾难性遗忘问题，即在目标领域上过拟合，导致在源领域上的翻译性能大幅度下降。如果想要保证模型在目标领域和源领域上都有较好的性能，一个比较常用的方法是进行混合微调\upcite{DBLP:conf/acl/ChuDK17}。具体做法是先在源领域数据上训练一个神经机器翻译模型，然后将目标领域数据复制数倍和源领域数据量相等，之后将数据混合后对神经机器翻译模型进行微调。混合微调方法既降低了目标领域数据量小导致的过拟合问题，又带来了更好的微调性能。除了混合微调外，也可以使用知识蒸馏方法缓解灾难性遗忘问题（见\ref{multilingual-translation-model}），即对源领域和目标领域进行多次循环知识蒸馏，迭代学习对方领域的知识，可以保证在源领域和目标领域上的翻译性能共同逐步上升\upcite{DBLP:conf/emnlp/ZengLSGLYL19}。过拟合导致的灾难性遗忘问题还可以使用L2正则化和Dropout方法来缓解\upcite{barone2017regularization}。
+\parinterval 同时，微调方法经常配合预训练使用。不过微调的方法会带来灾难性遗忘问题，即在目标领域上过拟合，导致在源领域上的翻译性能大幅度下降（见{\chapterthirteen}）。如果想要保证模型在目标领域和源领域上都有较好的性能，一个比较常用的方法是进行混合微调\upcite{DBLP:conf/acl/ChuDK17}。具体做法是先在源领域数据上训练一个神经机器翻译模型，然后将目标领域数据复制数倍和源领域数据量相等，之后将数据混合后对神经机器翻译模型进行微调。混合微调方法既降低了目标领域数据量小导致的过拟合问题，又带来了更好的微调性能。除了混合微调外，也可以使用知识蒸馏方法缓解灾难性遗忘问题（见\ref{multilingual-translation-model}节），即对源领域和目标领域进行多次循环知识蒸馏，迭代学习对方领域的知识，可以保证在源领域和目标领域上的翻译性能共同逐步上升\upcite{DBLP:conf/emnlp/ZengLSGLYL19}。过拟合导致的灾难性遗忘问题还可以使用L2正则化和Dropout方法来缓解\upcite{barone2017regularization}。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SUB-SECTION
@@ -990,16 +990,16 @@ P(\mathbi{y}|\mathbi{x}) & = & \frac{\mathrm{cos}(\mathbi{x},\mathbi{y})/\tau}{\
 \begin{itemize}

 \vspace{0.5em}
-\item 如何更高效地利用已有双语数据或单语数据进行数据增强始终是一个热点问题。研究人员分别探索了源语言单语和目标语言单语的使用方法\upcite{DBLP:conf/emnlp/ZhangZ16,DBLP:conf/emnlp/WuWXQLL19,DBLP:conf/acl/XiaKAN19}，以及如何对已有双语数据进行修改\upcite{DBLP:conf/emnlp/WangPDN18,DBLP:conf/acl/GaoZWXQCZL19}。经过数据增强得到的伪数据的质量时好时坏，如何提高伪数据的质量以及更好地利用伪数据进行训练也是十分重要的问题\upcite{DBLP:conf/emnlp/FadaeeM18,DBLP:conf/nlpcc/XuLXLLXZ19,DBLP:conf/wmt/CaswellCG19,DBLP:journals/corr/abs200403672,DBLP:conf/emnlp/WangLWLS19}。此外，还有一些工作对数据增强技术进行了理论分析\upcite{DBLP:conf/emnlp/LiLHZZ19,DBLP:conf/acl/MarieRF20}。
+\item 如何更高效地利用已有双语数据或单语数据进行数据增强始终是一个热点问题。研究人员分别探索了源语言单语和目标语言单语的使用方法\upcite{DBLP:conf/emnlp/ZhangZ16,DBLP:conf/emnlp/WuWXQLL19,DBLP:conf/acl/XiaKAN19}，以及如何对已有双语数据进行修改\upcite{DBLP:conf/emnlp/WangPDN18,DBLP:conf/acl/GaoZWXQCZL19}。经过数据增强得到的伪数据的质量时好时坏，如何提高伪数据的质量，以及更好地利用伪数据进行训练也是十分重要的问题\upcite{DBLP:conf/emnlp/FadaeeM18,DBLP:conf/nlpcc/XuLXLLXZ19,DBLP:conf/wmt/CaswellCG19,DBLP:journals/corr/abs200403672,DBLP:conf/emnlp/WangLWLS19}。此外，还有一些工作对数据增强技术进行了理论分析\upcite{DBLP:conf/emnlp/LiLHZZ19,DBLP:conf/acl/MarieRF20}。

 \vspace{0.5em}
-\item 预训练模型也是自然语言处理的重要突破之一。除了基于语言模型或掩码语言模型的方法，也有很多新的架构和模型被提出，如排列语言模型、降噪自编码器等\upcite{DBLP:conf/nips/YangDYCSL19,DBLP:conf/acl/LewisLGGMLSZ20,DBLP:conf/iclr/LanCGGSS20,DBLP:conf/acl/ZhangHLJSL19}。预训练技术也逐渐向多语言领域扩展\upcite{DBLP:conf/nips/ConneauL19,DBLP:conf/emnlp/HuangLDGSJZ19,song2019mass}，甚至不再只局限于文本任务\upcite{DBLP:conf/iccv/SunMV0S19,DBLP:journals/corr/abs-2010-12831,DBLP:conf/nips/LuBPL19,DBLP:conf/interspeech/ChuangLLL20}。对于如何将预训练模型高效地应用到下游任务中，也进行了很多的经验性对比与分析\upcite{DBLP:journals/corr/abs-1802-05365,DBLP:conf/rep4nlp/PetersRS19,DBLP:conf/cncl/SunQXH19}。但将预训练模型应用于下游任务存在的一个问题是，模型巨大的参数量会带来较大的延时及显存消耗。因此，很多工作对如何压缩预训练模型进行了研究\upcite{shen2020q,Lan2020ALBERTAL,DBLP:journals/corr/abs-1910-01108,Jiao2020TinyBERTDB}。
+\item 预训练模型也是自然语言处理的重要突破之一，也给低资源机器翻译提供了新的思路。除了基于语言模型或掩码语言模型的方法，也有很多新的架构和模型被提出，如排列语言模型、降噪自编码器等\upcite{DBLP:conf/nips/YangDYCSL19,DBLP:conf/acl/LewisLGGMLSZ20,DBLP:conf/iclr/LanCGGSS20,DBLP:conf/acl/ZhangHLJSL19}。预训练技术也逐渐向多语言领域扩展\upcite{DBLP:conf/nips/ConneauL19,DBLP:conf/emnlp/HuangLDGSJZ19,song2019mass}，甚至不再只局限于文本任务\upcite{DBLP:conf/iccv/SunMV0S19,DBLP:journals/corr/abs-2010-12831,DBLP:conf/nips/LuBPL19,DBLP:conf/interspeech/ChuangLLL20}。对于如何将预训练模型高效地应用到下游任务中，也进行了很多的经验性对比与分析\upcite{DBLP:journals/corr/abs-1802-05365,DBLP:conf/rep4nlp/PetersRS19,DBLP:conf/cncl/SunQXH19}。但将预训练模型应用于下游任务存在的一个问题是，模型巨大的参数量会带来较大的延时及显存消耗。因此，很多工作对如何压缩预训练模型进行了研究\upcite{shen2020q,Lan2020ALBERTAL,DBLP:journals/corr/abs-1910-01108,Jiao2020TinyBERTDB}。

 \vspace{0.5em}
-\item 多任务学习是多语言翻译的一种典型方法。通过共享编码器模块或是注意力模块来进行一对多\upcite{DBLP:conf/acl/DongWHYW15}或多对一\upcite{DBLP:journals/tacl/LeeCH17}或多对多\upcite{DBLP:conf/naacl/FiratCB16} 的学习，然而这些方法需要为每个翻译语言对设计单独的编码器和解码器，限制了其可扩展性。为了解决以上问题，研究人员进一步探索了用于多语言翻译的单个机器翻译模型的方法，也就是本章提到的多语言单模型系统\upcite{DBLP:journals/corr/HaNW16,DBLP:journals/tacl/JohnsonSLKWCTVW17}。为了弥补多语言单模型系统中缺乏语言表示多样性的问题，可以重新组织分享模块，设计特定任务相关模块\upcite{DBLP:conf/coling/BlackwoodBW18,DBLP:conf/wmt/SachanN18,DBLP:conf/wmt/LuKLBZS18,DBLP:conf/acl/WangZZZXZ19}；也可以将多语言单词编码和语言聚类分离，用一种多语言词典编码框架智能地共享词汇级别的信息，有助于语言间的泛化\upcite{DBLP:conf/iclr/WangPAN19}；还可以将语言聚类为不同的组，并为每个聚类单独训练一个多语言模型\upcite{DBLP:conf/emnlp/TanCHXQL19}。
+\item 多任务学习是多语言翻译的一种典型方法。通过共享编码器模块或是注意力模块来进行一对多\upcite{DBLP:conf/acl/DongWHYW15}或多对一\upcite{DBLP:journals/tacl/LeeCH17}或多对多\upcite{DBLP:conf/naacl/FiratCB16} 的学习，然而这些方法需要为每个翻译语言对设计单独的编码器和解码器，限制了其扩展性。为了解决以上问题，研究人员进一步探索了用于多语言翻译的单个机器翻译模型的方法，也就是本章提到的多语言单模型系统\upcite{DBLP:journals/corr/HaNW16,DBLP:journals/tacl/JohnsonSLKWCTVW17}。为了弥补多语言单模型系统中缺乏语言表示多样性的问题，可以重新组织分享模块，设计特定任务相关模块\upcite{DBLP:conf/coling/BlackwoodBW18,DBLP:conf/wmt/SachanN18,DBLP:conf/wmt/LuKLBZS18,DBLP:conf/acl/WangZZZXZ19}；也可以将多语言单词编码和语言聚类分离，用一种多语言词典编码框架智能地共享词汇级别的信息，有助于语言间的泛化\upcite{DBLP:conf/iclr/WangPAN19}；还可以将语言聚类为不同的组，并为每个聚类单独训练一个多语言模型\upcite{DBLP:conf/emnlp/TanCHXQL19}。

 \vspace{0.5em}
-\item 零资源翻译也是近几年受到广泛关注的方向\upcite{firat2016zero,DBLP:journals/corr/abs-1805-10338}。在零资源翻译中，仅使用少量并行语料库（覆盖$k$个语言），单个多语言翻译模型就能在任何$k^{2}$个语言对之间进行翻译\upcite{DBLP:conf/naacl/Al-ShedivatP19}。 但是，零资源翻译的性能通常很不稳定并且明显落后于有监督的翻译方法。为了改善零资源翻译，可以开发新的跨语言正则化方法，例如对齐正则化方法\upcite{DBLP:journals/corr/abs-1903-07091}，一致性正则化方法\upcite{DBLP:conf/naacl/Al-ShedivatP19}；也可以通过反向翻译或基于枢轴语言的翻译生成人工并行数据\upcite{DBLP:conf/acl/GuWCL19,DBLP:conf/emnlp/FiratSAYC16,DBLP:conf/emnlp/CurreyH19}。
+\item 零资源翻译也是近几年受到广泛关注的研究方向\upcite{firat2016zero,DBLP:journals/corr/abs-1805-10338}。在零资源翻译中，仅使用少量并行语料库（覆盖$k$个语言），单个多语言翻译模型就能在任何$k(k-1)$个语言对之间进行翻译\upcite{DBLP:conf/naacl/Al-ShedivatP19}。 但是，零资源翻译的性能通常很不稳定并且明显落后于有监督的翻译方法。为了改善零资源翻译，可以开发新的跨语言正则化方法，例如对齐正则化方法\upcite{DBLP:journals/corr/abs-1903-07091}，一致性正则化方法\upcite{DBLP:conf/naacl/Al-ShedivatP19}；也可以通过反向翻译或基于枢轴语言的翻译生成伪数据\upcite{DBLP:conf/acl/GuWCL19,DBLP:conf/emnlp/FiratSAYC16,DBLP:conf/emnlp/CurreyH19}。

 \vspace{0.5em}
 \end{itemize}