合并分支 'master' 到 'caorunzhe'

Master 查看合并请求 !690

合并分支 'master' 到 'caorunzhe'
Master 查看合并请求 !690
11483971 · 曹润柘 · aab16252 · d5af0df8 · 11483971
Commit 11483971 authored Dec 24, 2020 by 曹润柘
--- a/Chapter13/chapter13.tex
+++ b/Chapter13/chapter13.tex
@@ -631,23 +631,21 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
 \subsubsection{2. 数据降噪}
-\parinterval 除了领域差异，训练集偏差的另外一种常见表现形式是标签噪声。机器翻译的训练数据大多来源于网页爬取，这不可避免的会引入噪声，比如句子未对齐、多种语言单词混合、单词丢失等，相关研究表明神经机器翻译对于噪声数据很敏感，当噪声过多时就会使得模型的性能显著下降（On the impact of various types of noise on neural machine translation），因此无论是从模型健壮性还是训练效率出发，数据降噪都是很有意义的。事实上，数据降噪从统计机器翻译时代就已经有许多相关工作（Dealing with Input Noise in Statistical Machine Translation；Bilingual Data Cleaning for SMT using Graph-based Random Walk；Learning from Noisy Data in Statistical Machine Translation），2018年WMT也开放了关于平行语料过滤的任务，这说明数据降噪工作正在逐步引起人们的注意。
+\parinterval 除了领域差异，训练数据中也存在噪声，比如，机器翻译所使用的数据中经常出现句子未对齐、多种语言单词混合、单词丢失等问题。相关研究表明神经机器翻译对于噪声数据很敏感，当噪声过多时就会带来模型性能的显著下降（On the impact of various types of noise on neural machine translation），因此无论是从模型健壮性还是训练效率出发，数据降噪都是很有意义的。事实上，数据降噪从统计机器翻译时代就已经开展了许多工作（Dealing with Input Noise in Statistical Machine Translation；Bilingual Data Cleaning for SMT using Graph-based Random Walk；Learning from Noisy Data in Statistical Machine Translation），因此很多方法也可以应用到神经机器翻译中来。
-\parinterval 由于含有噪声的翻译数据通常都具有较为明显的特征，因此可以用比如：句子长度比、词对齐率、最长连续未对齐序列长度等一些启发式的特征来进行综合评分（MT Detection in Web-Scraped Parallel Corpora；Parallel Corpus Refinement as an Outlier Detection Algorithm；Zipporah: a Fast and Scalable Data Cleaning System for NoisyWeb-Crawled Parallel Corpora）；也可以将该问题转化为文本分类或跨语言文本蕴含任务来进行筛选（Detecting Cross-Lingual Semantic Divergence for Neural Machine Translation；Identifying Semantic Divergences in Parallel Text without Annotations）；此外，从某种意义上来说，数据降噪其实也可以算是一种领域数据选择，因为它的目标是选择可信度高的样本，因此我们可以人工构建一个可信度高的小型数据集，然后利用该数据集和通用数据集之间的差异性进行选择（Denoising Neural Machine Translation Training with Trusted Data and Online Data Selection）。
+\parinterval 含有噪声的数据通常都具有较为明显的特征，因此可以用诸如句子长度比、词对齐率、最长连续未对齐序列长度等一些特征来对句子进行综合评分（MT Detection in Web-Scraped Parallel Corpora；Parallel Corpus Refinement as an Outlier Detection Algorithm；Zipporah: a Fast and Scalable Data Cleaning System for NoisyWeb-Crawled Parallel Corpora）；也可以将该问题转化为分类任务来对句子进行筛选（Detecting Cross-Lingual Semantic Divergence for Neural Machine Translation；Identifying Semantic Divergences in Parallel Text without Annotations）；此外，从某种意义上来说，数据降噪其实也可以算是一种领域数据选择，因为它的目标是选择可信度高的样本，因此也可以人工构建一个可信度高的小数据集，然后利用该数据集和通用数据集之间的差异性进行选择（Denoising Neural Machine Translation Training with Trusted Data and Online Data Selection）。
-\parinterval 早期的工作大多在关注过滤的方法，对于噪声数据中模型的健壮性训练和噪声样本的利用探讨较少。事实上，噪声是有强度的，有些噪声数据对于模型可能是有价值的，而且它们的价值可能会随着模型的状态而改变（Denoising Neural Machine Translation Training with Trusted Data and Online Data Selection）。一个例子如图\ref{fig:13-51}所示（画图的时候zh-gloss那行不要了，zh翻译为汉语），
+\parinterval 早期的工作大多在关注过滤噪声数据的方法，对于噪声数据中模型的健壮性训练和噪声样本的利用探讨较少。事实上，噪声是有强度的，有些噪声数据对于模型可能是有价值的，而且它们的价值可能会随着模型的状态而改变（Denoising Neural Machine Translation Training with Trusted Data and Online Data Selection）。一个例子如图\ref{fig:13-51}所示（画图的时候zh-gloss那行不要了，zh翻译为汉语{\color{red} 例子是别人的，还是自己造的？}）。图中的汉语句子中缺少了一部分翻译，但这两个句子都很流畅，简单的基于长度或双语词典的方法可以很容易地对其进行过滤（{\color{red} 过滤啥？}）。但是，这个训练样本对于训练机器翻译模型仍然有用，特别是在数据稀缺的情况下，因为汉语句子和英语句子的前半部分仍然是正确的互译结果。这表明了噪声数据的微妙之处，它不是一个简单的二元分类问题：一些训练样本可能部分有用，而它们的有用性也可能随着训练的进展而改变。因此简单的过滤并不一种很好的办法，一种合理的学习策略应该是既可以合理的利用这些数据，又不让其对模型产生负面影响。直觉上，这是一个动态的过程，当模型能力较弱时（比如在训练初期），这些数据就能对模型起到正面作用，反之亦然。受课程学习、微调等方法的启发，研究人员也提出了类似的学习策略，它的主要思想是：在训练过程中对批量数据的噪声水平进退火（Anneal），使得模型在越来越干净的数据上进行训练（Denoising Neural Machine Translation Training with Trusted Data and Online Data Selection；Dynamically Composing Domain-Data Selection with Clean-Data Selection by “Co-Curricular Learning” for Neural Machine Translation）。从宏观上看，整个训练过程其实是一个持续微调的过程，这和微调的思想基本一致。这种学习策略一方面充分利用了训练数据，一方面又避免了噪声数据对模型的负面影响，因此取得了不错的效果。
 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \includegraphics[scale=0.5]{./Chapter13/Figures/figure-a-pair-of-noise-data-examples.png}
-\caption{一对噪声数据实例}
+\caption{一个含有噪声的汉英翻译实例}
 \label{fig:13-51}
 \end{figure}
 %-------------------------------------------
-\parinterval 图中的汉语句子中缺少了一部分翻译，但这两个句子都很流利，简单的基于长度或双语词典的方法可以很容易地对其进行过滤，但直观地看，这条训练数据对于训练NMT模型仍然有用，特别是在数据稀缺的情况下，因为汉语句子和英语句子的前半部分仍然是翻译对。这表明了噪声数据的微妙之处，它不是一个简单的二元分类问题：一些训练样本可能部分有用，而它们的有用性也可能随着训练的进展而改变。因此简单的过滤并不一种很好的办法，一种合理的学习策略应该是既可以合理的利用这些数据，又不让其对模型产生负面影响。直觉上，这是一个动态的过程，当模型能力较弱时（比如在训练初期），这些数据就能对模型起到正面作用，反之亦然。受课程学习（Curriculum Learning，更详细内容见下节）、微调（fine-tune）等启发，研究学者们也提出了类似的学习策略，它的主要思想是：在训练过程中对批量数据的噪声水平进退火（anneal），使得模型在越来越干净的批量数据上进行训练（Denoising Neural Machine Translation Training with Trusted Data and Online Data Selection；Dynamically Composing Domain-Data Selection with Clean-Data Selection by “Co-Curricular Learning” for Neural Machine Translation）。从宏观上看，整个训练过程其实是一个持续微调的过程，这和微调的思想基本一致。这种学习策略一方面充分利用了训练数据，一方面又避免了噪声数据对模型的负面影响，因此取得了不错的效果。
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------