wording (sec 13)

3e71a86a · xiaotong · d5af0df8 · 3e71a86a
Commit 3e71a86a authored Dec 24, 2020 by xiaotong
--- a/Chapter13/chapter13.tex
+++ b/Chapter13/chapter13.tex
@@ -652,34 +652,11 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
 \subsubsection{3. 主动学习}
-\parinterval 和数据选择密切相关的另外一个应用是主动学习（Active Learning），领域适应和数据降噪是拥有标注数据的情况，然而在一些实际的业务场景中，获得标注样本的代价往往比较高，大部分都是未标注数据，那么如何通过机器学习算法来降低人工标注的成本就是一个很有实际意义的问题，这个研究方向也称之为主动学习。既然人工标注的成本很大，那么就应该尽可能选择那些最有价值的样本交给人工来标注，之后再将标注的数据用于训练，从而逐步提升模型的效果，这也是主动学习的一个整体思路。因此主动学习主要由五个部分组成，包括：未标注样本池（unlabeled pool）、筛选策略（select queries）、标注者（human annotator）、标注数据集（labeled training set）、目标模型（machine learning model），如图\ref{fig:13-52}所示，整个过程以不断迭代的训练方式更新模型性能、未标注样本池和标注数据集，直到目标模型达到预设的性能或者不再提供标注数据为止。
+\parinterval {\small\bfnew{主动学习}}\index{主动学习}（Active Learning\index{Active Learning}）也是一种数据选择策略。它最初的应用场景式是：标注大量的数据成本过高，因此希望优先标注对模型最有价值的数据，这样可以最大化模型学习的效率，同时整体降低标注的代价。主动学习主要由五个部分组成（{\color{red} 引用朱老师主动学习的论文}），包括：未标注样本池、筛选策略、标注者、标注样本集、目标模型。在主动学习过程中，会根据当前的模型状态找到未标注样本池中最优价值的样本，之后送给标注者。标注结束后，会把标注的样本加入到标注样本集中，之后用这些标注的样本更新模型。之后，重复这个过程，直到到达某种收敛状态。
-%----------------------------------------------
+\parinterval 主动学习的一个核心问题是：如何选择出那些最有价值的未标注样本？通常会假设模型认为最“难”的样本是最有价值的。具体实现有很多思路，例如，基于置信度的方法、基于分类错误的方法等等（Uncertainty-based Active Learning with Instability Estimation for Text Classification；Active Learning with Sampling by Uncertainty and Density for Word Sense Disambiguation and Text Classification）。
-\begin{figure}[htp]
-\centering
-\includegraphics[scale=0.5]{./Chapter13/Figures/figure-active-learning-framework.png}
-\caption{主动学习框架}
-\label{fig:13-52}
-\end{figure}
-%-------------------------------------------
-\parinterval 事实上，主动学习目的就是以尽可能少的标注样本来达到模型的目标性能，因此它的一个核心问题就是：如何选择出那些最有价值的未标注样本？这本质上是评分函数设计的问题，这个函数在主动学习中叫查询函数（Query Function），它的基本假设是模型认为最“难”的样本是最有价值的，函数的设计通常是基于一些启发式的策略，常见的一些方法有：
-\begin{itemize}
-\vspace{0.5em}
-\item 随机采样策略(Random Sampling，RS)，随机采样，顾名思义就是不需要跟模型的预测结果做任何交互，直接从未标注样本池中随机筛选出一批样本给专家标注，常作为主动学习算法中最基础的对比实验。
-\vspace{0.5em}
-\item 不确定性采样的查询（Uncertainty Sampling）（An analysis of active learning strategies for sequence labeling tasks；Query learning with large margin classifers；Less is more: Active learning with support vector machines）这类方法选择那些当前基准分类器最不能确定其分类的样本，不确定性通常可以用信度最低（Least Confident）、边缘采样（Margin Sampling）、熵（Entropy）等方法来描述，从几何角度看，这种方法优先选择靠近分类边界的样例；
-\vspace{0.5em}
-\item 基于委员会的查询（Query-By-Committee）（Query by committee；Machine Learning；Query learning strategies using boosting and bagging；Employing em and pool-based active learning for text classifcation）这类方法选择那些训练后能够最大程度缩减版本空间的样本，可以采用Bagging，AdaBoost等分类器集成算法从版本空间中产生委员会，然后选择委员会中的假设预测分歧最大的样本；
-\vspace{0.5em}
-\item 其它经典策略：梯度长度期望(Expected Gradient Length，EGL) 策略，根据未标注样本对当前模型的影响程度优先筛选出对模型影响最大的样本（Histograms of oriented gradients for human detection；Gradient-based learning applied to document recognition）；方差最小(Variance Reduction，VR)策略，选择那些方差减少最多的样本数据（Optimum Experimental Designs, with SAS；A variance minimization criterion to active learning on graphs）；结合生成对抗网络的方法（Generative adversarial active learning；Active decision boundary annotation with deep generative models；Adversarial sampling for active learning）等
-\vspace{0.5em}
-\end{itemize}
-\parinterval 具体方法细节可以查阅相关论文，查询策略是主动学习框架中的核心，大量研究都在围绕采样策略和学习策略展开，在实际应用中需要根据任务情况来决定使用哪种策略。
+\parinterval 在机器翻译中，主动学习可以被用于低资源翻译，以减少人工标注的成本（Learning to Actively Learn Neural Machine Translation；Active Learning Approaches to Enhancing Neural Machine Translation）。也可以被用于交互式翻译，让模型持续从外界反馈中受益（Active Learning for Interactive Neural Machine Translation of Data Streams；Continuous learning from human post-edits for neural machine translation；Online learning for effort reduction in interactive neural machine translation）。不过，总的来说，主动学习在机器翻译中应用不算广泛。这是由于，机器翻译任务较为复杂，设计样本价值的评价函数较为困难。而且，在很多场景中，并不是要简单的选择样本，而是希望训练装置能够考虑样本的价值，以充分发挥所有数据的优势。这也正是即将介绍的课程学习等方法要解决的问题。
-\parinterval 主动学习非常适合于专业领域的任务，因为专业领域的标注成本往往比较昂贵，比如医学、金融、法律等。事实上，主动学习在神经机器翻译中的利用并不是很多，这主要是因为主动学习仅是把那些有价值的单语数据选出来，然后交给人工标注，这个过程需要人工的参与，然而神经机器翻译有许多利用单语数据的方法，比如在目标端结合语言模型（On using very large target vocabulary for neural machine translation；On using monolingual corpora in neural machine translation）；利用反向翻译（Back translation）（Improving neural machine translation models with monolingual data；Joint training for neural machine translation models with monolingual data；Iterative backtranslation for neural machine translation）；利用多语言或迁移学习（Exploiting Out-of-Domain Parallel Data through Multilingual Transfer Learning for Low-Resource Neural Machine Translation；Zero-Resource Neural Machine Translation with Monolingual Pivot Data；Pivot-based transfer learning for neural machine translation between non-english languages）；无监督机器翻译（Unsupervised machine translation using monolingual corpora only；Unsupervised neural machine translation）等。但是在一些特定的场景下，主动学习仍然会发挥重要作用，比如：在低资源或专业领域的神经机器翻译中，主动学习可以大大减少人工标注成本（Learning to Actively Learn Neural Machine Translation；Active Learning Approaches to Enhancing Neural Machine Translation）；在交互式或增量式机器翻译中，（Active Learning for Interactive Neural Machine Translation of Data Streams；Continuous learning from human post-edits for neural machine translation；Online learning for effort reduction in interactive neural machine translation）主动学习可以让模型持续从外界反馈中受益。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -687,29 +664,33 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
 \subsection{课程学习}
-\parinterval 在机器学习的发展过程中，人类身上一些固有特性启发了各种算法的设计，比如大脑的神经元启发了人工神经网络，视觉机制启发了注意力算法，课程学习（Curriculum Learning，CL），就是模拟了人的认知机制：先学习简单的、普适性的知识，然后逐渐增加难度，学习更复杂、更专业化的知识，这体现在训练模型过程中就是让模型按照由“易”到”难“ 的顺序对样本进行学习（论文 Curriculum learning），这本质上是一种样本使用策略。在传统的机器学习算法中，所有训练样本都是随机呈现给模型的，换句话说，就是让模型来平等地对待所有的训练样本，这忽略了数据样本的各种复杂性和当前模型的学习状态，所以模拟人类由易到难的学习过程就是一种很自然的想法，这样做的好处在于：
+\parinterval {\small\bfnew{课程学习}}\index{课程学习}（Curriculum Learning\index{Curriculum Learning}）的基本思想是：先学习简单的、普适性的知识，然后逐渐增加难度，学习更复杂、更专业化的知识。在统计模型训练中，这体现在让模型按照由“易”到”难“ 的顺序对样本进行学习（论文 Curriculum learning），这本质上是一种样本使用策略。以神经机器翻译翻译使用的随机梯度下降为例，在传统的方法中，所有训练样本都是随机呈现给模型的，换句话说，就是让模型来平等地对待所有的训练样本，这忽略了数据样本的各种复杂性和当前模型的学习状态。所以模拟人类由易到难的学习过程就是一种很自然的想法，这样做的好处在于：
 \begin{itemize}
 \vspace{0.5em}
-\item 可以加速机器学习模型的训练。在达到相同的模型性能条件下，课程学习可以加速训练，减少训练迭代步数；
+\item 可以加速机器学习模型的训练。在达到相同的模型性能条件下，课程学习可以加速训练，减少训练迭代步数。
 \vspace{0.5em}
-\item 使模型获得更好的泛化性能，即能让模型训练到更好的局部最优值状态；
+\item 使模型获得更好的泛化性能，即通过对简单样本的学习，模型不至于过早进入拟合复杂样本的状态。
 \vspace{0.5em}
 \end{itemize}
-\parinterval 这是符合直觉的，可以想象，对于一个数学零基础的人来说，如果一开始就同时学习加减乘除和高等数学，效率自然是比较低下的。而如果按照正常的学习顺序，比如先学习加减乘除，然后学习各种函数，最后再学习高等数学，有了前面的基础，再学习后面的知识，效率就可以更高。事实上，课程学习自从一被提出就受到了研究人员的极大关注，除了想法本身有趣之外，还因为它作为一种和模型无关的训练策略，具有即插即用（Plug-and-Play）的特点，可以被广泛应用于各种计算密集型的领域中，以提高效率，比如计算机视觉（Computer Vision，CV）（Weakly supervised learning from large-scale web images；Self-paced reranking for zero-example multimedia search），自然语言处理（Natural Language Processing，NLP）（Competence-based curriculum learning for neural machine translation；Simple and effective curriculum pointer-generator networks for reading comprehension over long narratives）和神经网络结构搜索（Neural Architecture Search，NAS）（Breaking the curse of space explosion: Towards efficient nas with curriculum search）等。神经机器翻译就是自然语言处理中一个很契合课程学习的任务，这是因为神经机器翻译往往需要大规模的平行语料来训练模型，训练成本很高，所以使用课程学习来加快收敛是一个很自然的想法。
+\parinterval 课程学习是符合直觉的，可以想象，对于一个数学零基础的人来说，如果一开始就同时学习加减乘除和高等数学，效率自然是比较低下的。而如果按照正常的学习顺序，比如先学习加减乘除，然后学习各种函数，最后再学习高等数学，有了前面的基础，再学习后面的知识，效率就可以更高。事实上，课程学习自从一被提出就受到了研究人员的极大关注，除了想法本身有趣之外，还因为它作为一种和模型无关的训练策略，具有即插即用的特点。神经机器翻译就是自然语言处理中一个很契合课程学习的任务，这是因为神经机器翻译往往需要大规模的平行语料来训练模型，训练成本很高，所以使用课程学习来加快收敛是一个很自然的想法。
-\parinterval 那么如何针对一个具体任务设计一个课程学习呢？相比于正常的以随机方式呈现训练数据的方法，课程学习的目标就是按照样本难易程度以某种策略调度给模型学习，因此课程学习主要解决两个核心问题：
+\parinterval 那么如何设计课程学习方法呢？有两个核心问题：
 \begin{itemize}
 \vspace{0.5em}
-\item 如何评估每个样本的难度？即评估准则（Difficulty Criteria）
+\item 如何评估每个样本的难度？即设计评估样本学习难易度的准则，简称{\small\bfnew{难度评估准则}}\index{难度评估准则}（Difficulty Criteria\index{Difficulty Criteria}）
 \vspace{0.5em}
-\item 以何种策略来规划训练数据？比如何时为训练提供更复杂的数据，以及提供多少数据等，即课程规划（curriculum schedule）
+\item 以何种策略来规划训练数据？即何时为训练提供更复杂的数据，以及提供多少数据等，成为{\small\bfnew{课程规划}}\index{课程规划}（Curriculum Schedule\index{Curriculum Schedule}）
 \vspace{0.5em}
 \end{itemize}
-\parinterval 我们把这两个问题抽象成两个模块：难度评估器和训练调度器，那么课程学习的一个大致的流程如下图\ref{fig:13-53}所示：
+\parinterval 这里，把这两个问题抽象成两个模块：难度评估器和训练调度器，那么课程学习的一个大致的流程如图\ref{fig:13-53}所示。首先，难度评估器对训练样本按照由易到难的顺序进行排序，最开始调度器从相对容易的数据块中采样训练样本，发送给模型进行训练，随着训练时间的推移，训练调度器将逐渐从更加困难的数据块中进行采样（至于何时，以及何种采样方式则取决于设定的策略），持续这个过程，直到从整个训练集进行均匀采样。
+\parinterval 评估样本的难度和具体的任务相关，在神经机器翻译中，有很多种评估方法，可以利用语言学上的困难准则，比如句子长度、句子平均词频、句法树深度等（Competence-based curriculum learning for neural machine translation；Curriculum Learning and Minibatch Bucketing in Neural Machine Translation）。这些准则本质上属于人类的先验知识，符合人类的直觉，但不一定和模型相匹配，对人类来说简单的句子对模型来说并不总是容易的，所以研究学者们也提出了基于模型的方法，比如：语言模型（Dynamically Composing Domain-Data Selection with Clean-Data Selection by “Co-Curricular Learning” for Neural Machine Translation；Curriculum Learning for Domain Adaptation in Neural Machine Translation），或者神经机器翻译模型（An empirical exploration of curriculum learning for neural machine translation；Dynamic Curriculum Learning for Low-Resource Neural Machine Translation）都可以用于评价样本的难度。值得注意的是，利用神经机器翻译来打分的方法分为静态和动态两种，静态的方法是利用在小数据集上训练的、更小的翻译模型模型来打分（An empirical exploration of curriculum learning for neural machine translation），动态的方法则是利用当前模型的状态来打分，这在广义上也叫作{\small\bfnew{自步学习}}\index{自步学习}（Self-Paced Learning\index{Self-Paced Learning}），通常可以利用模型的训练误差或变化率等指标进行样本难度的估计（Dynamic Curriculum Learning for Low-Resource Neural Machine Translation）。
+\parinterval 虽然样本难度的度量在不同的数据类型和任务中有所不同，但课程规划通常与数据和任务无关。在各种场景中，大多数课程学习都利用了类似的调度策略。具体而言，调度策略可以分为预定义的和自动的两种。预定义的调度策略通常是将按照难易程度排序好的样本划分为块，每个块中包含一定数量的难度相似的样本。然后按照“先易后难”的原则人工定义一个调度策略，比如，一种较为流行的方法是：在训练早期，模型只在简单块中进行采样，随着训练过程的进行，比如在固定数量的训练轮次之后，将下一个块的样本合并到当前训练子集中，继续训练，直到合并了整个数据块，即整个训练集可见为止，之后再继续进行几个额外轮次的训练直到收敛。这个过程如图\ref{fig:13-55}所示。类似的还有一些其他变体，比如，训练到模型可见整个数据集之后，将最难的样本块复制并添加到训练集中，或者是将最容易的数据块逐渐删除，然后再添加回来等，这些方法的基本想法都是想让模型在具备一定的能力之后更多关注于困难样本。
 %----------------------------------------------
 \begin{figure}[htp]
@@ -720,23 +701,6 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
 \end{figure}
 %-------------------------------------------
-\parinterval 首先，难度评估器对训练样本按照由易到难的顺序进行排序，最开始调度器从相对容易的数据块中采样批量的训练数据，发送给模型进行训练，随着训练时间的推移，训练调度器将逐渐从更加困难的数据块中进行采样（至于何时，以及何种采样方式则取决于设定的策略），持续这个过程，直到从整个训练集进行均匀采样。
-\parinterval 评估样本的难度和具体的任务相关，在神经机器翻译中，有很多种评估方法，可以利用语言学上的困难准则，比如句子长度、句子平均词频、句子语法解析树深度等（Competence-based curriculum learning for neural machine translation；Curriculum Learning and Minibatch Bucketing in Neural Machine Translation）。这些准则本质上属于人类的先验知识，符合人类的直觉，但不一定和模型相匹配，对人类来说简单的句子对模型来说并不总是容易的，所以研究学者们也提出了模型自动评估的方法，比如：利用语言模型（Dynamically Composing Domain-Data Selection with Clean-Data Selection by “Co-Curricular Learning” for Neural Machine Translation；Curriculum Learning for Domain Adaptation in Neural Machine Translation），利用神经机器翻译模型（An empirical exploration of curriculum learning for neural machine translation；Dynamic Curriculum Learning for Low-Resource Neural Machine Translation）等。值得注意的是，利用神经机器翻译来打分的方法分为静态和动态两种，静态的方法是利用在小数据集上训练的、更小的NMT模型来打分（An empirical exploration of curriculum learning for neural machine translation），动态的方法则是利用当前模型的状态来打分，这在广义上也叫作自步学习（Self-Paced Learning），具体可以利用比如模型的训练误差或变化率等（Dynamic Curriculum Learning for Low-Resource Neural Machine Translation）。
-\parinterval 虽然样本的难度度量在不同的数据类型和任务中有所不同，但针对第二个问题，即课程规划通常与数据和任务无关，换句话说，在各种场景中，大多数课程学习都利用了类似的调度策略。具体而言，调度策略可以分为预定义的和自动的两种。预定义通常是将按照难易程度排序好的样本划分为块，每个块中包含一定数量的难度相似的样本，如图\ref{fig:13-54}所示：
-%----------------------------------------------
-\begin{figure}[htp]
-\centering
-\includegraphics[scale=0.5]{./Chapter13/Figures/figure-sample-block-partition.jpg}
-\caption{样本块划分}
-\label{fig:13-54}
-\end{figure}
-%-------------------------------------------
-\parinterval 然后按照“先易后难”的原则人工定义一个调度策略，比如早期一种较为流行的方法是：在训练早期模型只在简单块中进行采样，随着训练过程的进行，比如在固定数量的训练轮次之后，将下一个块的样本合并到当前训练子集中，继续训练，直到合并了整个数据块，即整个训练集可见为止，之后再继续进行几个额外轮次的训练直到收敛。示意图如图\ref{fig:13-55}所示：
 %----------------------------------------------
 \begin{figure}[htp]
 \centering
@@ -746,11 +710,9 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
 \end{figure}
 %-------------------------------------------
-\parinterval 图中每行是一个训练阶段，类似于正常训练的epoch，只不过当前的可用数据是整个数据集的子集。类似的还有一些其他变体，比如训练到模型可见整个数据集之后，将最难的样本块复制添加到训练集中，或者是将最容易的数据块逐渐删除，然后再添加回来等，这些方法的基本想法都是想让模型在具备一定的能力之后更多关注于困难样本。
+\parinterval 尽管预定义的调度策略简单有效，但也会面临着方法不够灵活、数据块划分不合理等问题，而且这种策略在一定程度上也忽略了当前模型的反馈。因此另一种方法是自动的方法，根据模型的反馈来动态调整样本的难度或调度策略，模型的反馈可以是模型的不确定性（Uncertainty-Aware Curriculum Learning for Neural Machine Translation）、模型的能力（Competence-based Curriculum Learning for Neural Machine Translation；Dynamic Curriculum Learning for Low-Resource Neural Machine Translation）等。这些方法在一定程度上使得整个训练过程和模型的状态相匹配，使得样本的选择过渡得更加平滑，因此在实践中取得了不错的效果。
-\parinterval 尽管预定义的方法简单有效，但存在的一个最大限制是，预定义的难度评估器和训练规划在训练过程中都是固定的，不够灵活，这可能会导致数据块的划分不合理，而且在一定程度上也忽略了当前模型的反馈，因此研究人员也提出了自动的方法，这种方法会根据模型的反馈来动态调整样本的难度或调度策略，模型的反馈可以是模型的不确定性（Uncertainty-Aware Curriculum Learning for Neural Machine Translation）、模型的能力（Competence-based Curriculum Learning for Neural Machine Translation；Dynamic Curriculum Learning for Low-Resource Neural Machine Translation）等，然后将模型的反馈和训练的轮次或者是数据的采样相挂钩，从而达到控制的目的，根据这种思想，还有直接利用强化学习的方法（Reinforced Curriculum Learning on Pre-trained Neural Machine Translation Models），这些方法在一定程度上使得整个训练过程和模型的状态相匹配，使得样本的选择过渡得更加平滑，因此在实践中取得了不错的效果。
-\parinterval 从广义上说，大多数课程学习方法都是遵循由易到难的原则，然而在实践过程中人们逐渐赋予了课程学习更多的内涵，课程学习的含义早已超越了最原始的定义。一方面，课程学习可以与许多任务相结合，此时，评估准则并不一定总是样本的困难度，这取决于具体的任务，比如在多任务学习中（multi-task learning）（Curriculum learning of multiple tasks；Curriculum learning for multi-task classification of visual attributes），指的任务的难易程度或相关性；在领域适应任务中（Curriculum Learning for Domain Adaptation in Neural Machine Translation），指的是数据与领域的相似性；在噪声数据场景中，指的是样本的可信度（Dynamically Composing Domain-Data Selection with Clean-Data Selection by “Co-Curricular Learning” for Neural Machine Translation）。另一方面，在一些任务或数据中，由易到难并不总是有效，有时困难优先反而会取得更好的效果（Curriculum learning with deep convolutional neural networks；An empirical exploration of curriculum learning for neural machine translation），实际上这和我们的直觉不太符合，一种合理的解释是课程学习更适合标签噪声、离群值较多或者是目标任务困难的场景，能提高模型的健壮性和收敛速度，而困难优先则更适合数据集干净的场景，能使随机梯度下降（stochastic gradient descent，SGD）更快更稳定（Active bias: Training more accurate neural networks by emphasizing high variance samples）。课程学习不断丰富的内涵使得它有了越来越广泛的应用。
+\parinterval 从广义上说，大多数课程学习方法都是遵循由易到难的原则，然而在实践过程中人们逐渐赋予了课程学习更多的内涵，课程学习的含义早已超越了最原始的定义。一方面，课程学习可以与许多任务相结合，此时，评估准则并不一定总是样本的困难度，这取决于具体的任务，比如在多任务学习中（multi-task learning）（Curriculum learning of multiple tasks；Curriculum learning for multi-task classification of visual attributes），指的任务的难易程度或相关性；在领域适应任务中（Curriculum Learning for Domain Adaptation in Neural Machine Translation），指的是数据与领域的相似性；在噪声数据场景中，指的是样本的可信度（Dynamically Composing Domain-Data Selection with Clean-Data Selection by “Co-Curricular Learning” for Neural Machine Translation）。另一方面，在一些任务或数据中，由易到难并不总是有效，有时困难优先反而会取得更好的效果（Curriculum learning with deep convolutional neural networks；An empirical exploration of curriculum learning for neural machine translation），实际上这和我们的直觉不太符合，一种合理的解释是课程学习更适合标签噪声、离群值较多或者是目标任务困难的场景，能提高模型的健壮性和收敛速度，而困难优先则更适合数据集干净的场景，能使随机梯度下降更快更稳定（Active bias: Training more accurate neural networks by emphasizing high variance samples）。（{\color{red} 这段写得不错！}）
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -758,21 +720,21 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
 \subsection{持续学习}
-\parinterval 人类具有不断学习、调整和转移知识的能力，这种能力称之为持续学习（continual learning），也叫终生学习（lifelong learning）、增量式学习（incremental learning）。我们可以把学习不同类型的知识看作不同的学习任务，因此本质上，持续学习是一个多任务的场景。人类很容易在多个学习任务中切换，并且当要学习的新任务时，会很自然的利用以前的知识并将新学习的知识整合到以前的任务中。然而对于机器学习来说，尤其在连接主义（connectionist），即深度神经网络模型中，这是一个很大的挑战，这是由神经网络的特性所决定的。当前的神经网络模型依赖于标注的训练样本，通过反向传播算法在整个数据集上对网络参数进行训练更新，最终达到拟合数据分布的目的。当我们将模型切换到新的任务时，本质上是数据的分布发生了变化，从这种非平稳数据分布中不断递增地获取可用信息通常会导致灾难性遗忘问题（catastrophic forgetting），即用新信息训练模型的时候会干扰先前学习的知识，这是因为模型在学习新任务时，为了最大程度地减少新任务的损失，会用新训练数据对整个网络权重进行更新，这个过程主要服务于当前任务的优化，并不会去评估哪些参数权重对旧的知识是有用的，这在最坏的情况下会导致旧知识被新知识完全重写。因此最终从表现上看，神经网络模型训练串行任务的时候，新任务的学习会使先前学习的任务性能大大降低。
+\parinterval 人类具有不断学习、调整和转移知识的能力，这种能力称之为{\small\bfnew{持续学习}}\index{持续学习}（Continual Learning\index{Continual Learning}），也叫{\small\bfnew{终生学习}}（Lifelong Learning\index{Lifelong Learning}）、{\small\bfnew{增量式学习}}\index{增量式学习}（Incremental Learning\index{Incremental Learning}）。人类学习的新任务时，会很自然的利用以前的知识并将新学习的知识整合到以前的知识中。然而对于机器学习系统来说，尤其在连接主义的范式下（如深度神经网络模型），这是一个很大的挑战，这是由神经网络的特性所决定的。当前的神经网络模型依赖于标注的训练样本，通过反向传播算法对模型参数进行训练更新，最终达到拟合数据分布的目的。当把模型切换到新的任务时，本质上是数据的分布发生了变化，从这种非平稳数据（{\color{red} 如何理解非平衡？}）分布中不断增量获取可用信息很容易导致{\small\bfnew{灾难性遗忘}}\index{灾难性遗忘}（Catastrophic Forgetting\index{Catastrophic Forgetting}）问题，即用新数据训练模型的时候会干扰先前学习的知识。这是因为模型在学习新任务时，为了最大程度地减少新任务的损失，会用新训练数据对整个网络权重进行更新，这很容易造成模型过分拟合新的数据，忘记旧数据中的知识。甚至，这在最坏的情况下会导致旧知识被新知识完全重写。在机器翻译，类似的问题经常发生不断增加数据的场景中，因为当用户使用少量数据对模型进行更新之后，发现在旧的数据上的性能下降了（见{\chaptereighteen}）。
-\parinterval 为克服灾难性遗忘问题，学习系统一方面必须能连续获取新知识和完善现有知识，另一方面，还应防止新数据输入明显干扰现有的知识，这个问题称作稳定性-可塑性（stability-plasticity）难题，可塑性指整合新知识的能力，稳定性指在编码时会保留先前的知识不至于遗忘。要解决这些问题，就需要模型在保留先前任务的知识与学习当前任务的新知识之间取得平衡。目前的解决方法可以分为以下几类：
+\parinterval 为克服灾难性遗忘问题，学习系统一方面必须能连续获取新知识和完善现有知识，另一方面，还应防止新数据输入明显干扰现有的知识，这个问题称作{\small\bfnew{稳定性-可塑性}}\index{稳定性- 可塑性}（Stability-Plasticity\index{Stability-Plasticity}）问题。可塑性指整合新知识的能力，稳定性指在编码时会保留先前的知识不至于遗忘。要解决这些问题，就需要模型在保留先前任务的知识与学习当前任务的新知识之间取得平衡。目前的解决方法可以分为以下几类：
 \begin{itemize}
 \vspace{0.5em}
-\item 基于正则化的方法，通过对神经权重的更新施加约束来减轻灾难性的遗忘，通常是在损失函数中引入了一个额外的正则化项，使得模型在学习新数据时巩固先前的知识。（Learning without Forgetting ；Elastic Weight Consolidation ）
+\item 基于正则化的方法。通过对神经权重的更新施加约束来减轻灾难性的遗忘，通常是在损失函数中引入了一个额外的正则化项，使得模型在学习新数据时巩固先前的知识。（Learning without Forgetting ；Elastic Weight Consolidation ）
 \vspace{0.5em}
-\item 基于示例的方法，以原始格式存储样本，或使用生成模型生成伪样本，在学习新任务的同时重放先前的任务样本以减轻遗忘。（iCaRL: Incremental Classifier and Representation Learning；End-to-End Incremental Learning ）
+\item 基于实例的方法。以原始格式存储样本，或使用生成模型生成伪样本，在学习新任务的同时重放先前的任务样本以减轻遗忘。（iCaRL: Incremental Classifier and Representation Learning；End-to-End Incremental Learning ）
 \vspace{0.5em}
-\item 基于动态模型架构的方法，通过动态调整网络结构来响应新信息，例如增加神经元或网络层进行重新训练，或者是在新任务训练时只更新部分参数。（Progressive Neural Networks；PathNet: Evolution Channels Gradient Descent in Super Neural Networks）
+\item 基于动态模型架构的方法。例如，增加神经元或网络层进行重新训练，或者是在新任务训练时只更新部分参数。（Progressive Neural Networks；PathNet: Evolution Channels Gradient Descent in Super Neural Networks）
 \vspace{0.5em}
 \end{itemize}
-\parinterval 从某种程度上看，机器翻译中的多领域、多语言等都属于持续学习的场景，灾难性遗忘也是这些任务面临的主要问题之一。在多领域神经机器翻译中，我们期望模型既有通用领域的性能，并且在特定领域也表现良好，然而事实上，由于灾难性遗忘问题的存在，适应特定领域往往是以牺牲通用领域的性能为代价的（Overcoming Catastrophic Forgetting During Domain Adaptation of Neural Machine Translation；Investigating Catastrophic Forgetting During Continual Training for Neural Machine Translation），现有的解决方法大多都可以归到以上三类，具体内容可以参考16.5 领域适应。在多语言神经翻译中，最理想的情况是一个模型就能够实现在多个语言之间的映射，然而由于数据分布的极大不同，实际情况往往是：多语言模型能够提高低资源语言对互译的性能，但同时也会降低高资源语言对的性能。因此如何让模型从多语言训练数据中持续受益就是一个关键的问题，16.3 多语言翻译模型作了详细介绍。此外，在增量式模型优化场景中也会存在灾难性遗忘问题，相关内容可参考18.2 增量式模型优化。
+\parinterval 从某种程度上看，机器翻译中的多领域、多语言等都属于持续学习的场景。在多领域神经机器翻译中，我们期望模型既有通用领域的性能，并且在特定领域也表现良好，然而事实上，适应特定领域往往是以牺牲通用领域的性能为代价的（Overcoming Catastrophic Forgetting During Domain Adaptation of Neural Machine Translation；Investigating Catastrophic Forgetting During Continual Training for Neural Machine Translation）。在多语言神经翻译中，最理想的情况是一个模型就能够实现在多个语言之间的映射，然而由于数据分布的极大不同，实际情况往往是：多语言模型能够提高低资源语言对互译的性能，但同时也会降低高资源语言对的性能。因此如何让模型从多语言训练数据中持续受益就是一个关键的问题。以上这些问题在{\chaptersixteen}和{\chaptereighteen}中还会有详细讨论。
 %----------------------------------------------------------------------------------------
 %    NEW SECTION