wording (sec 13)

c31783e3 · xiaotong · 3e71a86a · c31783e3
Commit c31783e3 authored Dec 24, 2020 by xiaotong
--- a/Chapter13/chapter13.tex
+++ b/Chapter13/chapter13.tex
@@ -712,8 +712,6 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})

 \parinterval 尽管预定义的调度策略简单有效，但也会面临着方法不够灵活、数据块划分不合理等问题，而且这种策略在一定程度上也忽略了当前模型的反馈。因此另一种方法是自动的方法，根据模型的反馈来动态调整样本的难度或调度策略，模型的反馈可以是模型的不确定性（Uncertainty-Aware Curriculum Learning for Neural Machine Translation）、模型的能力（Competence-based Curriculum Learning for Neural Machine Translation；Dynamic Curriculum Learning for Low-Resource Neural Machine Translation）等。这些方法在一定程度上使得整个训练过程和模型的状态相匹配，使得样本的选择过渡得更加平滑，因此在实践中取得了不错的效果。

-\parinterval 从广义上说，大多数课程学习方法都是遵循由易到难的原则，然而在实践过程中人们逐渐赋予了课程学习更多的内涵，课程学习的含义早已超越了最原始的定义。一方面，课程学习可以与许多任务相结合，此时，评估准则并不一定总是样本的困难度，这取决于具体的任务，比如在多任务学习中（multi-task learning）（Curriculum learning of multiple tasks；Curriculum learning for multi-task classification of visual attributes），指的任务的难易程度或相关性；在领域适应任务中（Curriculum Learning for Domain Adaptation in Neural Machine Translation），指的是数据与领域的相似性；在噪声数据场景中，指的是样本的可信度（Dynamically Composing Domain-Data Selection with Clean-Data Selection by “Co-Curricular Learning” for Neural Machine Translation）。另一方面，在一些任务或数据中，由易到难并不总是有效，有时困难优先反而会取得更好的效果（Curriculum learning with deep convolutional neural networks；An empirical exploration of curriculum learning for neural machine translation），实际上这和我们的直觉不太符合，一种合理的解释是课程学习更适合标签噪声、离群值较多或者是目标任务困难的场景，能提高模型的健壮性和收敛速度，而困难优先则更适合数据集干净的场景，能使随机梯度下降更快更稳定（Active bias: Training more accurate neural networks by emphasizing high variance samples）。（{\color{red} 这段写得不错！}）
-
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------
@@ -743,6 +741,17 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
 \sectionnewpage
 \section{小结及深入阅读}

-\parinterval 对抗样本除了用于提高模型的健壮性之外，还有很多其他的应用场景。其中最主要的便是用于评估模型。通过构建由对抗样本构造的数据集，可以验证模型对于不同类型噪声健壮性\upcite{DBLP:conf/emnlp/MichelN18}。正是由于对抗样本在检测和提高模型健壮性具有明显的效果，因此很多的研究人员在针对不同的任务提出了很多有效的方法。但是在生成对抗样本时常常要注意或考虑很多问题，比如扰动是否足够细微，在人类难以察觉的同时做到欺骗模型的目的，对抗样本在不同的模型结构或数据集上是否具有足够的泛化能力。生成的方法是否足够高效等等。
+\parinterval 本章以不同的角度讨论了神经机器翻译模型的训练问题。一方面，可以作为{\chapternine}$\sim${\chaptertwelve}内容的扩展，另一方面，也为本书后续章节的内容进行铺垫。从机器学习的角度看，本章介绍的很多内容并不仅仅使用在机器翻译中，大多数的内容同样适用于其它自然语言处理任务。此外，本章也讨论许多与机器翻译相关的问题（如大词表），这又使得本章的内容具有机器翻译的特性。总的来说，模型训练是一个非常开放的问题，在后续章节中还会频繁涉及。同时，也有一些方向可以关注：
+
+\begin{itemize}
+\vspace{0.5em}
+\item 对抗样本除了用于提高模型的健壮性之外，还有很多其他的应用场景。其中最主要的便是用于评估模型。通过构建由对抗样本构造的数据集，可以验证模型对于不同类型噪声健壮性\upcite{DBLP:conf/emnlp/MichelN18}。正是由于对抗样本在检测和提高模型健壮性具有明显的效果，因此很多的研究人员在针对不同的任务提出了很多有效的方法。但是在生成对抗样本时常常要注意或考虑很多问题，比如扰动是否足够细微，在人类难以察觉的同时做到欺骗模型的目的，对抗样本在不同的模型结构或数据集上是否具有足够的泛化能力。生成的方法是否足够高效等等。（{\color{red}} 参考文献是不是有些少？加个2-3篇？）
+    
+\vspace{0.5em}
+\item 强化学习在MT的应用？

+\vspace{0.5em}
+\item 从广义上说，大多数课程学习方法都是遵循由易到难的原则，然而在实践过程中人们逐渐赋予了课程学习更多的内涵，课程学习的含义早已超越了最原始的定义。一方面，课程学习可以与许多任务相结合，此时，评估准则并不一定总是样本的困难度，这取决于具体的任务，比如在多任务学习中（multi-task learning）（Curriculum learning of multiple tasks；Curriculum learning for multi-task classification of visual attributes），指的任务的难易程度或相关性；在领域适应任务中（Curriculum Learning for Domain Adaptation in Neural Machine Translation），指的是数据与领域的相似性；在噪声数据场景中，指的是样本的可信度（Dynamically Composing Domain-Data Selection with Clean-Data Selection by “Co-Curricular Learning” for Neural Machine Translation）。另一方面，在一些任务或数据中，由易到难并不总是有效，有时困难优先反而会取得更好的效果（Curriculum learning with deep convolutional neural networks；An empirical exploration of curriculum learning for neural machine translation），实际上这和我们的直觉不太符合，一种合理的解释是课程学习更适合标签噪声、离群值较多或者是目标任务困难的场景，能提高模型的健壮性和收敛速度，而困难优先则更适合数据集干净的场景，能使随机梯度下降更快更稳定（Active bias: Training more accurate neural networks by emphasizing high variance samples）。（{\color{red} 这段写得不错！}）

+\vspace{0.5em}
+\end{itemize}