Commit ceb9ef94 by 单韦乔

13.7图片

parent 4c848606
......@@ -660,14 +660,14 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
\parinterval 由于含有噪声的翻译数据通常都具有较为明显的特征,因此可以用比如:句子长度比、词对齐率、最长连续未对齐序列长度等一些启发式的特征来进行综合评分(MT Detection in Web-Scraped Parallel Corpora;Parallel Corpus Refinement as an Outlier Detection Algorithm;Zipporah: a Fast and Scalable Data Cleaning System for NoisyWeb-Crawled Parallel Corpora);也可以将该问题转化为文本分类或跨语言文本蕴含任务来进行筛选(Detecting Cross-Lingual Semantic Divergence for Neural Machine Translation;Identifying Semantic Divergences in Parallel Text without Annotations);此外,从某种意义上来说,数据降噪其实也可以算是一种领域数据选择,因为它的目标是选择可信度高的样本,因此我们可以人工构建一个可信度高的小型数据集,然后利用该数据集和通用数据集之间的差异性进行选择(Denoising Neural Machine Translation Training with Trusted Data and Online Data Selection)。
\parinterval 早期的工作大多在关注过滤的方法,对于噪声数据中模型的鲁棒性训练和噪声样本的利用探讨较少。事实上,噪声是有强度的,有些噪声数据对于模型可能是有价值的,而且它们的价值可能会随着模型的状态而改变(Denoising Neural Machine Translation Training with Trusted Data and Online Data Selection)。一个例子如图XX (一对噪声数据实例 )所示(画图的时候zh-gloss那行不要了,zh翻译为中文),
\parinterval 早期的工作大多在关注过滤的方法,对于噪声数据中模型的鲁棒性训练和噪声样本的利用探讨较少。事实上,噪声是有强度的,有些噪声数据对于模型可能是有价值的,而且它们的价值可能会随着模型的状态而改变(Denoising Neural Machine Translation Training with Trusted Data and Online Data Selection)。一个例子如图\ref{fig:13-51}所示(画图的时候zh-gloss那行不要了,zh翻译为中文),
%----------------------------------------------
\begin{figure}[htp]
\centering
\input{./Chapter13/Figures/figure-ensemble-knowledge-distillation}
\caption{迭代式知识蒸馏}
\label{fig:13-42}
\includegraphics[scale=0.5]{./Chapter13/Figures/figure-a-pair-of-noise-data-examples.png}
\caption{一对噪声数据实例}
\label{fig:13-51}
\end{figure}
%-------------------------------------------
......@@ -679,14 +679,14 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
\subsubsection{3. 主动学习}
\parinterval 和数据选择密切相关的另外一个应用是主动学习(Active Learning),领域适应和数据降噪是拥有标注数据的情况,然而在一些实际的业务场景中,获得标注样本的代价往往比较高,大部分都是未标注数据,那么如何通过机器学习算法来降低人工标注的成本就是一个很有实际意义的问题,这个研究方向也称之为主动学习。既然人工标注的成本很大,那么就应该尽可能选择那些最有价值的样本交给人工来标注,之后再将标注的数据用于训练,从而逐步提升模型的效果,这也是主动学习的一个整体思路。因此主动学习主要由五个部分组成,包括:未标注样本池(unlabeled pool)、筛选策略(select queries)、标注者(human annotator)、标注数据集(labeled training set)、目标模型(machine learning model),如图XXX(主动学习框架)所示,整个过程以不断迭代的训练方式更新模型性能、未标注样本池和标注数据集,直到目标模型达到预设的性能或者不再提供标注数据为止。
\parinterval 和数据选择密切相关的另外一个应用是主动学习(Active Learning),领域适应和数据降噪是拥有标注数据的情况,然而在一些实际的业务场景中,获得标注样本的代价往往比较高,大部分都是未标注数据,那么如何通过机器学习算法来降低人工标注的成本就是一个很有实际意义的问题,这个研究方向也称之为主动学习。既然人工标注的成本很大,那么就应该尽可能选择那些最有价值的样本交给人工来标注,之后再将标注的数据用于训练,从而逐步提升模型的效果,这也是主动学习的一个整体思路。因此主动学习主要由五个部分组成,包括:未标注样本池(unlabeled pool)、筛选策略(select queries)、标注者(human annotator)、标注数据集(labeled training set)、目标模型(machine learning model),如图\ref{fig:13-52}所示,整个过程以不断迭代的训练方式更新模型性能、未标注样本池和标注数据集,直到目标模型达到预设的性能或者不再提供标注数据为止。
%----------------------------------------------
\begin{figure}[htp]
\centering
\input{./Chapter13/Figures/figure-ensemble-knowledge-distillation}
\caption{迭代式知识蒸馏}
\label{fig:13-42}
\includegraphics[scale=0.5]{./Chapter13/Figures/figure-active-learning-framework.png}
\caption{主动学习框架}
\label{fig:13-52}
\end{figure}
%-------------------------------------------
......@@ -736,14 +736,14 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
\vspace{0.5em}
\end{itemize}
\parinterval 我们把这两个问题抽象成两个模块:难度评估器和训练调度器,那么课程学习的一个大致的流程如下图xx(课程学习框架)所示:
\parinterval 我们把这两个问题抽象成两个模块:难度评估器和训练调度器,那么课程学习的一个大致的流程如下图\ref{fig:13-53}所示:
%----------------------------------------------
\begin{figure}[htp]
\centering
\input{./Chapter13/Figures/figure-ensemble-knowledge-distillation}
\caption{迭代式知识蒸馏}
\label{fig:13-42}
\includegraphics[scale=0.5]{./Chapter13/Figures/figure-curriculum-learning-framework.png}
\caption{课程学习框架}
\label{fig:13-53}
\end{figure}
%-------------------------------------------
......@@ -751,25 +751,25 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
\parinterval 评估样本的难度和具体的任务相关,在神经机器翻译中,有很多种评估方法,可以利用语言学上的困难准则,比如句子长度、句子平均词频、句子语法解析树深度等(Competence-based curriculum learning for neural machine translation;Curriculum Learning and Minibatch Bucketing in Neural Machine Translation)。这些准则本质上属于人类的先验知识,符合人类的直觉,但不一定和模型相匹配,对人类来说简单的句子对模型来说并不总是容易的,所以研究学者们也提出了模型自动评估的方法,比如:利用语言模型(Dynamically Composing Domain-Data Selection with Clean-Data Selection by “Co-Curricular Learning” for Neural Machine Translation;Curriculum Learning for Domain Adaptation in Neural Machine Translation),利用神经机器翻译模型(An empirical exploration of curriculum learning for neural machine translation;Dynamic Curriculum Learning for Low-Resource Neural Machine Translation)等。值得注意的是,利用神经机器翻译来打分的方法分为静态和动态两种,静态的方法是利用在小数据集上训练的、更小的NMT模型来打分(An empirical exploration of curriculum learning for neural machine translation),动态的方法则是利用当前模型的状态来打分,这在广义上也叫作自步学习(Self-Paced Learning),具体可以利用比如模型的训练误差或变化率等(Dynamic Curriculum Learning for Low-Resource Neural Machine Translation)。
\parinterval 虽然样本的难度度量在不同的数据类型和任务中有所不同,但针对第二个问题,即课程规划通常与数据和任务无关,换句话说,在各种场景中,大多数课程学习都利用了类似的调度策略。具体而言,调度策略可以分为预定义的和自动的两种。预定义通常是将按照难易程度排序好的样本划分为块,每个块中包含一定数量的难度相似的样本,如图XX(样本块划分)所示:
\parinterval 虽然样本的难度度量在不同的数据类型和任务中有所不同,但针对第二个问题,即课程规划通常与数据和任务无关,换句话说,在各种场景中,大多数课程学习都利用了类似的调度策略。具体而言,调度策略可以分为预定义的和自动的两种。预定义通常是将按照难易程度排序好的样本划分为块,每个块中包含一定数量的难度相似的样本,如图\ref{fig:13-54}所示:
%----------------------------------------------
\begin{figure}[htp]
\centering
\input{./Chapter13/Figures/figure-ensemble-knowledge-distillation}
\caption{迭代式知识蒸馏}
\label{fig:13-42}
\includegraphics[scale=0.5]{./Chapter13/Figures/figure-sample-block-partition.jpg}
\caption{样本块划分}
\label{fig:13-54}
\end{figure}
%-------------------------------------------
\parinterval 然后按照“先易后难”的原则人工定义一个调度策略,比如早期一种较为流行的方法是:在训练早期模型只在简单块中进行采样,随着训练过程的进行,比如在固定数量的训练轮次之后,将下一个块的样本合并到当前训练子集中,继续训练,直到合并了整个数据块,即整个训练集可见为止,之后再继续进行几个额外轮次的训练直到收敛。示意图如图xxx(一种预定义的课程规划)所示:
\parinterval 然后按照“先易后难”的原则人工定义一个调度策略,比如早期一种较为流行的方法是:在训练早期模型只在简单块中进行采样,随着训练过程的进行,比如在固定数量的训练轮次之后,将下一个块的样本合并到当前训练子集中,继续训练,直到合并了整个数据块,即整个训练集可见为止,之后再继续进行几个额外轮次的训练直到收敛。示意图如图\ref{fig:13-55}所示:
%----------------------------------------------
\begin{figure}[htp]
\centering
\input{./Chapter13/Figures/figure-ensemble-knowledge-distillation}
\caption{迭代式知识蒸馏}
\label{fig:13-42}
\includegraphics[scale=0.5]{./Chapter13/Figures/figure-a-predefined-course-planning.jpg}
\caption{一种预定义的课程规划}
\label{fig:13-55}
\end{figure}
%-------------------------------------------
......
......@@ -5895,7 +5895,7 @@ author = {Yoshua Bengio and
@inproceedings{garcia-martinez2016factored,
title={Factored Neural Machine Translation Architectures},
author={Mercedes {Garcia-Martinez} and Loïc {Barrault} and Fethi {Bougares}},
booktitle={International Workshop on Spoken Language Translation (IWSLT'16)},
publisher={International Workshop on Spoken Language Translation (IWSLT'16)},
notes={Sourced from Microsoft Academic - https://academic.microsoft.com/paper/2949810612},
year={2016}
}
......@@ -8329,7 +8329,7 @@ author = {Zhuang Liu and
@inproceedings{Real2019AgingEF,
title={Aging Evolution for Image Classifier Architecture Search},
author={Esteban Real and Alok Aggarwal and Yanping Huang and Quoc V. Le },
booktitle={AAAI Conference on Artificial Intelligence},
publisher={AAAI Conference on Artificial Intelligence},
year={2019}
}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论