Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
4e0f202e
Commit
4e0f202e
authored
Dec 29, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
wording (sec 13)
parent
e4f69dbf
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
36 行增加
和
34 行删除
+36
-34
Chapter13/chapter13.tex
+36
-34
没有找到文件。
Chapter13/chapter13.tex
查看文件 @
4e0f202e
...
...
@@ -329,6 +329,7 @@ R(\mathbf{w}) & = & (\big| |\mathbf{w}| {\big|}_2)^2 \\
\sectionnewpage
\section
{
对抗样本训练
}
\label
{
sec:adversarial-examples
}
\parinterval
同其它基于神经网络的方法一样,提高
{
\small\bfnew
{
健壮性
}}
\index
{
健壮性
}
(Robustness)
\index
{
Robustness
}
也是神经机器翻译研发中需要关注的。比如,大容量模型可以很好的拟合训练数据,但是当测试样本与训练样本差异较大时,会导致很糟糕的翻译结果
\upcite
{
JMLR:v15:srivastava14a,DBLP:conf/amta/MullerRS20
}
。另一方面,实践中也发现,有些情况下即使输入中有微小的扰动,神经网络模型的输出也会产生巨大变化。或者说,神经网络模型在输入样本上容易受到
{
\small\bfnew
{
攻击
}}
\index
{
攻击
}
(Attack)
\index
{
Attack
}
\upcite
{
DBLP:conf/sp/Carlini017,DBLP:conf/cvpr/Moosavi-Dezfooli16,DBLP:conf/acl/ChengJM19
}
。图
\ref
{
fig:13-19
}
展示了一个神经机器翻译系统的翻译结果,可以看到,把输入句子中的单词“他”换成“她”会得到完全不同的译文。这时神经机器翻译系统就存在健壮性问题。
...
...
@@ -436,9 +437,9 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=& \frac{1}{N}\sum_{(\mathbi{x},\
%----------------------------------------------------------------------------------------
\sectionnewpage
\section
{
高级模型训练技术
}
\section
{
学习策略
}
\parinterval
在神经机器翻译中,
经常会使用极大似然估计对模型进行训练。尽管这种方法取得了巨大的成功,但是极大似然估计并不是一种完美的目标函数,它也面临着许多问题。比如,由于极大似然估计并不是用来评价翻译系统性能的指标,这使得即使在极大似然估计中获得了更低的损失,但是在实际的性能评价指标上却不一定会产生更好的结果。针对极大似然估计的问题,研究人员提出了许多不同方法。下面章节我们首先会对极大似然估计的问题进行论述,然后介绍解决对应问题的多种
方法。
\parinterval
在神经机器翻译中,
极大似然估计是最常用的模型参数估计方法。尽管这种方法取得了巨大的成功,但仍然面临着许多问题。比如,似然函数并不是评价翻译系统性能的指标,这使得即使在训练数据上降低似然函数的值,但在应用模型时并不一定可以获得更好的翻译结果。针对极大似然估计的问题,研究人员提出了不同方法。本节首先会对极大似然估计的问题进行论述,然后介绍解决相关问题的不同
方法。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
...
...
@@ -446,11 +447,11 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=& \frac{1}{N}\sum_{(\mathbi{x},\
\subsection
{
极大似然估计的问题
}
\label
{
subsec-15.3.1
}
\parinterval
近几十年来,极大似然估计已成为机器翻译训练中使用最广泛的目标函数。但是,用极大似然估计进行训练存在曝光偏置问题和训练解码评价指标不一致问题,这可能导致在解码阶段模型性能下降
:
\parinterval
极大似然估计已成为机器翻译乃至整个自然语言处理领域中使用最广泛的训练用目标函数。但是,使用极大似然估存在
{
\small\bfnew
{
曝光偏置
}}
\index
{
曝光偏置
}
(Exposure Bias
\index
{
Exposure Bias
}
)问题和训练解码评价指标不一致问题(
{
\color
{
red
}
参考文献!
}
),具体来说
:
\begin{itemize}
\vspace
{
0.5em
}
\item
曝光偏置问题:在训练过程中,模型使用
真实数据进行训练,因此模型在预测一个句子中的下一个单词时,解码器端的输入服从于真实数据的分布。但是在解码过程中,模型则会根据先前的预测结果来生成下一个词,此时模型输入所服从的分布在训练和解码中不一致,如图
\ref
{
fig:13-21
}
所示。由于在训练过程中暴露于真实数据,模型可能会偏向于仅在具有真实数据的情况下才能表现良好,这就是曝光偏置问题
\upcite
{
Bengio2015ScheduledSF,Ranzato2016SequenceLT
}
。
{
\red
(转录时,w改为y,并在图中补充:
$
y
_
1
,y
_
2
,y
_
3
,…, y
_
V
$
表示目标语言词表里的V个词)
}
\item
曝光偏置问题:在训练过程中,模型使用
标注数据进行训练,因此模型在预测下一个单词时,解码器的输入是正确的译文片段,也就是预测单词
$
y
_
j
$
时,系统使用了标准答案
$
\{\mathbi
{
y
}_
1
,...,
\mathbi
{
y
}_{
j
-
1
}
\}
$
作为历史信息。但是对新的句子进行翻译时,预测第
$
j
$
个单词使用的是模型自己生成的前
$
j
-
1
$
个单词,即
$
\{\hat
{
\mathbi
{
y
}}_
1
,...,
\hat
{
\mathbi
{
y
}}_{
j
-
1
}
\}
$
。这意味着,训练时使用的输入数据(目标语言端)与真实翻译时的情况不符,而且二者所对应的概率分布可能会存在较大差异,如图
\ref
{
fig:13-21
}
所示。由于在训练过程中暴露于标注数据,因此模型可能适应了标注数据,在推断阶段无法很好地适应模型自动生成的数据,这就是曝光偏置问题
\upcite
{
Bengio2015ScheduledSF,Ranzato2016SequenceLT
}
。
{
\red
(转录时,w改为y,并在图中补充:
$
y
_
1
,y
_
2
,y
_
3
,…, y
_
V
$
表示目标语言词表里的V 个词)
{
\color
{
blue
}
我上面用的是
$
\mathbi
{
y
}_
j
$
下面图里用的是
$
w
$
,这个没有问题,因为
$
w
$
是词典里的词,但是怎么表达这个事情
}
}
\vspace
{
0.5em
}
%----------------------------------------------
...
...
@@ -462,7 +463,7 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=& \frac{1}{N}\sum_{(\mathbi{x},\
\end{figure}
%----------------------------------------------
\item
训练
解码评价指标不一致问题:在训练过程中,使用极大似然估计最大化训练集数据出现的概率,而在解码的时候,通常使用如BLEU等外部评价指标来评价模型的性能。理想的情况下,模型应该直接最大化模型性能评价指标,而不是训练集数据出现的概率。但是通常情况下,模型性能评价指标不可导,这使得我们无法直接利用反向传播来优化神经网络,因此在训练时我们只能使用概率作为实际评价指标的替代,这样就会导致训练解码评价指标不一致问题。在机器翻译任务中,这个问题的一个后果就是,更低的困惑度不一定能提高BLEU
。
\item
训练
目标函数与任务评价指标不一致问题:在训练过程中,在训练数据上进行极大似然估计,而在新数据上进行推断的时候,通常使用BLEU等外部评价指标来评价模型的性能。更加理想的情况是,模型应该直接最大化性能评价指标,而不是训练集数据上的似然函数。但是很多情况下,模型性能评价指标不可微分,这使得我们无法直接利用基于梯度的方法来优化模型。在机器翻译任务中,这个问题的一种体现是,训练数据上更低的困惑度不一定能带来BLEU的提升
。
\vspace
{
0.5em
}
\end{itemize}
...
...
@@ -470,9 +471,9 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=& \frac{1}{N}\sum_{(\mathbi{x},\
% NEW SUB-SECTION
%----------------------------------------------------------------------------------------
\subsection
{
非
t
eacher-forcing方法
}
\subsection
{
非
T
eacher-forcing方法
}
\parinterval
所谓
teacher-forcing,即要求模型生成的翻译和
{
\small\bfnew
{
标准答案
}}
\index
{
标准答案
}
(Ground Truth)
\index
{
Ground Truth
}
完全对应。teacher-forcing是一种网络训练方法,对开发机器翻译、文本摘要和图像字幕的深度学习语言模型以及许多其他应用程序至关重要。使用这种方法,模型在训练时每次不是使用上一个时刻的输出作为下一个时刻的输入,而是使用训练数据中的标准答案作为下一个时刻的输入。尽管这一方法可以强制约束模型的翻译结果,加快收敛。但是这也会导致在训练阶段和解码
{
\red
(推断?)
}
阶段中,模型的输入所服从的分布不一致,也就是曝光偏置问题。为了解决以上问题,研究人员提出非teacher-forcing方法,其中
主要包括调度采样和生成对抗网络。
\parinterval
所谓
Teacher-forcing,即要求模型预测的结果和标准答案完全对应。Teacher-forcing是一种深度学习训练策略,在序列处理任务上被广泛使用(
{
\color
{
red
}
参考文献!
}
)。以序列生成任务为例,Teacher-forcing要求模型在训练时不是使用上一个时刻的输出作为下一个时刻的输入,而是使用训练数据中的标准答案作为下一个时刻的输入。显然这会导致曝光偏置问题。为了解决这个问题,可以使用非Teacher-forcing方法,
主要包括调度采样和生成对抗网络。
%----------------------------------------------------------------------------------------
% NEW SUBSUB-SECTION
...
...
@@ -480,30 +481,30 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=& \frac{1}{N}\sum_{(\mathbi{x},\
\subsubsection
{
1. 调度采样
}
\parinterval
对于曝光偏置问题,一般可以使用束搜索等启发式搜索方法来进行缓解。
但是即使使用束搜索,最终得到的有效序列数量仍然很小,仍然无法解决训练和解码不一致
问题。
\parinterval
对于曝光偏置问题,一般可以使用束搜索等启发式搜索方法来进行缓解。
也就是,训练过程可以模拟推断时的行为。但是即使使用束搜索,最终得到的有效序列数量很小,仍然无法完全解决训练和推断行为不一致的
问题。
\parinterval
对于一个目标序列
$
\seq
{
y
}
=
\{\mathbi
{
y
}_
1
,
\mathbi
{
y
}_
2
,
\ldots
,
\mathbi
{
y
}_
n
\}
$
,在预测第
$
t
$
个单词
$
\mathbi
{
y
}_
t
$
时,训练过程与解码过程之间的主要区别在于:训练过程中使用真实的先前单词
$
\mathbi
{
y
}_{
t
-
1
}$
,而解码过程使用的是来自模型本身的估计
$
\hat
{
\mathbi
{
y
}}_{
t
-
1
}$
。此时可以采取一种调度采样机制,在训练期间随机决定使用
$
\mathbi
{
y
}_{
t
-
1
}$
还是
$
\hat
{
\mathbi
{
y
}}_{
t
-
1
}$
。假设训练时使用的是基于小批量的随机梯度下降方法,对于每个预测训练算法的第
$
i
$
个小批量的
$
\mathbi
{
y
}_
t
$
,随机以概率
$
\epsilon
_
i
$
使用先前真实答案或以概率
${
(
1
-
\epsilon
_
i
)
}^
2
$
使用来自模型本身的估计。该模型的估计可以根据由
$
\funp
{
P
}
(
\mathbi
{
y
}_{
t
-
1
}
|
\mathbi
{
h
}_{
t
-
1
}
)
$
建模的概率分布对单词进行采样来获得,也可以选择模型认为出现概率最大的词
$
s
$
,即
$
\arg\max
_
s
\funp
{
P
}
(
\mathbi
{
y
}_{
t
-
1
}
=
s|
\mathbi
{
h
}_{
t
-
1
}
)
$
,此过程如图
\ref
{
fig:13-22
}
所示
。
\parinterval
对于一个目标序列
$
\seq
{
y
}
=
\{\mathbi
{
y
}_
1
,
\mathbi
{
y
}_
2
,
\ldots
,
\mathbi
{
y
}_
n
\}
$
,在预测第
$
j
$
个单词
$
\mathbi
{
y
}_
j
$
时,训练过程与推断过程之间的主要区别在于:训练过程中使用标注答案
$
\{\mathbi
{
y
}_{
1
}
,...,
\mathbi
{
y
}_{
j
-
1
}
\}
$
,而推断过程使用的是来自模型本身的预测结果
$
\{\hat
{
\mathbi
{
y
}}_{
1
}
,...,
\hat
{
\mathbi
{
y
}}_{
j
-
1
}
\}
$
。此时可以采取一种
{
\small\bfnew
{
调度采样
}}
\index
{
调度采样
}
(Scheduled Sampling
\index
{
Scheduled Sampling
}
)机制(
{
\color
{
red
}
参考文献!
}
),在训练中随机决定使用
$
\mathbi
{
y
}_{
j
-
1
}$
还是
$
\hat
{
\mathbi
{
y
}}_{
j
-
1
}$
。 假设训练时使用的是基于小批量的随机梯度下降方法,对于第
$
i
$
个批次中序列每一个位置的预测,以概率
$
\epsilon
_
i
$
使用标准答案或以概率
${
(
1
-
\epsilon
_
i
)
}^
2
$
使用来自模型本身的预测。具体到序列中的每一个位置
$
j
$
,可以根据模型预测
$
\hat
{
\mathbi
{
y
}}_{
t
-
1
}$
单词的概率进行采样。在得到若干个单词之后,同
$
\mathbi
{
y
}_{
j
-
1
}$
一起以
$
\epsilon
_
i
$
控制的调度策略随机送入位置
$
j
$
作为输入,此过程如图
\ref
{
fig:13-22
}
所示。这个过程与束搜索可以很好的融合
。
%----------------------------------------------
\begin{figure}
[htp]
\centering
\includegraphics
[scale=1]
{
./Chapter13/Figures/figure-of-scheduling-sampling-method.png
}
\caption
{
“调度采样”
方法的示意图
}
\caption
{
调度采样
方法的示意图
}
\label
{
fig:13-22
}
\end{figure}
%----------------------------------------------
\parinterval
当
$
\epsilon
_
i
=
1
$
时,模型的训练与以前完全相同,而当
$
\epsilon
_
i
=
0
$
时,模型的训练与
解码时使用的设置相同。在这里使用到了一种
{
\small\bfnew
{
课程学习
}}
\index
{
课程学习
}
(curriculum learning)
\index
{
curriculum learning
}
策略,该策略认为应从一种学习策略过渡到另一种学习策略:在训练开始时,由于模型训练不充分,因此如果从模型中随机采样,会导致收敛速度非常慢。因此,在模型训练的前期,通常会选择使用真实的先前单词
$
\mathbi
{
y
}_{
t
-
1
}$
。在模型训练的后期,
$
\epsilon
_
i
$
应该更倾向于使用来自模型本身的估计
$
\hat
{
\mathbi
{
y
}}_{
t
-
1
}$
,这种训练方式也是与真实的推理情况相对应的
。
\parinterval
当
$
\epsilon
_
i
=
1
$
时,模型的训练与以前完全相同,而当
$
\epsilon
_
i
=
0
$
时,模型的训练与
推断使用的策略完全一样。在这里使用到了一种
{
\small\bfnew
{
课程学习
}}
\index
{
课程学习
}
(Curriculum Learning)
\index
{
curriculum learning
}
策略(
{
\color
{
red
}
参考文献!
}
),该策略认为应从一种学习策略过渡到另一种学习策略:在训练开始时,由于模型训练不充分,因此如果从模型中随机采样,会导致收敛速度非常慢。因此,在模型训练的前期,通常会选择使用标准答案
$
\{\mathbi
{
y
}_{
1
}
,...,
\mathbi
{
y
}_{
j
-
1
}
\}
$
。在模型训练的后期,应该更倾向于使用自模型本身的预测
$
\{\hat
{
\mathbi
{
y
}}_{
1
}
,...,
\hat
{
\mathbi
{
y
}}_{
j
-
1
}
\}
$
。关于课程学习的内容在
\ref
{
sec:curriculum-learning
}
节还会有详细介绍
。
\parinterval
在使用调度策略时,需要调整关于
$
i
$
的函数来降低
$
\epsilon
_
i
$
,与梯度下降方法中降低学习率的方式相似
,调度策略可以采取
如下几种方式:
\parinterval
在使用调度策略时,需要调整关于
$
i
$
的函数来降低
$
\epsilon
_
i
$
,与梯度下降方法中降低学习率的方式相似
。调度策略可以采用
如下几种方式:
\begin{itemize}
\vspace
{
0.5em
}
\item
线性衰减:
$
\epsilon
_
i
=
\max
(
\epsilon
,k
-
ci
)
$
,其中
$
0
\leqslant
\epsilon
<
1
$
,是要提供给模型的最小数值,而k和c提供
衰减的偏移量和斜率,取决于预期的收敛速度。
\item
线性衰减:
$
\epsilon
_
i
=
\max
(
\epsilon
,k
-
ci
)
$
,其中
$
\epsilon
$
(
$
0
\leqslant
\epsilon
<
1
$
)是
$
\epsilon
_
i
$
的最小数值,而
$
k
$
和
$
c
$
代表
衰减的偏移量和斜率,取决于预期的收敛速度。
\vspace
{
0.5em
}
\item
指数衰减:
$
\epsilon
_
i
=
k
^
i
$
,其中
$
k
$
是一个常数,一般为
$
k <
1
$
,取决于预期的收敛速度
。
\item
指数衰减:
$
\epsilon
_
i
=
k
^
i
$
,其中
$
k
$
是一个常数,一般为
$
k <
1
$
。
\vspace
{
0.5em
}
\item
反向Sigmoid 衰减:
$
\epsilon
_
i
=
k
/(
k
+
\exp
(
i
/
k
))
$
,其中
$
k
\geqslant
1
$
,取决于预期的收敛速度
。
\item
反向Sigmoid 衰减:
$
\epsilon
_
i
=
k
/(
k
+
\exp
(
i
/
k
))
$
,其中
$
k
\geqslant
1
$
。
\vspace
{
0.5em
}
\end{itemize}
...
...
@@ -513,36 +514,36 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=& \frac{1}{N}\sum_{(\mathbi{x},\
\subsubsection
{
2. 生成对抗网络
}
\parinterval
调度采样解决曝光偏置的方法是:把模型
自己生成的结果当成正确答案用来训练。但是这样导致的问题就是模型会把错误的结果当成正确的来学习,影响了模型最终的效果。解决这个问题的关键就是如何对模型自己生成的结果进行评价。如果生成好的结果,那么我们使用它进行模型训练,否则就不使用。
{
\small\bfnew
{
生成对抗网络
}}
\index
{
生成对抗网络
}
(Generative Adversarial Networks
\index
{
Generative Adversarial Networks
}
,GAN)
就是这样一种技术,它引入了一个额外的模型(判别器)来对原有模型(生成器)的生成结果进行评价,并根据评价结果同时训练两个模型。
\parinterval
调度采样解决曝光偏置的方法是:把模型
历史预测的结果作为输入,并用于预测下一时刻的输出。但是,如果模型预测的结果中有错误,再使用错误的结果预测未来的序列也会产生问题。这里面的核心问题是,如何知道模型预测的好与坏,进而在训练中有效的使用它们。如果生成好的结果,那么可以使用它进行模型训练,否则就不使用。生成对抗网络
就是这样一种技术,它引入了一个额外的模型(判别器)来对原有模型(生成器)的生成结果进行评价,并根据评价结果同时训练两个模型。
\parinterval
生成对抗网络采用了对抗的训练架构并将其命名为
{
\small\bfnew
{
对抗神经机器翻译
}}
\index
{
对抗神经机器翻译
}
(Adversarial-NMT)
\index
{
Adversarial-NMT
}
,其总体框架如图
\ref
{
fig:13-23
}
所示,
{
\red
其中“Ref”是“Reference”的缩写,表示标准答案,而“ Hyp”是“Hypothesis”的缩写,表示模型翻译句子结果(准备直接吧图中英文改为中文,然后把这句话删掉)
}
。所有黄色部分表示神经机器翻译模型G,该模型将源语言句子
$
\seq
{
x
}$
映射为目标语言句子。红色部分是对抗网络D,该网络预测目标语言句子是否是源语言句子
$
\seq
{
x
}$
的真实翻译。G和D相互对抗,同时生成翻译结果
$
\seq
{
y
}
'
$
来训练D,以及生成奖励信号来通过策略梯度训练G
。
\parinterval
在
\ref
{
sec:adversarial-examples
}
已经提到了生成对抗网络,这里进行一些展开。 在机器翻译中,基于对抗神经网络的架构被命名为
{
\small\bfnew
{
对抗神经机器翻译
}}
\index
{
对抗神经机器翻译
}
(Adversarial-NMT)
\index
{
Adversarial-NMT
}
(
{
\color
{
red
}
参考文献!
}
)。其总体框架如图
\ref
{
fig:13-23
}
所示,
{
\red
其中“Ref”是“Reference”的缩写,表示标准答案,而“ Hyp”是“Hypothesis”的缩写,表示模型翻译句子结果(准备直接吧图中英文改为中文,然后把这句话删掉)
}
。黄色部分表示神经机器翻译模型
$
G
$
,该模型将源语言句子
$
\seq
{
x
}$
映射为目标语言句子。红色部分是对抗网络
$
D
$
,该网络预测目标语言句子是否是源语言句子
$
\seq
{
x
}$
的真实翻译。
$
G
$
和
$
D
$
相互对抗,同时生成翻译结果
$
\seq
{
y
}
'
$
来训练
$
D
$
,并生成奖励信号来通过策略梯度训练
$
G
$
。
%----------------------------------------------
\begin{figure}
[htp]
\centering
\includegraphics
[scale=1]
{
./Chapter13/Figures/figure-framework-of-Adversarial-Neural-machine-translation.png
}
\caption
{
对抗神经机器翻译框架图
}
\caption
{
对抗神经机器翻译框架图
(
{
\color
{
red
}
最好别抄,用自己的理解画
}
)
}
\label
{
fig:13-23
}
\end{figure}
%----------------------------------------------
\parinterval
对于
用于训练的双语句对
$
(
\seq
{
x
}
=
\{\mathbi
{
x
}_
1
,
\mathbi
{
x
}_
2
,
\ldots
,
\mathbi
{
x
}_
m
\}
,
\seq
{
y
}
=
\{\mathbi
{
y
}_
1
,
\mathbi
{
y
}_
2
,
\ldots
,
\mathbi
{
y
}_
n
\}
)
$
,其中
$
\mathbi
{
x
}_
i
$
是源句子中的第
$
i
$
个单词,
$
\mathbi
{
y
}_
j
$
是目标句子中的第
$
j
$
个单词。令
$
\seq
{
y
}
'
$
表示神经机器翻译系统对源语言句子
$
\mathbi
{
x
}$
的解码结果。实际上,对抗神经机器翻译的训练目标就是强制
$
\seq
{
y
}
'
$
与
$
\seq
{
y
}$
相似。在理想情况下,
$
\seq
{
y
}
'
$
与人类的翻译结果
$
\seq
{
y
}$
非常相似,以至于人类也无法分辨
$
\seq
{
y
}
'
$
是由机器还是人类产生的。为了实现这一目标,需要引入一个额外的对抗网络
\upcite
{
DBLP:conf/nips/GoodfellowPMXWOCB14
}
。该对抗网络的目标是将人类翻译与机器翻译区分开来,神经机器翻译模型G试图产生类似于人类翻译的目标句子,以欺骗对抗网络
。
\parinterval
对于
训练用双语句对
$
(
\seq
{
x
}
,
\seq
{
y
}
)=(
\{\mathbi
{
x
}_
1
,
\mathbi
{
x
}_
2
,
\ldots
,
\mathbi
{
x
}_
m
\}
,
\{\mathbi
{
y
}_
1
,
\mathbi
{
y
}_
2
,
\ldots
,
\mathbi
{
y
}_
n
\}
)
$
,其中
$
\mathbi
{
x
}_
i
$
是源句子中的第
$
i
$
个单词的表示向量,
$
\mathbi
{
y
}_
j
$
是目标句子中的第
$
j
$
个单词的表示向量。令
$
\seq
{
y
}
'
$
表示神经机器翻译系统对源语言句子
$
\mathbi
{
x
}$
的翻译结果。实际上,对抗神经机器翻译的训练目标就是强制
$
\seq
{
y
}
'
$
与
$
\seq
{
y
}$
相似。在理想情况下,
$
\seq
{
y
}
'
$
与人类标注的答案
$
\seq
{
y
}$
非常相似,以至于人类也无法分辨
$
\seq
{
y
}
'
$
是由机器还是人类产生的
。
\parinterval
在对抗神经机器翻译中,原始的神经机器翻译模型为生成网络,其训练由一个对抗网络协助。对抗网络的目的
是将神经机器翻译模型生成的翻译结果与人的翻译结果区分开,而生成网络的目标是产生高质量的翻译,以欺骗对抗网络。生成网络和对抗网络作为对手,由策略梯度方法来共同训练。为了使得生成网络和对抗网络能够提高彼此性能,可以通过学习人为产生的正例和从神经机器翻译取得的负例来提高对手的辨别力。通过这种方式,神经机器翻译的结果可以尽可能接近真实答案。
\parinterval
为了实现这一目标,需要引入一个额外的对抗网络
\upcite
{
DBLP:conf/nips/GoodfellowPMXWOCB14
}
。在这个框架中,原始的神经机器翻译模型为生成网络,其训练由对抗网络协助。对抗网络的目标
是将神经机器翻译模型生成的翻译结果与人的翻译结果区分开,而生成网络的目标是产生高质量的翻译,以欺骗对抗网络。生成网络和对抗网络作为对手,由策略梯度方法来共同训练。为了使得生成网络和对抗网络能够提高彼此性能,可以通过学习人为产生的正例和从神经机器翻译取得的负例来提高对手的辨别力。通过这种方式,神经机器翻译的结果可以尽可能接近真实答案。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
%----------------------------------------------------------------------------------------
\subsection
{
增强
学习方法
}
\subsection
{
强化
学习方法
}
\parinterval
增强学习方法可以同时解决
\ref
{
subsec-15.3.1
}
提到的曝光偏置问题和训练解码评价指标不一致问题,本节中涉及到的方法主要包括基于策略的增强学习方法和基于演员-评论家的增强学习方法
。
\parinterval
{
\small\bfnew
{
强化学习
}}
\index
{
强化学习
}
(Reinforcement Learning,RL
\index
{
Reinforcement Learning,RL
}
)方法也是机器学习的经典方法,它可以同时解决
\ref
{
subsec-15.3.1
}
节提到的曝光偏置问题和训练- 推断评价指标不一致问题。本节主要介绍基于策略的强化学习方法和基于演员-评论家的强化学习方法(
{
\color
{
red
}
参考文献!
}
)
。
%----------------------------------------------------------------------------------------
% NEW SUBSUB-SECTION
%----------------------------------------------------------------------------------------
\subsubsection
{
1. 基于策略的
增强
学习方法
}
\subsubsection
{
1. 基于策略的
强化
学习方法
}
\parinterval
与传统的极大似然估计不同,
{
\small\bfnew
{
最小风险训练
}}
\index
{
最小风险训练
}
(Minimum Risk Training
\index
{
Minimum Risk Training
}
,MRT)方法引入了评价指标作为损失函数,目标是将训练数据在测试数据上的预期风险降至最低
\upcite
{
DBLP:conf/acl/ShenCHHWSL16
}
。
...
...
@@ -591,9 +592,9 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=& \frac{1}{N}\sum_{(\mathbi{x},\
% NEW SUBSUB-SECTION
%----------------------------------------------------------------------------------------
\subsubsection
{
2. 基于演员-评论家的
增强
学习方法
}
\subsubsection
{
2. 基于演员-评论家的
强化
学习方法
}
\parinterval
对于基于策略的
增强
学习方法来说,它的目标是寻找一个策略
$
\funp
{
p
}
(
\textrm
{
a
}
|
\hat
{
\mathbi
{
y
}}_{
1
\ldots
t
}
,
\mathbi
{
x
}
)
$
,使得该策略选择的行动a未来可以获得的奖励期望(也被称为动作价值函数)最大化:
\parinterval
对于基于策略的
强化
学习方法来说,它的目标是寻找一个策略
$
\funp
{
p
}
(
\textrm
{
a
}
|
\hat
{
\mathbi
{
y
}}_{
1
\ldots
t
}
,
\mathbi
{
x
}
)
$
,使得该策略选择的行动a未来可以获得的奖励期望(也被称为动作价值函数)最大化:
\begin{eqnarray}
\funp
{
Q
}
(
\textrm
{
a
}
;
\hat
{
\mathbi
{
y
}}_{
1
\ldots
t
}
,
\widetilde
{
\mathbi
{
y
}}
)
&
=
&
\mathbb
{
E
}_{
\hat
{
\mathbi
{
y
}}_{
t+1
\ldots
T
}
\sim
\funp
{
p
}
(
\textrm
{
a
}
|
\hat
{
\mathbi
{
y
}}_{
1
\ldots
t
}
\textrm
{
a
}
,
\mathbi
{
x
}
)
}
[
\funp
{
r
}_
t(
\textrm
{
a
}
;
\hat
{
\mathbi
{
y
}}_{
1
\ldots
t-1
}
,
\widetilde
{
\mathbi
{
y
}}
)
\nonumber
\\
&
+
&
\sum
_{
i=t+1
}^
T
\funp
{
r
}_
i(
\hat
{
\mathbi
{
y
}}_
i;
\hat
{
\mathbi
{
y
}}_{
1
\ldots
i-1
}
\textrm
{
a
}
\hat
{
\mathbi
{
y
}}_{
t+1
\ldots
i
}
,
\widetilde
{
\mathbi
{
y
}}
)]
...
...
@@ -606,17 +607,17 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=& \frac{1}{N}\sum_{(\mathbi{x},\
\label
{
eq:13-15
}
\end{eqnarray}
\parinterval
其中,
\textrm
{
A
}
所有可能的行动组成的空间,也就是词表
$
V
$
。上式表示,计算动作价值函数
$
\funp
{
Q
}$
需要枚举
$
t
$
时刻以后所有可能句子,而可能的句子数目是随着其长度指数级增长,因此我们只能估计
$
\funp
{
Q
}$
。基于策略的
增强
学习方法,如最小风险训练(风险
$
\vartriangle
=-
\funp
{
Q
}$
)等都使用了采样的方法来估计
$
\funp
{
Q
}$
。尽管采样估计的结果是
$
\funp
{
Q
}$
的无偏估计,但是它的缺点在于估计的方差比较大。而
$
\funp
{
Q
}$
直接关系到梯度更新的大小,不稳定的数值会导致网络更新不稳定,难以优化。
\parinterval
其中,
\textrm
{
A
}
所有可能的行动组成的空间,也就是词表
$
V
$
。上式表示,计算动作价值函数
$
\funp
{
Q
}$
需要枚举
$
t
$
时刻以后所有可能句子,而可能的句子数目是随着其长度指数级增长,因此我们只能估计
$
\funp
{
Q
}$
。基于策略的
强化
学习方法,如最小风险训练(风险
$
\vartriangle
=-
\funp
{
Q
}$
)等都使用了采样的方法来估计
$
\funp
{
Q
}$
。尽管采样估计的结果是
$
\funp
{
Q
}$
的无偏估计,但是它的缺点在于估计的方差比较大。而
$
\funp
{
Q
}$
直接关系到梯度更新的大小,不稳定的数值会导致网络更新不稳定,难以优化。
\parinterval
为了避免采样的开销和随机性带来的不稳定,基于演员-评论家的
增强学习方法
\upcite
{
DBLP:conf/iclr/BahdanauBXGLPCB17
}
引入一个可学习的函数
$
\hat
{
\funp
{
Q
}}$
,通过函数
$
\hat
{
\funp
{
Q
}}$
来逼近动作价值函数
$
\funp
{
Q
}$
。但是由于
$
\hat
{
\funp
{
Q
}}$
是人工设计的一个函数,该函数有着自身的偏置,因此
$
\hat
{
\funp
{
Q
}}$
不是
$
\funp
{
Q
}$
的一个无偏估计,所以使用
$
\hat
{
\funp
{
Q
}}$
来指导
$
\funp
{
p
}$
的优化无法到达理论上的最优解。尽管如此,得益于神经网络强大的拟合能力,基于演员-评论家的增强
学习方法仍更具优势。
\parinterval
为了避免采样的开销和随机性带来的不稳定,基于演员-评论家的
强化学习方法
\upcite
{
DBLP:conf/iclr/BahdanauBXGLPCB17
}
引入一个可学习的函数
$
\hat
{
\funp
{
Q
}}$
,通过函数
$
\hat
{
\funp
{
Q
}}$
来逼近动作价值函数
$
\funp
{
Q
}$
。但是由于
$
\hat
{
\funp
{
Q
}}$
是人工设计的一个函数,该函数有着自身的偏置,因此
$
\hat
{
\funp
{
Q
}}$
不是
$
\funp
{
Q
}$
的一个无偏估计,所以使用
$
\hat
{
\funp
{
Q
}}$
来指导
$
\funp
{
p
}$
的优化无法到达理论上的最优解。尽管如此,得益于神经网络强大的拟合能力,基于演员-评论家的强化
学习方法仍更具优势。
\parinterval
对于基于演员-评论家的
增强
学习方法,演员就是策略
$
\funp
{
p
}$
,而评论家就是动作价值函数
$
\funp
{
Q
}$
的估计
$
\hat
{
\funp
{
Q
}}$
。对于演员,它的目标函数如下:
\parinterval
对于基于演员-评论家的
强化
学习方法,演员就是策略
$
\funp
{
p
}$
,而评论家就是动作价值函数
$
\funp
{
Q
}$
的估计
$
\hat
{
\funp
{
Q
}}$
。对于演员,它的目标函数如下:
\begin{eqnarray}
\max
_{
\funp
{
p
}}
\mathbb
{
E
}_{
\hat
{
\mathbi
{
y
}}
\sim
\funp
{
p
}
(
\hat
{
\mathbi
{
y
}}
|
\mathbi
{
x
}
)
}
\sum
_{
t=1
}^
T
\sum
_{
\textrm
{
a
}
\in
\textrm
{
A
}}
\funp
{
p
}
(
\textrm
{
a
}
|
\hat
{
\mathbi
{
y
}}_{
1
\ldots
t
}
,
\mathbi
{
x
}
)
\hat
{
\funp
{
Q
}}
(
\textrm
{
a
}
;
\hat
{
\mathbi
{
y
}}_{
1
\ldots
t
}
,
\widetilde
{
\mathbi
{
y
}}
)
\label
{
eq:13-16
}
\end{eqnarray}
\parinterval
与公式
\eqref
{
eq:13-15
}
相比可以发现,基于演员-评论家的
增强学习方法与基于策略的增强
学习方法类似,公式
\eqref
{
eq:13-16
}
对动作价值函数
$
\funp
{
Q
}$
的估计从采样换成了
$
\hat
{
\funp
{
Q
}}$
。对于目标函数里的期望,我们通常使用采样来进行逼近。借助与最小风险训练类似的方法,我们可以计算对
$
\funp
{
p
}$
的梯度来进行优化。
\parinterval
与公式
\eqref
{
eq:13-15
}
相比可以发现,基于演员-评论家的
强化学习方法与基于策略的强化
学习方法类似,公式
\eqref
{
eq:13-16
}
对动作价值函数
$
\funp
{
Q
}$
的估计从采样换成了
$
\hat
{
\funp
{
Q
}}$
。对于目标函数里的期望,我们通常使用采样来进行逼近。借助与最小风险训练类似的方法,我们可以计算对
$
\funp
{
p
}$
的梯度来进行优化。
\parinterval
而对于评论家,它的优化目标则不是那么显而易见。尽管根据定义我们可以通过采样来估计
$
\funp
{
Q
}$
,然后使用该估计作为目标让
$
\hat
{
\funp
{
Q
}}$
进行拟合,但是这样会导致非常高的(采样)代价,同时可以想象,既然有了一个无偏估计,为什么还要用有偏估计
$
\hat
{
\funp
{
Q
}}$
呢?
...
...
@@ -647,12 +648,12 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=& \frac{1}{N}\sum_{(\mathbi{x},\
\begin{figure}
[htp]
\centering
\includegraphics
[scale=0.4]
{
./Chapter13/Figures/figure-reinforcement-learning-method-based-on-actor-critic.png
}
\caption
{
基于演员-评论家的
增强
学习方法
}
\caption
{
基于演员-评论家的
强化
学习方法
}
\label
{
fig:13-25
}
\end{figure}
%----------------------------------------------
\parinterval
实际使用基于演员-评论家的
增强
学习方法还有许多细节,包括但不限于以下技巧:
\parinterval
实际使用基于演员-评论家的
强化
学习方法还有许多细节,包括但不限于以下技巧:
\begin{itemize}
\vspace
{
0.5em
}
...
...
@@ -660,9 +661,9 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=& \frac{1}{N}\sum_{(\mathbi{x},\
\vspace
{
0.5em
}
\item
目标网络:评论家的优化目标是由自身输出所构造。当模型更新比较快的时候模型的输出变化也会很快,导致构造的优化目标不稳定,影响模型收敛。一个解决方案是在一定更新次数内固定构造优化目标使用的模型,然后再使用比较新的模型来构造后续一定更新次数内的优化目标,如此往复
\upcite
{
DBLP:journals/nature/SilverHMGSDSAPL16
}
。
\vspace
{
0.5em
}
\item
方差惩罚:在机器翻译里面使用
增强
学习方法一个问题就是动作空间,也就是词表非常大。因为模型只根据被采样到的结果来进行更新,很多动作很难得到更新,因此对不同动作的动作价值函数估计值会有很大差异。通常我们会引入一个正则项
$
C
_
t
=
\sum
_{
\textrm
{
a
}
\in
\textrm
{
A
}}{
(
\hat
{
\funp
{
Q
}}
(
\textrm
{
a
}
;
\hat
{
\mathbi
{
y
}}_{
1
\ldots
t
}
,
\widetilde
{
\mathbi
{
y
}}
)
-
\frac
{
1
}{
|
\textrm
{
A
}
|
}
\sum
_{
\textrm
{
b
}
\in
\textrm
{
A
}}
\hat
{
\funp
{
Q
}}
(
\textrm
{
b
}
;
\hat
{
\mathbi
{
y
}}_{
1
\ldots
t
}
,
\widetilde
{
\mathbi
{
y
}}
))
}^
2
$
来约束不同动作的动作函数估计值,使其不会偏离他们的均值太远
\upcite
{
DBLP:conf/icml/ZarembaMJF16
}
。
\item
方差惩罚:在机器翻译里面使用
强化
学习方法一个问题就是动作空间,也就是词表非常大。因为模型只根据被采样到的结果来进行更新,很多动作很难得到更新,因此对不同动作的动作价值函数估计值会有很大差异。通常我们会引入一个正则项
$
C
_
t
=
\sum
_{
\textrm
{
a
}
\in
\textrm
{
A
}}{
(
\hat
{
\funp
{
Q
}}
(
\textrm
{
a
}
;
\hat
{
\mathbi
{
y
}}_{
1
\ldots
t
}
,
\widetilde
{
\mathbi
{
y
}}
)
-
\frac
{
1
}{
|
\textrm
{
A
}
|
}
\sum
_{
\textrm
{
b
}
\in
\textrm
{
A
}}
\hat
{
\funp
{
Q
}}
(
\textrm
{
b
}
;
\hat
{
\mathbi
{
y
}}_{
1
\ldots
t
}
,
\widetilde
{
\mathbi
{
y
}}
))
}^
2
$
来约束不同动作的动作函数估计值,使其不会偏离他们的均值太远
\upcite
{
DBLP:conf/icml/ZarembaMJF16
}
。
\vspace
{
0.5em
}
\item
函数塑形:在机器翻译里面使用
增强
学习方法另一个问题就是奖励的稀疏性。评价指标如BLEU等只能对完整的句子进行打分,这意味着奖励只有在句子结尾有值,而在句子中间只能为0。这种情况意味着模型在生成句子的过程中没有任何信号来指导它的行为,从而大大增加了学习难度。常见的解决方案是进行函数塑形,使得奖励在生成句子的过程中变得稠密,同时也不会改变模型的最优解
\upcite
{
DBLP:conf/icml/NgHR99
}
。
\item
函数塑形:在机器翻译里面使用
强化
学习方法另一个问题就是奖励的稀疏性。评价指标如BLEU等只能对完整的句子进行打分,这意味着奖励只有在句子结尾有值,而在句子中间只能为0。这种情况意味着模型在生成句子的过程中没有任何信号来指导它的行为,从而大大增加了学习难度。常见的解决方案是进行函数塑形,使得奖励在生成句子的过程中变得稠密,同时也不会改变模型的最优解
\upcite
{
DBLP:conf/icml/NgHR99
}
。
\vspace
{
0.5em
}
\end{itemize}
...
...
@@ -877,8 +878,9 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
%----------------------------------------------------------------------------------------
\subsection
{
课程学习
}
\label
{
sec:curriculum-learning
}
\parinterval
{
\small\bfnew
{
课程学习
}}
\index
{
课程学习
}
(Curriculum Learning
\index
{
Curriculum Learning
}
)的基本思想是:先学习简单的、普适性的知识,然后逐渐增加难度,学习更复杂、更专业化的知识。在统计模型训练中,这体现在让模型按照由“易”到”难“ 的顺序对样本进行学习
\upcite
{
DBLP:conf/icml/BengioLCW09
}
,这本质上是一种样本使用策略。以神经机器翻译翻译使用的随机梯度下降为例,在传统的方法中,所有训练样本都是随机呈现给模型的,换句话说,就是让模型来平等地对待所有的训练样本,这忽略了数据样本的各种复杂性和当前模型的学习状态。所以模拟人类由易到难的学习过程就是一种很自然的想法,这样做的好处在于:
\parinterval
课程学习(Curriculum Learning
)的基本思想是:先学习简单的、普适性的知识,然后逐渐增加难度,学习更复杂、更专业化的知识。在统计模型训练中,这体现在让模型按照由“易”到”难“ 的顺序对样本进行学习
\upcite
{
DBLP:conf/icml/BengioLCW09
}
,这本质上是一种样本使用策略。以神经机器翻译翻译使用的随机梯度下降为例,在传统的方法中,所有训练样本都是随机呈现给模型的,换句话说,就是让模型来平等地对待所有的训练样本,这忽略了数据样本的各种复杂性和当前模型的学习状态。所以模拟人类由易到难的学习过程就是一种很自然的想法,这样做的好处在于:
\begin{itemize}
\vspace
{
0.5em
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论