Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
026ef639
Commit
026ef639
authored
Jan 10, 2021
by
单韦乔
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'shanweiqiao' 到 'caorunzhe'
13章采样 查看合并请求
!853
parents
45473557
73a13672
隐藏空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
14 行增加
和
2 行删除
+14
-2
Chapter13/chapter13.tex
+2
-2
bibliography.bib
+12
-0
没有找到文件。
Chapter13/chapter13.tex
查看文件 @
026ef639
...
...
@@ -557,9 +557,9 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=& \frac{1}{N}\sum_{(\mathbi{x},\
\label
{
eq:13-15
}
\end{eqnarray}
\noindent
公式
\eqref
{
eq:13-15
}
使用了
{
\small\bfnew
{
策略梯度
}}
\index
{
策略梯度
}
(Policy Gradient
\index
{
Policy Gradient
}
)的手段将
$
\vartriangle
(
\hat
{
\seq
{
y
}}
,
\seq
{
y
}^{
[
k
]
}
)
$
提到微分操作之外
\upcite
{
DBLP:conf/nips/Kakade01,DBLP:journals/corr/abs-1810-02525
}
。这样,就无需对
$
\vartriangle
(
\hat
{
\seq
{
y
}}
,
\seq
{
y
}^{
[
k
]
}
)
$
进行微分,因此最小风险训练允许任意不可微的损失函数,包括BLEU等常用的评价函数。使用公式
\eqref
{
eq:13-15
}
就可以求出模型参数相对于风险函数的损失,进而进行基于梯度的优化。这里需要注意的是,公式
\eqref
{
eq:13-15
}
中求期望的过程是无法直接实现的,因为无法遍历所有的译文句子。通常,会使用采样的方法搜集一定数量的译文,来模拟译文空间。例如,可以使用推断系统生成若干译文。同时,为了保证生成的译文之间具有一定的差异性,也可以对推断过程进行一些“干扰”。从实践的角度看,采样方法是影响强化学习系统的重要因素,因此往往需要对不同的任务设计相适应的采样方法
(
{
\color
{
red
}
参考文献!我记得李炎洋以前写过一个文章介绍采样方法,可以问问他,或者在这里再多说两句,采样还是很重要的。
}
)
。
\noindent
公式
\eqref
{
eq:13-15
}
使用了
{
\small\bfnew
{
策略梯度
}}
\index
{
策略梯度
}
(Policy Gradient
\index
{
Policy Gradient
}
)的手段将
$
\vartriangle
(
\hat
{
\seq
{
y
}}
,
\seq
{
y
}^{
[
k
]
}
)
$
提到微分操作之外
\upcite
{
DBLP:conf/nips/Kakade01,DBLP:journals/corr/abs-1810-02525
}
。这样,就无需对
$
\vartriangle
(
\hat
{
\seq
{
y
}}
,
\seq
{
y
}^{
[
k
]
}
)
$
进行微分,因此最小风险训练允许任意不可微的损失函数,包括BLEU等常用的评价函数。使用公式
\eqref
{
eq:13-15
}
就可以求出模型参数相对于风险函数的损失,进而进行基于梯度的优化。这里需要注意的是,公式
\eqref
{
eq:13-15
}
中求期望的过程是无法直接实现的,因为无法遍历所有的译文句子。通常,会使用采样的方法搜集一定数量的译文,来模拟译文空间。例如,可以使用推断系统生成若干译文。同时,为了保证生成的译文之间具有一定的差异性,也可以对推断过程进行一些“干扰”。从实践的角度看,采样方法是影响强化学习系统的重要因素,因此往往需要对不同的任务设计相适应的采样方法
。对于翻译模型来说,随机采样句子的方法有很多。最简单的方法就是在产生译文的每一个词时候,根据模型产生的下一词分布随机选取词当作模型预测,直到选到句子结束符或者达到特定长度的时候停止
\upcite
{
DBLP:conf/emnlp/EdunovOAG18
}
。其他方法还包括随机束搜索,它把束搜索中选取top-
$
k
$
的操作替换成随机选取
$
k
$
个词。这个方法不会采集到重复的样本;基于Gumbel-Top-
$
k
$
的随机束搜索在普通的随机束搜索基础上更好地控制样本里的噪声
\upcite
{
DBLP:conf/icml/KoolHW19
}
。
\parinterval
相比于最大似然估计,最小风险训练有着以下优点:
\parinterval
实际上,
相比于最大似然估计,最小风险训练有着以下优点:
\begin{itemize}
\vspace
{
0.5em
}
...
...
bibliography.bib
查看文件 @
026ef639
...
...
@@ -9261,6 +9261,18 @@ author = {Zhuang Liu and
publisher = {Advances in Neural Information Processing Systems},
year = {2001}
}
@inproceedings{DBLP:conf/icml/KoolHW19,
author = {Wouter Kool and
Herke van Hoof and
Max Welling},
title = {Stochastic Beams and Where To Find Them: The Gumbel-Top-k Trick for
Sampling Sequences Without Replacement},
series = {Proceedings of Machine Learning Research},
volume = {97},
pages = {3499--3508},
publisher = {International Conference on Machine Learning},
year = {2019}
}
%%%%% chapter 15------------------------------------------------------
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论