Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
0813de14
Commit
0813de14
authored
Jan 10, 2021
by
单韦乔
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'shanweiqiao' 到 'caorunzhe'
13章文字 查看合并请求
!855
parents
7b8b775a
577ca849
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
3 行增加
和
3 行删除
+3
-3
Chapter13/chapter13.tex
+3
-3
没有找到文件。
Chapter13/chapter13.tex
查看文件 @
0813de14
...
...
@@ -224,7 +224,7 @@ y &=& f(x)
\subsection
{
L1/L2正则化
}
\parinterval
L1/L2正则化是常用的正则化方法,虽然这种方法并不仅针对机器翻译模型。L1/L2正则化分别对应正则项是L1和L2范数的情况。具体来说,L1正则化是指
{
\red
sum下标是不是不对啊?l2也是
}
\parinterval
L1/L2正则化是常用的正则化方法,虽然这种方法并不仅针对机器翻译模型。L1/L2正则化分别对应正则项是L1和L2范数的情况。具体来说,L1正则化是指
:
\begin{eqnarray}
R(
\mathbi
{
w
}
)
&
=
&
{
\Vert
{
\mathbi
{
w
}}
\Vert
}_
1
\\
&
=
&
\sum
_{
w
_
i
}
|w
_
i|
\nonumber
...
...
@@ -557,9 +557,9 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=& \frac{1}{N}\sum_{(\mathbi{x},\
\label
{
eq:13-15
}
\end{eqnarray}
\noindent
公式
\eqref
{
eq:13-15
}
使用了
{
\small\bfnew
{
策略梯度
}}
\index
{
策略梯度
}
(Policy Gradient
\index
{
Policy Gradient
}
)的手段将
$
\vartriangle
(
\hat
{
\seq
{
y
}}
,
\seq
{
y
}^{
[
k
]
}
)
$
提到微分操作之外
\upcite
{
DBLP:conf/nips/Kakade01,DBLP:journals/corr/abs-1810-02525
}
。这样,就无需对
$
\vartriangle
(
\hat
{
\seq
{
y
}}
,
\seq
{
y
}^{
[
k
]
}
)
$
进行微分,因此最小风险训练允许任意不可微的损失函数,包括BLEU等常用的评价函数。使用公式
\eqref
{
eq:13-15
}
就可以求出模型参数相对于风险函数的损失,进而进行基于梯度的优化。这里需要注意的是,公式
\eqref
{
eq:13-15
}
中求期望的过程是无法直接实现的,因为无法遍历所有的译文句子。通常,会使用采样的方法搜集一定数量的译文,来模拟译文空间。例如,可以使用推断系统生成若干译文。同时,为了保证生成的译文之间具有一定的差异性,也可以对推断过程进行一些“干扰”。从实践的角度看,采样方法是影响强化学习系统的重要因素,因此往往需要对不同的任务设计相适应的采样方法。
对于翻译模型来说,随机采样句子的方法有很多。最简单的方法就是在产生译文的每一个词时候,根据模型产生的下一词分布随机选取词当作模型预测,直到选到句子结束符或者达到特定长度的时候停止
\upcite
{
DBLP:conf/emnlp/EdunovOAG18
}
。其他方法还包括随机束搜索,它把束搜索中选取top-
$
k
$
的操作替换成随机选取
$
k
$
个词。这个方法不会采集到重复的样本;基于Gumbel-Top-
$
k
$
的随机束搜索在普通的随机束搜索基础上更好地控制样本里的噪声
\upcite
{
DBLP:conf/icml/KoolHW19
}
。
\noindent
公式
\eqref
{
eq:13-15
}
使用了
{
\small\bfnew
{
策略梯度
}}
\index
{
策略梯度
}
(Policy Gradient
\index
{
Policy Gradient
}
)的手段将
$
\vartriangle
(
\hat
{
\seq
{
y
}}
,
\seq
{
y
}^{
[
k
]
}
)
$
提到微分操作之外
\upcite
{
DBLP:conf/nips/Kakade01,DBLP:journals/corr/abs-1810-02525
}
。这样,就无需对
$
\vartriangle
(
\hat
{
\seq
{
y
}}
,
\seq
{
y
}^{
[
k
]
}
)
$
进行微分,因此最小风险训练允许任意不可微的损失函数,包括BLEU等常用的评价函数。使用公式
\eqref
{
eq:13-15
}
就可以求出模型参数相对于风险函数的损失,进而进行基于梯度的优化。这里需要注意的是,公式
\eqref
{
eq:13-15
}
中求期望的过程是无法直接实现的,因为无法遍历所有的译文句子。通常,会使用采样的方法搜集一定数量的译文,来模拟译文空间。例如,可以使用推断系统生成若干译文。同时,为了保证生成的译文之间具有一定的差异性,也可以对推断过程进行一些“干扰”。从实践的角度看,采样方法是影响强化学习系统的重要因素,因此往往需要对不同的任务设计相适应的采样方法。
{
\red
实际上,对于翻译模型来说,随机采样句子的方法有很多。最简单的方法就是在产生译文的每一个词时候,根据模型产生的下一个词的分布随机选取词当作模型预测,直到选到句子结束符或者达到特定长度的时候停止
\upcite
{
DBLP:conf/emnlp/EdunovOAG18
}
。其他方法还包括随机束搜索,它把束搜索中选取top-
$
k
$
的操作替换成随机选取
$
k
$
个词。这个方法不会采集到重复的样本;基于Gumbel-Top-
$
k
$
的随机束搜索在普通的随机束搜索的基础上更好地控制了样本里的噪声
\upcite
{
DBLP:conf/icml/KoolHW19
}
。(新增内容)
}
\parinterval
实际上,
相比于最大似然估计,最小风险训练有着以下优点:
\parinterval
相比于最大似然估计,最小风险训练有着以下优点:
\begin{itemize}
\vspace
{
0.5em
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论