Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
ee4ca913
Commit
ee4ca913
authored
Jan 22, 2021
by
单韦乔
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
13章文字
parent
a8b8d3f1
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
2 行增加
和
2 行删除
+2
-2
Chapter13/chapter13.tex
+2
-2
没有找到文件。
Chapter13/chapter13.tex
查看文件 @
ee4ca913
...
@@ -72,7 +72,7 @@
...
@@ -72,7 +72,7 @@
\parinterval
一种解决开放词表翻译问题的思路是改造输出层结构
\upcite
{
garcia-martinez2016factored,DBLP:conf/acl/JeanCMB15
}
,比如,替换原始的Softmax层,用更加高效的神经网络结构进行超大规模词表上的预测。不过,模型结构和训练方法的调整使得系统开发与调试的工作量增加,并且这类方法仍然无法解决未登录词问题,因此在实用系统中并不常用。
\parinterval
一种解决开放词表翻译问题的思路是改造输出层结构
\upcite
{
garcia-martinez2016factored,DBLP:conf/acl/JeanCMB15
}
,比如,替换原始的Softmax层,用更加高效的神经网络结构进行超大规模词表上的预测。不过,模型结构和训练方法的调整使得系统开发与调试的工作量增加,并且这类方法仍然无法解决未登录词问题,因此在实用系统中并不常用。
\parinterval
另一种思路是不改变机器翻译系统,而是从数据处理的角度来缓解未登录词问题。既然使用单词会带来数据稀疏问题,那么自然会想到使用更小的单元
,
通过更小的单元的多种排列组合来表示更多的单词。比如,把字符作为最小的翻译单元
\footnote
{
汉语里的字符可以被看作是汉字。
}
\ \dash
\
也就是基于字符的翻译模型
\upcite
{
DBLP:journals/tacl/LeeCH17
}
。以英语为例,只需要构造一个包含26个英语字母、数字和一些特殊符号的字符表,便可以表示所有的单词。
\parinterval
另一种思路是不改变机器翻译系统,而是从数据处理的角度来缓解未登录词问题。既然使用单词会带来数据稀疏问题,那么自然会想到使用更小的单元
,
通过更小的单元的多种排列组合来表示更多的单词。比如,把字符作为最小的翻译单元
\footnote
{
汉语里的字符可以被看作是汉字。
}
\ \dash
\
也就是基于字符的翻译模型
\upcite
{
DBLP:journals/tacl/LeeCH17
}
。以英语为例,只需要构造一个包含26个英语字母、数字和一些特殊符号的字符表,便可以表示所有的单词。
\parinterval
但是字符级翻译也面临着新的问题
\ \dash\
使用字符增加了系统捕捉不同语言单元之间搭配的难度。假设平均一个单词由5个字符组成,系统所处理的序列长度便增大5倍。这使得具有独立意义的不同语言单元需要跨越更远的距离才能产生联系。此外,基于字符的方法也破坏了单词中天然存在的构词规律,或者说破坏了单词内字符的局部依赖。比如,英语单词“telephone”中的“tele”和“phone”都是有具体意义的词缀,但是如果把它们打散为字符就失去了这些含义。
\parinterval
但是字符级翻译也面临着新的问题
\ \dash\
使用字符增加了系统捕捉不同语言单元之间搭配的难度。假设平均一个单词由5个字符组成,系统所处理的序列长度便增大5倍。这使得具有独立意义的不同语言单元需要跨越更远的距离才能产生联系。此外,基于字符的方法也破坏了单词中天然存在的构词规律,或者说破坏了单词内字符的局部依赖。比如,英语单词“telephone”中的“tele”和“phone”都是有具体意义的词缀,但是如果把它们打散为字符就失去了这些含义。
...
@@ -631,7 +631,7 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=& \frac{1}{N}\sum_{(\mathbi{x},\
...
@@ -631,7 +631,7 @@ Loss_{\textrm{robust}}(\theta_{\textrm{mt}}) &=& \frac{1}{N}\sum_{(\mathbi{x},\
\begin{itemize}
\begin{itemize}
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
{
\small\bfnew
{
多目标学习
}}
。演员的优化通常会引入额外的极大似然估计目标函数,同时会使用极大似然估计进行预训练。这样会简化训练,因为随机初始化的演员性能很差,很难获得有效的奖励。同时极大似然估计也
被可以
当作一种先验知识,通过正则项的形式约束机器翻译模型的学习,防止模型陷入很差的局部最优,并加速模型收敛。
\item
{
\small\bfnew
{
多目标学习
}}
。演员的优化通常会引入额外的极大似然估计目标函数,同时会使用极大似然估计进行预训练。这样会简化训练,因为随机初始化的演员性能很差,很难获得有效的奖励。同时极大似然估计也
可以被
当作一种先验知识,通过正则项的形式约束机器翻译模型的学习,防止模型陷入很差的局部最优,并加速模型收敛。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
{
\small\bfnew
{
优化目标
}}
。评论家的优化目标是由自身输出所构造的。当模型更新比较快的时候模型的输出变化也会很快,导致构造的优化目标不稳定,影响模型收敛效果。一个解决方案是,在一定更新次数内固定构造优化目标使用的模型,然后再使用比较新的模型来构造后续一定更新次数内的优化目标,如此往复
\upcite
{
DBLP:journals/nature/SilverHMGSDSAPL16
}
。
\item
{
\small\bfnew
{
优化目标
}}
。评论家的优化目标是由自身输出所构造的。当模型更新比较快的时候模型的输出变化也会很快,导致构造的优化目标不稳定,影响模型收敛效果。一个解决方案是,在一定更新次数内固定构造优化目标使用的模型,然后再使用比较新的模型来构造后续一定更新次数内的优化目标,如此往复
\upcite
{
DBLP:journals/nature/SilverHMGSDSAPL16
}
。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论