Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
537ffd08
Commit
537ffd08
authored
Dec 30, 2020
by
孟霞
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'mengxia' 到 'caorunzhe'
Mengxia 查看合并请求
!750
parents
1f13090f
aa364d45
隐藏空白字符变更
内嵌
并排
正在显示
4 个修改的文件
包含
5 行增加
和
5 行删除
+5
-5
Chapter14/chapter14.tex
+2
-2
Chapter17/chapter17.tex
+1
-1
Chapter4/chapter4.tex
+1
-1
Chapter9/chapter9.tex
+1
-1
没有找到文件。
Chapter14/chapter14.tex
查看文件 @
537ffd08
...
...
@@ -257,7 +257,7 @@ b &=& \omega_{\textrm{high}}\cdot |\seq{x}| \label{eq:14-4}
\end{figure}
%----------------------------------------------------------------------
\parinterval
一种解决问题的思路是从训练和推断的行为和目标不一致的角度切入。比如,为了解决
{
\small\sffamily\bfseries
{
曝光偏置
}}
\index
{
曝光偏置
}
(Exposure Bias)
\index
{
Exposure Bias
}
问题
\upcite
{
Ranzato2016SequenceLT
}
,可以让系统使用前面步骤的预测结果作为预测下一个词所需要的历史信息,而不是依赖于标准答案
\upcite
{
Bengio2015ScheduledSF,Zhang2019BridgingTG
}
。此外,为了解决训练和推断目标不一致的问题,可以在训练的时候模拟推断的行为,同时让模型训练的目标与评价系统的标准尽可能一致
\upcite
{
DBLP:conf/acl/ShenCHHWSL16
}
。
\parinterval
一种解决问题的思路是从训练和推断的行为和目标不一致的角度切入。比如,为了解决
曝光偏置
问题
\upcite
{
Ranzato2016SequenceLT
}
,可以让系统使用前面步骤的预测结果作为预测下一个词所需要的历史信息,而不是依赖于标准答案
\upcite
{
Bengio2015ScheduledSF,Zhang2019BridgingTG
}
。此外,为了解决训练和推断目标不一致的问题,可以在训练的时候模拟推断的行为,同时让模型训练的目标与评价系统的标准尽可能一致
\upcite
{
DBLP:conf/acl/ShenCHHWSL16
}
。
\parinterval
需要注意的是,前面提到的搜索束变大造成的翻译品质下降的问题还有其它解决方法。比如,可以通过对结果重排序来缓解这个问题
\upcite
{
DBLP:conf/emnlp/Yang0M18
}
,也可以通过设计更好的覆盖度模型来生成长度更加合理的译文
\upcite
{
li-etal-2018-simple
}
。从这个角度说,上述问题的成因也较为复杂,因此需要同时考虑模型错误和搜索错误。
...
...
@@ -541,7 +541,7 @@ b &=& \omega_{\textrm{high}}\cdot |\seq{x}| \label{eq:14-4}
\end{figure}
%----------------------------------------------
\parinterval
还有一种做法引入了轻量级的自回归
{
\small\sffamily\bfseries
{
调序
}}
\index
{
调序
}
(Reordering
\index
{
Reordering
}
)
模块
\upcite
{
Ran2019GuidingNN
}
。为了解决非自回归模型解码搜索空间过大的问题,可以使用调序技术在相对较少的翻译候选上进行自回归模型的计算。如图
\ref
{
fig:14-22
}
所示,该方法对源语言句子进行重新排列转换成由源语言单词组成但位于目标语言结构中的伪译文,然后将伪译文进一步转换成目标语言以获得最终的翻译。其中,这个调序模块可以是一个轻量自回归模型,例如,一层的循环神经网络。
\parinterval
还有一种做法引入了轻量级的自回归
调序
模块
\upcite
{
Ran2019GuidingNN
}
。为了解决非自回归模型解码搜索空间过大的问题,可以使用调序技术在相对较少的翻译候选上进行自回归模型的计算。如图
\ref
{
fig:14-22
}
所示,该方法对源语言句子进行重新排列转换成由源语言单词组成但位于目标语言结构中的伪译文,然后将伪译文进一步转换成目标语言以获得最终的翻译。其中,这个调序模块可以是一个轻量自回归模型,例如,一层的循环神经网络。
%----------------------------------------------------------------------
\begin{figure}
[htp]
...
...
Chapter17/chapter17.tex
查看文件 @
537ffd08
...
...
@@ -472,7 +472,7 @@
\subsection
{
什么是篇章级翻译
}
\parinterval
“篇章”在这里指一系列连续的段落或句子所构成的整体,其中各个句子间从形式和内容上都具有一定的连贯性和一致性
\upcite
{
jurafsky2000speech
}
。这些联系主要体现在
{
\small\sffamily\bfseries
{
衔接
}}
\index
{
衔接
}
(Cohesion
\index
{
Cohesion
}
)以及
{
\small\sffamily\bfseries
{
连贯
}}
\index
{
连贯
}
(Coherence
\index
{
Coherence
}
)
两个方面。其中衔接体现在显性的语言成分和结构上,包括篇章中句子间的语法和词汇的联系,而连贯体现在各个句子之间的逻辑和语义的联系上。因此,篇章级翻译的目的就是要将这些上下文之间的联系考虑在内,从而生成比句子级翻译更连贯和准确的翻译结果(如实例
\ref
{
eg:17-1
}
)。但是由于不同语言的特性多种多样,上下文信息在篇章级翻译中的作用也不尽相同。比如在德语中名词是分词性的,因此在代词翻译的过程中需要根据其先行词的词性进行区分,而这种现象在其它不区分词性的语言中是不存在的。这意味着篇章级翻译在不同的语种中可能对应多种不同的上下文现象。
\parinterval
“篇章”在这里指一系列连续的段落或句子所构成的整体,其中各个句子间从形式和内容上都具有一定的连贯性和一致性
\upcite
{
jurafsky2000speech
}
。这些联系主要体现在
{
\small\sffamily\bfseries
{
衔接
}}
\index
{
衔接
}
(Cohesion
\index
{
Cohesion
}
)以及
连贯
两个方面。其中衔接体现在显性的语言成分和结构上,包括篇章中句子间的语法和词汇的联系,而连贯体现在各个句子之间的逻辑和语义的联系上。因此,篇章级翻译的目的就是要将这些上下文之间的联系考虑在内,从而生成比句子级翻译更连贯和准确的翻译结果(如实例
\ref
{
eg:17-1
}
)。但是由于不同语言的特性多种多样,上下文信息在篇章级翻译中的作用也不尽相同。比如在德语中名词是分词性的,因此在代词翻译的过程中需要根据其先行词的词性进行区分,而这种现象在其它不区分词性的语言中是不存在的。这意味着篇章级翻译在不同的语种中可能对应多种不同的上下文现象。
\begin{example}
上下文句子:我上周针对这个问题做出解释并咨询了他的意见。
...
...
Chapter4/chapter4.tex
查看文件 @
537ffd08
...
...
@@ -519,7 +519,7 @@ His house is on the south bank of the river.
\parinterval
{
\small\bfnew
{
词嵌入
}}
\index
{
词嵌入
}
(Word Embedding
\index
{
Word Embedding
}
)技术是近些年自然语言处理中的重要成果,其思想是把每个单词映射为多维实数空间中的一个点(具体表现为一个实数向量),这种技术也被称作单词的
{
\small\bfnew
{
分布式表示
}}
\index
{
分布式表示
}
(Distributed Representation
\index
{
Distributed Representation
}
)。在这项技术中,单词之间的关系可以通过空间的几何性质进行刻画,意义相近的单词之间的欧式距离也十分相近(单词分布式表示的具体内容,将在书的
{
\chapternine
}
详细介绍,在此不再赘述)。
\parinterval
受词嵌入技术的启发,研究人员尝试借助参考答案和机器译文的分布式表示来进行译文质量评价,为译文质量评价提供了新思路。在自然语言的上下文中,表示是与每个单词、句子或文档相关联的数学对象。这个对象通常是一个向量,其中每个元素的值在某种程度上描述了相关单词、句子或文档的语义或句法属性。基于这个想法,研究人员提出了
{
\small\sffamily\bfseries
{
分布式表示评价度量
}}
\index
{
分布式表示评价度量
}
(Distributed Representations Evaluation Metrics,DREEM)
\index
{
D
istributed Representations Evaluation Metrics
}
\upcite
{
DBLP:conf/acl/ChenG15
}
。这种方法将单词或句子的分布式表示映射到连续的低维空间,发现在该空间中,具有相似句法和语义属性的单词彼此接近,类似的结论也出现在相关工作中,如参考文献
\cite
{
bengio2003a,DBLP:conf/emnlp/SocherPHNM11,DBLP:conf/emnlp/SocherPWCMNP13
}
所示。而这个特点可以被应用到译文质量评估中。
\parinterval
受词嵌入技术的启发,研究人员尝试借助参考答案和机器译文的分布式表示来进行译文质量评价,为译文质量评价提供了新思路。在自然语言的上下文中,表示是与每个单词、句子或文档相关联的数学对象。这个对象通常是一个向量,其中每个元素的值在某种程度上描述了相关单词、句子或文档的语义或句法属性。基于这个想法,研究人员提出了
{
\small\sffamily\bfseries
{
分布式表示评价度量
}}
\index
{
分布式表示评价度量
}
(Distributed Representations Evaluation Metrics,DREEM)
\index
{
D
REEM
}
\upcite
{
DBLP:conf/acl/ChenG15
}
。这种方法将单词或句子的分布式表示映射到连续的低维空间,发现在该空间中,具有相似句法和语义属性的单词彼此接近,类似的结论也出现在相关工作中,如参考文献
\cite
{
bengio2003a,DBLP:conf/emnlp/SocherPHNM11,DBLP:conf/emnlp/SocherPWCMNP13
}
所示。而这个特点可以被应用到译文质量评估中。
\parinterval
在DREEM中,分布式表示的选取是一个十分关键的问题,理想的情况下,分布式表示应该涵盖句子在词汇、句法、语法、语义、依存关系等各个方面的信息。目前常见的分布式表示方式如表
\ref
{
tab:4-2
}
所示。除此之外,还可以通过词袋模型、循环神经网络等将词向量表示转换为句子向量表示。
...
...
Chapter9/chapter9.tex
查看文件 @
537ffd08
...
...
@@ -1884,7 +1884,7 @@ z_t&=&\gamma z_{t-1}+(1-\gamma) \frac{\partial J}{\partial {\theta}_t} \cdot \f
\subsubsection
{
1. 模型结构
}
\parinterval
最具代表性的神经语言模型是
{
\small\sffamily\bfseries
{
前馈神经网络语言模型
}}
\index
{
前馈神经网络语言模型
}
(Feed-forward Neural Network Language Model
\index
{
Feed-forward Neural Network Language Model
}
,简称FNNLM
)。这种语言模型的目标是用神经网络计算
$
\funp
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
\dots
w
_{
m
-
1
}
)
$
,之后将多个
$
n
$
-gram的概率相乘得到整个序列的概率
\upcite
{
bengio2003a
}
。
\parinterval
最具代表性的神经语言模型是
{
\small\sffamily\bfseries
{
前馈神经网络语言模型
}}
\index
{
前馈神经网络语言模型
}
(Feed-forward Neural Network Language Model
,FNNLM
\index
{
FNNLM
}
)。这种语言模型的目标是用神经网络计算
$
\funp
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
\dots
w
_{
m
-
1
}
)
$
,之后将多个
$
n
$
-gram的概率相乘得到整个序列的概率
\upcite
{
bengio2003a
}
。
%----------------------------------------------
\begin{figure}
[htp]
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论