Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
669289a3
Commit
669289a3
authored
Feb 03, 2021
by
孟霞
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'mengxia' 到 'caorunzhe'
Mengxia 查看合并请求
!1011
parents
b58d25e6
928d470e
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
4 行增加
和
4 行删除
+4
-4
Chapter17/chapter17.tex
+4
-4
没有找到文件。
Chapter17/chapter17.tex
查看文件 @
669289a3
...
@@ -453,7 +453,7 @@
...
@@ -453,7 +453,7 @@
\parinterval
正是这种上下文现象的多样性,使评价篇章级翻译模型的性能变得相对困难。目前篇章级机器翻译主要针对一些常见的上下文现象进行优化,比如代词翻译、省略、连接和词汇衔接等,而
{
\chapterfour
}
介绍的BLEU等通用自动评价指标通常对这些上下文依赖现象不敏感,因此篇章级翻译需要采用一些专用方法来对这些具体现象进行评价。
\parinterval
正是这种上下文现象的多样性,使评价篇章级翻译模型的性能变得相对困难。目前篇章级机器翻译主要针对一些常见的上下文现象进行优化,比如代词翻译、省略、连接和词汇衔接等,而
{
\chapterfour
}
介绍的BLEU等通用自动评价指标通常对这些上下文依赖现象不敏感,因此篇章级翻译需要采用一些专用方法来对这些具体现象进行评价。
\parinterval
在统计机器翻译时代就已经有大量的研究工作专注于篇章信息的建模,这些工作大多针对某一具体的上下文现象,比如,篇章结构
\upcite
{
DBLP:conf/anlp/MarcuCW00,foster2010translating,DBLP:conf/eacl/LouisW14
}
、代词回指
\upcite
{
DBLP:conf/iwslt/HardmeierF10,DBLP:conf/wmt/NagardK10,DBLP:conf/eamt/LuongP16,
}
、词汇衔接
\upcite
{
tiedemann2010context,DBLP:conf/emnlp/GongZZ11,DBLP:conf/ijcai/XiongBZLL13,xiao2011document
}
和篇章连接词
\upcite
{
DBLP:conf/sigdial/MeyerPZC11,DBLP:conf/hytra/MeyerP12,
}
等。区别于篇章级统计机器翻译,篇章级神经机器翻译不需要针对某一具体的上下文现象构造相应的特征,而是通过翻译模型
本身从上下文句子中抽取和融合的
上下文信息。通常情况下,篇章级机器翻译可以采用局部建模的手段将前一句或者周围几句作为上下文送入模型。针对需要长距离上下文的情况,也可以使用全局建模的手段直接从篇章的所有句子中提取上下文信息。近几年多数研究工作都在探索更有效的局部建模或全局建模方法,主要包括改进输入
\upcite
{
DBLP:conf/discomt/TiedemannS17,DBLP:conf/naacl/BawdenSBH18,DBLP:conf/wmt/GonzalesMS17,DBLP:journals/corr/abs-1910-07481
}
、多编码器结构
\upcite
{
DBLP:journals/corr/JeanLFC17,DBLP:journals/corr/abs-1805-10163,DBLP:conf/emnlp/ZhangLSZXZL18
}
、层次结构
\upcite
{
DBLP:conf/naacl/MarufMH19,DBLP:conf/acl/HaffariM18,DBLP:conf/emnlp/YangZMGFZ19,DBLP:conf/ijcai/ZhengYHCB20
}
以及基于缓存的方法
\upcite
{
DBLP:conf/coling/KuangXLZ18,DBLP:journals/tacl/TuLSZ18
}
等。
\parinterval
在统计机器翻译时代就已经有大量的研究工作专注于篇章信息的建模,这些工作大多针对某一具体的上下文现象,比如,篇章结构
\upcite
{
DBLP:conf/anlp/MarcuCW00,foster2010translating,DBLP:conf/eacl/LouisW14
}
、代词回指
\upcite
{
DBLP:conf/iwslt/HardmeierF10,DBLP:conf/wmt/NagardK10,DBLP:conf/eamt/LuongP16,
}
、词汇衔接
\upcite
{
tiedemann2010context,DBLP:conf/emnlp/GongZZ11,DBLP:conf/ijcai/XiongBZLL13,xiao2011document
}
和篇章连接词
\upcite
{
DBLP:conf/sigdial/MeyerPZC11,DBLP:conf/hytra/MeyerP12,
}
等。区别于篇章级统计机器翻译,篇章级神经机器翻译不需要针对某一具体的上下文现象构造相应的特征,而是通过翻译模型
从上下文句子中抽取并融合
上下文信息。通常情况下,篇章级机器翻译可以采用局部建模的手段将前一句或者周围几句作为上下文送入模型。针对需要长距离上下文的情况,也可以使用全局建模的手段直接从篇章的所有句子中提取上下文信息。近几年多数研究工作都在探索更有效的局部建模或全局建模方法,主要包括改进输入
\upcite
{
DBLP:conf/discomt/TiedemannS17,DBLP:conf/naacl/BawdenSBH18,DBLP:conf/wmt/GonzalesMS17,DBLP:journals/corr/abs-1910-07481
}
、多编码器结构
\upcite
{
DBLP:journals/corr/JeanLFC17,DBLP:journals/corr/abs-1805-10163,DBLP:conf/emnlp/ZhangLSZXZL18
}
、层次结构
\upcite
{
DBLP:conf/naacl/MarufMH19,DBLP:conf/acl/HaffariM18,DBLP:conf/emnlp/YangZMGFZ19,DBLP:conf/ijcai/ZhengYHCB20
}
以及基于缓存的方法
\upcite
{
DBLP:conf/coling/KuangXLZ18,DBLP:journals/tacl/TuLSZ18
}
等。
\parinterval
此外,篇章级机器翻译面临的另外一个挑战是数据稀缺。篇章级机器翻译所需要的双语数据需要保留篇章边界,数量相比于句子级双语数据要少很多。除了在之前提到的端到端方法中采用预训练或者参数共享的手段(见
{
\chaptersixteen
}
),也可以采用新的建模手段来缓解数据稀缺问题。这类方法通常将篇章级翻译流程进行分离:先训练一个句子级的翻译模型,再通过一些额外的模块来引入上下文信息。比如,在句子级翻译模型的推断过程中,通过在目标端结合篇章级语言模型引入上下文信息
\upcite
{
DBLP:conf/discomt/GarciaCE19,DBLP:journals/tacl/YuSSLKBD20,DBLP:journals/corr/abs-2010-12827
}
,或者基于句子级的翻译结果,使用两阶段解码等手段引入上下文信息,进而对句子级翻译结果进行修正
\upcite
{
DBLP:conf/aaai/XiongH0W19,DBLP:conf/acl/VoitaST19,DBLP:conf/emnlp/VoitaST19
}
。
\parinterval
此外,篇章级机器翻译面临的另外一个挑战是数据稀缺。篇章级机器翻译所需要的双语数据需要保留篇章边界,数量相比于句子级双语数据要少很多。除了在之前提到的端到端方法中采用预训练或者参数共享的手段(见
{
\chaptersixteen
}
),也可以采用新的建模手段来缓解数据稀缺问题。这类方法通常将篇章级翻译流程进行分离:先训练一个句子级的翻译模型,再通过一些额外的模块来引入上下文信息。比如,在句子级翻译模型的推断过程中,通过在目标端结合篇章级语言模型引入上下文信息
\upcite
{
DBLP:conf/discomt/GarciaCE19,DBLP:journals/tacl/YuSSLKBD20,DBLP:journals/corr/abs-2010-12827
}
,或者基于句子级的翻译结果,使用两阶段解码等手段引入上下文信息,进而对句子级翻译结果进行修正
\upcite
{
DBLP:conf/aaai/XiongH0W19,DBLP:conf/acl/VoitaST19,DBLP:conf/emnlp/VoitaST19
}
。
...
@@ -463,7 +463,7 @@
...
@@ -463,7 +463,7 @@
\subsection
{
篇章级翻译的评价
}
\label
{
sec:17-3-2
}
\subsection
{
篇章级翻译的评价
}
\label
{
sec:17-3-2
}
\parinterval
BLEU等自动评价指标能够在一定程度上反映译文的整体质量,但是并不能有效地评估篇章级翻译模型的性能。这是由于很多标准测试集中需要篇章上下文的情况
比例
相对较少。而且,
$
n
$
-gram的匹配很难检测到一些具体的语言现象,这使得研究人员很难通过BLEU得分来判断篇章级翻译模型的效果。
\parinterval
BLEU等自动评价指标能够在一定程度上反映译文的整体质量,但是并不能有效地评估篇章级翻译模型的性能。这是由于很多标准测试集中需要篇章上下文的情况相对较少。而且,
$
n
$
-gram的匹配很难检测到一些具体的语言现象,这使得研究人员很难通过BLEU得分来判断篇章级翻译模型的效果。
\parinterval
为此,研究人员总结了机器翻译任务中存在的上下文现象,并基于此设计了相应的自动评价指标。比如针对篇章中代词的翻译问题,首先借助词对齐工具确定源语言中的代词在译文和参考答案中的对应位置,然后通过计算译文中代词的准确率和召回率等指标对代词翻译质量进行评价
\upcite
{
DBLP:conf/iwslt/HardmeierF10,DBLP:conf/discomt/WerlenP17
}
。针对篇章中的词汇衔接,使用
{
\small\sffamily\bfseries
{
词汇链
}}
\index
{
词汇链
}
(Lexical Chain
\index
{
Lexical Chain
}
)
\footnote
{
词汇链指篇章中语义相关的词所构成的序列。
}
等来获取能够反映词汇衔接质量的分数,然后通过加权的方式与常规的BLEU或METEOR等指标结合在一起
\upcite
{
DBLP:conf/emnlp/WongK12,DBLP:conf/discomt/GongZZ15
}
。针对篇章中的连接词,使用候选词典和词对齐工具对源文中连接词的正确翻译结果进行计数,计算其准确率
\upcite
{
DBLP:conf/cicling/HajlaouiP13
}
。
\parinterval
为此,研究人员总结了机器翻译任务中存在的上下文现象,并基于此设计了相应的自动评价指标。比如针对篇章中代词的翻译问题,首先借助词对齐工具确定源语言中的代词在译文和参考答案中的对应位置,然后通过计算译文中代词的准确率和召回率等指标对代词翻译质量进行评价
\upcite
{
DBLP:conf/iwslt/HardmeierF10,DBLP:conf/discomt/WerlenP17
}
。针对篇章中的词汇衔接,使用
{
\small\sffamily\bfseries
{
词汇链
}}
\index
{
词汇链
}
(Lexical Chain
\index
{
Lexical Chain
}
)
\footnote
{
词汇链指篇章中语义相关的词所构成的序列。
}
等来获取能够反映词汇衔接质量的分数,然后通过加权的方式与常规的BLEU或METEOR等指标结合在一起
\upcite
{
DBLP:conf/emnlp/WongK12,DBLP:conf/discomt/GongZZ15
}
。针对篇章中的连接词,使用候选词典和词对齐工具对源文中连接词的正确翻译结果进行计数,计算其准确率
\upcite
{
DBLP:conf/cicling/HajlaouiP13
}
。
...
@@ -525,7 +525,7 @@
...
@@ -525,7 +525,7 @@
\mathbi
{
d
}&
=
&
\textrm
{
Attention
}
(
\mathbi
{
h
}
,
\mathbi
{
h
}^{
\textrm
{
pre
}}
,
\mathbi
{
h
}^{
\textrm
{
pre
}}
)
\mathbi
{
d
}&
=
&
\textrm
{
Attention
}
(
\mathbi
{
h
}
,
\mathbi
{
h
}^{
\textrm
{
pre
}}
,
\mathbi
{
h
}^{
\textrm
{
pre
}}
)
\label
{
eq:17-3-3
}
\label
{
eq:17-3-3
}
\end{eqnarray}
\end{eqnarray}
其中,
$
\mathbi
{
h
}$
作为Query(查询),
$
\mathbi
{
h
}^{
\textrm
pre
}$
作
为Key(键)和Value(值)。然后通过门控机制将待翻译句子中每个位置的编码表示和该位置对应的上下文信息进行融合,具体方式如下:
其中,
$
\mathbi
{
h
}$
为Query(查询),
$
\mathbi
{
h
}^{
\textrm
{
pre
}}$
为Key(键)和Value(值)。然后通过门控机制将待翻译句子中每个位置的编码表示和该位置对应的上下文信息进行融合,具体方式如下:
\begin{eqnarray}
\begin{eqnarray}
\lambda
_{
t
}&
=
&
\sigma
(
\mathbi
{
W
}_{
\lambda
}
[
\mathbi
{
h
}_{
t
}
;
\mathbi
{
d
}_{
t
}
]+
\mathbi
{
b
}_{
\lambda
}
)
\lambda
_{
t
}&
=
&
\sigma
(
\mathbi
{
W
}_{
\lambda
}
[
\mathbi
{
h
}_{
t
}
;
\mathbi
{
d
}_{
t
}
]+
\mathbi
{
b
}_{
\lambda
}
)
\label
{
eq:17-3-5
}
\\
\label
{
eq:17-3-5
}
\\
...
@@ -639,7 +639,7 @@
...
@@ -639,7 +639,7 @@
\sectionnewpage
\sectionnewpage
\section
{
小结及拓展阅读
}
\section
{
小结及拓展阅读
}
\parinterval
使用更
大
上下文进行机器翻译建模是极具潜力的研究方向,包括多模态翻译在内的多个领域也非常活跃。有许多问题值得进一步思考与讨论:
\parinterval
使用更
多的
上下文进行机器翻译建模是极具潜力的研究方向,包括多模态翻译在内的多个领域也非常活跃。有许多问题值得进一步思考与讨论:
\begin{itemize}
\begin{itemize}
\vspace
{
0.5em
}
\vspace
{
0.5em
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论