Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
b1e2e893
Commit
b1e2e893
authored
Jul 31, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'master' 到 'caorunzhe'
updating the introduction (section 6) 查看合并请求
!29
parents
7eabceb9
3ec71235
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
8 行增加
和
5 行删除
+8
-5
Chapter6/chapter6.tex
+8
-5
没有找到文件。
Chapter6/chapter6.tex
查看文件 @
b1e2e893
...
@@ -23,22 +23,25 @@
...
@@ -23,22 +23,25 @@
\chapter
{
基于扭曲度和繁衍率的模型
}
\chapter
{
基于扭曲度和繁衍率的模型
}
\parinterval
{
\color
{
red
}
本章开头
}
第五章展示了一种简单的基于单词的翻译模型。这种模型的形式非常简单,而且其隐含的词对齐信息具有较好的可解释性。不过,语言翻译的复杂性远远超出人们想象。这里仍然面临两方面挑战
\ \dash\
如何对`` 调序''问题进行建模以及如何对``一对多翻译''问题进行建模。调序是翻译问题中所特有的现象,比如,汉语到日语的翻译中,需要对谓词进行调序。另一方面,一个单词在另一种语言中可能会被翻译为多个连续的词,比如,汉语`` 联合国''翻译到英语会对应三个单词``The United Nations''。这种现象也被称作一对多翻译。
无论是调序还是一对多翻译,简单的翻译模型(如IBM模型1)都无法对其进行很好的处理。因此,需要考虑对这两个问题单独进行建模。本章将会对机器翻译中两个常用的概念进行介绍
\ \dash\
扭曲度(Distortion)和繁衍率(Fertility)。它们可以被看做是对调序和一对多翻译现象的一种统计描述。基于此,本章会进一步介绍基于扭曲度和繁衍率的翻译模型,建立相对完整的基于单词的统计建模体系。相关的技术和概念在后续章节也会被进一步应用。
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SECTION
% NEW SECTION
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\sectionnewpage
\sectionnewpage
\section
{
基于扭曲度的
调序
模型
}
\section
{
基于扭曲度的
翻译
模型
}
\parinterval
{
\color
{
red
}
本节在IBM模型1-2的基础上继续介绍IBM模型3-5,这些模型采用了更细致的建模方式来描述翻译问题,包括引入产出率、单词的抽象等重要方法。此外,本节也会介绍隐马尔可夫模型,它和IBM模型有一定联系,但是从另一个视角看待翻译问题。
}
下面将介绍扭曲度在机器翻译中的定义及使用方法。这也带来了两个新的翻译模型
\ \dash\
IBM模型2和HMM翻译模型。
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
% NEW SUB-SECTION
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\subsection
{
什么是扭曲度
}
\subsection
{
什么是扭曲度
}
可以考虑先用例子描述一下翻译中的调序,之后说单词调序对应着``调序距离'',这种距离实际上可以被看做是一种扭曲度。。。
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
% NEW SUB-SECTION
...
@@ -170,7 +173,7 @@
...
@@ -170,7 +173,7 @@
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\subsection
{
什么是繁衍率
}
\subsection
{
什么是繁衍率
}
{
\color
{
red
}{
扣后面非自回归解码的问题,SMT和NMT中都有应用
}}
{
\color
{
red
}{
扣后面非自回归解码的问题,SMT和NMT中都有应用
。从另一个角度说,繁衍率也是对翻译长度的一种建模,它本质在描述:一个词(或序列)翻译到另一种语言有多长?因此,在需要对翻译长度建模的问题中,繁衍率都可以被使用
}}
\parinterval
从前面的介绍可知,IBM模型1和模型2把不同的源语言单词看作相互独立的单元来进行词对齐和翻译。换句话说,即使某个源语言短语中的两个单词都对齐到同一个目标语单词,它们之间也是相互独立的。这样模型1和模型2对于多个源语言单词对齐到同一个目标语单词的情况并不能很好地进行描述。
\parinterval
从前面的介绍可知,IBM模型1和模型2把不同的源语言单词看作相互独立的单元来进行词对齐和翻译。换句话说,即使某个源语言短语中的两个单词都对齐到同一个目标语单词,它们之间也是相互独立的。这样模型1和模型2对于多个源语言单词对齐到同一个目标语单词的情况并不能很好地进行描述。
...
@@ -187,7 +190,7 @@
...
@@ -187,7 +190,7 @@
\end{figure}
\end{figure}
%----------------------------------------------
%----------------------------------------------
\parinterval
为了表述清晰,
我们重新说明每个符号的含义。
$
\mathbf
{
s
}$
、
$
\mathbf
{
t
}$
、
$
m
$
和
$
l
$
分别表示源语言句子、目标语译文、源语言单词数量以及译文单词数量。
$
\mathbf
{
\varphi
}$
、
$
\mathbf
{
\tau
}$
和
$
\mathbf
{
\pi
}$
分别记录产出率、生成的源语言单词以及它们在源文中的位置。
${
\varphi
}_{
i
}$
表示第
$
i
$
个译文单词
$
t
_
i
$
的产出率。
${
\tau
}_{
i
}$
和
${
\pi
}_
i
$
分别表示
$
t
_
i
$
生成的源语言单词列表及其在源语言句子
$
\mathbf
{
s
}$
中的位置列表。
\parinterval
为了表述清晰,
这里重新说明每个符号的含义。
$
\mathbf
{
s
}$
、
$
\mathbf
{
t
}$
、
$
m
$
和
$
l
$
分别表示源语言句子、目标语译文、源语言单词数量以及译文单词数量。
$
\mathbf
{
\varphi
}$
、
$
\mathbf
{
\tau
}$
和
$
\mathbf
{
\pi
}$
分别记录产出率、生成的源语言单词以及它们在源文中的位置。
${
\varphi
}_{
i
}$
表示第
$
i
$
个译文单词
$
t
_
i
$
的产出率。
${
\tau
}_{
i
}$
和
${
\pi
}_
i
$
分别表示
$
t
_
i
$
生成的源语言单词列表及其在源语言句子
$
\mathbf
{
s
}$
中的位置列表。
\parinterval
可以看出,一组
$
\tau
$
和
$
\pi
$
(记为
$
<
\tau
,
\pi
>
$
)可以决定一个对齐
$
\mathbf
{
a
}$
和一个源语句子
$
\mathbf
{
s
}$
。
\parinterval
可以看出,一组
$
\tau
$
和
$
\pi
$
(记为
$
<
\tau
,
\pi
>
$
)可以决定一个对齐
$
\mathbf
{
a
}$
和一个源语句子
$
\mathbf
{
s
}$
。
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论