Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
d80ce2bb
Commit
d80ce2bb
authored
Sep 07, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
更新 chapter6.tex
parent
33febb3c
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
4 行增加
和
4 行删除
+4
-4
Chapter6/chapter6.tex
+4
-4
没有找到文件。
Chapter6/chapter6.tex
查看文件 @
d80ce2bb
...
...
@@ -34,7 +34,7 @@
\sectionnewpage
\section
{
基于扭曲度的翻译模型
}
下面将介绍扭曲度在机器翻译中的定义及使用方法。这也带来了两个新的翻译模型
\ \dash\
IBM模型2
\upcite
{
Peter1993The
}
和HMM翻译模型
\upcite
{
vogel1996hmm
}
。
下面将介绍扭曲度在机器翻译中的定义及使用方法。这也带来了两个新的翻译模型
\ \dash\
IBM模型2
\upcite
{
DBLP:journals/coling/BrownPPM94
}
和HMM翻译模型
\upcite
{
vogel1996hmm
}
。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
...
...
@@ -71,7 +71,7 @@
%----------------------------------------------------------------------------------------
\subsection
{
IBM模型2
}
\parinterval
对于建模来说,IBM模型1很好地化简了翻译问题,但是由于使用了很强的假设,导致模型和实际情况有较大差异。其中一个比较严重的问题是假设词对齐的生成概率服从均匀分布。IBM模型2抛弃了这个假设
\upcite
{
Peter1993The
}
。它认为词对齐是有倾向性的,它与源语言单词的位置和目标语言单词的位置有关。具体来说,对齐位置
$
a
_
j
$
的生成概率与位置
$
j
$
、源语言句子长度
$
m
$
和目标语言句子长度
$
l
$
有关,形式化表述为:
\parinterval
对于建模来说,IBM模型1很好地化简了翻译问题,但是由于使用了很强的假设,导致模型和实际情况有较大差异。其中一个比较严重的问题是假设词对齐的生成概率服从均匀分布。IBM模型2抛弃了这个假设
\upcite
{
DBLP:journals/coling/BrownPPM94
}
。它认为词对齐是有倾向性的,它与源语言单词的位置和目标语言单词的位置有关。具体来说,对齐位置
$
a
_
j
$
的生成概率与位置
$
j
$
、源语言句子长度
$
m
$
和目标语言句子长度
$
l
$
有关,形式化表述为:
\begin{eqnarray}
\funp
{
P
}
(a
_
j|a
_
1
^{
j-1
}
,s
_
1
^{
j-1
}
,m,
\vectorn
{
t
}
)
\equiv
a(a
_
j|j,m,l)
...
...
@@ -173,7 +173,7 @@
\parinterval
从前面的介绍可知,IBM模型1和模型2把不同的源语言单词看作相互独立的单元来进行词对齐和翻译。换句话说,即使某个源语言短语中的两个单词都对齐到同一个目标语单词,它们之间也是相互独立的。这样IBM模型1和模型2对于多个源语言单词对齐到同一个目标语单词的情况并不能很好地进行描述。
\parinterval
这里将会给出另一个翻译模型,能在一定程度上解决上面提到的问题
\upcite
{
Peter1993The
,och2003systematic
}
。该模型把目标语言生成源语言的过程分解为如下几个步骤:首先,确定每个目标语言单词生成源语言单词的个数,这里把它称为
{
\small\sffamily\bfseries
{
繁衍率
}}
\index
{
繁衍率
}
或
{
\small\sffamily\bfseries
{
产出率
}}
\index
{
产出率
}
(Fertility)
\index
{
Fertility
}
;其次,决定目标语言句子中每个单词生成的源语言单词都是什么,即决定生成的第一个源语言单词是什么,生成的第二个源语言单词是什么,以此类推。这样每个目标语言单词就对应了一个源语言单词列表;最后把各组源语言单词列表中的每个单词都放置到合适的位置上,完成目标语言译文到源语言句子的生成。
\parinterval
这里将会给出另一个翻译模型,能在一定程度上解决上面提到的问题
\upcite
{
DBLP:journals/coling/BrownPPM94
,och2003systematic
}
。该模型把目标语言生成源语言的过程分解为如下几个步骤:首先,确定每个目标语言单词生成源语言单词的个数,这里把它称为
{
\small\sffamily\bfseries
{
繁衍率
}}
\index
{
繁衍率
}
或
{
\small\sffamily\bfseries
{
产出率
}}
\index
{
产出率
}
(Fertility)
\index
{
Fertility
}
;其次,决定目标语言句子中每个单词生成的源语言单词都是什么,即决定生成的第一个源语言单词是什么,生成的第二个源语言单词是什么,以此类推。这样每个目标语言单词就对应了一个源语言单词列表;最后把各组源语言单词列表中的每个单词都放置到合适的位置上,完成目标语言译文到源语言句子的生成。
\parinterval
对于句对
$
(
\vectorn
{
s
}
,
\vectorn
{
t
}
)
$
,令
$
\varphi
$
表示产出率,同时令
${
\tau
}$
表示每个目标语言单词对应的源语言单词列表。图
{
\ref
{
fig:6-5
}}
描述了一个英语句子生成汉语句子的过程。
...
...
@@ -320,7 +320,7 @@ p_0+p_1 & = & 1 \label{eq:6-21}
\parinterval
IBM模型3仍然存在问题,比如,它不能很好地处理一个目标语言单词生成多个源语言单词的情况。这个问题在模型1和模型2中也存在。如果一个目标语言单词对应多个源语言单词,往往这些源语言单词构成短语或搭配。但是模型1-3把这些源语言单词看成独立的单元,而实际上它们是一个整体。这就造成了在模型1-3中这些源语言单词可能会``分散''开。为了解决这个问题,模型4对模型3进行了进一步修正。
\parinterval
为了更清楚的阐述,这里引入新的术语
\ \dash
\
{
\small\bfnew
{
概念单元
}}
\index
{
概念单元
}
或
{
\small\bfnew
{
概念
}}
\index
{
概念
}
(Concept)
\index
{
Concept
}
。词对齐可以被看作概念之间的对应。这里的概念是指具有独立语法或语义功能的一组单词。依照Brown等人的表示方法
\upcite
{
Peter1993The
}
,可以把概念记为cept.。每个句子都可以被表示成一系列的cept.。这里要注意的是,源语言句子中的cept.数量不一定等于目标句子中的cept.数量。因为有些cept. 可以为空,因此可以把那些空对的单词看作空cept.。比如,在图
\ref
{
fig:6-8
}
的实例中,``了''就对应一个空cept.。
\parinterval
为了更清楚的阐述,这里引入新的术语
\ \dash
\
{
\small\bfnew
{
概念单元
}}
\index
{
概念单元
}
或
{
\small\bfnew
{
概念
}}
\index
{
概念
}
(Concept)
\index
{
Concept
}
。词对齐可以被看作概念之间的对应。这里的概念是指具有独立语法或语义功能的一组单词。依照Brown等人的表示方法
\upcite
{
DBLP:journals/coling/BrownPPM94
}
,可以把概念记为cept.。每个句子都可以被表示成一系列的cept.。这里要注意的是,源语言句子中的cept.数量不一定等于目标句子中的cept.数量。因为有些cept. 可以为空,因此可以把那些空对的单词看作空cept.。比如,在图
\ref
{
fig:6-8
}
的实例中,``了''就对应一个空cept.。
%----------------------------------------------
\begin{figure}
[htp]
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论