Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
91204443
Commit
91204443
authored
Feb 22, 2021
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
update index 5-8 & 16
parent
675786f2
全部展开
显示空白字符变更
内嵌
并排
正在显示
3 个修改的文件
包含
6 行增加
和
6 行删除
+6
-6
Chapter16/chapter16.tex
+0
-0
Chapter6/chapter6.tex
+3
-3
Chapter8/chapter8.tex
+3
-3
没有找到文件。
Chapter16/chapter16.tex
查看文件 @
91204443
差异被折叠。
点击展开。
Chapter6/chapter6.tex
查看文件 @
91204443
...
@@ -170,7 +170,7 @@
...
@@ -170,7 +170,7 @@
\parinterval
从前面的介绍可知,IBM模型1和模型2把不同的源语言单词看作相互独立的单元来进行词对齐和翻译。换句话说,即使某个源语言短语中的两个单词都对齐到同一个目标语单词,它们之间也是相互独立的。这样IBM模型1和模型2对于多个源语言单词对齐到同一个目标语单词的情况并不能很好地进行描述。
\parinterval
从前面的介绍可知,IBM模型1和模型2把不同的源语言单词看作相互独立的单元来进行词对齐和翻译。换句话说,即使某个源语言短语中的两个单词都对齐到同一个目标语单词,它们之间也是相互独立的。这样IBM模型1和模型2对于多个源语言单词对齐到同一个目标语单词的情况并不能很好地进行描述。
\parinterval
这里将会给出另一个翻译模型,能在一定程度上解决上面提到的问题
\upcite
{
DBLP:journals/coling/BrownPPM94,och2003systematic
}
。该模型把目标语言生成源语言的过程分解为如下几个步骤:首先,确定每个目标语言单词生成源语言单词的个数,这里把它称为
{
\small\sffamily\bfseries
{
繁衍率
}}
\index
{
繁衍率
}
或
{
\small\sffamily\bfseries
{
产出率
}}
\index
{
产出率
}
(Fertility)
\index
{
Fertility
}
;其次,决定目标语言句子中每个单词生成的源语言单词都是什么,即决定生成的第一个源语言单词是什么,生成的第二个源语言单词是什么,以此类推。这样每个目标语言单词就对应了一个源语言单词列表;最后把各组源语言单词列表中的每个单词都放置到合适的位置上,完成目标语言译文到源语言句子的生成。
\parinterval
这里将会给出另一个翻译模型,能在一定程度上解决上面提到的问题
\upcite
{
DBLP:journals/coling/BrownPPM94,och2003systematic
}
。该模型把目标语言生成源语言的过程分解为如下几个步骤:首先,确定每个目标语言单词生成源语言单词的个数,这里把它称为
{
\small\sffamily\bfseries
{
繁衍率
}}
\index
{
繁衍率
或产出率
}
或
{
\small\sffamily\bfseries
{
产出率
}
}
(Fertility)
\index
{
Fertility
}
;其次,决定目标语言句子中每个单词生成的源语言单词都是什么,即决定生成的第一个源语言单词是什么,生成的第二个源语言单词是什么,以此类推。这样每个目标语言单词就对应了一个源语言单词列表;最后把各组源语言单词列表中的每个单词都放置到合适的位置上,完成目标语言译文到源语言句子的生成。
%----------------------------------------------
%----------------------------------------------
\begin{figure}
[htp]
\begin{figure}
[htp]
...
@@ -313,7 +313,7 @@ p_0+p_1 & = & 1 \label{eq:6-21}
...
@@ -313,7 +313,7 @@ p_0+p_1 & = & 1 \label{eq:6-21}
\parinterval
IBM模型3仍然存在问题,比如,它不能很好地处理一个目标语言单词生成多个源语言单词的情况。这个问题在模型1和模型2中也存在。如果一个目标语言单词对应多个源语言单词,则这些源语言单词往往会构成短语。但是模型1-3把这些源语言单词看成独立的单元,而实际上它们是一个整体。这就造成了在模型1-3中这些源语言单词可能会“分散”开。为了解决这个问题,模型4对模型3进行了进一步修正。
\parinterval
IBM模型3仍然存在问题,比如,它不能很好地处理一个目标语言单词生成多个源语言单词的情况。这个问题在模型1和模型2中也存在。如果一个目标语言单词对应多个源语言单词,则这些源语言单词往往会构成短语。但是模型1-3把这些源语言单词看成独立的单元,而实际上它们是一个整体。这就造成了在模型1-3中这些源语言单词可能会“分散”开。为了解决这个问题,模型4对模型3进行了进一步修正。
\parinterval
为了更清楚地阐述,这里引入新的术语
\ \dash
\
{
\small\bfnew
{
概念单元
}}
\index
{
概念单元
}
或
{
\small\bfnew
{
概念
}}
\index
{
概念
}
(Concept)
\index
{
Concept
}
。词对齐可以被看作概念之间的对应。这里的概念是指具有独立语法或语义功能的一组单词。依照Brown等人的表示方法
\upcite
{
DBLP:journals/coling/BrownPPM94
}
,可以把概念记为cept.。每个句子都可以被表示成一系列的cept.。这里要注意的是,源语言句子中的cept.数量不一定等于目标句子中的cept.数量。因为有些cept. 可以为空,因此可以把那些空对的单词看作空cept.。比如,在图
\ref
{
fig:6-8
}
的实例中,“了”就对应一个空cept.。
\parinterval
为了更清楚地阐述,这里引入新的术语
\ \dash
\
{
\small\bfnew
{
概念单元
}}
\index
{
概念单元
或概念
}
或
{
\small\bfnew
{
概念
}
}
(Concept)
\index
{
Concept
}
。词对齐可以被看作概念之间的对应。这里的概念是指具有独立语法或语义功能的一组单词。依照Brown等人的表示方法
\upcite
{
DBLP:journals/coling/BrownPPM94
}
,可以把概念记为cept.。每个句子都可以被表示成一系列的cept.。这里要注意的是,源语言句子中的cept.数量不一定等于目标句子中的cept.数量。因为有些cept. 可以为空,因此可以把那些空对的单词看作空cept.。比如,在图
\ref
{
fig:6-8
}
的实例中,“了”就对应一个空cept.。
%----------------------------------------------
%----------------------------------------------
\begin{figure}
[htp]
\begin{figure}
[htp]
...
@@ -431,7 +431,7 @@ p_0+p_1 & = & 1 \label{eq:6-21}
...
@@ -431,7 +431,7 @@ p_0+p_1 & = & 1 \label{eq:6-21}
\label
{
eq:6-27
}
\label
{
eq:6-27
}
\end{eqnarray}
\end{eqnarray}
\parinterval
本质上,模型3和模型4就是对应
$
\funp
{
P
}
(
{
\textrm
{
failure
}
|
\seq
{
t
}}
)
>
0
$
的情况。这部分概率是模型损失掉的。有时候也把这类缺陷称为
{
\small\bfnew
{
物理缺陷
}}
\index
{
物理缺陷
}
(Physical Deficiency
\index
{
Physical Deficiency
}
)或
{
\small\bfnew
{
技术缺陷
}}
\index
{
技术缺陷
}
(Technical Deficiency
\index
{
Technical Deficiency
}
)。还有一种缺陷被称作
{
\small\bfnew
{
精神缺陷
}}
(Spiritual Deficiency
\index
{
Spiritual Deficiency
}
)或
{
\small\bfnew
{
逻辑缺陷
}}
\index
{
逻辑缺陷
}
(Logical Deficiency
\index
{
Logical Deficiency
}
),它是指
$
\funp
{
P
}
(
{
\textrm
{
well
}
|
\seq
{
t
}}
)
+
\funp
{
P
}
(
{
\textrm
{
ill
}
|
\seq
{
t
}}
)
=
1
$
且
$
\funp
{
P
}
(
{
\textrm
{
ill
}
|
\seq
{
t
}}
)
>
0
$
的情况。模型1 和模型2 就有逻辑缺陷。可以注意到,技术缺陷只存在于模型3 和模型4 中,模型1和模型2并没有技术缺陷问题。根本原因在于模型1和模型2的词对齐是从源语言出发对应到目标语言,
$
\seq
{
t
}$
到
$
\seq
{
s
}$
的翻译过程实际上是从单词
$
s
_
1
$
开始到单词
$
s
_
m
$
结束,依次把每个源语言单词
$
s
_
j
$
对应到唯一一个目标语言位置。显然,这个过程能够保证每个源语言单词仅对应一个目标语言单词。但是,模型3 和模型4中对齐是从目标语言出发对应到源语言,
$
\seq
{
t
}$
到
$
\seq
{
s
}$
的翻译过程从
$
t
_
1
$
开始
$
t
_
l
$
结束,依次把目标语言单词
$
t
_
i
$
生成的单词对应到某个源语言位置上。但是这个过程不能保证
$
t
_
i
$
中生成的单词所对应的位置没有被其他单词占用,因此也就产生了缺陷。
\parinterval
本质上,模型3和模型4就是对应
$
\funp
{
P
}
(
{
\textrm
{
failure
}
|
\seq
{
t
}}
)
>
0
$
的情况。这部分概率是模型损失掉的。有时候也把这类缺陷称为
{
\small\bfnew
{
物理缺陷
}}
\index
{
物理缺陷
}
(Physical Deficiency
\index
{
Physical Deficiency
}
)或
{
\small\bfnew
{
技术缺陷
}}
\index
{
技术缺陷
}
(Technical Deficiency
\index
{
Technical Deficiency
}
)。还有一种缺陷被称作
{
\small\bfnew
{
精神缺陷
}}
\index
{
精神缺陷
}
(Spiritual Deficiency
\index
{
Spiritual Deficiency
}
)或
{
\small\bfnew
{
逻辑缺陷
}}
\index
{
逻辑缺陷
}
(Logical Deficiency
\index
{
Logical Deficiency
}
),它是指
$
\funp
{
P
}
(
{
\textrm
{
well
}
|
\seq
{
t
}}
)
+
\funp
{
P
}
(
{
\textrm
{
ill
}
|
\seq
{
t
}}
)
=
1
$
且
$
\funp
{
P
}
(
{
\textrm
{
ill
}
|
\seq
{
t
}}
)
>
0
$
的情况。模型1 和模型2 就有逻辑缺陷。可以注意到,技术缺陷只存在于模型3 和模型4 中,模型1和模型2并没有技术缺陷问题。根本原因在于模型1和模型2的词对齐是从源语言出发对应到目标语言,
$
\seq
{
t
}$
到
$
\seq
{
s
}$
的翻译过程实际上是从单词
$
s
_
1
$
开始到单词
$
s
_
m
$
结束,依次把每个源语言单词
$
s
_
j
$
对应到唯一一个目标语言位置。显然,这个过程能够保证每个源语言单词仅对应一个目标语言单词。但是,模型3 和模型4中对齐是从目标语言出发对应到源语言,
$
\seq
{
t
}$
到
$
\seq
{
s
}$
的翻译过程从
$
t
_
1
$
开始
$
t
_
l
$
结束,依次把目标语言单词
$
t
_
i
$
生成的单词对应到某个源语言位置上。但是这个过程不能保证
$
t
_
i
$
中生成的单词所对应的位置没有被其他单词占用,因此也就产生了缺陷。
\parinterval
这里还要强调的是,技术缺陷是模型3和模型4是模型本身的缺陷造成的,如果有一个“更好”的模型就可以完全避免这个问题。而逻辑缺陷几乎是不能从模型上根本解决的,因为对于任意一种语言都不能枚举所有的句子(
$
\funp
{
P
}
(
{
\textrm
{
ill
}
|
\seq
{
t
}}
)
$
实际上是得不到的)。
\parinterval
这里还要强调的是,技术缺陷是模型3和模型4是模型本身的缺陷造成的,如果有一个“更好”的模型就可以完全避免这个问题。而逻辑缺陷几乎是不能从模型上根本解决的,因为对于任意一种语言都不能枚举所有的句子(
$
\funp
{
P
}
(
{
\textrm
{
ill
}
|
\seq
{
t
}}
)
$
实际上是得不到的)。
...
...
Chapter8/chapter8.tex
查看文件 @
91204443
...
@@ -229,7 +229,7 @@
...
@@ -229,7 +229,7 @@
\funp
{
X
}
\
&
\to\
&
\langle
\ \text
{
强大
}
,
\quad
\textrm
{
strong
}
\ \rangle
\nonumber
\funp
{
X
}
\
&
\to\
&
\langle
\ \text
{
强大
}
,
\quad
\textrm
{
strong
}
\ \rangle
\nonumber
\end{eqnarray}
\end{eqnarray}
\parinterval
这个文法只有一种非终结符X,因此所有的变量都可以使用任意的产生式进行推导。这就给翻译提供了更大的自由度,也就是说,规则可以被任意使用,进行自由组合。这也符合基于短语的模型中对短语进行灵活拼接的思想。基于此,层次短语系统中也使用这种并不依赖语言学句法标记的文法。在本章的内容中,如果没有特殊说明,把这种没有语言学句法标记的文法称作
{
\small\bfnew
{
基于层次短语的文法
}}
\index
{
基于层次短语的
文法
}
(Hierarchical Phrase-based Grammar)
\index
{
Hierarchical Phrase-based Grammar
}
,或简称层次短语文法。
\parinterval
这个文法只有一种非终结符X,因此所有的变量都可以使用任意的产生式进行推导。这就给翻译提供了更大的自由度,也就是说,规则可以被任意使用,进行自由组合。这也符合基于短语的模型中对短语进行灵活拼接的思想。基于此,层次短语系统中也使用这种并不依赖语言学句法标记的文法。在本章的内容中,如果没有特殊说明,把这种没有语言学句法标记的文法称作
{
\small\bfnew
{
基于层次短语的文法
}}
\index
{
层次短语
文法
}
(Hierarchical Phrase-based Grammar)
\index
{
Hierarchical Phrase-based Grammar
}
,或简称层次短语文法。
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUBSUB-SECTION
% NEW SUBSUB-SECTION
...
@@ -468,7 +468,7 @@ span\textrm{[2,4]}&=&\textrm{“吃} \quad \textrm{鱼”} \nonumber \\
...
@@ -468,7 +468,7 @@ span\textrm{[2,4]}&=&\textrm{“吃} \quad \textrm{鱼”} \nonumber \\
span
\textrm
{
[0,4]
}&
=
&
\textrm
{
“猫
}
\quad
\textrm
{
喜欢
}
\quad
\textrm
{
吃
}
\quad
\textrm
{
鱼”
}
\nonumber
span
\textrm
{
[0,4]
}&
=
&
\textrm
{
“猫
}
\quad
\textrm
{
喜欢
}
\quad
\textrm
{
吃
}
\quad
\textrm
{
鱼”
}
\nonumber
\end{eqnarray}
\end{eqnarray}
\parinterval
CKY方法是按跨度由小到大的次序执行的,这也对应了一种
{
\small\bfnew
{
自下而上的分析
}}
\index
{
自下而上的分析
}
(
Top-Down Parsing)
\index
{
Top-Down
Parsing
}
过程。对于每个跨度,检查:
\parinterval
CKY方法是按跨度由小到大的次序执行的,这也对应了一种
{
\small\bfnew
{
自下而上的分析
}}
\index
{
自下而上的分析
}
(
Bottom-Up Parsing)
\index
{
Bottom-Up
Parsing
}
过程。对于每个跨度,检查:
\begin{itemize}
\begin{itemize}
\vspace
{
0.5em
}
\vspace
{
0.5em
}
...
@@ -750,7 +750,7 @@ span\textrm{[0,4]}&=&\textrm{“猫} \quad \textrm{喜欢} \quad \textrm{吃} \q
...
@@ -750,7 +750,7 @@ span\textrm{[0,4]}&=&\textrm{“猫} \quad \textrm{喜欢} \quad \textrm{吃} \q
\subsection
{
基于树结构的文法
}
\subsection
{
基于树结构的文法
}
\parinterval
基于句法的翻译模型的一个核心问题是要对树结构进行建模,进而完成树之间或者树和串之间的转换。在计算机领域中,所谓树就是由一些节点组成的层次关系的集合。计算机领域的树和自然世界中的树没有任何关系,只是借用了相似的概念,因为这种层次结构很像一棵倒过来的树。在使用树时,经常会把树的层次结构转化为序列结构,称为树结构的
{
\small\bfnew
{
序列化
}}
\index
{
序列化
}
或者
{
\small\bfnew
{
线性化
}}
\index
{
线性化
}
(Linearization)
\index
{
Linearization
}
。
\parinterval
基于句法的翻译模型的一个核心问题是要对树结构进行建模,进而完成树之间或者树和串之间的转换。在计算机领域中,所谓树就是由一些节点组成的层次关系的集合。计算机领域的树和自然世界中的树没有任何关系,只是借用了相似的概念,因为这种层次结构很像一棵倒过来的树。在使用树时,经常会把树的层次结构转化为序列结构,称为树结构的
{
\small\bfnew
{
序列化
}}
\index
{
序列化
或线性化
}
或者
{
\small\bfnew
{
线性化
}
}
(Linearization)
\index
{
Linearization
}
。
%----------------------------------------------
%----------------------------------------------
\begin{figure}
[htp]
\begin{figure}
[htp]
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论