Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
8b36fc1d
Commit
8b36fc1d
authored
Jul 18, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
update chapter6
parent
a83790cb
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
3 行增加
和
3 行删除
+3
-3
Chapter6/chapter6.tex
+3
-3
没有找到文件。
Chapter6/chapter6.tex
查看文件 @
8b36fc1d
...
@@ -268,7 +268,7 @@ p_0+p_1 & = & 1 \label{eq:6-11}
...
@@ -268,7 +268,7 @@ p_0+p_1 & = & 1 \label{eq:6-11}
\subsection
{
``缺陷''问题
}
\subsection
{
``缺陷''问题
}
\parinterval
Deficiency
问题是指翻译模型会把一部分概率分配给一些根本不存在的源语言字符串。如果用
$
\textrm
{
P
}
(
\textrm
{
well
}
|
\mathbf
{
t
}
)
$
表示
$
\textrm
{
P
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
)
$
在所有的正确的(可以理解为语法上正确的)
$
\mathbf
{
s
}$
上的和,即
\parinterval
``缺陷''
问题是指翻译模型会把一部分概率分配给一些根本不存在的源语言字符串。如果用
$
\textrm
{
P
}
(
\textrm
{
well
}
|
\mathbf
{
t
}
)
$
表示
$
\textrm
{
P
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
)
$
在所有的正确的(可以理解为语法上正确的)
$
\mathbf
{
s
}$
上的和,即
\begin{eqnarray}
\begin{eqnarray}
\textrm
{
P
}
(
\textrm
{
well
}
|
\mathbf
{
t
}
)=
\sum
_{
\mathbf
{
s
}
\textrm
{
\;
is
\;
well
\;
formed
}}{
\textrm
{
P
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
)
}
\textrm
{
P
}
(
\textrm
{
well
}
|
\mathbf
{
t
}
)=
\sum
_{
\mathbf
{
s
}
\textrm
{
\;
is
\;
well
\;
formed
}}{
\textrm
{
P
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
)
}
\label
{
eq:6-15
}
\label
{
eq:6-15
}
...
@@ -280,7 +280,7 @@ p_0+p_1 & = & 1 \label{eq:6-11}
...
@@ -280,7 +280,7 @@ p_0+p_1 & = & 1 \label{eq:6-11}
\label
{
eq:6-16
}
\label
{
eq:6-16
}
\end{eqnarray}
\end{eqnarray}
\parinterval
本质上,模型3和模型4就是对应
$
\textrm
{
P
}
(
{
\textrm
{
failure
}
|
\mathbf
{
t
}}
)
>
0
$
的情况。这部分概率是模型损失掉的。有时候也把这类
Deficiency问题称为Technical Deficiency。还有一种Deficiency问题被称作Spiritually Deficiency,它是指
$
\textrm
{
P
}
(
{
\textrm
{
well
}
|
\mathbf
{
t
}}
)
+
\textrm
{
P
}
(
{
\textrm
{
ill
}
|
\mathbf
{
t
}}
)
=
1
$
且
$
\textrm
{
P
}
(
{
\textrm
{
ill
}
|
\mathbf
{
t
}}
)
>
0
$
的情况。模型1和模型2就有Spiritually Deficiency的问题。可以注意到,Technical Deficiency只存在于模型3和模型4中,模型1和模型2并没有Technical Deficiency问题。根本原因是模型1和模型2的词对齐是从源语言出发对应到目标语言,
$
\mathbf
{
t
}$
到
$
\mathbf
{
s
}$
的翻译过程实际上是从单词
$
s
_
1
$
开始到单词
$
s
_
m
$
结束,依次把每个源语言单词
$
s
_
j
$
对应到唯一一个目标语言位置。显然,这个过程能够保证每个源语言单词仅对应一个目标语言单词。但是,模型3和模型4中对齐是从目标语言出发对应到源语言,
$
\mathbf
{
t
}$
到
$
\mathbf
{
s
}$
的翻译过程从
$
t
_
1
$
开始
$
t
_
l
$
结束,依次把目标语言单词
$
t
_
i
$
生成的单词对应到某个源语言位置上。但是这个过程不能保证
$
t
_
i
$
中生成的单词所对应的位置没有被其他已经完成对齐的目标语单词所生成的某个源语言单词对应过,因此也就产生了Deficency
问题。
\parinterval
本质上,模型3和模型4就是对应
$
\textrm
{
P
}
(
{
\textrm
{
failure
}
|
\mathbf
{
t
}}
)
>
0
$
的情况。这部分概率是模型损失掉的。有时候也把这类
``缺陷''问题称为Technical Deficiency。还有一种``缺陷''问题被称作Spiritually Deficiency,它是指
$
\textrm
{
P
}
(
{
\textrm
{
well
}
|
\mathbf
{
t
}}
)
+
\textrm
{
P
}
(
{
\textrm
{
ill
}
|
\mathbf
{
t
}}
)
=
1
$
且
$
\textrm
{
P
}
(
{
\textrm
{
ill
}
|
\mathbf
{
t
}}
)
>
0
$
的情况。模型1和模型2就有Spiritually Deficiency的问题。可以注意到,Technical Deficiency只存在于模型3和模型4中,模型1和模型2并没有Technical Deficiency问题。根本原因是模型1和模型2的词对齐是从源语言出发对应到目标语言,
$
\mathbf
{
t
}$
到
$
\mathbf
{
s
}$
的翻译过程实际上是从单词
$
s
_
1
$
开始到单词
$
s
_
m
$
结束,依次把每个源语言单词
$
s
_
j
$
对应到唯一一个目标语言位置。显然,这个过程能够保证每个源语言单词仅对应一个目标语言单词。但是,模型3和模型4中对齐是从目标语言出发对应到源语言,
$
\mathbf
{
t
}$
到
$
\mathbf
{
s
}$
的翻译过程从
$
t
_
1
$
开始
$
t
_
l
$
结束,依次把目标语言单词
$
t
_
i
$
生成的单词对应到某个源语言位置上。但是这个过程不能保证
$
t
_
i
$
中生成的单词所对应的位置没有被其他已经完成对齐的目标语单词所生成的某个源语言单词对应过,因此也就产生了``缺陷''
问题。
\parinterval
这里还要强调的是,Technical Deficiency是模型3和模型4是模型本身的缺陷造成的,如果有一个``更好''的模型就可以完全避免这个问题。而Spiritually Deficiency几乎是不能从模型上根本解决的,因为对于任意一种语言都不能枚举所有的句子(
$
\textrm
{
P
}
(
{
\textrm
{
ill
}
|
\mathbf
{
t
}}
)
$
实际上是得不到的)。
\parinterval
这里还要强调的是,Technical Deficiency是模型3和模型4是模型本身的缺陷造成的,如果有一个``更好''的模型就可以完全避免这个问题。而Spiritually Deficiency几乎是不能从模型上根本解决的,因为对于任意一种语言都不能枚举所有的句子(
$
\textrm
{
P
}
(
{
\textrm
{
ill
}
|
\mathbf
{
t
}}
)
$
实际上是得不到的)。
...
@@ -313,7 +313,7 @@ p_0+p_1 & = & 1 \label{eq:6-11}
...
@@ -313,7 +313,7 @@ p_0+p_1 & = & 1 \label{eq:6-11}
\sectionnewpage
\sectionnewpage
\section
{
小结及深入阅读
}
\section
{
小结及深入阅读
}
{
\color
{
red
}
繁衍率
}
{
\color
{
red
}
繁衍率
需要增加
}
\parinterval
本章对IBM系列模型进行了全面的介绍和讨论,从一个简单的基于单词的翻译模型开始,本章以建模、解码、训练多个维度对统计机器翻译进行了描述,期间也涉及了词对齐、优化等多个重要概念。IBM 模型共分为5个模型,对翻译问题的建模依次由浅入深,同时模型复杂度也依次增加。IBM模型作为入门统计机器翻译的``必经之路'',其思想对今天的机器翻译仍然产生着影响。虽然单独使用IBM模型进行机器翻译现在已经不多见,甚至很多从事神经机器翻译等前沿研究的人对IBM模型已经逐渐淡忘,但是不能否认IBM模型标志着一个时代的开始。从某种意义上,当使用公式
$
\hat
{
\mathbf
{
t
}}
=
\argmax
_{
\mathbf
{
t
}}
\textrm
{
P
}
(
\mathbf
{
t
}
|
\mathbf
{
s
}
)
$
描述机器翻译问题的时候,或多或少都在与IBM模型使用相似的思想。
\parinterval
本章对IBM系列模型进行了全面的介绍和讨论,从一个简单的基于单词的翻译模型开始,本章以建模、解码、训练多个维度对统计机器翻译进行了描述,期间也涉及了词对齐、优化等多个重要概念。IBM 模型共分为5个模型,对翻译问题的建模依次由浅入深,同时模型复杂度也依次增加。IBM模型作为入门统计机器翻译的``必经之路'',其思想对今天的机器翻译仍然产生着影响。虽然单独使用IBM模型进行机器翻译现在已经不多见,甚至很多从事神经机器翻译等前沿研究的人对IBM模型已经逐渐淡忘,但是不能否认IBM模型标志着一个时代的开始。从某种意义上,当使用公式
$
\hat
{
\mathbf
{
t
}}
=
\argmax
_{
\mathbf
{
t
}}
\textrm
{
P
}
(
\mathbf
{
t
}
|
\mathbf
{
s
}
)
$
描述机器翻译问题的时候,或多或少都在与IBM模型使用相似的思想。
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论