Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
单韦乔
Toy-MT-Introduction
Commits
5742ff2f
Commit
5742ff2f
authored
Feb 18, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
update
parent
9934acaf
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
8 行增加
和
8 行删除
+8
-8
Book/Chapter3/Chapter3.tex
+8
-8
没有找到文件。
Book/Chapter3/Chapter3.tex
查看文件 @
5742ff2f
...
...
@@ -218,7 +218,7 @@
\begin{eqnarray}
\textrm
{
P
}
(
\text
{
``翻译''
}
,
\text
{
``translation''
}
;
\mathbf
{
s
}
,
\mathbf
{
t
}
)
&
=
&
\frac
{
c(
\textrm
{
``翻译''
}
,
\textrm
{
``translation''
}
;
\mathbf
{
s
}
,
\mathbf
{
t
}
)
}{
\sum
_{
x',y'
}
c(x',y';
\mathbf
{
s
}
,
\mathbf
{
t
}
)
}
\nonumber
\\
&
=
&
\frac
{
4
}{
|s|
\times
|t|
}
\nonumber
\\
&
=
&
\frac
{
4
}{
|s|
\times
|t|
}
\nonumber
\\
&
=
&
\frac
{
4
}{
63
}
\label
{
eqC3.2
}
\end{eqnarray}
...
...
@@ -261,7 +261,7 @@
\begin{eqnarray}
{
\textrm
{
P
}
(
\textrm
{
``翻译''
}
,
\textrm
{
``translation''
}
)
}
&
=
&
{
\frac
{
c(
\textrm
{
``翻译''
}
,
\textrm
{
``translation''
}
;s
^{
1
}
,t
^{
1
}
)+c(
\textrm
{
``翻译''
}
,
\textrm
{
``translation''
}
;s
^{
2
}
,t
^{
2
}
)
}{
\sum
_{
x',y'
}
c(x',y';s
^{
1
}
,t
^{
1
}
) +
\sum
_{
x',y'
}
c(x',y';s
^{
2
}
,t
^{
2
}
)
}}
\nonumber
\\
&
=
&
\frac
{
4 + 1
}{
|s
^{
1
}
|
\times
|t
^{
1
}
| + |s
^{
2
}
|
\times
|t
^{
2
}
|
}
\nonumber
\\
&
=
&
\frac
{
4 + 1
}{
9
\times
7 + 5
\times
7
}
\nonumber
\\
&
=
&
\frac
{
4 + 1
}{
9
\times
7 + 5
\times
7
}
\nonumber
\\
&
=
&
\frac
{
5
}{
102
}
\label
{
eqC3.6
}
\end{eqnarray}
...
...
@@ -639,7 +639,7 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\item
首先根据译文确定源文
$
s
$
的单词数量(
$
m
=
3
$
),即
$
\textrm
{
P
}
(
m
=
3
|
\textrm
{
``
}
t
_
0
\;\textrm
{
on
\;
the
\;
table''
}
)
$
;
\vspace
{
0.5em
}
\item
再确定源语言单词
$
s
_
1
$
由谁生成的且生成的是什么。可以看到
$
s
_
1
$
由第0个目标语单词生成的,也就是
$
t
_
0
$
,表示为
$
\textrm
{
P
}
(
a
_
1
\;
=
0
\;\;
|
\phi
,
\phi
,
3
,
\textrm
{
``
}
t
_
0
\;\textrm
{
on
\;
the
\;
table''
}
)
$
,其中
$
\phi
$
表示空。当知道了
$
s
_
1
$
是由
$
t
_
0
$
生成的,就可以通过
$
t
_
0
$
生成源语言第一个单词``在'',即
$
\textrm
{
P
}
(
s
_
1
\;
=
\textrm
{
``在''
}
\;
|
\{
1
-
0
\}
,
\phi
,
3
,
\textrm
{
``
$
t
_
0
$
\;
on
\;
the
\;
table''
}
)
$
;
\item
再确定源语言单词
$
s
_
1
$
由谁生成的且生成的是什么。可以看到
$
s
_
1
$
由第0个目标语单词生成的,也就是
$
t
_
0
$
,表示为
$
\textrm
{
P
}
(
a
_
1
\;
=
0
\;\;
|
\phi
,
\phi
,
3
,
\textrm
{
``
}
t
_
0
\;\textrm
{
on
\;
the
\;
table''
}
)
$
,其中
$
\phi
$
表示空。当知道了
$
s
_
1
$
是由
$
t
_
0
$
生成的,就可以通过
$
t
_
0
$
生成源语言第一个单词``在'',即
$
\textrm
{
P
}
(
s
_
1
\;
=
\textrm
{
``
在''
}
\;
|
\{
1
-
0
\}
,
\phi
,
3
,
\textrm
{
``
$
t
_
0
$
\;
on
\;
the
\;
table''
}
)
$
;
\vspace
{
0.5em
}
\item
类似于生成
$
s
_
1
$
,我们依次确定源语言单词
$
s
_
2
$
和
$
s
_
3
$
由谁生成且生成的是什么;
...
...
@@ -739,7 +739,7 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\end{figure}
%---------------------------
\noindent\hspace
{
2em
}
这样就得到了IBM模型1中句子翻译概率的计算式。可以看出IBM模型1的假设把翻译模型化简成了非常简单的形式。对于给定的
$
s
$
,
$
a
$
和
$
t
$
,只要知道
$
\varepsilon
$
和
$
t
(
s
_
j |t
_
(
a
_
j
))
$
就可以计算出
$
\textrm
{
P
}
(
s|t
)
$
,进而求出
$
\textrm
{
P
}
(
s|t
)
$
。
\noindent\hspace
{
2em
}
这样就得到了IBM模型1中句子翻译概率的计算式。可以看出IBM模型1的假设把翻译模型化简成了非常简单的形式。对于给定的
$
s
$
,
$
a
$
和
$
t
$
,只要知道
$
\varepsilon
$
和
$
t
(
s
_
j |t
_
(
a
_
j
))
$
就可以计算出
$
\textrm
{
P
}
(
s|t
)
$
,进而求出
$
\textrm
{
P
}
(
s|t
)
$
。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection
{
IBM模型2
}
\index
{
Chapter3.4.2
}
...
...
@@ -769,7 +769,7 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\begin{eqnarray}
\textrm
{
P
}
(s|t)
&
=
&
\sum
_
a
{
\textrm
{
P
}
(s,a|t)
}
\nonumber
\\
&
=
&
\sum
_{
a
_
1=0
}^{
l
}{
\cdots
}
\sum
_{
a
_
m=0
}^{
l
}{
\varepsilon
}
\prod
_{
j=1
}^{
m
}{
a(a
_
j|j,m,l)f(s
_
j|t
_{
a
_
j
}
)
}
&
=
&
\sum
_{
a
_
1=0
}^{
l
}{
\cdots
}
\sum
_{
a
_
m=0
}^{
l
}{
\varepsilon
}
\prod
_{
j=1
}^{
m
}{
a(a
_
j|j,m,l)f(s
_
j|t
_{
a
_
j
}
)
}
\label
{
eqC3.34
}
\end{eqnarray}
...
...
@@ -890,7 +890,7 @@ L(f,\lambda)=\frac{\epsilon}{(l+1)^m}\prod_{j=1}^{m}\sum_{i=0}^{l}\prod_{j=1}^{m
\end{eqnarray}
\noindent\hspace
{
2em
}
为了求
$
\frac
{
\partial
\big
[
\prod\limits
_{
j
=
1
}^{
m
}
\sum\limits
_{
i
=
0
}^{
l
}
f
(
s
_
j|t
_
i
)
\big
]
}{
\partial
f
(
s
_
u|t
_
v
)
}$
,这里引入一个辅助函数。令
$
g
(
z
)=
\alpha
z
^{
\beta
}$
为变量
$
z
$
的函数,显然,
$
\frac
{
\partial
g
(
z
)
}{
\partial
z
}
=
\alpha
\beta
z
^{
\beta
-
1
}
=
\frac
{
\beta
}{
z
}
\alpha
z
^{
\beta
}
=
\frac
{
\beta
}{
z
}
g
(
z
)
$
。这里可以把
$
\prod
_{
j
=
1
}^{
m
}
\sum
_{
i
=
0
}^{
l
}
f
(
s
_
j|t
_
i
)
$
看做
$
g
(
z
)=
\alpha
z
^{
\beta
}$
的实例。首先,令
$
z
=
\sum
_{
i
=
0
}^{
l
}
f
(
s
_
u|t
_
i
)
$
,注意
$
s
_
u
$
为给定的源语单词。然后,把
$
\beta
$
定义为
$
\sum
_{
i
=
0
}^{
l
}
f
(
s
_
u|t
_
i
)
$
在
$
\prod
_{
j
=
1
}^{
m
}
\sum
_{
i
=
0
}^{
l
}
f
(
s
_
j|t
_
i
)
$
中出现的次数,即源语句子中与
$
s
_
u
$
相同的单词的个数。
$
\frac
{
\partial
g
(
z
)
}{
\partial
z
}
=
\alpha
\beta
z
^{
\beta
-
1
}
=
\frac
{
\beta
}{
z
}
\alpha
z
^{
\beta
}
=
\frac
{
\beta
}{
z
}
g
(
z
)
$
。这里可以把
$
\prod
_{
j
=
1
}^{
m
}
\sum
_{
i
=
0
}^{
l
}
f
(
s
_
j|t
_
i
)
$
看做
$
g
(
z
)=
\alpha
z
^{
\beta
}$
的实例。首先,令
$
z
=
\sum
_{
i
=
0
}^{
l
}
f
(
s
_
u|t
_
i
)
$
,注意
$
s
_
u
$
为给定的源语单词。然后,把
$
\beta
$
定义为
$
\sum
_{
i
=
0
}^{
l
}
f
(
s
_
u|t
_
i
)
$
在
$
\prod
_{
j
=
1
}^{
m
}
\sum
_{
i
=
0
}^{
l
}
f
(
s
_
j|t
_
i
)
$
中出现的次数,即源语句子中与
$
s
_
u
$
相同的单词的个数。
\begin{equation}
\beta
=
\sum
_{
j=1
}^{
m
}
\delta
(s
_
j,s
_
u)
\label
{
eqC3.38
}
...
...
@@ -1055,7 +1055,7 @@ m-\varphi_0\\
\sum
_{
f
}
t(s|t)
&
=
&
1
\label
{
eqC3.5.9
}
\\
\sum
_{
i
}
d(i|j,m,l)
&
=
&
1
\label
{
eqC3.5.10
}
\\
\sum
_{
\varphi
}
n(
\varphi
|t)
&
=
&
1
\label
{
eqC3.5.11
}
\\
p
_
0+p
_
1
&
=
&
1
\label
{
eqC3.5.12
}
p
_
0+p
_
1
&
=
&
1
\label
{
eqC3.5.12
}
\end{eqnarray}
...
...
@@ -1208,7 +1208,7 @@ p_0+p_1 & = & 1 \label{eqC3.5.12}
\noindent\hspace
{
2em
}
概念(Cept.)的意义?经过前面的分析可知,IBM模型的词对齐模型是使用了cept.这个概念。但是实质上,在IBM模型中使用的cept.最多只能对应一个目标语言单词(模型并没有用到源语言cept.的概念)。因此可以直接用单词代替cept.。这样,即使不引入cept.的概念,也并不影响IBM模型的建模。实际上,cept.的引入确实可以帮助我们从语法和语义的角度解释词对齐过程。不过,这个方法在IBM模型中的效果究竟如何也没有定论。
\section
{
小结
和
深入阅读
}
\index
{
Chapter3.7
}
\section
{
小结
及
深入阅读
}
\index
{
Chapter3.7
}
\noindent\hspace
{
2em
}
本章对IBM系列模型进行了全面的介绍和讨论,从一个简单的基于单词的翻译模型开始,我们以建模、解码、训练多个维度对统计机器翻译进行了描述,期间也涉及了词对齐、优化等多个重要概念。IBM模型共分为5个模型,对翻译问题的建模依次由浅入深,同时模型复杂度也依次增加。IBM模型作为入门统计机器翻译的``必经之路'',其思想对今天的机器翻译仍然产生着影响。虽然单独使用IBM模型进行机器翻译现在已经不多见,甚至很多从事神经机器翻译等前沿研究的人对IBM模型已经逐渐淡忘,但是不能否认IBM模型标志着一个时代的开始。从某种意义上,当我们使用公式
$
\hat
{
t
}
=
\argmax
_{
t
}
\textrm
{
P
}
(
t|s
)
$
描述机器翻译问题的时候,或多或少都在与IBM模型使用相似的思想。
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论