Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
9eccb8c7
Commit
9eccb8c7
authored
Aug 24, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
更新 chapter6.tex
parent
ef528976
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
21 行增加
和
13 行删除
+21
-13
Chapter6/chapter6.tex
+21
-13
没有找到文件。
Chapter6/chapter6.tex
查看文件 @
9eccb8c7
...
...
@@ -85,24 +85,32 @@
\parinterval
因此,IBM模型2抛弃了对
$
\textrm
{
P
}
(
a
_
j|a
_
1
^{
j
-
1
}
,s
_
1
^{
j
-
1
}
,m,
\mathbf
{
t
}
)
$
服从均匀分布的假设。IBM模型2认为词对齐是有倾向性的,它要与源语单词的位置和目标语单词的位置有关。具体来说,对齐位置
$
a
_
j
$
的生成概率与位置
$
j
$
、源语句子长度
$
m
$
和译文长度
$
l
$
有关,形式化表述为:
\begin{eqnarray}
\textrm
{
P
}
(a
_
j|a
_
1
^{
j-1
}
,s
_
1
^{
j-1
}
,m,
\mathbf
{
t
}
)
\equiv
a(a
_
j|j,m,l)
\label
{
eq:6-1
}
\label
{
eq:6-1
-1
}
\end{eqnarray}
%----------------------------------------------
\begin{figure}
[htp]
\centering
\input
{
./Chapter6/Figures/figure-zh-en-bilingual-sentence-pairs
}
\caption
{
汉译英双语句对及词对齐
}
\label
{
fig:6-4-a
}
\end{figure}
%----------------------------------------------
\parinterval
这里还用
图
\ref
{
fig:5-18
}
中的例子来进行说明
。在模型1中,``桌子''对齐到译文四个位置上的单词的概率是一样的。但在模型2中,``桌子''对齐到``table''被形式化为
$
a
(
a
_
j |j,m,l
)=
a
(
3
|
2
,
3
,
3
)
$
,意思是对于源文位置2(
$
j
=
2
$
)的词,如果它的源语言和译文都是3个词(
$
l
=
3
,m
=
3
$
),对齐到目标语译文位置3(
$
a
_
j
=
3
$
)的概率是多少?因为
$
a
(
a
_
j|j,m,l
)
$
也是模型需要学习的参数,因此``桌子''对齐到不同目标语单词的概率也是不一样的。理想的情况下,通过
$
a
(
a
_
j|j,m,l
)
$
,``桌子''对齐到``table''应该得到更高的概率。
\parinterval
这里还用
{
\chapterthree
}
中的例子(图
\ref
{
fig:6-4-a
}
)来进行说明j
。在模型1中,``桌子''对齐到译文四个位置上的单词的概率是一样的。但在模型2中,``桌子''对齐到``table''被形式化为
$
a
(
a
_
j |j,m,l
)=
a
(
3
|
2
,
3
,
3
)
$
,意思是对于源文位置2(
$
j
=
2
$
)的词,如果它的源语言和译文都是3个词(
$
l
=
3
,m
=
3
$
),对齐到目标语译文位置3(
$
a
_
j
=
3
$
)的概率是多少?因为
$
a
(
a
_
j|j,m,l
)
$
也是模型需要学习的参数,因此``桌子''对齐到不同目标语单词的概率也是不一样的。理想的情况下,通过
$
a
(
a
_
j|j,m,l
)
$
,``桌子''对齐到``table''应该得到更高的概率。
\parinterval
IBM模型2的其他假设均与模型1相同。把公式
\ref
{
eq:5-20
}
、
\ref
{
eq:5-22
}
和
\ref
{
eq:6-1
}
重新带入公式
\ref
{
eq:5-18
}
和
\ref
{
eq:5-17
}
,可以得到IBM模型2的数学描述:
\parinterval
IBM模型2的其他假设均与模型1相同。把公式
$
\textrm
{
P
}
(
m|
\mathbf
{
t
}
)
\equiv\varepsilon
$
、
$
\textrm
{
P
}
(
s
_
j|a
_
1
^{
j
}
,s
_
1
^{
j
-
1
}
,m,
\mathbf
{
t
}
)
\equiv
f
(
s
_
j|t
_{
a
_
j
}
)
$
和
\ref
{
eq:6-1-1
}
重新带入公式
$
\textrm
{
P
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)=
\textrm
{
P
}
(
m|
\mathbf
{
t
}
)
\prod
_{
j
=
1
}^{
m
}{
\textrm
{
P
}
(
a
_
j|a
_
1
^{
j
-
1
}
,s
_
1
^{
j
-
1
}
,m,
\mathbf
{
t
}
)
\textrm
{
P
}
(
s
_
j|a
_
1
^{
j
}
,s
_
1
^{
j
-
1
}
,
}$
\\
${
m,
\mathbf
{
t
}
)
}$
和
$
\textrm
{
P
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
)=
\sum
_{
\mathbf
{
a
}}
\textrm
{
P
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)
$
,可以得到IBM模型2的数学描述:
\begin{eqnarray}
\textrm
{
P
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
)
&
=
&
\sum
_{
\mathbf
{
a
}}{
\textrm
{
P
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)
}
\nonumber
\\
&
=
&
\sum
_{
a
_
1=0
}^{
l
}{
\cdots
}
\sum
_{
a
_
m=0
}^{
l
}{
\varepsilon
}
\prod
_{
j=1
}^{
m
}{
a(a
_
j|j,m,l)f(s
_
j|t
_{
a
_
j
}
)
}
\label
{
eq:6-2
}
\label
{
eq:6-2
-1
}
\end{eqnarray}
\parinterval
类似于模型1,模型2的表达式
\ref
{
eq:6-2
}
也能被拆分为两部分进行理解。第一部分:遍历所有的
$
\mathbf
{
a
}$
;第二部分:对于每个
$
\mathbf
{
a
}$
累加对齐概率
$
\textrm
{
P
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)
$
,即计算对齐概率
$
a
(
a
_
j|j,m,l
)
$
和词汇翻译概率
$
f
(
s
_
j|t
_{
a
_
j
}
)
$
对于所有源语言位置的乘积。
\parinterval
类似于模型1,模型2的表达式
\ref
{
eq:6-2
-1
}
也能被拆分为两部分进行理解。第一部分:遍历所有的
$
\mathbf
{
a
}$
;第二部分:对于每个
$
\mathbf
{
a
}$
累加对齐概率
$
\textrm
{
P
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)
$
,即计算对齐概率
$
a
(
a
_
j|j,m,l
)
$
和词汇翻译概率
$
f
(
s
_
j|t
_{
a
_
j
}
)
$
对于所有源语言位置的乘积。
\parinterval
同样的,模型2的解码及训练优化和模型1的十分相似,在此不再赘述,详细推导过程可以参看
\ref
{
decoding
&
computational-optimization
}
这一小节,这里给出IBM模型2的最终表达式:
\parinterval
同样的,模型2的解码及训练优化和模型1的十分相似,在此不再赘述,详细推导过程可以参看
{
\chapterthree
}
解码及计算优化
这一小节,这里给出IBM模型2的最终表达式:
\begin{eqnarray}
\textrm
{
IBM模型2:
\ \ \ \
}
\textrm
{
P
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
)
&
=
&
\varepsilon
\prod\limits
_{
j=1
}^{
m
}
\sum\limits
_{
i=0
}^{
l
}
a(i|j,m,l) f(s
_
j|t
_
i)
\label
{
eq:6-3
}
\label
{
eq:6-3
-1
}
\end{eqnarray}
...
...
@@ -126,21 +134,21 @@
\parinterval
因此,基于HMM的词对齐模型抛弃了IBM模型1-2的绝对位置假设,将一阶隐马尔可夫模型用于单词对齐问题。HMM词对齐模型认为,词语与词语之间并不是毫无联系的,对齐概率应该取决于对齐位置的差异而不是本身词语所在的位置。具体来说,位置
$
j
$
的对齐概率
$
a
_
j
$
与前一个位置
$
j
-
1
$
的对齐位置
$
a
_{
j
-
1
}$
和译文长度
$
l
$
有关,形式化的表述为:
\begin{eqnarray}
\textrm
{
P
}
(a
_{
j
}
|a
_{
1
}^{
j-1
}
,s
_{
1
}^{
j-1
}
,m,
\mathbf
{
t
}
)=
\textrm
{
P
}
(a
_{
j
}
|a
_{
j-1
}
,l)
\label
{
eq:6-4
}
\label
{
eq:6-4
-1
}
\end{eqnarray}
\parinterval
这里用图
\ref
{
fig:6-4
}
的例子对公式进行说明。在IBM模型1-2中,词语的对齐都是与单词所在的绝对位置有关。但在HMM词对齐模型中,``你''对齐到``you''被形式化为
$
\textrm
{
P
}
(
a
_{
j
}
|a
_{
j
-
1
}
,l
)=
P
(
5
|
4
,
5
)
$
,意思是对于源文位置
$
3
(
j
=
3
)
$
的词,如果它的目标译文是5个词,上一个对齐位置是
$
4
(
a
_{
2
}
=
4
)
$
,对齐到目标语译文位置
$
5
(
a
_{
j
}
=
5
)
$
的概率是多少?理想的情况下,通过
$
\textrm
{
P
}
(
a
_{
j
}
|a
_{
j
-
1
}
,l
)
$
,``你''对齐到``you''应该得到更高的概率,并且由于源语词``对''和``你''距离很近,因此其对应的对齐位置``with''和``you''的距离也应该很近。
\parinterval
因此,把公式
\ref
{
eq:5-22
}
和
\ref
{
eq:6-4
}
重新带入公式
\ref
{
eq:5-18
}
和
\ref
{
eq:5-17
}
,可得HMM词对齐模型的数学描述:
\parinterval
因此,把公式
$
\textrm
{
P
}
(
s
_
j|a
_
1
^{
j
}
,s
_
1
^{
j
-
1
}
,m,
\mathbf
{
t
}
)
\equiv
f
(
s
_
j|t
_{
a
_
j
}
)
$
和
\ref
{
eq:6-4-1
}
重新带入公式
$
\textrm
{
P
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)=
\textrm
{
P
}
(
m|
\mathbf
{
t
}
)
$
\\
$
\prod
_{
j
=
1
}^{
m
}{
\textrm
{
P
}
(
a
_
j|a
_
1
^{
j
-
1
}
,s
_
1
^{
j
-
1
}
,m,
\mathbf
{
t
}
)
\textrm
{
P
}
(
s
_
j|a
_
1
^{
j
}
,s
_
1
^{
j
-
1
}
,m,
\mathbf
{
t
}
)
}$
和
$
\textrm
{
P
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
)=
\sum
_{
\mathbf
{
a
}}
\textrm
{
P
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)
$
,可得HMM词对齐模型的数学描述:
\begin{eqnarray}
\textrm
{
P
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
)=
\sum
_{
\mathbf
{
a
}}{
\textrm
{
P
}
(m|
\mathbf
{
t
}
)
}
\prod
_{
j=1
}^{
m
}{
\textrm
{
P
}
(a
_{
j
}
|a
_{
j-1
}
,l)f(s
_{
j
}
|t
_{
a
_
j
}
)
}
\label
{
eq:6-5
}
\label
{
eq:6-5
-1
}
\end{eqnarray}
\parinterval
此外,为了使得HMM的对齐概率
$
\textrm
{
P
}
(
a
_{
j
}
|a
_{
j
-
1
}
,l
)
$
满足归一化的条件,这里还假设其对齐概率只取决于
$
a
_{
j
}
-
a
_{
j
-
1
}$
,即:
\begin{eqnarray}
\textrm
{
P
}
(a
_{
j
}
|a
_{
j-1
}
,l)=
\frac
{
\mu
(a
_{
j
}
-a
_{
j-1
}
)
}{
\sum
_{
i=1
}^{
l
}{
\mu
(i-a
_{
j-1
}
)
}}
\label
{
eq:6-6
}
\label
{
eq:6-6
-1
}
\end{eqnarray}
\noindent
其中,
$
\mu
(
\cdot
)
$
是隐马尔可夫模型的参数,可以通过训练得到。
...
...
@@ -393,13 +401,13 @@ p_0+p_1 & = & 1 \label{eq:6-11}
\parinterval
``缺陷''问题是指翻译模型会把一部分概率分配给一些根本不存在的源语言字符串。如果用
$
\textrm
{
P
}
(
\textrm
{
well
}
|
\mathbf
{
t
}
)
$
表示
$
\textrm
{
P
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
)
$
在所有的正确的(可以理解为语法上正确的)
$
\mathbf
{
s
}$
上的和,即
\begin{eqnarray}
\textrm
{
P
}
(
\textrm
{
well
}
|
\mathbf
{
t
}
)=
\sum
_{
\mathbf
{
s
}
\textrm
{
\;
is
\;
well
\;
formed
}}{
\textrm
{
P
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
)
}
\label
{
eq:6-
15
}
\label
{
eq:6-
22-new
}
\end{eqnarray}
\parinterval
类似地,用
$
\textrm
{
P
}
(
\textrm
{
ill
}
|
\mathbf
{
t
}
)
$
表示
$
\textrm
{
P
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
)
$
在所有的错误的(可以理解为语法上错误的)
$
\mathbf
{
s
}$
上的和。如果
$
\textrm
{
P
}
(
\textrm
{
well
}
|
\mathbf
{
t
}
)+
\textrm
{
P
}
(
\textrm
{
ill
}
|
\mathbf
{
t
}
)
<
1
$
,就把剩余的部分定义为
$
\textrm
{
P
}
(
\textrm
{
failure
}
|
\mathbf
{
t
}
)
$
。它的形式化定义为,
\begin{eqnarray}
\textrm
{
P
}
(
{
\textrm
{
failure
}
|
\mathbf
{
t
}}
) = 1 -
\textrm
{
P
}
(
{
\textrm
{
well
}
|
\mathbf
{
t
}}
) -
\textrm
{
P
}
(
{
\textrm
{
ill
}
|
\mathbf
{
t
}}
)
\label
{
eq:6-
16
}
\label
{
eq:6-
23-new
}
\end{eqnarray}
\parinterval
本质上,模型3和模型4就是对应
$
\textrm
{
P
}
(
{
\textrm
{
failure
}
|
\mathbf
{
t
}}
)
>
0
$
的情况。这部分概率是模型损失掉的。有时候也把这类``缺陷''问题称为Technical Deficiency。还有一种``缺陷''问题被称作Spiritually Deficiency,它是指
$
\textrm
{
P
}
(
{
\textrm
{
well
}
|
\mathbf
{
t
}}
)
+
\textrm
{
P
}
(
{
\textrm
{
ill
}
|
\mathbf
{
t
}}
)
=
1
$
且
$
\textrm
{
P
}
(
{
\textrm
{
ill
}
|
\mathbf
{
t
}}
)
>
0
$
的情况。模型1和模型2就有Spiritually Deficiency的问题。可以注意到,Technical Deficiency只存在于模型3和模型4中,模型1和模型2并没有Technical Deficiency问题。根本原因是模型1和模型2的词对齐是从源语言出发对应到目标语言,
$
\mathbf
{
t
}$
到
$
\mathbf
{
s
}$
的翻译过程实际上是从单词
$
s
_
1
$
开始到单词
$
s
_
m
$
结束,依次把每个源语言单词
$
s
_
j
$
对应到唯一一个目标语言位置。显然,这个过程能够保证每个源语言单词仅对应一个目标语言单词。但是,模型3和模型4中对齐是从目标语言出发对应到源语言,
$
\mathbf
{
t
}$
到
$
\mathbf
{
s
}$
的翻译过程从
$
t
_
1
$
开始
$
t
_
l
$
结束,依次把目标语言单词
$
t
_
i
$
生成的单词对应到某个源语言位置上。但是这个过程不能保证
$
t
_
i
$
中生成的单词所对应的位置没有被其他已经完成对齐的目标语单词所生成的某个源语言单词对应过,因此也就产生了``缺陷''问题。
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论