Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
单韦乔
Toy-MT-Introduction
Commits
63e09f89
Commit
63e09f89
authored
Feb 13, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
chapter 3.4.2
parent
816a5471
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
23 行增加
和
17 行删除
+23
-17
Book/Chapter3/Chapter3.tex
+23
-17
没有找到文件。
Book/Chapter3/Chapter3.tex
查看文件 @
63e09f89
...
@@ -706,14 +706,14 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
...
@@ -706,14 +706,14 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\end{equation}
\end{equation}
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
源语单词
$
s
_
j
$
生成概率
$
\textrm
{
P
}
(
a
_
j|a
_
1
^{
j
-
1
}
,s
_
1
^{
j
-
1
}
,m,t
)
$
仅依懒与其对齐的译文单词
$
t
_{
a
_
i
}$
,即词汇翻译概率
$
f
(
s
_
j|t
_{
a
_
i
}
)
$
。此时词汇翻译概率满足
$
\sum
_{
s
_
j
}{
f
(
s
_
j|t
_{
a
_
i
}
)
}
=
1
$
。比如在图
\ref
{
figureC3.27
}
表示的例子中,源语单词``上''
生成的概率只和与它对齐的``on''有关系,与其他
单词没有关系。
\item
源语单词
$
s
_
j
$
生成概率
$
\textrm
{
P
}
(
a
_
j|a
_
1
^{
j
-
1
}
,s
_
1
^{
j
-
1
}
,m,t
)
$
仅依懒与其对齐的译文单词
$
t
_{
a
_
i
}$
,即词汇翻译概率
$
f
(
s
_
j|t
_{
a
_
i
}
)
$
。此时词汇翻译概率满足
$
\sum
_{
s
_
j
}{
f
(
s
_
j|t
_{
a
_
i
}
)
}
=
1
$
。比如在图
\ref
{
figureC3.27
}
表示的例子中,源语单词``上''
出现的概率只和与它对齐的单词``on''有关系,与其它
单词没有关系。
\begin{equation}
\begin{equation}
\textrm
{
P
}
(s
_
j|a
_
1
^{
j
}
,s
_
1
^{
j-1
}
,m,t)
\equiv
f(s
_
j|t
_{
a
_
i
}
)
\textrm
{
P
}
(s
_
j|a
_
1
^{
j
}
,s
_
1
^{
j-1
}
,m,t)
\equiv
f(s
_
j|t
_{
a
_
i
}
)
\label
{
eqC3.30
}
\label
{
eqC3.30
}
\end{equation}
\end{equation}
我们用一个简单的例子对公式
\ref
{
eqC3.30
}
进行说明。比如,在图
\ref
{
figureC3.28
}
所示的实例中,``桌子''对齐
``table''可描述为
$
f
(
s
_
2
|t
_{
a
_
2
}
)=
f
(
\textrm
{
``桌子''
}
|
\textrm
{
``table''
}
)
$
,表示给定``table''翻译为``桌子''的概率。通常,
$
f
(
s
_
2
|t
_{
a
_
2
}
)
$
以概率词典的形式进行维护,它反应了两种语言词汇一级的对应
。
我们用一个简单的例子对公式
\ref
{
eqC3.30
}
进行说明。比如,在图
\ref
{
figureC3.28
}
所示的实例中,``桌子''对齐
到``table'',可被描述为
$
f
(
s
_
2
|t
_{
a
_
2
}
)=
f
(
\textrm
{
``桌子''
}
|
\textrm
{
``table''
}
)
$
,表示给定``table''翻译为``桌子''的概率。通常,
$
f
(
s
_
2
|t
_{
a
_
2
}
)
$
被认为是一种概率词典,它反应了两种语言词汇一级的对应程度
。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\end{itemize}
\end{itemize}
...
@@ -723,12 +723,12 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
...
@@ -723,12 +723,12 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\begin{figure}
[htp]
\begin{figure}
[htp]
\centering
\centering
\input
{
./Chapter3/Figures/figure328
}
\input
{
./Chapter3/Figures/figure328
}
\caption
{
IBM模型1中
词汇一
级的对应
}
\caption
{
IBM模型1中
单词
级的对应
}
\label
{
figureC3.28
}
\label
{
figureC3.28
}
\end{figure}
\end{figure}
%---------------------------
%---------------------------
\noindent\hspace
{
2em
}
将上述三个假设和公式
\ref
{
eqC3.22
}
代入公式
\ref
{
eqC3.21
}
中,得到
概率
$
\textrm
{
P
}
(
s|t
)
$
的表达式:
\noindent\hspace
{
2em
}
将上述三个假设和公式
\ref
{
eqC3.22
}
代入公式
\ref
{
eqC3.21
}
中,得到
$
\textrm
{
P
}
(
s|t
)
$
的表达式:
\begin{eqnarray}
\begin{eqnarray}
\textrm
{
P
}
(s|t)
&
=
&
\sum
_
a
{
\textrm
{
P
}
(s,a|t)
}
\nonumber
\\
\textrm
{
P
}
(s|t)
&
=
&
\sum
_
a
{
\textrm
{
P
}
(s,a|t)
}
\nonumber
\\
...
@@ -738,13 +738,13 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
...
@@ -738,13 +738,13 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\label
{
eqC3.31
}
\label
{
eqC3.31
}
\end{eqnarray}
\end{eqnarray}
\noindent\hspace
{
2em
}
在公式
\ref
{
eqC3.31
}
中,我们需要遍历所有的对齐,即
$
\sum
_
a
{
\cdot
}$
。但这种表示不够直观,因此可以把这个过程重新表示为如下形式:
\noindent\hspace
{
2em
}
在公式
\ref
{
eqC3.31
}
中,我们需要遍历所有的
词
对齐,即
$
\sum
_
a
{
\cdot
}$
。但这种表示不够直观,因此可以把这个过程重新表示为如下形式:
\begin{equation}
\begin{equation}
\textrm
{
P
}
(s|t)=
{
\sum
_{
a
_
1=0
}^{
l
}
\cdots
}{
\sum
_{
a
_
m=0
}^{
l
}
\frac
{
\varepsilon
}{
(l+1)
^
m
}}{
\prod
_{
j=1
}^{
m
}
f(s
_
j|t
_{
a
_
j
}
)
}
\textrm
{
P
}
(s|t)=
{
\sum
_{
a
_
1=0
}^{
l
}
\cdots
}{
\sum
_{
a
_
m=0
}^{
l
}
\frac
{
\varepsilon
}{
(l+1)
^
m
}}{
\prod
_{
j=1
}^{
m
}
f(s
_
j|t
_{
a
_
j
}
)
}
\label
{
eqC3.32
}
\label
{
eqC3.32
}
\end{equation}
\end{equation}
\noindent\hspace
{
2em
}
我们可以把公式
\ref
{
eqC3.32
}
分为两个部分进行理解和计算。第一部分:遍历所有的对齐
$
a
$
。其中
$
a
$
由
$
\{
a
_
1
,...,a
_
m
\}
$
组成,每个
$
a
_
j
\in
\{
a
_
1
,...,a
_
m
\}
$
从译文的开始位置
$
(
0
)
$
循环到截止位置
$
(
l
)
$
。如图
\ref
{
figureC3.28
}
表示的例子,描述的是源语单词
$
s
_
3
$
从译文的开始
$
t
_
0
$
遍历到结尾
$
t
_
3
$
,即
$
a
_
3
$
。第二部分: 对于每个
$
a
$
累加对齐概率
$
\textrm
{
P
}
(
s,a|t
)=
\frac
{
\varepsilon
}{
(
l
+
1
)
^
m
}{
\prod
_{
j
=
1
}^{
m
}
f
(
s
_
j|t
_{
a
_
j
}
)
}$
。
\noindent\hspace
{
2em
}
公式
\ref
{
eqC3.32
}
分为两个主要部分。第一部分:遍历所有的对齐
$
a
$
。其中
$
a
$
由
$
\{
a
_
1
,...,a
_
m
\}
$
组成,每个
$
a
_
j
\in
\{
a
_
1
,...,a
_
m
\}
$
从译文的开始位置
$
(
0
)
$
循环到截止位置
$
(
l
)
$
。如图
\ref
{
figureC3.28
}
表示的例子,描述的是源语单词
$
s
_
3
$
从译文的开始
$
t
_
0
$
遍历到结尾
$
t
_
3
$
,即
$
a
_
3
$
的取值范围
。第二部分: 对于每个
$
a
$
累加对齐概率
$
\textrm
{
P
}
(
s,a|t
)=
\frac
{
\varepsilon
}{
(
l
+
1
)
^
m
}{
\prod
_{
j
=
1
}^{
m
}
f
(
s
_
j|t
_{
a
_
j
}
)
}$
。
%----------------------------------------------
%----------------------------------------------
% 图3.29
% 图3.29
\begin{figure}
[htp]
\begin{figure}
[htp]
...
@@ -755,46 +755,52 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
...
@@ -755,46 +755,52 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\end{figure}
\end{figure}
%---------------------------
%---------------------------
\noindent\hspace
{
2em
}
这样就得到了IBM模型1中句子翻译概率的计算式。
它的形式相比原始的计算式要简单许多。
可以看出IBM模型1的假设把翻译模型化简成了非常简单的形式。对于给定的
$
s
$
,
$
a
$
和
$
t
$
,只要知道
$
\varepsilon
$
和
$
t
(
s
_
j |t
_
(
a
_
j
))
$
就可以计算出
$
\textrm
{
P
}
(
s|t
)
$
,进而求出
$
\textrm
{
P
}
(
s|t
)
$
。
\noindent\hspace
{
2em
}
这样就得到了IBM模型1中句子翻译概率的计算式。可以看出IBM模型1的假设把翻译模型化简成了非常简单的形式。对于给定的
$
s
$
,
$
a
$
和
$
t
$
,只要知道
$
\varepsilon
$
和
$
t
(
s
_
j |t
_
(
a
_
j
))
$
就可以计算出
$
\textrm
{
P
}
(
s|t
)
$
,进而求出
$
\textrm
{
P
}
(
s|t
)
$
。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection
{
IBM模型2
}
\index
{
Chapter3.4.2
}
\subsection
{
IBM模型2
}
\index
{
Chapter3.4.2
}
\noindent\hspace
{
2em
}
IBM模型1中的假设大大化简了问题的难度,但是这些假设显然并不与实际相符。特别是模型1中假设词对齐服从均与分布,这显然存在问题。如图
\ref
{
figureC3.28
}
,尽管译文
$
t
$
比
$
t'
$
的质量更好,但对于IBM模型1来说翻译概率相同。这是因为当词对齐服从均匀分布时,模型会忽略了翻译的调序问题。因此当单词翻译相同但顺序不同时,翻译概率一样。
\noindent\hspace
{
2em
}
IBM模型1很好的化简了问题,但是由于使用了很强的假设,导致模型和实际情况有较大差异。其中一个比较严重的问题是假设词对齐的生成概率服从均匀分布。图
\ref
{
figureC3.28
}
展示了一个简单的实例。尽管译文
$
t
$
比
$
t'
$
的质量更好,但对于IBM模型1来说翻译概率相同。这是因为当词对齐服从均匀分布时,模型会忽略目标语言单词的位置信息。因此当单词翻译相同但顺序不同时,翻译概率一样。同时,不合理的对齐也会导致使用不合理的词汇翻译概率,因为源语言单词是由错误位置的目标语单词生成的。虽然这个问题可以通过引入目标语语言模型进行缓解,但是翻译模型仍然需要给出更合理的建模方式,以保证翻译译文的选择是正确的。
%----------------------------------------------
%----------------------------------------------
% 图3.30
% 图3.30
\begin{figure}
[htp]
\begin{figure}
[htp]
\centering
\centering
\input
{
./Chapter3/Figures/figure330
}
\input
{
./Chapter3/Figures/figure330
}
\caption
{
此处为图片的描述...
}
\caption
{
不同的译文导致不同IBM模型1得分的情况
}
\label
{
figureC3.30
}
\label
{
figureC3.30
}
\end{figure}
\end{figure}
%---------------------------
%---------------------------
\noindent\hspace
{
2em
}
IBM模型2认为词对齐是有倾向性的,对齐至少要与源语单词的位置和目标语单词的位置有关。基于这种想法,模型2对模型1的词对齐假设进行了修改。它假设对齐对齐位置
$
a
_
j
$
的生成概率与语言单位位置
$
j
$
,源语句子长度
$
m
$
和译文长度
$
l
$
有关。形式化的描述见公式
\ref
{
eqC3.33
}
。
\noindent\hspace
{
2em
}
因此,IBM模型2抛弃了对对齐概率
$
\textrm
{
P
}
(
a
_
j|a
_
1
^{
j
-
1
}
,s
_
1
^{
j
-
1
}
,m,t
)
$
服从均匀分布的假设。在IBM模型2中,我们认为词对齐是有倾向性的,对齐至少要与源语单词的位置和目标语单词的位置有关。具体来说,对齐位置
$
a
_
j
$
的生成概率与语言单位位置
$
j
$
、源语句子长度
$
m
$
和译文长度
$
l
$
有关,形式化表述为:
\begin{equation}
\begin{equation}
\textrm
{
P
}
(a
_
j|a
_
1
^{
j-1
}
,s
_
1
^{
j-1
}
,m,t)
\equiv
a(a
_
j|j,m,l)
\textrm
{
P
}
(a
_
j|a
_
1
^{
j-1
}
,s
_
1
^{
j-1
}
,m,t)
\equiv
a(a
_
j|j,m,l)
\label
{
eqC3.33
}
\label
{
eqC3.33
}
\end{equation}
\end{equation}
\noindent\hspace
{
2em
}
我们用一个简单的例子来说明公式
\ref
{
eqC3.33
}
。如图
\ref
{
figureC3.31
}
所示,其中“桌子”对齐“table”。如果在模型1中,“桌子”对齐的译文中的
$
t
_
0
$
、“on”、“the”、和“table”的概率是一样的。但在模型2中可形式化的表示为
$
a
(
a
_
j |j,m,l
)=
a
(
3
|
2
,
3
,
3
)
$
,意思是对于源文位置2(
$
j
=
2
$
)的词,如果它的源文是和目标语译文都是3个词(
$
l
=
m
=
3
$
),对齐到目标语译文位置3(
$
a
_
j
=
3
$
)的概率是多少。
\noindent\hspace
{
2em
}
我们用一个简单的例子来说明公式
\ref
{
eqC3.33
}
。如图
\ref
{
figureC3.31
}
所示,这里考虑``桌子''对齐到``table''的情况。如果在模型1中,``桌子''对齐到译文四个位置上的单词的概率是一样的。但在模型2中,``桌子''对齐到``table''被形式化为
$
a
(
a
_
j |j,m,l
)=
a
(
3
|
2
,
3
,
3
)
$
,意思是对于源文位置2(
$
j
=
2
$
)的词,如果它的源文是和目标语译文都是3个词(
$
l
=
m
=
3
$
),对齐到目标语译文位置3(
$
a
_
j
=
3
$
)的概率是多少?因为
$
a
(
a
_
j|j,m,l
)
$
也是模型需要学习的参数,因此``桌子''对齐到不同位置上的目标语单词概率也是不一样的。理想的情况下,通过
$
a
(
a
_
j|j,m,l
)
$
,``桌子''对齐到``table''应该得到更高的概率。
%----------------------------------------------
%----------------------------------------------
% 图3.31
% 图3.31
\begin{figure}
[htp]
\begin{figure}
[htp]
\centering
\centering
\input
{
./Chapter3/Figures/figure331
}
\input
{
./Chapter3/Figures/figure331
}
\caption
{
此处为图片的描述...
}
\caption
{
汉语到英语词对齐实例
}
\label
{
figureC3.31
}
\label
{
figureC3.31
}
\end{figure}
\end{figure}
%---------------------------
%---------------------------
\noindent\hspace
{
2em
}
IBM模型2的其他假设均与模型1相同,如公式
\ref
{
eqC3.28
}
和公式
\ref
{
eqC3.29
}
所示。把公式
\ref
{
eqC3.28
}
、
\ref
{
eqC3.29
}
和
\ref
{
eqC3.33
}
代入得到完整的模型。如公式
\ref
{
eqC3.34
}
所示。
\noindent\hspace
{
2em
}
IBM模型2的其他假设均与模型1相同。把公式
\ref
{
eqC3.28
}
、
\ref
{
eqC3.29
}
和
\ref
{
eqC3.33
}
重新带入公式
\ref
{
eqC3.22
}
和
\ref
{
eqC3.21
}
,可以得到IBM模型2的数学描述:
\begin{equation}
\textrm
{
P
}
(s|t)=
\;\sum
_
a
{
\textrm
{
P
}
(s,a|t)
}
=
\sum
_{
a
_
1=0
}^{
l
}{
\cdots
}
\sum
_{
a
_
m=0
}^{
l
}{
\varepsilon
}
\prod
_{
j=1
}^{
m
}{
a(a
_
j|j,m,l)f(s
_
j|t
_{
a
_
j
}
)
}
\begin{eqnarray}
\textrm
{
P
}
(s|t)
&
=
&
\sum
_
a
{
\textrm
{
P
}
(s,a|t)
}
\nonumber
\\
&
=
&
\sum
_{
a
_
1=0
}^{
l
}{
\cdots
}
\sum
_{
a
_
m=0
}^{
l
}{
\varepsilon
}
\prod
_{
j=1
}^{
m
}{
a(a
_
j|j,m,l)f(s
_
j|t
_{
a
_
j
}
)
}
\label
{
eqC3.34
}
\label
{
eqC3.34
}
\end{eq
uation
}
\end{eq
narray
}
\noindent\hspace
{
2em
}
类似于模型1,模型2的表达式
\ref
{
eqC3.3
1
}
也能拆分为两部分进行理解和计算。第一部分:遍历所有的
$
a
$
。第二部分:对于每个
$
a
$
累加对齐概率
$
\textrm
{
P
}
(
s,a|t
)
$
,即计算对齐概率和词汇翻译概率
。
\noindent\hspace
{
2em
}
类似于模型1,模型2的表达式
\ref
{
eqC3.3
4
}
也能被拆分为两部分进行理解。第一部分:遍历所有的
$
a
$
;第二部分:对于每个
$
a
$
累加对齐概率
$
\textrm
{
P
}
(
s,a|t
)
$
,即计算对齐概率
$
a
(
a
_
j|j,m,l
)
$
和词汇翻译概率
$
f
(
s
_
j|t
_{
a
_
j
}
)
$
对于所有位置的乘积
。
\subsection
{
计算优化
}
\index
{
Chapter3.4.3
}
\subsection
{
计算优化
}
\index
{
Chapter3.4.3
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论