Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
单韦乔
Toy-MT-Introduction
Commits
9c16b856
Commit
9c16b856
authored
Feb 16, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
\textbf => \mathbf for some annotations
parent
a23bcd24
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
9 行增加
和
9 行删除
+9
-9
Book/Chapter3/Chapter3.tex
+9
-9
没有找到文件。
Book/Chapter3/Chapter3.tex
查看文件 @
9c16b856
...
...
@@ -193,14 +193,14 @@
\noindent\hspace
{
2em
}
假设我们拥有一定数量的双语对照的平行数据,是否可以从中自动获得单词之间的翻译概率呢?回忆一下第二章中的掷骰子游戏,我们使用了相对频率估计来自动获得骰子不同面出现概率的估计值。其中,重复投掷骰子很多次,然后统计“1”到“6”各面出现的次数,再除以投掷的总次数,最后得到它们出现的概率的极大似然估计。这里,我们使用类似的方式计算单词翻译概率。但是,我们现在拥有的是句子一级对齐的数据,并不知道两种语言之间单词的对应关系。因此,我们要从句子级对齐的平行数据中学习单词之间对齐的概率。我们使用一种稍微``复杂''一些的模型来描述这个问题。
假设
$
x
$
表示任意源语言单词,所有的目标语单词
$
y
\in
Y
$
都可能是它的译文,这里
$
Y
$
表示目标语言的词表。给定一个互译的句对
$
(
\
textbf
{
s
}
,
\textbf
{
t
}
)
$
,我们把
$
\textrm
{
P
}
(
x
\leftrightarrow
y;
\textbf
{
s
}
,
\textbf
{
t
}
)
$
定义为在观测到
$
(
\textbf
{
s
}
,
\textbf
{
t
}
)
$
的前提下
$
x
$
和
$
y
$
互译的概率。其中
$
x
$
是属于句子
$
\textbf
{
s
}$
中的词,而
$
y
$
是属于句子
$
\text
bf
{
t
}$
中的词。计算公式描述如下:
假设
$
x
$
表示任意源语言单词,所有的目标语单词
$
y
\in
Y
$
都可能是它的译文,这里
$
Y
$
表示目标语言的词表。给定一个互译的句对
$
(
\
mathbf
{
s
}
,
\mathbf
{
t
}
)
$
,我们把
$
\textrm
{
P
}
(
x
\leftrightarrow
y;
\mathbf
{
s
}
,
\mathbf
{
t
}
)
$
定义为在观测到
$
(
\mathbf
{
s
}
,
\mathbf
{
t
}
)
$
的前提下
$
x
$
和
$
y
$
互译的概率。其中
$
x
$
是属于句子
$
\mathbf
{
s
}$
中的词,而
$
y
$
是属于句子
$
\math
bf
{
t
}$
中的词。计算公式描述如下:
\begin{eqnarray}
\textrm
{
P
}
(x
\leftrightarrow
y;
\
textbf
{
s
}
,
\textbf
{
t
}
)
&
\equiv
&
\textrm
{
P
}
(x,y;
\textbf
{
s
}
,
\text
bf
{
t
}
)
\nonumber
\\
&
=
&
\frac
{
c(x,y;s,t)
}{
\sum
_{
x',y'
}
c(x',y';
\
textbf
{
s
}
,
\text
bf
{
t
}
)
}
\textrm
{
P
}
(x
\leftrightarrow
y;
\
mathbf
{
s
}
,
\mathbf
{
t
}
)
&
\equiv
&
\textrm
{
P
}
(x,y;
\mathbf
{
s
}
,
\math
bf
{
t
}
)
\nonumber
\\
&
=
&
\frac
{
c(x,y;s,t)
}{
\sum
_{
x',y'
}
c(x',y';
\
mathbf
{
s
}
,
\math
bf
{
t
}
)
}
\label
{
eqC3.1
}
\end{eqnarray}
\noindent
其中,
$
\equiv
$
表示定义式。分子
$
c
(
x,y;
\
textbf
{
s
}
,
\textbf
{
t
}
)
$
表示
$
x
$
和
$
y
$
在句对
$
(
\textbf
{
s
}
,
\textbf
{
t
}
)
$
中共现的总次数,分母
$
\sum
_{
x',y'
}
c
(
x',y';
$
$
\textbf
{
s
}
,
\textbf
{
t
}
)
$
表示任意的源语言单词
$
x'
$
和任意的目标语言单词
$
y'
$
在
$
(
\textbf
{
s
}
,
\text
bf
{
t
}
)
$
共现的总次数。
\noindent
其中,
$
\equiv
$
表示定义式。分子
$
c
(
x,y;
\
mathbf
{
s
}
,
\mathbf
{
t
}
)
$
表示
$
x
$
和
$
y
$
在句对
$
(
\mathbf
{
s
}
,
\mathbf
{
t
}
)
$
中共现的总次数,分母
$
\sum
_{
x',y'
}
c
(
x',y';
$
$
\mathbf
{
s
}
,
\mathbf
{
t
}
)
$
表示任意的源语言单词
$
x'
$
和任意的目标语言单词
$
y'
$
在
$
(
\mathbf
{
s
}
,
\math
bf
{
t
}
)
$
共现的总次数。
%----------------------------------------------
% 图3.8
...
...
@@ -212,10 +212,10 @@
\end{figure}
%---------------------------
\noindent\hspace
{
2em
}
看一个具体的例子,如图
\ref
{
figureC3.8
}
所示,有一个汉英互译的句对
$
(
\
textbf
{
s
}
,
\textbf
{
t
}
)
$
。假设,
$
x
=
\textrm
{
``翻译''
}$
,
$
y
=
\textrm
{
``transaltion''
}$
,现在要计算
$
x
$
和
$
y
$
共现的总次数。``翻译''和``translation''分别在
$
\textbf
{
s
}$
和
$
\textbf
{
t
}$
中出现了2次,因此
$
c
(
\textrm
{
``翻译''
}
,
\textrm
{
``translation''
}
;
\textbf
{
s
}
,
\textbf
{
t
}
)
$
等于4。而对于
$
\sum
_{
x',y'
}
c
(
x',y';
\textbf
{
s
}
,
\textbf
{
t
}
)
$
,因为
$
x'
$
和
$
y'
$
分别表示的是
$
s
$
和
$
t
$
中的任意词,所以
$
\sum
_{
x',y'
}
c
(
x',y';
\textbf
{
s
}
,
\textbf
{
t
}
)
$
表示所有单词对的数量 - 即
$
\textbf
{
s
}$
的词数乘以
$
\text
bf
{
t
}$
的词数。最后,“翻译”和“translation”的单词翻译概率为:
\noindent\hspace
{
2em
}
看一个具体的例子,如图
\ref
{
figureC3.8
}
所示,有一个汉英互译的句对
$
(
\
mathbf
{
s
}
,
\mathbf
{
t
}
)
$
。假设,
$
x
=
\textrm
{
``翻译''
}$
,
$
y
=
\textrm
{
``transaltion''
}$
,现在要计算
$
x
$
和
$
y
$
共现的总次数。``翻译''和``translation''分别在
$
\mathbf
{
s
}$
和
$
\mathbf
{
t
}$
中出现了2次,因此
$
c
(
\textrm
{
``翻译''
}
,
\textrm
{
``translation''
}
;
\mathbf
{
s
}
,
\mathbf
{
t
}
)
$
等于4。而对于
$
\sum
_{
x',y'
}
c
(
x',y';
\mathbf
{
s
}
,
\mathbf
{
t
}
)
$
,因为
$
x'
$
和
$
y'
$
分别表示的是
$
s
$
和
$
t
$
中的任意词,所以
$
\sum
_{
x',y'
}
c
(
x',y';
\mathbf
{
s
}
,
\mathbf
{
t
}
)
$
表示所有单词对的数量 - 即
$
\mathbf
{
s
}$
的词数乘以
$
\math
bf
{
t
}$
的词数。最后,“翻译”和“translation”的单词翻译概率为:
\begin{eqnarray}
\textrm
{
P
}
(
\text
{
``翻译''
}
,
\text
{
``translation''
}
;
\
textbf
{
s
}
,
\textbf
{
t
}
)
&
=
&
\frac
{
c(
\textrm
{
``翻译''
}
,
\textrm
{
``translation''
}
;
\textbf
{
s
}
,
\textbf
{
t
}
)
}{
\sum
_{
x',y'
}
c(x',y';
\textbf
{
s
}
,
\text
bf
{
t
}
)
}
\nonumber
\\
\textrm
{
P
}
(
\text
{
``翻译''
}
,
\text
{
``translation''
}
;
\
mathbf
{
s
}
,
\mathbf
{
t
}
)
&
=
&
\frac
{
c(
\textrm
{
``翻译''
}
,
\textrm
{
``translation''
}
;
\mathbf
{
s
}
,
\mathbf
{
t
}
)
}{
\sum
_{
x',y'
}
c(x',y';
\mathbf
{
s
}
,
\math
bf
{
t
}
)
}
\nonumber
\\
&
=
&
\frac
{
4
}{
|s|
\times
|t|
}
\nonumber
\\
&
=
&
\frac
{
4
}{
63
}
\label
{
eqC3.2
}
...
...
@@ -224,12 +224,12 @@
\noindent
这里运算
$
|
\cdot
|
$
表示句子长度。类似的,可以得到``机器''和``translation''、“机器”和“look”的单词翻译概率:
\begin{eqnarray}
\textrm
{
P
}
(
\text
{
``机器''
}
,
\text
{
``translation''
}
;
\
textbf
{
s
}
,
\text
bf
{
t
}
)
&
=
&
\frac
{
2
}{
63
}
\\
\textrm
{
P
}
(
\text
{
``机器''
}
,
\text
{
``look''
}
;
\
textbf
{
s
}
,
\text
bf
{
t
}
)
&
=
&
\frac
{
0
}{
63
}
\textrm
{
P
}
(
\text
{
``机器''
}
,
\text
{
``translation''
}
;
\
mathbf
{
s
}
,
\math
bf
{
t
}
)
&
=
&
\frac
{
2
}{
63
}
\\
\textrm
{
P
}
(
\text
{
``机器''
}
,
\text
{
``look''
}
;
\
mathbf
{
s
}
,
\math
bf
{
t
}
)
&
=
&
\frac
{
0
}{
63
}
\label
{
eqC3.4
}
\end{eqnarray}
\noindent
注意,由于``look''没有出现在数据中,因此
$
\textrm
{
P
}
(
\text
{
``机器''
}
,
\text
{
``look''
}
;
\
textbf
{
s
}
,
\text
bf
{
t
}
)=
0
$
。这时,我们可以使用第二章介绍的平滑算法赋予它一个非零的值,以保证在后续的步骤中整个翻译模型不会出现零概率的情况。
\noindent
注意,由于``look''没有出现在数据中,因此
$
\textrm
{
P
}
(
\text
{
``机器''
}
,
\text
{
``look''
}
;
\
mathbf
{
s
}
,
\math
bf
{
t
}
)=
0
$
。这时,我们可以使用第二章介绍的平滑算法赋予它一个非零的值,以保证在后续的步骤中整个翻译模型不会出现零概率的情况。
\vspace
{
0.5em
}
\textbf
{
(三)如何从大量的双语平行数据中学习?
}
\index
{
Chapter3.2.3.3
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论