Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
3d210521
Commit
3d210521
authored
Feb 13, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
bug fixes
parent
8eb661b8
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
17 行增加
和
17 行删除
+17
-17
Section04-Phrasal-and-Syntactic-Models/section04.tex
+17
-17
没有找到文件。
Section04-Phrasal-and-Syntactic-Models/section04.tex
查看文件 @
3d210521
...
...
@@ -1832,7 +1832,7 @@ $d$是一个$(\textbf{s},\textbf{t})$上基于短语的翻译推导,$\textrm{P
\item
抽取到短语之后,如何将这些短语对转化成概率化的短语表?这里使用极大似然估计的方法(MLE)对翻译概率进行估计:
\vspace
{
-0.5em
}
\begin{displaymath}
\textrm
{
P
r
}
(
\bar
{
t
}
|
\bar
{
s
}
) =
\frac
{
count(
\bar
{
s
}
,
\bar
{
t
}
)
}{
count(
\bar
{
s
}
)
}
\textrm
{
P
}
(
\bar
{
t
}
|
\bar
{
s
}
) =
\frac
{
count(
\bar
{
s
}
,
\bar
{
t
}
)
}{
count(
\bar
{
s
}
)
}
\end{displaymath}
\vspace
{
-1.0em
}
\begin{itemize}
...
...
@@ -1889,7 +1889,7 @@ $d$是一个$(\textbf{s},\textbf{t})$上基于短语的翻译推导,$\textrm{P
\end{tikzpicture}
\vspace
{
-0.2em
}
\item
<4-> 在实际使用中,还可以加入反向翻译概率即
$
\textrm
{
P
r
}
(
\bar
{
s
}
|
\bar
{
t
}
)
$
来提升机器翻译模型性能
\item
<4-> 在实际使用中,还可以加入反向翻译概率即
$
\textrm
{
P
}
(
\bar
{
s
}
|
\bar
{
t
}
)
$
来提升机器翻译模型性能
\end{itemize}
\end{frame}
...
...
@@ -1901,7 +1901,7 @@ $d$是一个$(\textbf{s},\textbf{t})$上基于短语的翻译推导,$\textrm{P
\item
对于不常出现的短语可能会产生一些问题,可以将短语分解成词,计算他们的匹配程度。计算公式如下:
\vspace
{
-0.5em
}
\begin{displaymath}
\textrm
{$
\textrm
{
P
r
}_{
lex
}$}
(
\bar
{
t
}
|
\bar
{
s
}
) =
\prod
_{
j=1
}^{
J
}
\frac
{
1
}{
|
\{
j|a(j,i) = 1
\}
|
}
\sum
_{
\forall
(j,i):a(j,i) = 1
}
w(t
_
i|s
_
j)
\textrm
{$
\textrm
{
P
}_{
lex
}$}
(
\bar
{
t
}
|
\bar
{
s
}
) =
\prod
_{
j=1
}^{
J
}
\frac
{
1
}{
|
\{
j|a(j,i) = 1
\}
|
}
\sum
_{
\forall
(j,i):a(j,i) = 1
}
w(t
_
i|s
_
j)
\end{displaymath}
\vspace
{
-1em
}
\begin{itemize}
...
...
@@ -1952,8 +1952,8 @@ $d$是一个$(\textbf{s},\textbf{t})$上基于短语的翻译推导,$\textrm{P
\node
[align=center,elementnode,minimum size=0.3cm,inner sep=0.1pt,fill=blue!50]
(la4) at (a41)
{}
;
\node
[align=center,elementnode,minimum size=0.3cm,inner sep=0.1pt,fill=blue!50]
(la5) at (a30)
{}
;
\node
[anchor=west]
(f1) at ([xshift=3em,yshift=0.8em]a43.east)
{
\scriptsize
{$
\textrm
{
P
r
}_{
lex
}
(
\bar
{
t
}
|
\bar
{
s
}
)=
w
(
t
_
1
|s
_
1
)
\times
$}}
;
\node
[anchor=north]
(f2) at ([xshift=6em]f1.south)
{
\scriptsize
{$
\frac
{
1
}{
2
}
(
w
(
t
_
2
|s
_
2
)+
(
t
_
3
|s
_
2
)+
(
t
_
4
|s
_
2
))
\times
$}}
;
\node
[anchor=west]
(f1) at ([xshift=3em,yshift=0.8em]a43.east)
{
\scriptsize
{$
\textrm
{
P
}_{
lex
}
(
\bar
{
t
}
|
\bar
{
s
}
)=
w
(
t
_
1
|s
_
1
)
\times
$}}
;
\node
[anchor=north]
(f2) at ([xshift=6em]f1.south)
{
\scriptsize
{$
\frac
{
1
}{
2
}
(
w
(
t
_
2
|s
_
2
)+
w
(
t
_
4
|s
_
2
))
\times
$}}
;
\node
[anchor=north west]
(f3) at (f2.south west)
{
\scriptsize
{$
w
(
N|s
_
3
)
\times
$}}
;
\node
[anchor=north west]
(f4) at (f3.south west)
{
\scriptsize
{$
w
(
t
_
4
|s
_
4
)
\times
$}}
;
...
...
@@ -2238,7 +2238,7 @@ $X$ & $\to$ & $\bar{s},$ & $\bar{t}$ & (R3)\\
\end{itemize}
\visible
<3->
{
\begin{displaymath}
\
Pr
(
\textbf
{
o
}
|
\textbf
{
s
}
,
\textbf
{
t
}
,
\textbf
{
a
}
) =
\prod
_{
i=1
}^{
K
}
\Pr
(o
_
i|
\bar
{
s
}_{
a
_
i
}
,
\bar
{
t
}_
i, a
_{
i-1
}
, a
_
i)
\
textrm
{
P
}
(
\textbf
{
o
}
|
\textbf
{
s
}
,
\textbf
{
t
}
,
\textbf
{
a
}
) =
\prod
_{
i=1
}^{
K
}
\textrm
{
P
}
(o
_
i|
\bar
{
s
}_{
a
_
i
}
,
\bar
{
t
}_
i, a
_{
i-1
}
, a
_
i)
\end{displaymath}
}
...
...
@@ -2252,7 +2252,7 @@ $X$ & $\to$ & $\bar{s},$ & $\bar{t}$ & (R3)\\
\item
来详细的分析一下
\vspace
{
-1em
}
\begin{displaymath}
\
Pr
(
\textbf
{
o
}
|
\textbf
{
s
}
,
\textbf
{
t
}
,
\textbf
{
a
}
) =
\prod
_{
i=1
}^{
K
}
\Pr
(o
_
i|
\bar
{
s
}_{
a
_
i
}
,
\bar
{
t
}_
i, a
_{
i-1
}
, a
_
i)
\
textrm
{
P
}
(
\textbf
{
o
}
|
\textbf
{
s
}
,
\textbf
{
t
}
,
\textbf
{
a
}
) =
\prod
_{
i=1
}^{
K
}
\textrm
{
P
}
(o
_
i|
\bar
{
s
}_{
a
_
i
}
,
\bar
{
t
}_
i, a
_{
i-1
}
, a
_
i)
\end{displaymath}
\vspace
{
-1em
}
\begin{itemize}
...
...
@@ -2274,7 +2274,7 @@ o_i = \left\{ \begin{array}{ll}
\end{itemize}
\vspace
{
0.1em
}
\begin{displaymath}
f
_{
M-pre
}
(d) =
\prod
_{
i=1
}^{
K
}
\
Pr
(o
_
i = M|
\bar
{
s
}_{
a
_
i
}
,
\bar
{
t
}_
i, a
_{
i-1
}
, a
_
i)
f
_{
M-pre
}
(d) =
\prod
_{
i=1
}^{
K
}
\
textrm
{
P
}
(o
_
i = M|
\bar
{
s
}_{
a
_
i
}
,
\bar
{
t
}_
i, a
_{
i-1
}
, a
_
i)
\end{displaymath}
\vspace
{
-0.8em
}
\begin{itemize}
...
...
@@ -2478,7 +2478,7 @@ f_{M-pre}(d) = \prod_{i=1}^{K} \Pr(o_i = M| \bar{s}_{a_i}, \bar{t}_i, a_{i-1}, a
% \end{itemize}
\item
对于每一种翻译推导
$
d
$
,基于最大熵的调序模型的得分计算公式如下
\begin{displaymath}
f
_{
ME
}
(d) =
\prod
_{
<o,X
_
1,X
_
2>
\in
d
}
\
Pr
(o|X
_
1, X
_
2)
f
_{
ME
}
(d) =
\prod
_{
<o,X
_
1,X
_
2>
\in
d
}
\
textrm
{
P
}
(o|X
_
1, X
_
2)
\end{displaymath}
\end{itemize}
\end{frame}
...
...
@@ -2509,7 +2509,7 @@ f_{ME}(d) = \prod_{<o,X_1,X_2> \in d} \Pr(o|X_1, X_2)
\end{itemize}
\vspace
{
0.8em
}
\begin{displaymath}
\textrm
{
P
}
(d,
\textbf
{
t
}
|
\textbf
{
s
}
) =
\prod
_{
(
\bar
{
s
}
,
\bar
{
t
}
)
\in
d
}
\
Pr
(
\bar
{
t
}
|
\bar
{
s
}
)
^{
\lambda
_{
1
}}
\times
f(d)
^{
\lambda
_{
2
}}
\times
\Pr\nolimits
_{
lm
}
(
\mathbf
{
t
}
)
^{
\lambda
_{
lm
}}
\textrm
{
P
}
(d,
\textbf
{
t
}
|
\textbf
{
s
}
) =
\prod
_{
(
\bar
{
s
}
,
\bar
{
t
}
)
\in
d
}
\
textrm
{
P
}
(
\bar
{
t
}
|
\bar
{
s
}
)
^{
\lambda
_{
1
}}
\times
f(d)
^{
\lambda
_{
2
}}
\times
\Pr\nolimits
_{
lm
}
(
\mathbf
{
t
}
)
^{
\lambda
_{
lm
}}
\end{displaymath}
\item
可以引入更多的特征来提高翻译质量(下面介绍)
\end{itemize}
...
...
@@ -2520,7 +2520,7 @@ f_{ME}(d) = \prod_{<o,X_1,X_2> \in d} \Pr(o|X_1, X_2)
\begin{frame}
{
特征
}
% 给出特征列表
\begin{itemize}
\item
\textbf
{
特征1-2: 短语翻译概率
}
,即正向翻译概率
$
\
Pr
(
\bar
{
s
}
|
\bar
{
t
}
)
$
和反向翻译概率
$
\Pr
(
\bar
{
t
}
|
\bar
{
s
}
)
$
。是基于短语的统计机器翻译模型中最主要的特征。
\item
\textbf
{
特征1-2: 短语翻译概率
}
,即正向翻译概率
$
\
textrm
{
P
}
(
\bar
{
s
}
|
\bar
{
t
}
)
$
和反向翻译概率
$
\textrm
{
P
}
(
\bar
{
t
}
|
\bar
{
s
}
)
$
。是基于短语的统计机器翻译模型中最主要的特征。
\item
\textbf
{
特征3-4: 词汇翻译概率
}
,即正向词汇翻译概率
$
\Pr
_{
lex
}
(
\bar
{
t
}
|
\bar
{
s
}
)
$
和反向词汇翻译概率
$
\Pr
_{
lex
}
(
\bar
{
s
}
|
\bar
{
t
}
)
$
。用来描述短语对中源语端单词和目标语端单词的对应关系
\item
<2->
\textbf
{
特征5:
$
n
$
-gram语言模型
}
,即
$
\textrm
{
P
}_{
\textrm
{
lm
}}
(
\textbf
{
t
}
)
$
。度量译文的流畅度,可以使用大规模目标语单语数据得到。
\item
<2->
\textbf
{
特征6:译文长度
}
,即
$
|
\textbf
{
t
}
|
$
。避免模型倾向于短译文,同时让系统自动学习对译文长度的偏好。
...
...
@@ -2543,7 +2543,7 @@ f_{ME}(d) = \prod_{<o,X_1,X_2> \in d} \Pr(o|X_1, X_2)
\begin{scope}
[minimum height = 15pt]
\node
[anchor=west,minimum width=3em]
(x1) at (0, 0)
{
\footnotesize
{$
\textrm
{
P
}
(
d,
\textbf
{
t
}
|
\textbf
{
s
}
)
=
\prod
_{
(
\bar
{
s
}
,
\bar
{
t
}
)
\in
d
}
score
(
\bar
{
s
}
,
\bar
{
t
}
)
\times
f
_{
ME
}
(
d
)
^{
\lambda
_{
ME
}}
\times
f
_{
MSD
}
(
d
)
^{
\lambda
_{
MSD
}}
\times
$}}
;
\node
[anchor=north west]
(x2) at ([xshift=4em,yshift=0.1em]x1.south west)
{
\footnotesize
{$
\Pr\nolimits
_{
lm
}
(
\mathbf
{
t
}
)
^{
\lambda
_{
lm
}}
\times
\exp
(
\lambda
_{
TWB
}
\cdot
length
(
\mathbf
{
t
}
))
/
Z
(
\mathbf
{
s
}
)
$}}
;
\node
[anchor=north west]
(x3) at ([yshift=-1.8em]x1.south west)
{
\footnotesize
{$
score
(
\bar
{
s
}
,
\bar
{
t
}
)
=
\
Pr
(
\bar
{
t
}
|
\bar
{
s
}
)
^{
\lambda
_{
1
}}
\times
\Pr
(
\bar
{
s
}
|
\bar
{
t
}
)
^{
\lambda
_{
2
}}
\times
\Pr\nolimits
_{
lex
}
(
\bar
{
t
}
|
\bar
{
s
}
)
^{
\lambda
_{
3
}}
\times
\Pr\nolimits
_{
lex
}
(
\bar
{
s
}
|
\bar
{
t
}
)
^{
\lambda
_{
4
}}
\times
$}}
;
\node
[anchor=north west]
(x3) at ([yshift=-1.8em]x1.south west)
{
\footnotesize
{$
score
(
\bar
{
s
}
,
\bar
{
t
}
)
=
\
textrm
{
P
}
(
\bar
{
t
}
|
\bar
{
s
}
)
^{
\lambda
_{
1
}}
\times
\textrm
{
P
}
(
\bar
{
s
}
|
\bar
{
t
}
)
^{
\lambda
_{
2
}}
\times
\Pr\nolimits
_{
lex
}
(
\bar
{
t
}
|
\bar
{
s
}
)
^{
\lambda
_{
3
}}
\times
\Pr\nolimits
_{
lex
}
(
\bar
{
s
}
|
\bar
{
t
}
)
^{
\lambda
_{
4
}}
\times
$}}
;
\node
[anchor=north west]
(x4) at ([xshift=5em,yshift=0.1em]x3.south west)
{
\footnotesize
{$
\exp
(
\lambda
_{
PB
}
)
\times
\exp
(
\lambda
_{
WDB
}
\cdot
\delta
(
\bar
{
s
}
\to
null
))
$}}
;
\end{scope}
\end{tikzpicture}
...
...
@@ -2676,12 +2676,12 @@ t_{i}^{*} = \argmin_{t_{ij}} \sum_{k=1}^{M} \lambda_k \cdot h_k(t_{ij})
\begin{itemize}
\item
解码是根据模型以及输入原文,找到得分最高的译文
${
d
}^
*
$
\begin{displaymath}
\mathbf
{
d
}^
* =
\argmax
_{
\mathbf
{
t
}}
\sum
_{
d
\in
D(
\mathbf
{
s
}
,
\mathbf
{
t
}
)
}
\
Pr
(
\mathbf
{
t
}
, d|
\mathbf
{
s
}
)
\mathbf
{
d
}^
* =
\argmax
_{
\mathbf
{
t
}}
\sum
_{
d
\in
D(
\mathbf
{
s
}
,
\mathbf
{
t
}
)
}
\
textrm
{
P
}
(
\mathbf
{
t
}
, d|
\mathbf
{
s
}
)
\end{displaymath}
\vspace
{
-0.8em
}
\begin{itemize}
\item
其中
$
D
$
表示所有可能的推导构成的搜索空间。
\item
$
\
Pr
(
\mathbf
{
t
}
, d|
\mathbf
{
s
}
)
$
表示前面提到的所有特征的得分
\item
$
\
textrm
{
P
}
(
\mathbf
{
t
}
, d|
\mathbf
{
s
}
)
$
表示前面提到的所有特征的得分
\end{itemize}
\item
实际解码过程中,通常按从左到右的顺序生成译文,递增的计算翻译概率,同时对已翻译的原文进行标记
\vspace
{
1em
}
...
...
@@ -2717,7 +2717,7 @@ t_{i}^{*} = \argmin_{t_{ij}} \sum_{k=1}^{M} \lambda_k \cdot h_k(t_{ij})
%%%------------------------------------------------------------------------------------------------------------
%%% 什么是解码
\begin{frame}
{
解码问题
-
翻译选项
}
\begin{frame}
{
解码问题
-
翻译选项
}
% 定义解码是啥
\begin{itemize}
\item
对于每个输入的源语句子
$
\textbf
{
s
}$
,可以从短语表中查询到所有可能的翻译选项,用来翻译
...
...
@@ -2771,7 +2771,7 @@ t_{i}^{*} = \argmin_{t_{ij}} \sum_{k=1}^{M} \lambda_k \cdot h_k(t_{ij})
%%%------------------------------------------------------------------------------------------------------------
%%% 什么是解码
\begin{frame}
{
解码问题
-
假设扩展
}
\begin{frame}
{
解码问题
-
假设扩展
}
% 定义解码是啥
\begin{itemize}
\item
从翻译选项中挑选合适的选项,顺序地构建输出,构建的局部翻译称为翻译假设
...
...
@@ -3667,7 +3667,7 @@ d = r_1 \circ r_2 \circ r_3 \circ r_4
\tau
(
\beta
)
&
=
&
\textrm
{
be
}
\ \textrm
{
X
}_
2
\ \textrm
{
with
}
\ \textrm
{
X
}_
1
\nonumber
\end{eqnarray}
\end{itemize}
\item
<3->
\textbf
{
特征1-2: 短语翻译概率
}
,即正向翻译概率
$
\
Pr
(
\tau
(
\alpha
)
|
\tau
(
\beta
))
$
和反向翻译概率
$
\Pr
(
\tau
(
\alpha
)
|
\tau
(
\beta
))
$
。这里,
$
\tau
(
\alpha
)
$
和
$
\tau
(
\beta
)
$
都被看做短语,因此可以直接复用短语系统的方法,使用极大似然估计进行计算。
\item
<3->
\textbf
{
特征1-2: 短语翻译概率
}
,即正向翻译概率
$
\
textrm
{
P
}
(
\tau
(
\alpha
)
|
\tau
(
\beta
))
$
和反向翻译概率
$
\textrm
{
P
}
(
\tau
(
\alpha
)
|
\tau
(
\beta
))
$
。这里,
$
\tau
(
\alpha
)
$
和
$
\tau
(
\beta
)
$
都被看做短语,因此可以直接复用短语系统的方法,使用极大似然估计进行计算。
\end{itemize}
\end{frame}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论