Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
1d54dd5e
Commit
1d54dd5e
authored
Mar 21, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
bug fixes
parent
6c53c6ab
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
14 行增加
和
19 行删除
+14
-19
Section04-Phrasal-and-Syntactic-Models/section04.tex
+14
-19
没有找到文件。
Section04-Phrasal-and-Syntactic-Models/section04.tex
查看文件 @
1d54dd5e
...
...
@@ -2546,9 +2546,9 @@ f_{\textrm{ME}}(d) = \prod_{<o,X_1,X_2> \in d} \Pr(o|X_1, X_2)
\begin{frame}
{
特征
}
% 给出特征列表
\begin{itemize}
\item
\textbf
{
特征1-2: 短语翻译概率
}
,即正向翻译概率
$
\
Pr
(
\bar
{
s
}
|
\bar
{
t
}
)
$
和反向翻译概率
$
\Pr
(
\bar
{
t
}
|
\bar
{
s
}
)
$
。是基于短语的统计机器翻译模型中最主要的特征。
\item
\textbf
{
特征3-4: 词汇翻译概率
}
,即正向词汇翻译概率
$
\
Pr
_{
\textrm
{
lex
}}
(
\bar
{
t
}
|
\bar
{
s
}
)
$
和反向词汇翻译概率
$
\Pr
_{
\textrm
{
lex
}}
(
\bar
{
s
}
|
\bar
{
t
}
)
$
。用来描述短语对中源语端单词和目标语端单词的对应关系
\item
<2->
\textbf
{
特征5:
$
n
$
-gram语言模型
}
,即
$
\
textrm
{
P
}_{
\textrm
{
lm
}}
(
\textbf
{
t
}
)
$
。度量译文的流畅度,可以使用大规模目标语单语数据得到。
\item
\textbf
{
特征1-2: 短语翻译概率
}
,即正向翻译概率
$
\
log
(
\textrm
{
P
}
(
\bar
{
s
}
|
\bar
{
t
}
))
$
和反向翻译概率
$
\log
(
\textrm
{
P
}
(
\bar
{
t
}
|
\bar
{
s
}
)
)
$
。是基于短语的统计机器翻译模型中最主要的特征。
\item
\textbf
{
特征3-4: 词汇翻译概率
}
,即正向词汇翻译概率
$
\
log
(
\textrm
{
P
}_{
\textrm
{
lex
}}
(
\bar
{
t
}
|
\bar
{
s
}
))
$
和反向词汇翻译概率
$
\log
(
\textrm
{
P
}_{
\textrm
{
lex
}}
(
\bar
{
s
}
|
\bar
{
t
}
)
)
$
。用来描述短语对中源语端单词和目标语端单词的对应关系
\item
<2->
\textbf
{
特征5:
$
n
$
-gram语言模型
}
,即
$
\
log
(
\textrm
{
P
}_{
\textrm
{
lm
}}
(
\textbf
{
t
}
)
)
$
。度量译文的流畅度,可以使用大规模目标语单语数据得到。
\item
<2->
\textbf
{
特征6:译文长度
}
,即
$
|
\textbf
{
t
}
|
$
。避免模型倾向于短译文,同时让系统自动学习对译文长度的偏好。
\item
<2->
\textbf
{
特征7:翻译规则数量
}
。这个特征是为了避免模型仅仅使用少量特征构成翻译推导(因为翻译概率相乘,因子少结果一般会大一些),同时让系统自动学习对使用规则数量的偏好。
\end{itemize}
...
...
@@ -3680,17 +3680,12 @@ d = r_1 \circ r_2 \circ r_3 \circ r_4
% 还是David Chiang的论文
\begin{itemize}
\item
与短语模型一样,层次短语模型也使用判别式模型进行建模 -
$
\textrm
{
P
}
(
d,
\textbf
{
t
}
|
\textbf
{
s
}
)
=
\frac
{
\exp
(
\sum
_{
i
=
1
}^{
M
}
\lambda
_
i
\cdot
h
_
i
(
d,
\textbf
{
s
}
,
\textbf
{
t
}
))
}{
\sum
_{
d',t'
}
\exp
(
\sum
_{
i
=
1
}^{
M
}
\lambda
_
i
\cdot
h
_
i
(
d',
\textbf
{
s
}
,
\textbf
{
t
}
'
))
}$
。其中特征权重
$
\{\lambda
_
i
\}
$
可以使用最小错误率训练进行调优,特征函数
$
\{
h
_
i
\}
$
需要用户定义。
\item
<2-> 这里,所有层次短语规则满足
$
\langle\ \alpha
,
\beta
,
\sim\ \rangle
$
的形式
\item
<2-> 这里,所有层次短语规则满足
$
\
textrm
{
LHS
}
\to
\
langle\ \alpha
,
\beta
,
\sim\ \rangle
$
的形式
\begin{itemize}
\item
$
\alpha
$
和
$
\beta
$
表示源语和目标语的规则串,
$
\sim
$
表示他们的对应关系
\item
此外,定义
$
\tau
(
\alpha
)
$
和
$
\tau
(
\beta
)
$
为源语端和目标语端的规则序列。例如
\vspace
{
-0.8em
}
\begin{eqnarray}
\tau
(
\alpha
)
&
=
&
\textrm
{
对
}
\ \textrm
{
X
}_
1
\ \textrm
{
感到
}
\ \textrm
{
X
}_
2
\nonumber
\\
\tau
(
\beta
)
&
=
&
\textrm
{
be
}
\ \textrm
{
X
}_
2
\ \textrm
{
with
}
\ \textrm
{
X
}_
1
\nonumber
\end{eqnarray}
\end{itemize}
\item
<3->
\textbf
{
特征1-2: 短语翻译概率
}
,即正向翻译概率
$
\textrm
{
P
}
(
\tau
(
\alpha
)
|
\tau
(
\beta
))
$
和反向翻译概率
$
\textrm
{
P
}
(
\tau
(
\alpha
)
|
\tau
(
\beta
))
$
。这里,
$
\tau
(
\alpha
)
$
和
$
\tau
(
\beta
)
$
都被看做短语,因此可以直接复用短语系统的方法,使用极大似然估计进行计算。
\item
<3->
\textbf
{
特征1-2: 短语翻译概率
}
,即正向翻译概率
$
\log
(
\textrm
{
P
}
(
\alpha
|
\beta
))
$
和反向翻译概率
$
\log
(
\textrm
{
P
}
(
\beta
|
\alpha
))
$
。这里,
$
\alpha
$
和
$
\beta
$
都被看做短语,因此可以直接复用短语系统的方法,使用极大似然估计进行计算。
\item
<3->
\textbf
{
特征3-4: 词汇翻译概率
}
,即正向词汇翻译概率
$
\log
(
\textrm
{
P
}_{
lex
}
(
\alpha
|
\beta
))
$
和反向词汇翻译概率
$
\log
(
\textrm
{
P
}_{
lex
}
(
\beta
|
\alpha
))
$
。用来描述短语对中源语端单词和目标语端单词的对应关系
\end{itemize}
\end{frame}
...
...
@@ -3699,11 +3694,11 @@ d = r_1 \circ r_2 \circ r_3 \circ r_4
\begin{frame}
{
特征(续)
}
% 给出特征列表
\begin{itemize}
\item
\textbf
{
特征3-4: 词汇翻译概率
}
,即正向词汇翻译概率
$
\Pr
_{
lex
}
(
\bar
{
t
}
|
\bar
{
s
}
)
$
和反向词汇翻译概率
$
\Pr
_{
lex
}
(
\bar
{
s
}
|
\bar
{
t
}
)
$
。用来描述短语对中源语端单词和目标语端单词的对应关系
\item
\textbf
{
特征5:
$
n
$
-gram语言模型
}
,即
$
\
textrm
{
P
}_{
\textrm
{
lm
}}
(
\textbf
{
t
}
)
$
。度量译文的流畅度,可以使用大规模目标语单语数据得到。
\item
<2->
\textbf
{
特征6:译文长度
}
,即
$
|
\textbf
{
t
}
|
$
。避免模型倾向于短译文,同时让系统自动学习对译文长度的偏好。
\item
\textbf
{
特征5:
$
n
$
-gram语言模型
}
,即
$
\
log
(
\textrm
{
P
}_{
\textrm
{
lm
}}
(
\textbf
{
t
}
)
)
$
。度量译文的流畅度,可以使用大规模目标语单语数据得到。
\item
\textbf
{
特征6:译文长度
}
,即
$
|
\textbf
{
t
}
|
$
。避免模型倾向于短译文,同时让系统自动学习对译文长度的偏好。
\item
<2->
\textbf
{
特征7:翻译规则数量
}
。这个特征是为了避免模型仅仅使用少量特征构成翻译推导(因为翻译概率相乘,因子少结果一般会大一些),同时让系统自动学习对使用规则数量的偏好。
\item
<2->
\textbf
{
特征8:
源语言被翻译为空的单词数量
}
。注意,空翻译规则(或特征)有时也被称作evil feature,这类特征在一些数据集上对BLEU有很好的提升作用,但是会造成人工评价的下降,因此需要谨慎使用
。
\item
<2->
\textbf
{
特征8:
胶水规则数量
}
。这个特征是为了让系统可以控制使用胶水规则的偏好
。
\end{itemize}
\end{frame}
...
...
@@ -6709,9 +6704,9 @@ NP-BAR(NN$_1$ NP-BAR$_2$) $\to$ NN$_1$ NP-BAR$_2$
%%% 翻译特征(续)
\begin
{
frame
}{
特征
(
续
)
}
\begin
{
itemize
}
\item
\textbf
{
特征
1
-
2
: 短语翻译概率
}
,即正向翻译概率
$
\
textrm
{
P
}
(
\tau
(
\beta
_
r)|
\tau
(
\alpha
_
r))
$
和反向翻译概率
$
\textrm
{
P
}
(
\tau
(
\alpha
_
r)|
\tau
(
\beta
_
r))
$
。这里,
$
\tau
(
\alpha
_
r)
$
和
$
\tau
(
\beta
_
r)
$
都被看做短语,因此可以直接复用短语系统的方法进行计算。
\item
\textbf
{
特征
3
-
4
: 词汇翻译概率
}
,即
$
\
textrm
{
P
}_{
\textrm
{
lex
}}
(
\tau
(
\beta
_
r)|
\tau
(
\alpha
_
r))
$
和
$
\textrm
{
P
}_{
\textrm
{
lex
}}
(
\tau
(
\alpha
_
r)|
\tau
(
\beta
_
r
))
$
。可以用短语系统中的词汇翻译概率描述源语和目标语单词对应的情况。
\item
<
2
-
>
\textbf
{
特征
5
:
$
n
$
-
gram语言模型
}
,即
$
\
textrm
{
P
}_{
\textrm
{
lm
}}
(
\textbf
{
t
}
)
$
。度量译文的流畅度,可以使用大规模目标语单语数据得到。
\item
\textbf
{
特征
1
-
2
: 短语翻译概率
}
,即正向翻译概率
$
\
log
(
\textrm
{
P
}
(
\tau
(
\beta
_
r)|
\tau
(
\alpha
_
r)))
$
和反向翻译概率
$
\log
(
\textrm
{
P
}
(
\tau
(
\alpha
_
r)|
\tau
(
\beta
_
r)))
$
。这里,
$
\tau
(
\alpha
_
r)
$
和
$
\tau
(
\beta
_
r)
$
都被看做短语,因此可以直接复用短语系统的方法进行计算。
\item
\textbf
{
特征
3
-
4
: 词汇翻译概率
}
,即
$
\
log
(
\textrm
{
P
}_{
\textrm
{
lex
}}
(
\tau
(
\beta
_
r)|
\tau
(
\alpha
_
r)))
$
和
$
\log
(
\textrm
{
P
}_{
\textrm
{
lex
}}
(
\tau
(
\alpha
_
r)|
\tau
(
\beta
_
r)
))
$
。可以用短语系统中的词汇翻译概率描述源语和目标语单词对应的情况。
\item
<
2
-
>
\textbf
{
特征
5
:
$
n
$
-
gram语言模型
}
,即
$
\
log
(
\textrm
{
P
}_{
\textrm
{
lm
}}
(
\textbf
{
t
}
)
)
$
。度量译文的流畅度,可以使用大规模目标语单语数据得到。
\item
<
2
-
>
\textbf
{
特征
6
:译文长度
}
,即
$
|
\textbf
{
t
}
|
$
。避免模型倾向于短译文,同时让系统自动学习对译文长度的偏好。
\item
<
2
-
>
\textbf
{
特征
7
:翻译规则数量
}
。这个特征是为了避免模型仅仅使用少量特征构成翻译推导
(
因为翻译概率相乘,因子少结果一般会大一些
)
,同时让系统自动学习对使用规则数量的偏好。
\end
{
itemize
}
...
...
@@ -6722,7 +6717,7 @@ NP-BAR(NN$_1$ NP-BAR$_2$) $\to$ NN$_1$ NP-BAR$_2$
\begin
{
frame
}{
特征
(
续
2
)
}
\begin
{
itemize
}
\item
\textbf
{
特征
8
:源语言被翻译为空的单词数量
}
。注意,空翻译规则
(
或特征
)
有时也被称作evil feature,这类特征在一些数据集上对BLEU有很好的提升作用,但是会造成人工评价的下降,因此需要谨慎使用。
\item
<
2
-
>
\textbf
{
特征
9
: 翻译规则生成概率
}
,即
$
\
textrm
{
P
}_{
\textrm
{
rule
}}
(
\alpha
_
r,
\beta
_
r,
\sim
|
\alpha
_
h,
\beta
_
h
)
$
。这个特征可以被看做是生成翻译推导的概率。
\item
<
2
-
>
\textbf
{
特征
9
: 翻译规则生成概率
}
,即
$
\
log
(
\textrm
{
P
}_{
\textrm
{
rule
}}
(
\alpha
_
r,
\beta
_
r,
\sim
|
\alpha
_
h,
\beta
_
h)
)
$
。这个特征可以被看做是生成翻译推导的概率。
\item
<
2
-
>
\textbf
{
特征
10
:组合规则的数量
}
。学习使用组合规则
(
或最小规则
)
的偏好。
\item
<
2
-
>
\textbf
{
特征
11
:词汇化规则的数量
}
。学习使用含有终结符规则的偏好。
\item
<
2
-
>
\textbf
{
特征
12
:低频规则的数量
}
。学习使用训练数据中出现频次低于
3
的规则的偏好。低频规则大多并不可靠,这个特征本质上也是为了区分不同质量规则。
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论