Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
a20ad5dd
Commit
a20ad5dd
authored
May 11, 2020
by
单韦乔
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'shanweiqiao' 到 'caorunzhe'
\parinterval 其中变为\noindent 其中 查看合并请求
!137
parents
e3c81842
38c4e680
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
12 行增加
和
11 行删除
+12
-11
Book/Chapter4/chapter4.tex
+12
-11
没有找到文件。
Book/Chapter4/chapter4.tex
查看文件 @
a20ad5dd
...
...
@@ -1204,7 +1204,7 @@ h_i (d,\textbf{t},\textbf{s})=\sum_{r \in d}h_i (r)
\label
{
eq:4-27
}
\end{eqnarray}
\
parinterval
其中:
\
noindent
其中:
\begin{itemize}
\vspace
{
0.5em
}
...
...
@@ -1430,7 +1430,7 @@ span\textrm{[0,4]}&=&\textrm{``猫} \quad \textrm{喜欢} \quad \textrm{吃} \qu
\parinterval
可以说基于句法的翻译模型贯穿了现代统计机器翻译的发展历程。从概念上讲,不管是层次短语模型,还是语言学句法模型都是基于句法的模型。基于句法的机器翻译模型种类繁多,这里先对相关概念进行简要介绍,以避免后续论述中产生歧义。表
\ref
{
tab:4-2
}
给出了基于句法的机器翻译中涉及的一些概念。
%----------------------------------------------
\begin{table}
[h
t
p]
{
\begin{table}
[h
b
p]
{
\begin{center}
\caption
{
基于句法的机器翻译中常用概念
}
\label
{
tab:4-2
}
...
...
@@ -1638,7 +1638,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
\end{eqnarray}
}
\
parinterval
可以得到一个翻译推导:
\
noindent
可以得到一个翻译推导:
{
\footnotesize
\begin{eqnarray}
&&
\langle\ \textrm
{
IP
}^{
[1]
}
,
\ \textrm
{
S
}^{
[1]
}
\ \rangle
\nonumber
\\
...
...
@@ -1659,7 +1659,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
\end{eqnarray}
}
\
parinterval
其中,箭头
$
\rightarrow
$
表示推导之意。显然,可以把翻译看作是基于树结构的推导过程(记为
$
d
$
)。因此,与层次短语模型一样,基于语言学句法的机器翻译也是要找到最佳的推导
$
\hat
{
d
}
=
\arg\max\textrm
{
P
}
(
d
)
$
。
\
noindent
其中,箭头
$
\rightarrow
$
表示推导之意。显然,可以把翻译看作是基于树结构的推导过程(记为
$
d
$
)。因此,与层次短语模型一样,基于语言学句法的机器翻译也是要找到最佳的推导
$
\hat
{
d
}
=
\arg\max\textrm
{
P
}
(
d
)
$
。
%----------------------------------------------------------------------------------------
% NEW SUBSUB-SECTION
...
...
@@ -1678,7 +1678,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
\end{figure}
%-------------------------------------------
\
parinterval
其中,源语言树片段中的叶子结点NN表示变量,它与右手端的变量NN对应。这里仍然可以使用基于树结构的规则对上面这个树到串的映射进行表示。参照规则形式
$
\langle\ \alpha
_
h,
\beta
_
h
\ \rangle
\to
\langle\ \alpha
_
r,
\beta
_
r,
\sim\ \rangle
$
,有:
\
noindent
其中,源语言树片段中的叶子结点NN表示变量,它与右手端的变量NN对应。这里仍然可以使用基于树结构的规则对上面这个树到串的映射进行表示。参照规则形式
$
\langle\ \alpha
_
h,
\beta
_
h
\ \rangle
\to
\langle\ \alpha
_
r,
\beta
_
r,
\sim\ \rangle
$
,有:
\begin{eqnarray}
\alpha
_
h
&
=
&
\textrm
{
VP
}
\nonumber
\\
\beta
_
h
&
=
&
\textrm
{
VP
}
\
(=
\alpha
_
h)
\nonumber
\\
...
...
@@ -1814,7 +1814,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
\textrm
{
VP(PP(P(对)
}
\ \textrm
{
NP(NN(回答)))
}
\ \textrm
{
VP
}_
1)
\rightarrow
\textrm
{
VP
}_
1
\ \textrm
{
with
}
\ \textrm
{
the
}
\ \textrm
{
answer
}
\nonumber
\end{eqnarray}
\
parinterval
其中,蓝色部分表示可以抽取到的规则,显然它的根节点和叶子非终结符节点都是可信节点。由于源语言树片段中包含一个变量(VP),因此需要对VP节点的Span所表示的目标语言范围进行泛化(红色方框部分)。
\
noindent
其中,蓝色部分表示可以抽取到的规则,显然它的根节点和叶子非终结符节点都是可信节点。由于源语言树片段中包含一个变量(VP),因此需要对VP节点的Span所表示的目标语言范围进行泛化(红色方框部分)。
%----------------------------------------------
\begin{figure}
[htp]
...
...
@@ -1999,7 +1999,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
\textrm
{
VP(
}
\textrm
{
PP
}_
1
\ \textrm
{
VP(VV(表示)
}
\ \textrm
{
NN
}_
2
\textrm
{
))
}
\rightarrow
\textrm
{
VP(VBZ(was)
}
\ \textrm
{
VP(
}
\textrm
{
VBN
}_
2
\ \textrm
{
PP
}_
1
\textrm
{
))
}
\nonumber
\end{eqnarray}
\
parinterval
其中,规则的左部是源语言句法树结构,右部是目标语言句法树结构,变量的下标表示对应关系。为了获取这样的规则,需要进行树到树规则抽取。最直接的办法是把GHKM方法推广到树到树翻译的情况。比如,可以利用双语结构的约束和词对齐,定义树的切割点,之后找到两种语言树结构的映射关系
\cite
{
liu2009improving
}
。
\
noindent
其中,规则的左部是源语言句法树结构,右部是目标语言句法树结构,变量的下标表示对应关系。为了获取这样的规则,需要进行树到树规则抽取。最直接的办法是把GHKM方法推广到树到树翻译的情况。比如,可以利用双语结构的约束和词对齐,定义树的切割点,之后找到两种语言树结构的映射关系
\cite
{
liu2009improving
}
。
%----------------------------------------------------------------------------------------
% NEW SUBSUB-SECTION
...
...
@@ -2219,11 +2219,12 @@ d_1 = {d'} \circ {r_5}
\caption
{
基于串的解码 vs 基于树的解码
}
\label
{
tab:4-4
}
{
\begin{tabular}
{
l | p
{
1
5
.5em
}
l
}
\begin{tabular}
{
l | p
{
1
6
.5em
}
l
}
对比
&
基于树的解码
&
基于串的解码
\\
\hline
\rule
{
0pt
}{
15pt
}
解码方法
&
$
\hat
{
d
}
=
\arg\max
_{
d
\in
D
_{
\textrm
{
tree
}}}
\textrm
{
score
}
(
d
)
$
&
$
\hat
{
d
}
=
\arg\max
_{
d
\in
D
}
\textrm
{
score
}
(
d
)
$
\\
\rule
{
0pt
}{
15pt
}
搜索空间
&
与输入的源语句法树兼容的推导
$
D
_{
\textrm
{
tree
}}$
&
所有的推导
$
D
$
\rule
{
0pt
}{
15pt
}
搜索空间
&
与输入的源语句法树兼容的推导
$
D
_{
\textrm
{
tree
}}$
&
所有的推导
$
D
$
\\
\rule
{
0pt
}{
15pt
}
适用模型
&
树到串、树到树
&
所有的句法模型
\end{tabular}
}
\end{center}
...
...
@@ -2232,10 +2233,10 @@ d_1 = {d'} \circ {r_5}
\begin{center}
\vspace
{
1em
}
{
\begin{tabular}
{
l | p
{
1
5
.5em
}
l
}
\begin{tabular}
{
l | p
{
1
6
.5em
}
l
}
对比
&
基于树的解码
&
基于串的解码
\\
\hline
\rule
{
0pt
}{
15pt
}
适用模型
&
树到串、树到树
&
所有的句法模型
\\
\rule
{
0pt
}{
15pt
}
解码算法
&
Chart解码
&
CKY + 规则二叉化
\\
\rule
{
0pt
}{
15pt
}
速度
&
快
&
一般较慢
\end{tabular}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论