Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
e78422dc
Commit
e78422dc
authored
May 21, 2020
by
单韦乔
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
第四章排版
parent
c7a49943
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
13 行增加
和
3 行删除
+13
-3
Book/Chapter4/chapter4.tex
+13
-3
没有找到文件。
Book/Chapter4/chapter4.tex
查看文件 @
e78422dc
...
...
@@ -2082,8 +2082,6 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
\parinterval
同词对齐一样,节点对齐也会存在错误,这样就不可避免的造成规则抽取的错误。既然单一的对齐中含有错误,那能否让系统看到更多样的对齐结果,进而提高正确规则被抽取到的几率呢?答案是肯定的。实际上,在基于短语的模型中就有基于多个词对齐(如
$
n
$
-best词对齐)进行规则抽取的方法,这种方法可以在一定程度上提高短语的召回率。在树到树规则抽取中也可以使用多个节点对齐结果进行规则抽取。但是,简单使用多个对齐结果会使系统运行代价线性增长,而且即使是
$
n
$
-best对齐,也无法保证涵盖到正确的对齐结果。对于这个问题,另一种思路是使用对齐矩阵进行规则的``软''抽取。
\parinterval
所谓对齐矩阵,是描述两个句法树节点之间对应强度的数据结构。矩阵的每个单元中都是一个0到1之间的数字。规则抽取时,可以认为所有节点之间都存在对齐,这样可以抽取出很多
$
n
$
-best对齐中无法覆盖的规则。图
\ref
{
fig:4-63
}
展示了一个用对齐矩阵的进行规则抽取的实例。其中矩阵1(Matrix 1)表示的标准的1-best节点对齐,矩阵2(Matrix 2)表示的是一种概率化的对齐矩阵。可以看到使用矩阵2可以抽取到更多样的规则。另外,值得注意的是,基于对齐矩阵的方法也同样适用于短语和层次短语规则的抽取。关于对齐矩阵的生成可以参考相关论文的内容
\cite
{
xiao2013unsupervised,liu2009weighted,sun2010exploring,sun2010discriminative
}
。
%----------------------------------------------
\begin{figure}
[htp]
\centering
...
...
@@ -2093,6 +2091,8 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
\end{figure}
%-------------------------------------------
\parinterval
所谓对齐矩阵,是描述两个句法树节点之间对应强度的数据结构。矩阵的每个单元中都是一个0到1之间的数字。规则抽取时,可以认为所有节点之间都存在对齐,这样可以抽取出很多
$
n
$
-best对齐中无法覆盖的规则。图
\ref
{
fig:4-63
}
展示了一个用对齐矩阵的进行规则抽取的实例。其中矩阵1(Matrix 1)表示的标准的1-best节点对齐,矩阵2(Matrix 2)表示的是一种概率化的对齐矩阵。可以看到使用矩阵2可以抽取到更多样的规则。另外,值得注意的是,基于对齐矩阵的方法也同样适用于短语和层次短语规则的抽取。关于对齐矩阵的生成可以参考相关论文的内容
\cite
{
xiao2013unsupervised,liu2009weighted,sun2010exploring,sun2010discriminative
}
。
\parinterval
此外,在基于句法的规则抽取中,一般会对规则进行一些限制,以避免规则数量过大,系统无法处理。比如,可以限制树片段的深度、变量个数、规则组合的次数等等。这些限制往往需要根据具体任务进行设计和调整。
%----------------------------------------------------------------------------------------
...
...
@@ -2266,7 +2266,17 @@ d_1 = {d'} \circ {r_5}
对比
&
基于树的解码
&
基于串的解码
\\
\hline
\rule
{
0pt
}{
15pt
}
解码方法
&
$
\hat
{
d
}
=
\arg\max
_{
d
\in
D
_{
\textrm
{
tree
}}}
\textrm
{
score
}
(
d
)
$
&
$
\hat
{
d
}
=
\arg\max
_{
d
\in
D
}
\textrm
{
score
}
(
d
)
$
\\
\rule
{
0pt
}{
15pt
}
搜索空间
&
与输入的源语句法树兼容的推导
$
D
_{
\textrm
{
tree
}}$
&
所有的推导
$
D
$
\\
\rule
{
0pt
}{
15pt
}
搜索空间
&
与输入的源语句法树兼容的推导
$
D
_{
\textrm
{
tree
}}$
&
所有的推导
$
D
$
\end{tabular}
}
\end{center}
}
\end{table}
\begin{table}
[htp]
{
\begin{center}
{
\begin{tabular}
{
l | p
{
16.5em
}
l
}
对比
&
基于树的解码
&
基于串的解码
\\
\hline
\rule
{
0pt
}{
15pt
}
适用模型
&
树到串、树到树
&
所有的句法模型
\\
\rule
{
0pt
}{
15pt
}
解码算法
&
Chart解码
&
CKY + 规则二叉化
\\
\rule
{
0pt
}{
15pt
}
速度
&
快
&
一般较慢
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论