Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
单韦乔
Toy-MT-Introduction
Commits
48700c4f
Commit
48700c4f
authored
Jan 14, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
finish the syntactic model part
parent
a6a1f901
全部展开
隐藏空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
141 行增加
和
15 行删除
+141
-15
Section04-Phrasal-and-Syntactic-Models/section04-test.tex
+0
-0
Section04-Phrasal-and-Syntactic-Models/section04.tex
+141
-15
没有找到文件。
Section04-Phrasal-and-Syntactic-Models/section04-test.tex
查看文件 @
48700c4f
差异被折叠。
点击展开。
Section04-Phrasal-and-Syntactic-Models/section04.tex
查看文件 @
48700c4f
...
...
@@ -4426,7 +4426,7 @@ NP-BAR(NN$_1$ NP-BAR$_2$) $\to$ NN$_1$ NP-BAR$_2$
\end
{
frame
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
基于树
结构的解码
}
\subsection
{
基于树
和基于串的解码方法
}
%%%------------------------------------------------------------------------------------------------------------
%%% 解码模型
...
...
@@ -4976,7 +4976,7 @@ NP-BAR(NN$_1$ NP-BAR$_2$) $\to$ NN$_1$ NP-BAR$_2$
\vspace
{
-
1
em
}
\begin
{
itemize
}
\item
<
4
-
> 如果待匹配的单词和变量序列中,没有连续的变量,这样的规则符合lexicalized norm form
(
LNF
)
,规则的匹配时间复杂度为O
(
1
)
\item
<
4
-
> 如果待匹配的单词和变量序列中,没有连续的变量,这样的规则符合lexicalized norm form
(
LNF
)
。因为LNF中单词
(
终结符
)
可以作为锚点,因此规则匹配较容易实现
\begin
{
itemize
}
\item
比如层次短语系统的规则就符合LNF,因此规则匹配非常容易实现
\item
显然上面例子中的规则不符合LNF
...
...
@@ -5038,7 +5038,7 @@ NP-BAR(NN$_1$ NP-BAR$_2$) $\to$ NN$_1$ NP-BAR$_2$
\vspace
{
-
0
.
5
em
}
\begin
{
itemize
}
\item
<
2
-
> 理论上,对于长度为
$
n
$
的词串,匹配
$
m
$
个连续变量的时间复杂度是O
(
$
m
^
n
$
)
\item
<
2
-
> 理论上,对于长度为
$
n
$
的词串,匹配
$
m
$
个连续变量的时间复杂度是O
(
$
n
^{
m-1
}
$
)
\begin
{
itemize
}
\item
这也会导致含有多个变量的非词汇化规则的匹配大大增加系统的运行时间,但这种规则在句法系统中也很常见
\end
{
itemize
}
...
...
@@ -5047,33 +5047,159 @@ NP-BAR(NN$_1$ NP-BAR$_2$) $\to$ NN$_1$ NP-BAR$_2$
\end
{
frame
}
%%%------------------------------------------------------------------------------------------------------------
%%% 基于串的解码
\begin
{
frame
}{
二叉化
+
CKY
}
% NiuTrans Manual 和我EMNLP的论文,还有以前的文档
%%% 基于串的解码 - CYK + 规则二叉化
\begin
{
frame
}{
基于串的解码
-
CKY
+
规则二叉化
}
\begin
{
itemize
}
\item
对于这个问题,常用的解决办法是进行规则二叉化,这样右端最多只有两个连续变量,规则匹配的复杂度降为O
(
$
n
$
)
。例如,对于如下串到树规则
\\
\vspace
{
0
.
4
em
}
\begin
{
center
}
喜欢 VP
$_
1
$
NP
$_
2
$
$
\to
$
VP
(
VBZ
(
likes
)
VP
$_
1
$
NP
$_
2
$
\\
\end
{
center
}
\vspace
{
0
.
4
em
}
二叉化之后变为
\vspace
{
0
.
4
em
}
\begin
{
center
}
\hspace
{
1
em
}
喜欢 V
103
$
\to
$
VP
(
VBZ
(
likes
)
V
103
\\
\vspace
{
0
.
4
em
}
VP
$_
1
$
NP
$_
2
$
$
\to
$
V
103
(
VP
$_
1
$
NP
$_
2
$
)
\\
\end
{
center
}
\vspace
{
0
.
4
em
}
其中,二叉化后的规则源语言端最多有两个非终结符。V
103
是一个虚拟符号,用于表示临时生成的规则
\item
<
2
-
> 对于二叉化后的规则,可以使用CKY方法完成解码,它也是一种基于chart的分析方法,对于每个源语言片段,匹配规则两个枝杈的左分支和右分支,整个过程和其它chart方法没有区别
\end
{
itemize
}
\end
{
frame
}
%%%------------------------------------------------------------------------------------------------------------
%%% 基于树的解码
\begin
{
frame
}{
基于树的解码
}
% 我COLING的文章、博士论文、NiuTrans Manual
%%% 基于串的解码 - chart parsing examples
\begin
{
frame
}{
基于串的解码
-
规则使用的实例
}
\begin
{
itemize
}
\item
使用规则可以构建句子的分析图
\end
{
itemize
}
\centering
\includegraphics
[
scale
=
0
.
63
]
{
.
/
Figures
/
figure
-
chart
-
parsing
-
example.pdf
}
\end
{
frame
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
改进方法
}
%%%------------------------------------------------------------------------------------------------------------
%%% 改进1
\begin
{
frame
}{
改进:基于森林的翻译模型
}
%%% 对于句法系统的改进
\begin
{
frame
}{
改进方法
}
\begin
{
itemize
}
\item
\textbf
{
基于森林的翻译模型
}
。句法分析会出现错误,因此只使用一棵句法树进行规则抽取和解码会放大句法分析错误的影响。一种解决方法是使用多棵句法树增加覆盖度,句法森林是一种有效的数据结构表示指数级树结构,因此也被用于基于句法的机器翻译。
\vspace
{
0
.
3
em
}
\item
\textbf
{
句法软约束和规则模糊匹配
}
。前面提到的模型都要求模型严格遵循句法结构,很多时候由于句法结构可能不完全适合翻译任务甚至有错误,这种模型过``硬''。因此可以使用句法软约束或者放松规则匹配时的约束。
\vspace
{
0
.
3
em
}
\item
\textbf
{
控制句法使用的程度
}
。句法模型比较适合捕捉句法上层的表示,而短语模型更适合处理局部依赖。因此可以使用二者的混合来达到更好的效果,比如,可以让句法模型处理上层骨架的翻译,之后让短语模型处理简单短语片段的翻译。
\end
{
itemize
}
\end
{
frame
}
%%%------------------------------------------------------------------------------------------------------------
%%% 改进2
\begin
{
frame
}{
改进:句法软约束和模糊匹配
}
%%% 实验结果
\begin
{
frame
}{
翻译效果
}
\begin
{
center
}
\begin
{
tabular
}{
l | l | l | l
}
\multicolumn
{
2
}{
c|
}{
模型
}
&
开发集
&
测试集
\\
\multicolumn
{
2
}{
c|
}{}
&
(
BLEU
[
\%
])
&
(
BLEU
[
\%
])
\\
\hline
\multicolumn
{
2
}{
l|
}{
短语
(
Moses
)
}
&
36
.
51
&
34
.
93
\\
\multicolumn
{
2
}{
l|
}{
短语
(
NiuTrans
)
}
&
36
.
99
&
35
.
29
\\
\hline
\multicolumn
{
2
}{
l|
}{
层次短语
(
Moses
)
}
&
36
.
65
&
34
.
79
\\
\multicolumn
{
2
}{
l|
}{
层次短语
(
NiuTrans
)
}
&
37
.
41
&
35
.
35
\\
\hline
&
基于串的解码
&
36
.
48
&
34
.
71
\\
树到串
&
基于树的解码
&
35
.
54
&
33
.
99
\\
(
NiuTrans
)
&
基于森林的解码
&
36
.
14
&
34
.
25
\\
\hline
&
基于串的解码
&
35
.
99
&
34
.
01
\\
树到树
&
基于树的解码
&
35
.
04
&
33
.
21
\\
(
NiuTrans
)
&
基于森林的解码
&
35
.
56
&
33
.
45
\\
\hline
串到树
&
基于串的解码
&
37
.
63
&
35
.
65
\\
(
NiuTrans
)
&
&
&
\end
{
tabular
}
\end
{
center
}
\vspace
{
-
0
.
5
em
}
\scriptsize
{
*
以上结果来自 NiuTrans: An Open Source Toolkit for Phrase
-
based and Syntax
-
based Machine Translation
}
\end
{
frame
}
%%%------------------------------------------------------------------------------------------------------------
%%% 改进3
\begin
{
frame
}{
改进:控制句法信息使用的程度
}
%%% 总结
\begin
{
frame
}{
小结一下
}
\begin
{
itemize
}
\item
基于短语和基于句法的模型是机器翻译
2000
年之后的重要进展之一
\begin
{
itemize
}
\item
研究热度持续十余年,至今仍有使用
(
无指导机器翻译中使用SMT做初始模型
)
\item
一些方法代表了NLP中的原始创新,比如最小错误率训练
\end
{
itemize
}
\item
相关技术和方法对现在研究仍然有很好的借鉴意义
\begin
{
itemize
}
\item
对翻译的统计建模方法,比如,基于翻译文法和推导的机器翻译建模思想
\item
翻译调序等机器翻译特有问题的描述方法
\item
先验知识的使用,句法结构、篇章等等
\end
{
itemize
}
\item
<
2
-
> 在深度学习时代下重新审视统计机器翻译
\begin
{
itemize
}
\item
注意,统计机器翻译并不是简单几套系统,更重要的是思想,这种建模方法更接近人类对翻译的认知
\item
深度学习方法从另一个视角看待机器翻译,二者必然存在结合的可能,只是结合的方法需要探索
\end
{
itemize
}
\end
{
itemize
}
\end
{
frame
}
%%%------------------------------------------------------------------------------------------------------------
%%% last slide
\begin
{
frame
}{
Last Slide
}
\vspace
{
1
em
}
\begin
{
center
}
\begin
{
tikzpicture
}
\begin
{
scope
}
[
level distance
=
25
pt
]
\node
[]
(
x
)
at
(-
4
,
0
)
{}
;
\begin
{
scope
}
[
sibling distance
=
15
pt
]
\Tree
[
.
\node
(
en
1
)
{
VP
}
;
[
.
\node
(
en
2
)
{
VP
}
;
[
.VB
\textbf
{
Thank
}
]
[
.PRP
\textbf
{
you
}
]
]
[
.
\node
(
en
3
)
{
ADJP
}
;
[
.RB
\textbf
{
very
}
]
[
.JJ
\textbf
{
much
}
]
]
]
\end
{
scope
}
\begin
{
scope
}
[
grow'
=
up, xshift
=-
0
.
2
in, yshift
=-
2
.
6
in, sibling distance
=
34
pt
]
\Tree
[
.
\node
(
cn
1
)
{
VP
}
;
[
.
\node
(
cn
2
)
{
ADVP
}
;
[
.AD
\textbf
{
非常
}
]
]
[
.
\node
(
cn
3
)
{
VP
}
;
[
.VV
\textbf
{
感谢
}
]
[
.PR
\textbf
{
大家
}
]
]
]
\end
{
scope
}
\draw
[
<
-
>, very thick, dotted, red
]
(
cn
1
.east
)
.. controls
+(
east:
4
.
5
)
and
+(
east:
4
.
5
)
..
(
en
1
.east
)
;
\draw
[
<
-
>, very thick, dotted, ugreen
]
(
cn
2
.east
)
.. controls
+(
east:
2
)
and
+(
west:
2
)
..
(
en
3
.west
)
;
\draw
[
<
-
>, very thick, dotted, blue
]
(
cn
3
.west
)
.. controls
+(
west:
2
)
and
+(
south:
2
)
..
(
en
2
.south
)
;
\end
{
scope
}
\end
{
tikzpicture
}
\end
{
center
}
\end
{
frame
}
\end
{
CJK
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论