Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
13865730
Commit
13865730
authored
Dec 30, 2019
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
new pages
parent
c20b437c
全部展开
显示空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
178 行增加
和
4 行删除
+178
-4
Section04-Phrasal-and-Syntactic-Models/section04-test.tex
+0
-0
Section04-Phrasal-and-Syntactic-Models/section04.tex
+178
-4
没有找到文件。
Section04-Phrasal-and-Syntactic-Models/section04-test.tex
查看文件 @
13865730
差异被折叠。
点击展开。
Section04-Phrasal-and-Syntactic-Models/section04.tex
查看文件 @
13865730
...
...
@@ -2220,8 +2220,8 @@ d = r_1 \circ r_2 \circ r_3 \circ r_4
&
解码器一般都是基于串的解码方法
\\
\hline
基于森林
&
(源语言)使用句法森林,这里森林只是对多个
\\
&
句法树的一种压缩表示
\\
\hline
分析
&
给定一个词串,使用文法规则得到推导
\\
\hline
树分析
&
给定一棵句法树,使用文法规则得到推导
\\
\hline
词汇化规则
&
含有终结符的规则
\\
\hline
非词汇规则
&
不含有终结符的规则
\\
\hline
句法约软束
&
不强制规则推导匹配语言学句法树,通常把
\\
&
句法信息作为特征使用
\\
\hline
句法硬约束
&
强制推导必须符合语言学句法树,不符合的
\\
...
...
@@ -2634,12 +2634,186 @@ $x$表示叶子非终结符(可替换的变量),显然这是调序规则
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 树到串规则
\begin{frame}
{
树到串翻译规则
}
\begin{itemize}
\item
对于只有一端使用句法树的情况,仍然可以用上述规则定义进行描述
\begin{itemize}
\item
树到串翻译可以看做是句法树到词串的转换,串到树类似,只是反过来看
\end{itemize}
\end{itemize}
\begin{center}
\begin{tikzpicture}
\begin{scope}
[scale=0.9]
\Tree
[.
\node
(sn1)
{
VP
}
;
[.
\node
(sn2)
{
VV
}
;
\node
(scw1)
{
提高
}
; ]
[.
\node
(sn3)
{
NN
}
; ]
]
\path
[draw, ->, thick] ([xshift=1em]sn3.east) -- ([xshift=2.5em]sn3.east);
\node
[anchor=west] (tw1) at ([xshift=3.5em]sn3.east)
{
increases
}
;
\node
[anchor=west] (tw2) at ([xshift=0.3em]tw1.east)
{
NN
}
;
\draw
[dotted,thick]
([yshift=-0.1em]sn3.south)..controls +(south:1.2) and +(south: 1.2)..([yshift=-0.1em]tw2.south);
\end{scope}
\end{tikzpicture}
\end{center}
\vspace
{
-0.3em
}
\begin{itemize}
\item
<2-> 由规则定义
$
\langle\ \alpha
_
h,
\beta
_
h
\ \rangle
\to
\langle\ \alpha
_
r,
\beta
_
r,
\sim\ \rangle
$
,可得
\vspace
{
-1.3em
}
{
\small
\begin{eqnarray}
\alpha
_
h
&
=
&
\textrm
{
VP
}
\nonumber
\\
\beta
_
h
&
=
&
\textrm
{
VP
}
\
(=
\alpha
_
h)
\nonumber
\\
\alpha
_
r
&
=
&
\textrm
{
VP(VV(提高) NN:
}
x)
\nonumber
\\
\beta
_
r
&
=
&
\textrm
{
increases
\
NN:
}
x
\nonumber
\\
\sim
&
=
&
\{
1-1
\}
\nonumber
\end{eqnarray}
}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 树到串规则
\begin{frame}
{
树到串翻译规则
}
\begin{itemize}
\item
这里,目标端是一个词串,因此
\begin{itemize}
\item
$
\beta
_
h
$
实际上并不是树的根节点标记,直接复制
$
\alpha
_
h
$
即可,也就是说目标语端和源语端共享同一个非终结符集合
\item
$
\beta
_
s
$
是一个词串,可以被看作是树的叶子节点序列,或者一个单层的树结构
\end{itemize}
\item
<2-> 可以把这条规则简记为
\begin{center}
\vspace
{
0.5em
}
$
\textrm
{
VP
}
\to
\langle\ \textrm
{
VP
(
VV
(
提高
)
NN
}_
1
)
,
\ \textrm
{
increases
\
NN
}_
1
\ \rangle
$
\\
\vspace
{
0.5em
}
\end{center}
或
\\
\begin{center}
\vspace
{
0.5em
}
$
\textrm
{
VP
(
VV
(
提高
)
NN
}_
1
)
\to
\textrm
{
increases
\
NN
}_
1
$
\\
\end{center}
\vspace
{
0.5em
}
上述规则也被称作
\alert
{
树到串翻译规则
}
\item
<3-> 类似的,层次短语规则也可以被看作是一种特殊的基于树结构的规则,它的源语和目标语都是由单层树结构构成,且源语和目标语共享同一个非终结符集合
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
翻译规则抽取
}
%%%------------------------------------------------------------------------------------------------------------
%%% 基于树结构的翻译文法 - 树到串/串到树
\begin{frame}
{
GHKM方法
}
% 我的一个ppt
\begin{frame}
{
树到串规则抽取 - GHKM方法
}
\begin{itemize}
\item
基于句法的翻译系统的核心有两个部分
\begin{enumerate}
\item
\textbf
{
文法归纳
}
:从带有句法分析结果的双语数据中自动学习翻译规则
\item
\textbf
{
解码
}
:使用学习到的翻译规则对新的句子进行翻译
\end{enumerate}
\item
<2-> 首先要解决的是如何获取翻译规则,即
\alert
{
规则抽取
}
- 这里先从GHKM方法开始,它是经典的树到串翻译规则的抽取方法(Galley et al., 2004; 2006)
\begin{itemize}
\item
方法的名字是由四位作者的名字首字母构成 :)
\end{itemize}
\item
<3-> GHKM方法的输入包括
\begin{itemize}
\item
源语言句子和和它的短语分析树
\item
目标语句子
\item
源语和目标语句子之间的词对齐
\end{itemize}
\item
<3-> 注意:
\begin{itemize}
\item
句法树可以由句法分析器自动生成
\item
词对齐可以由词对齐系统(如IBM模型)自动生成
\end{itemize}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 翻译规则抽取本质上是要完成对树结构的切割
\begin{frame}
{
树片段
}
\begin{itemize}
\item
树到串翻译规则实际上是一个树片段到一个词串的映射。一个合理的树到串翻译规则,不应该违反任何的词对齐信息
\begin{itemize}
\item
显然这种树片段可以有很多
\item
一棵句法树也可以被切割成多个树片段
\end{itemize}
\end{itemize}
\begin{center}
\begin{tikzpicture}
{
\footnotesize
\begin{scope}
[sibling distance=25pt, level distance=20pt]
\Tree
[.
\node
(n1)
{
IP
}
;
[.
\node
(n2)
{
NP
}
; [.
\node
(n3)
{
PN
}
;
\node
(cw1)
{
他
}
; ]]
[.
\node
(n4)
{
VP
}
;
[.
\node
(n5)
{
PP
}
;
[.
\node
(n6)
{
P
}
;
\node
(cw2)
{
对
}
; ]
[.
\node
(n7)
{
NP
}
;
[.
\node
(n8)
{
NN
}
;
\node
(cw3)
{
回答
}
; ]
]
]
[.
\node
(n9)
{
VP
}
;
[.
\node
(n10)
{
VV
}
;
\node
(cw4)
{
表示
}
; ]
[.
\node
(n11)
{
NN
}
;
\node
(cw5)
{
满意
}
; ]
]
]
]
\node
[anchor=north,minimum size=18pt]
(tw1) at ([yshift=-6.0em]cw1.south)
{
he
}
;
\node
[anchor=west,minimum size=18pt]
(tw2) at ([yshift=-0.1em,xshift=1.1em]tw1.east)
{
was
}
;
\node
[anchor=west,minimum size=18pt]
(tw3) at ([yshift=0.1em,xshift=1.1em]tw2.east)
{
satisfied
}
;
\node
[anchor=west,minimum size=18pt]
(tw4) at ([xshift=1.1em]tw3.east)
{
with
}
;
\node
[anchor=west,minimum size=18pt]
(tw5) at ([xshift=1.1em]tw4.east)
{
the
}
;
\node
[anchor=west,minimum size=18pt]
(tw6) at ([yshift=-0.1em,xshift=1.1em]tw5.east)
{
answer
}
;
\draw
[dashed]
(cw1.south) -- ([yshift=-0.4em]tw1.north);
\draw
[dashed]
(cw2.south) .. controls +(south:1.6) and +(north:0.6) .. ([yshift=-0.4em]tw4.north);
\draw
[dashed]
(cw3.south) -- ([yshift=-0.4em]tw5.north);
\draw
[dashed]
(cw3.south) -- ([yshift=-0.4em]tw6.north);
\draw
[dashed]
(cw4.south) .. controls +(south:2.0) and +(north:0.6) .. ([yshift=-0.4em]tw3.north);
\draw
[dashed]
(cw5.south) .. controls +(south:2.0) and +(north:0.6) .. ([yshift=-0.4em]tw3.north);
\begin{pgfonlayer}
{
background
}
\visible
<2->
{
\node
[rectangle,inner sep=0em,fill=red!20] [fit = (cw2) (cw3) (n5)] (rule1s)
{}
;
\node
[rectangle,inner sep=0em,fill=red!20] [fit = (tw4) (tw5) (tw6)] (rule1t)
{}
;
}
\visible
<3->
{
\node
[rectangle,inner sep=0em,fill=blue!20] [fit = (cw5) (n11)] (rule2s)
{}
;
\node
[rectangle,inner sep=0em,fill=blue!20] [fit = (tw3)] (rule2t)
{}
;
}
\end{pgfonlayer}
\visible
<2->
{
\node
[anchor=south] (rule1label) at ([xshift=1em]rule1s.north west)
{
\scriptsize
{
\textbf
{
\alert
{
正确的规则
}}}}
;
}
\visible
<3->
{
\node
[anchor=north west,align=left] (rule2label) at (rule2s.north east)
{
\scriptsize
{
\textbf
{
\color
{
blue
}
错误的规则
}}
\\\scriptsize
{
因为``satisfied''会
}
\\\scriptsize
{
对齐到规则外,
}
\\\scriptsize
{
也就是这条规则
}
\\\scriptsize
{
与词对齐不相容
}}
;
}
\end{scope}
}
\end{tikzpicture}
\end{center}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论