Commit 13865730 by xiaotong

new pages

parent c20b437c
......@@ -2220,8 +2220,8 @@ d = r_1 \circ r_2 \circ r_3 \circ r_4
& 解码器一般都是基于串的解码方法 \\ \hline
基于森林 & (源语言)使用句法森林,这里森林只是对多个\\
& 句法树的一种压缩表示 \\ \hline
分析 & 给定一个词串,使用文法规则得到推导 \\ \hline
树分析 & 给定一棵句法树,使用文法规则得到推导 \\ \hline
词汇化规则 & 含有终结符的规则 \\ \hline
非词汇规则 & 不含有终结符的规则 \\ \hline
句法约软束 & 不强制规则推导匹配语言学句法树,通常把 \\
& 句法信息作为特征使用 \\ \hline
句法硬约束 & 强制推导必须符合语言学句法树,不符合的 \\
......@@ -2634,12 +2634,186 @@ $x$表示叶子非终结符(可替换的变量),显然这是调序规则
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 树到串规则
\begin{frame}{树到串翻译规则}
\begin{itemize}
\item 对于只有一端使用句法树的情况,仍然可以用上述规则定义进行描述
\begin{itemize}
\item 树到串翻译可以看做是句法树到词串的转换,串到树类似,只是反过来看
\end{itemize}
\end{itemize}
\begin{center}
\begin{tikzpicture}
\begin{scope}[scale=0.9]
\Tree[.\node(sn1){VP};
[.\node(sn2){VV}; \node(scw1){提高}; ]
[.\node(sn3){NN}; ]
]
\path [draw, ->, thick] ([xshift=1em]sn3.east) -- ([xshift=2.5em]sn3.east);
\node [anchor=west] (tw1) at ([xshift=3.5em]sn3.east) {increases};
\node [anchor=west] (tw2) at ([xshift=0.3em]tw1.east) {NN};
\draw[dotted,thick] ([yshift=-0.1em]sn3.south)..controls +(south:1.2) and +(south: 1.2)..([yshift=-0.1em]tw2.south);
\end{scope}
\end{tikzpicture}
\end{center}
\vspace{-0.3em}
\begin{itemize}
\item<2-> 由规则定义$\langle\ \alpha_h, \beta_h\ \rangle \to \langle\ \alpha_r, \beta_r, \sim\ \rangle$,可得
\vspace{-1.3em}
{\small
\begin{eqnarray}
\alpha_h & = & \textrm{VP} \nonumber \\
\beta_h & = & \textrm{VP}\ (=\alpha_h) \nonumber \\
\alpha_r & = & \textrm{VP(VV(提高) NN:}x) \nonumber \\
\beta_r & = & \textrm{increases\ NN:}x \nonumber \\
\sim & = & \{1-1\} \nonumber
\end{eqnarray}
}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 树到串规则
\begin{frame}{树到串翻译规则}
\begin{itemize}
\item 这里,目标端是一个词串,因此
\begin{itemize}
\item $\beta_h$实际上并不是树的根节点标记,直接复制$\alpha_h$即可,也就是说目标语端和源语端共享同一个非终结符集合
\item $\beta_s$是一个词串,可以被看作是树的叶子节点序列,或者一个单层的树结构
\end{itemize}
\item<2-> 可以把这条规则简记为
\begin{center}
\vspace{0.5em}
$\textrm{VP} \to \langle\ \textrm{VP(VV(提高) NN}_1),\ \textrm{increases\ NN}_1\ \rangle$ \\
\vspace{0.5em}
\end{center}
\\
\begin{center}
\vspace{0.5em}
$\textrm{VP(VV(提高) NN}_1) \to \textrm{increases\ NN}_1$ \\
\end{center}
\vspace{0.5em}
上述规则也被称作\alert{树到串翻译规则}
\item<3-> 类似的,层次短语规则也可以被看作是一种特殊的基于树结构的规则,它的源语和目标语都是由单层树结构构成,且源语和目标语共享同一个非终结符集合
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
\subsection{翻译规则抽取}
%%%------------------------------------------------------------------------------------------------------------
%%% 基于树结构的翻译文法 - 树到串/串到树
\begin{frame}{GHKM方法}
% 我的一个ppt
\begin{frame}{树到串规则抽取 - GHKM方法}
\begin{itemize}
\item 基于句法的翻译系统的核心有两个部分
\begin{enumerate}
\item \textbf{文法归纳}:从带有句法分析结果的双语数据中自动学习翻译规则
\item \textbf{解码}:使用学习到的翻译规则对新的句子进行翻译
\end{enumerate}
\item<2-> 首先要解决的是如何获取翻译规则,即\alert{规则抽取} - 这里先从GHKM方法开始,它是经典的树到串翻译规则的抽取方法(Galley et al., 2004; 2006)
\begin{itemize}
\item 方法的名字是由四位作者的名字首字母构成 :)
\end{itemize}
\item<3-> GHKM方法的输入包括
\begin{itemize}
\item 源语言句子和和它的短语分析树
\item 目标语句子
\item 源语和目标语句子之间的词对齐
\end{itemize}
\item<3-> 注意:
\begin{itemize}
\item 句法树可以由句法分析器自动生成
\item 词对齐可以由词对齐系统(如IBM模型)自动生成
\end{itemize}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 翻译规则抽取本质上是要完成对树结构的切割
\begin{frame}{树片段}
\begin{itemize}
\item 树到串翻译规则实际上是一个树片段到一个词串的映射。一个合理的树到串翻译规则,不应该违反任何的词对齐信息
\begin{itemize}
\item 显然这种树片段可以有很多
\item 一棵句法树也可以被切割成多个树片段
\end{itemize}
\end{itemize}
\begin{center}
\begin{tikzpicture}
{\footnotesize
\begin{scope}[sibling distance=25pt, level distance=20pt]
\Tree[.\node(n1){IP};
[.\node(n2){NP}; [.\node(n3){PN}; \node(cw1){}; ]]
[.\node(n4){VP};
[.\node(n5){PP};
[.\node(n6){P}; \node(cw2){}; ]
[.\node(n7){NP};
[.\node(n8){NN}; \node(cw3){回答}; ]
]
]
[.\node(n9){VP};
[.\node(n10){VV}; \node(cw4){表示}; ]
[.\node(n11){NN}; \node(cw5){满意}; ]
]
]
]
\node[anchor=north,minimum size=18pt] (tw1) at ([yshift=-6.0em]cw1.south){he};
\node[anchor=west,minimum size=18pt] (tw2) at ([yshift=-0.1em,xshift=1.1em]tw1.east){was};
\node[anchor=west,minimum size=18pt] (tw3) at ([yshift=0.1em,xshift=1.1em]tw2.east){satisfied};
\node[anchor=west,minimum size=18pt] (tw4) at ([xshift=1.1em]tw3.east){with};
\node[anchor=west,minimum size=18pt] (tw5) at ([xshift=1.1em]tw4.east){the};
\node[anchor=west,minimum size=18pt] (tw6) at ([yshift=-0.1em,xshift=1.1em]tw5.east){answer};
\draw[dashed] (cw1.south) -- ([yshift=-0.4em]tw1.north);
\draw[dashed] (cw2.south) .. controls +(south:1.6) and +(north:0.6) .. ([yshift=-0.4em]tw4.north);
\draw[dashed] (cw3.south) -- ([yshift=-0.4em]tw5.north);
\draw[dashed] (cw3.south) -- ([yshift=-0.4em]tw6.north);
\draw[dashed] (cw4.south) .. controls +(south:2.0) and +(north:0.6) .. ([yshift=-0.4em]tw3.north);
\draw[dashed] (cw5.south) .. controls +(south:2.0) and +(north:0.6) .. ([yshift=-0.4em]tw3.north);
\begin{pgfonlayer}{background}
\visible<2->{
\node [rectangle,inner sep=0em,fill=red!20] [fit = (cw2) (cw3) (n5)] (rule1s) {};
\node [rectangle,inner sep=0em,fill=red!20] [fit = (tw4) (tw5) (tw6)] (rule1t) {};
}
\visible<3->{
\node [rectangle,inner sep=0em,fill=blue!20] [fit = (cw5) (n11)] (rule2s) {};
\node [rectangle,inner sep=0em,fill=blue!20] [fit = (tw3)] (rule2t) {};
}
\end{pgfonlayer}
\visible<2->{
\node [anchor=south] (rule1label) at ([xshift=1em]rule1s.north west) {\scriptsize{\textbf{\alert{正确的规则}}}};
}
\visible<3->{
\node [anchor=north west,align=left] (rule2label) at (rule2s.north east) {\scriptsize{\textbf{\color{blue} 错误的规则}}\\\scriptsize{因为``satisfied''会}\\\scriptsize{对齐到规则外,}\\\scriptsize{也就是这条规则}\\\scriptsize{与词对齐不相容}};
}
\end{scope}
}
\end{tikzpicture}
\end{center}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论