Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
单韦乔
Toy-MT-Introduction
Commits
776d83c3
Commit
776d83c3
authored
Dec 25, 2019
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
new pages
parent
bae0bc94
隐藏空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
77 行增加
和
13 行删除
+77
-13
Section04-Phrasal-and-Syntactic-Models/section04-test.tex
+8
-0
Section04-Phrasal-and-Syntactic-Models/section04.tex
+69
-13
没有找到文件。
Section04-Phrasal-and-Syntactic-Models/section04-test.tex
查看文件 @
776d83c3
...
...
@@ -143,6 +143,14 @@
\subsection
{
基于树结构的文法
}
%%%------------------------------------------------------------------------------------------------------------
%%% 规则实例(树到树)
\begin{frame}
{
基于树的翻译规则
}
\begin{itemize}
\item
上述文法定义了一种树结构到树结构的映射
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
翻译规则抽取
}
%%%------------------------------------------------------------------------------------------------------------
...
...
Section04-Phrasal-and-Syntactic-Models/section04.tex
查看文件 @
776d83c3
...
...
@@ -2000,7 +2000,8 @@ d = r_1 \circ r_2 \circ r_3 \circ r_4
\begin{center}
\begin{tikzpicture}
\begin{scope}
[xshift = -0.3in, sibling distance=3pt, level distance = 24pt]
\begin{scope}
[xshift = -0.3in, sibling distance=5pt, level distance = 24pt]
{
\footnotesize
\Tree
[.IP
[.ADVP
[.AD
\node
(cw1)
{
但
}
; ]
...
...
@@ -2029,6 +2030,7 @@ d = r_1 \circ r_2 \circ r_3 \circ r_4
]
]
]
}
\end{scope}
\end{tikzpicture}
...
...
@@ -2269,7 +2271,7 @@ d = r_1 \circ r_2 \circ r_3 \circ r_4
\end{tikzpicture}
\end{center}
\vspace
{
-0.
5
em
}
\vspace
{
-0.
8
em
}
\begin{itemize}
\item
实际上,上面仅仅只是一种分类方法,还有很多其它分类标准,比如:句法软约束 vs 句法硬约束,基于树 vs. 基于串,等等
\end{itemize}
...
...
@@ -2308,21 +2310,60 @@ d = r_1 \circ r_2 \circ r_3 \circ r_4
\subsection
{
基于树结构的文法
}
%%%------------------------------------------------------------------------------------------------------------
%%% 缺乏语言学句法导致的问题
\begin{frame}
{
句法可以帮助机器翻译
}
% 例子
%%% 树结构的表示
\begin{frame}
{
树结构的表示
}
\begin{itemize}
\item
基于句法的翻译模型核心是对
\alert
{
树结构
}
进行建模。对于树到串和串到树模型,本质上是要到树和串的对应关系;而对于树到树模型,本质上是找到树到树的对应
\begin{tikzpicture}
{
\footnotesize
\begin{scope}
[sibling distance=3pt, level distance = 22pt]
\Tree
[.S [.NN ]
[.VP [.AD ] [.VP [.VV ] [.AS ] ] ] ]
\end{scope}
\begin{scope}
[xshift=1in,yshift=0.25in]
\node
[anchor=north west,align=left] (string1) at (0,0)
{
[S
\\\hspace
{
1em
}
NN
\\\hspace
{
1em
}
VP[
\\\hspace
{
2.5em
}
AD
\\\hspace
{
2.5em
}
VP[
\\\hspace
{
4em
}
VV
\\\hspace
{
4em
}
AS]]]
}
;
\end{scope}
\begin{scope}
[xshift=2.5in,yshift=-0.80in]
\node
[anchor=west,align=left] (string2) at (0,0)
{
(S NN VP(AD
\\
VP(VV AS)))
}
;
\end{scope}
\node
[anchor=north west] (cap1) at (-1.5em,-1in)
{
\scriptsize
{
(a) 树状表示
}}
;
\node
[anchor=west] (cap2) at ([xshift=0.5in]cap1.east)
{
\scriptsize
{
(b) 序列表示(缩进)
}}
;
\node
[anchor=west] (cap3) at ([xshift=0.5in]cap2.east)
{
\scriptsize
{
(c) 序列表示
}}
;
}
\end{tikzpicture}
\item
<2-> 通常,可以用基于树结构的翻译规则来描述上述过程,有两种情况:
\begin{enumerate}
\item
数到串翻译规则 - 对应树到串、串到树模型
\item
数到树翻译规则 - 对应树到树模型
\end{enumerate}
这里用一种统一的形式描述上述规则
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 把句法信息引入机器翻译的方法
\begin{frame}
{
机器翻译使用句法信息
}
% 例子
\end{frame}
%%% 基于树结构的文法
\begin{frame}
{
基于树结构的文法
}
\begin{itemize}
\item
为了描述任意树和串之间的转换,可以定义如下文法
\end{itemize}
\begin{beamerboxesrounded}
[upper=uppercolblue,lower=lowercolblue,shadow=true]
{
定义 - 基于树结构的文法
}
{
\small
一个基于树结构的文法由七部分构成
$
(
N
_
s, N
_
t, T
_
s, T
_
t, I
_
s, I
_
t, R
)
$
,其中
\\
1.
$
N
_
s
$
和
$
N
_
t
$
是源语和目标语非终结符集合
\\
2.
$
T
_
s
$
和
$
T
_
t
$
是源语言和目标语终结符集合
\\
3.
$
I
_
s
\subseteq
N
_
s
$
和
$
I
_
t
\subseteq
N
_
t
$
是源语言和目标语起始非终结符集合
\\
4.
$
R
$
是规则集合,每条规则
$
r
\in
R
$
有如下形式
\begin{displaymath}
\langle\ \alpha
_
h,
\beta
_
h
\ \rangle
\to
\langle\ \alpha
_
r,
\beta
_
r,
\sim\ \rangle
\end{displaymath}
其中,规则左部由非终结符
$
\alpha
_
h
\in
N
_
s
$
和
$
\beta
_
h
\in
N
_
t
$
构成;规则右部由三部分组成,
$
\alpha
_
r
$
表示由源语言终结符和非终结符组成的树结构;
$
\beta
_
r
$
表示由目标语言终结符和非终结符组成的树结构;
$
\sim
$
表示
$
\alpha
_
r
$
和
$
\beta
_
r
$
中叶子非终结符的1-1对应关系
}
\end{beamerboxesrounded}
%%%------------------------------------------------------------------------------------------------------------
%%% 基于树结构的翻译文法
\begin{frame}
{
基于树的翻译文法
}
% Manual
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
...
...
@@ -2361,5 +2402,20 @@ d = r_1 \circ r_2 \circ r_3 \circ r_4
% 我COLING的文章、博士论文、NiuTrans Manual
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 改进1
\begin{frame}
{
改进:基于森林的翻译模型
}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 改进2
\begin{frame}
{
改进:句法软约束和模糊匹配
}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 改进3
\begin{frame}
{
改进:控制句法信息使用的程度
}
\end{frame}
\end{CJK}
\end{document}
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论