Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
dfa69d8b
Commit
dfa69d8b
authored
Dec 22, 2019
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
new update
parent
89ecf9be
隐藏空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
90 行增加
和
46 行删除
+90
-46
Section04-Phrasal-and-Syntactic-Models/section04-test.tex
+36
-38
Section04-Phrasal-and-Syntactic-Models/section04.tex
+54
-8
没有找到文件。
Section04-Phrasal-and-Syntactic-Models/section04-test.tex
查看文件 @
dfa69d8b
...
...
@@ -124,56 +124,54 @@
\section
{
基于层次短语的模型
}
%%%------------------------------------------------------------------------------------------------------------
%%%
上下文无关文法
\begin{frame}
{
同步上下文无关
文法
}
%%%
一个完整文法的例子
\begin{frame}
{
一个完整的
文法
}
\begin{itemize}
\item
以上这种对翻译的描述方式,可以用同步上下文无关文法来定义,记Synchronous Context-Free Grammar(SCFG)
\item
对于一个中文-英文句对,假设可以得到如下同步上下文无关文法
\\
\vspace
{
0.3em
}
\textbf
{
源语
}
:
\ \ \
进口 大幅度 下降 了
\\
\vspace
{
0.3em
}
\textbf
{
目标语
}
:The imports have drastically fallen
\\
\vspace
{
1.0em
}
\textbf
{
SCFG
}
:
\\
\vspace
{
-1.5em
}
\begin{eqnarray}
r
_
1:
\ \ \ \textrm
{
X
}
&
\to
&
\langle\ \textrm
{
进口
}
\ \textrm
{
X
}_
1,
\ \textrm
{
The imports
}
\ \textrm
{
X
}_
1
\ \rangle
\nonumber
\\
r
_
2:
\ \ \ \textrm
{
X
}&
\to
&
\langle\ \textrm
{
X
}_
1
\ \textrm
{
下降
}
\ \textrm
{
X
}_
2,
\ \textrm
{
X
}_
2
\ \textrm
{
X
}_
1
\ \textrm
{
fallen
}
\ \rangle
\nonumber
\\
r
_
3:
\ \ \ \textrm
{
X
}
&
\to
&
\langle\ \textrm
{
大幅度
}
,
\ \textrm
{
drastically
}
\ \rangle
\nonumber
\\
r
_
4:
\ \ \ \textrm
{
X
}
&
\to
&
\langle\ \textrm
{
了
}
,
\ \textrm
{
have
}
\ \rangle
\nonumber
\end{eqnarray}
其中,规则
$
r
_
1
$
和
$
r
_
2
$
是右部含有变量的规则,这些变量可以被其它规则的右部替换;规则
$
r
_
2
$
是调序规则;规则
$
r
_
3
$
和
$
r
_
4
$
是纯词汇化规则,表示单词或者短语的翻译
\end{itemize}
\begin{beamerboxesrounded}
[upper=uppercolblue,lower=lowercolblue,shadow=true]
{
定义 - 同步上下文无关文法
}
{
\small
一个同步上下文无关文法由五部分构成
$
(
N, T
_
s, T
_
t, I, R
)
$
,其中
\\
1.
$
N
$
是非终结符集合
\\
2.
$
T
_
s
$
和
$
T
_
t
$
分别是源语言和目标语终结符集合
\\
3.
$
I
\subseteq
N
$
起始非终结符集合
\\
4.
$
R
$
是规则集合,每条规则
$
r
\in
R
$
有如下形式
\begin{displaymath}
\textrm
{
LHS
}
\to
<
\alpha
,
\beta
,
\sim
>
\end{displaymath}
其中,
$
\textrm
{
LHS
}
\in
N
$
表示规则的左部,它是一个非终结符;规则右部由三部分组成,
$
\alpha
\in
(
N
\bigcup
T
_
s
)
^{
*
}$
表示由源语言终结符和非终结符组成的串;
$
\beta
\in
(
N
\bigcup
T
_
t
)
^{
*
}$
表示由目标语言终结符和非终结符组成的串;
$
\sim
$
表示
$
\alpha
$
和
$
\beta
$
中终结符的1-1对应关系
}
\end{beamerboxesrounded}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%%
上下文无关文法 - 一些实例
\begin{frame}
{
同步上下文无关文法 - 实例
}
%%%
推导
\begin{frame}
{
翻译规则的推导
}
\begin{itemize}
\item
SCFG可以被看做是对CFG的扩展,相当于把单语的CFG扩展到双语,如下是一些SCFG规则,其中每个规则非终结符的对应用非终结符的标号表示
\begin{eqnarray}
\textrm
{
S
}
&
\to
&
<
\textrm
{
NP
}_
1
\ \textrm
{
希望
}
\ \textrm
{
VP
}_
2,
\ \textrm
{
NP
}_
1
\ \textrm
{
wish to
}
\ \textrm
{
VP
}_
2>
\nonumber
\\
\textrm
{
VP
}&
\to
&
<
\textrm
{
对
}
\ \textrm
{
NP
}_
1
\ \textrm
{
感到
}
\ \textrm
{
VP
}_
2,
\ \textrm
{
be
}
\ \textrm
{
VP
}_
2
\ \textrm
{
with
}
\ \textrm
{
NP
}_
1>
\nonumber
\\
\textrm
{
NN
}
&
\to
&
<
\textrm
{
强大
}
,
\ \textrm
{
strong
}
>
\nonumber
\end{eqnarray}
\item
使用SCFG规则的过程构成了一个
\alert
{
推导
}
,每次规则的使用都会同步替换源语言和目标语言串中的一个非终结符
\\
\vspace
{
-2.0em
}
\item
<2-> 这里NP、VP等是有语言学意义的非终结符。当然,在机器翻译中这些并不是必要的,可以使用更简单的文法,只包含一种非终结符
\begin{eqnarray}
\textrm
{
X
}
&
\to
&
<
\textrm
{
X
}_
1
\ \textrm
{
希望
}
\ \textrm
{
X
}_
2,
\ \textrm
{
X
}_
1
\ \textrm
{
wish to
}
\ \textrm
{
X
}_
2>
\nonumber
\\
\textrm
{
X
}&
\to
&
<
\textrm
{
对
}
\ \textrm
{
X
}_
1
\ \textrm
{
感到
}
\ \textrm
{
X
}_
2,
\ \textrm
{
be
}
\ \textrm
{
X
}_
2
\ \textrm
{
with
}
\ \textrm
{
X
}_
1>
\nonumber
\\
\textrm
{
X
}
&
\to
&
<
\textrm
{
强大
}
,
\ \textrm
{
strong
}
>
\nonumber
&
&
\langle\ \textrm
{
X
}
,
\textrm
{
X
}
\ \rangle
\nonumber
\\
\visible
<2->
{&
\xrightarrow
[]
{
r
_
1
}
&
\langle\ \alert
{
\textrm
{
进口
}
\ \textrm
{
X
}_
1
}
,
\ \alert
{
\textrm
{
The imports
}
\ \textrm
{
X
}_
1
}
\ \rangle
\nonumber
\\
}
\visible
<3->
{&
\xrightarrow
[]
{
r
_
2
}
&
\langle\ \textrm
{
进口
}
\ \alert
{
\textrm
{
X
}_
1
\ \textrm
{
下降
}
\ \textrm
{
X
}_
2
}
,
\ \textrm
{
The imports
}
\ \alert
{
\textrm
{
X
}_
2
\ \textrm
{
X
}_
1
\ \textrm
{
fallen
}}
\ \rangle
\nonumber
\\
}
\visible
<4->
{&
\xrightarrow
[]
{
r
_
3
}
&
\langle\ \textrm
{
进口
}
\ \alert
{
\textrm
{
大幅度
}}
\ \textrm
{
下降
}
\ \textrm
{
X
}_
1,
\nonumber
\\
}
\visible
<4->
{&
&
\ \textrm
{
The imports
}
\ \textrm
{
X
}_
1
\ \alert
{
\textrm
{
drastically
}}
\ \textrm
{
fallen
}
\ \rangle
\nonumber
\\
}
\visible
<5->
{&
\xrightarrow
[]
{
r
_
3
}
&
\langle\ \textrm
{
进口
}
\ \textrm
{
大幅度
}
\ \textrm
{
下降
}
\ \alert
{
\textrm
{
了
}}
,
\nonumber
\\
}
\visible
<5->
{&
&
\ \textrm
{
The imports
}
\ \alert
{
\textrm
{
have
}}
\ \textrm
{
drastically
}
\ \textrm
{
fallen
}
\ \rangle
\nonumber
}
\end{eqnarray}
\end{itemize}
\visible
<6->
{
这里把
$
d
$
定义为由规则
$
r
_
1
, r
_
2
, r
_
3
, r
_
4
$
构成的SCFG推导,记作
\begin{displaymath}
d = r
_
1
\circ
r
_
2
\circ
r
_
3
\circ
r
_
4
\end{displaymath}
\end{frame}
显然
$
d
$
定义了从源于句子生成目标语译文的一个过程
}
%%%------------------------------------------------------------------------------------------------------------
%%% 上下文无关文法 - 一些实例
\begin{frame}
{
同步上下文无关文法 - 推导
}
\begin{itemize}
\item
可以使用SCFG规则同步生成源语言和目标语言句对,这个过程和CFG的使用非常类似,只是需要同时生成两个语言的句子。每次规则的使用都会同步替换源语言和目标语言串中的一个非终结符,如下是一个例子
\end{itemize}
\end{frame}
...
...
Section04-Phrasal-and-Syntactic-Models/section04.tex
查看文件 @
dfa69d8b
...
...
@@ -1445,19 +1445,19 @@ $d$是一个$(\textbf{s},\textbf{t})$上基于短语的翻译推导,$\textrm{P
\begin{itemize}
\item
显然,通过由连续单词构成的短语拼装出理想的译文需要比较复杂的机制。但是,语言是有``结构''的,我们可以用一种新的方式描述翻译:
\begin{displaymath}
<
\textrm
{
与
}
\
X
_
1
\ \textrm
{
有
}
\
X
_
2,
\ \ \textrm
{
have
}
\
X
_
2
\ \textrm
{
with
}
\
X
_
1>
\langle\ \textrm
{
与
}
\ \textrm
{
X
}_
1
\ \textrm
{
有
}
\ \textrm
{
X
}_
2,
\ \ \textrm
{
have
}
\ \textrm
{
X
}_
2
\ \textrm
{
with
}
\ \textrm
{
X
}_
1
\ \rangle
\end{displaymath}
这里,
$
X
_
1
$
和
$
X
_
2
$
表示变量,源语和目标语相同的变量表示对应关系,变量可以被其它连续词串替换。这样,这种源语言和目标语言的对应构成了一种翻译规则或模版,相当于把``
$
\textrm
{
与
}
\
X
_
1
\ \textrm
{
有
}
\
X
_
2
$
''翻译为``
$
\textrm
{
have
}
\
X
_
2
\ \textrm
{
with
}
\
X
_
1
$
'',调序信息就隐含在变量的编号里
这里,
$
\textrm
{
X
}_
1
$
和
$
\textrm
{
X
}_
2
$
表示变量,源语和目标语相同的变量表示对应关系,变量可以被其它连续词串替换。这样,这种源语言和目标语言的对应构成了一种翻译规则或模版,相当于把``
$
\textrm
{
与
}
\ \textrm
{
X
}_
1
\ \textrm
{
有
}
\ \textrm
{
X
}_
2
$
''翻译为``
$
\textrm
{
have
}
\ \textrm
{
X
}_
2
\ \textrm
{
with
}
\ \textrm
{
X
}
_
1
$
'',调序信息就隐含在变量的编号里
\vspace
{
0.5em
}
\item
<2-> 类似的,可以写出很多这样的翻译规则
\vspace
{
-1.5em
}
\begin{eqnarray}
<X
_
1
\ \textrm
{
是
}
\
X
_
2,
&
&
X
_
1
\ \textrm
{
is
}
\
X
_
2>
\nonumber
\\
<X
_
1
\ \textrm
{
之一
}
,
&
&
\textrm
{
one
\ \
of
\ \
}
X
_
1>
\nonumber
\\
<X
_
1
\ \textrm
{
的
}
\
X
_
2,
&
&
X
_
2
\ \textrm
{
that
\ \
have
\ \
}
X
_
1>
\nonumber
\langle\ \textrm
{
X
}_
1
\ \textrm
{
是
}
\ \textrm
{
X
}_
2,
&
&
\textrm
{
X
}_
1
\ \textrm
{
is
}
\ \textrm
{
X
}_
2
\ \rangle
\nonumber
\\
\langle\ \textrm
{
X
}_
1
\ \textrm
{
之一
}
,
&
&
\textrm
{
one
\ \
of
\ \
}
\textrm
{
X
}_
1
\ \rangle
\nonumber
\\
\langle\ \textrm
{
X
}_
1
\ \textrm
{
的
}
\ \textrm
{
X
}_
2,
&
&
\textrm
{
X
}_
2
\ \textrm
{
that
\ \
have
\ \
}
\textrm
{
X
}_
1
\ \rangle
\nonumber
\end{eqnarray}
\end{itemize}
...
...
@@ -1656,9 +1656,55 @@ $d$是一个$(\textbf{s},\textbf{t})$上基于短语的翻译推导,$\textrm{P
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 上下文无关文法的推导
\begin{frame}
{
推导
}
% 一个样例文法所对应的双语生成实例
%%% 一个完整文法的例子
\begin{frame}
{
一个完整的文法
}
\begin{itemize}
\item
对于一个中文-英文句对,假设可以得到如下同步上下文无关文法
\\
\vspace
{
0.3em
}
\textbf
{
源语
}
:
\ \ \
进口 大幅度 下降 了
\\
\vspace
{
0.3em
}
\textbf
{
目标语
}
:The imports have drastically fallen
\\
\vspace
{
1.0em
}
\textbf
{
SCFG
}
:
\\
\vspace
{
-1.5em
}
\begin{eqnarray}
r
_
1:
\ \ \ \textrm
{
X
}
&
\to
&
\langle\ \textrm
{
进口
}
\ \textrm
{
X
}_
1,
\ \textrm
{
The imports
}
\ \textrm
{
X
}_
1
\ \rangle
\nonumber
\\
r
_
2:
\ \ \ \textrm
{
X
}&
\to
&
\langle\ \textrm
{
X
}_
1
\ \textrm
{
下降
}
\ \textrm
{
X
}_
2,
\ \textrm
{
X
}_
2
\ \textrm
{
X
}_
1
\ \textrm
{
fallen
}
\ \rangle
\nonumber
\\
r
_
3:
\ \ \ \textrm
{
X
}
&
\to
&
\langle\ \textrm
{
大幅度
}
,
\ \textrm
{
drastically
}
\ \rangle
\nonumber
\\
r
_
4:
\ \ \ \textrm
{
X
}
&
\to
&
\langle\ \textrm
{
了
}
,
\ \textrm
{
have
}
\ \rangle
\nonumber
\end{eqnarray}
其中,规则
$
r
_
1
$
和
$
r
_
2
$
是右部含有变量的规则,这些变量可以被其它规则的右部替换;规则
$
r
_
2
$
是调序规则;规则
$
r
_
3
$
和
$
r
_
4
$
是纯词汇化规则,表示单词或者短语的翻译
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 推导
\begin{frame}
{
翻译规则的推导
}
\begin{itemize}
\item
使用SCFG规则的过程构成了一个
\alert
{
推导
}
,每次规则的使用都会同步替换源语言和目标语言串中的一个非终结符
\\
\vspace
{
-2.0em
}
\begin{eqnarray}
&
&
\langle\ \textrm
{
X
}
,
\textrm
{
X
}
\ \rangle
\nonumber
\\
\visible
<2->
{&
\xrightarrow
[]
{
r
_
1
}
&
\langle\ \alert
{
\textrm
{
进口
}
\ \textrm
{
X
}_
1
}
,
\ \alert
{
\textrm
{
The imports
}
\ \textrm
{
X
}_
1
}
\ \rangle
\nonumber
\\
}
\visible
<3->
{&
\xrightarrow
[]
{
r
_
2
}
&
\langle\ \textrm
{
进口
}
\ \alert
{
\textrm
{
X
}_
1
\ \textrm
{
下降
}
\ \textrm
{
X
}_
2
}
,
\ \textrm
{
The imports
}
\ \alert
{
\textrm
{
X
}_
2
\ \textrm
{
X
}_
1
\ \textrm
{
fallen
}}
\ \rangle
\nonumber
\\
}
\visible
<4->
{&
\xrightarrow
[]
{
r
_
3
}
&
\langle\ \textrm
{
进口
}
\ \alert
{
\textrm
{
大幅度
}}
\ \textrm
{
下降
}
\ \textrm
{
X
}_
1,
\nonumber
\\
}
\visible
<4->
{&
&
\ \textrm
{
The imports
}
\ \textrm
{
X
}_
1
\ \alert
{
\textrm
{
drastically
}}
\ \textrm
{
fallen
}
\ \rangle
\nonumber
\\
}
\visible
<5->
{&
\xrightarrow
[]
{
r
_
3
}
&
\langle\ \textrm
{
进口
}
\ \textrm
{
大幅度
}
\ \textrm
{
下降
}
\ \alert
{
\textrm
{
了
}}
,
\nonumber
\\
}
\visible
<5->
{&
&
\ \textrm
{
The imports
}
\ \alert
{
\textrm
{
have
}}
\ \textrm
{
drastically
}
\ \textrm
{
fallen
}
\ \rangle
\nonumber
}
\end{eqnarray}
\visible
<6->
{
这里把
$
d
$
定义为由规则
$
r
_
1
, r
_
2
, r
_
3
, r
_
4
$
构成的SCFG推导,记作
\begin{displaymath}
d = r
_
1
\circ
r
_
2
\circ
r
_
3
\circ
r
_
4
\end{displaymath}
显然
$
d
$
定义了从源于句子生成目标语译文的一个过程
}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论