Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
74c42c22
Commit
74c42c22
authored
Nov 20, 2019
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
new updates
parent
f712d81a
显示空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
226 行增加
和
3 行删除
+226
-3
Section04-Phrasal-and-Syntactic-Models/section04-test.tex
+48
-3
Section04-Phrasal-and-Syntactic-Models/section04.tex
+178
-0
没有找到文件。
Section04-Phrasal-and-Syntactic-Models/section04-test.tex
查看文件 @
74c42c22
...
...
@@ -182,14 +182,59 @@
%%%------------------------------------------------------------------------------------------------------------
%%% 融合用双语短语描述翻译
\begin{frame}
{
基于短语的翻译推导
}
\begin{itemize}
\item
可以利用双语短语描述翻译过程
\\
\vspace
{
0.3em
}
\begin{beamerboxesrounded}
[upper=uppercolblue,lower=lowercolblue,shadow=true]
{
定义 - 基于短语的翻译推导
}
{
\small
对于源语和目标语句对(
$
\textbf
{
s
}
,
\textbf
{
t
}$
),有
$
l
$
个短语对
$
\{
(
\tilde
{
s
}_
i,
\tilde
{
t
}_
j
)
\}
$
,且所有源语言短语
$
\{\tilde
{
s
}_
i
\}
$
和所有目标语短语
$
\{\tilde
{
t
}_
j
\}
$
分别构成
$
\textbf
{
s
}$
和
$
\textbf
{
t
}$
的切分,则称这些短语对
$
\{
(
\tilde
{
s
}_
i,
\tilde
{
t
}_
j
)
\}
$
构成了
$
\textbf
{
s
}$
到
$
\textbf
{
t
}$
的
\alert
{
基于短语的翻译推导
}
(简称推导),记为
$
d
(
\{
(
\tilde
{
s
}_
i,
\tilde
{
t
}_
j
)
\}
,
\textbf
{
s
}
,
\textbf
{
t
}
)
$
(简记为
$
d
(
\{
(
\tilde
{
s
}_
i,
\tilde
{
t
}_
j
)
\}
)
$
或
$
d
$
)。
}
\end{beamerboxesrounded}
\vspace
{
-0.5em
}
\begin{center}
\begin{tikzpicture}
\begin{scope}
[minimum height = 18pt]
\node
[anchor=east]
(s0) at (-0.5em, 0)
{$
\textbf
{
s
}$
:
}
;
\node
[anchor=west]
(s1) at (0, 0)
{
进口
}
;
\node
[anchor=west]
(s2) at (3.5em, 0)
{
大幅度
}
;
\node
[anchor=west]
(s3) at (7.9em, 0)
{
下降 了
}
;
\node
[anchor=west,fill=ugreen!50]
(s1) at (0, 0)
{
进口
}
;
\node
[anchor=west,fill=red!50]
(s2) at (3.5em, 0)
{
大幅度
}
;
\node
[anchor=west,fill=blue!50]
(s3) at (7.9em, 0)
{
下降 了
}
;
\node
[anchor=east]
(t0) at (-0.5em, -1)
{$
\textbf
{
t
}$
:
}
;
\node
[anchor=west]
(t1) at (0, -1)
{
the imports have
}
;
\node
[anchor=west]
(t2) at (8.4em, -1)
{
drastically
}
;
\node
[anchor=west]
(t3) at (14.0em, -1)
{
fallen
}
;
\node
[anchor=west,fill=ugreen!50]
(t1) at (0, -1)
{
the imports have
}
;
\node
[anchor=west,fill=red!50]
(t2) at (8.4em, -1)
{
drastically
}
;
\node
[anchor=west,fill=blue!50]
(t3) at (14.0em, -1)
{
fallen
}
;
\path
[<->, thick]
(s1.south) edge (t1.north);
\path
[<->, thick]
(s2.south) edge (t2.north);
\path
[<->, thick]
(s3.south) edge (t3.north);
\node
[anchor=south,inner sep=0pt,yshift=-0.3em]
(sp1) at (s1.north)
{
\scriptsize
{$
\tilde
{
s
}_
1
$}}
;
\node
[anchor=south,inner sep=0pt,yshift=-0.3em]
(sp2) at (s2.north)
{
\scriptsize
{$
\tilde
{
s
}_
2
$}}
;
\node
[anchor=south,inner sep=0pt,yshift=-0.3em]
(sp3) at (s3.north)
{
\scriptsize
{$
\tilde
{
s
}_
3
$}}
;
\node
[anchor=north,inner sep=0pt,yshift=0.3em]
(tp1) at (t1.south)
{
\scriptsize
{$
\tilde
{
t
}_
1
$}}
;
\node
[anchor=north,inner sep=0pt,yshift=0.3em]
(tp2) at (t2.south)
{
\scriptsize
{$
\tilde
{
t
}_
2
$}}
;
\node
[anchor=north,inner sep=0pt,yshift=0.3em]
(tp3) at (t3.south)
{
\scriptsize
{$
\tilde
{
t
}_
3
$}}
;
\end{scope}
\end{tikzpicture}
\end{center}
\vspace
{
-1.5em
}
\begin{itemize}
\item
$
\{\tilde
{
s
}_
1
,
\tilde
{
s
}_
2
,
\tilde
{
s
}_
3
\}
$
是
$
\textbf
{
s
}$
的一个短语切分
\item
$
\{\tilde
{
t
}_
1
,
\tilde
{
t
}_
2
,
\tilde
{
t
}_
3
\}
$
是
$
\textbf
{
t
}$
的一个短语切分
\item
$
\{
(
\tilde
{
s
}_
k,
\tilde
{
t
}_
k
)
\}
$
构成了
$
(
\textbf
{
s
}
,
\textbf
{
t
}
)
$
的一个基于短语的翻译推导
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
...
...
Section04-Phrasal-and-Syntactic-Models/section04.tex
查看文件 @
74c42c22
...
...
@@ -890,10 +890,188 @@
\section
{
基于短语的模型
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
建模
}
%%%------------------------------------------------------------------------------------------------------------
%%% 什么是短语
\begin{frame}
{
何为短语?
}
\begin{itemize}
\item
句对可以用短语对的组合进行表示,比如下图的例子包含三个短语翻译:
\begin{itemize}
\item
进口
$
\leftrightarrow
$
the imports have
\item
大幅度
$
\leftrightarrow
$
drastically
\item
下降 了
$
\leftrightarrow
$
fallen
\end{itemize}
\begin{center}
\begin{tikzpicture}
\begin{scope}
[minimum height = 18pt]
\node
[anchor=east]
(s0) at (-0.5em, 0)
{
源语:
}
;
\node
[anchor=west]
(s1) at (0, 0)
{
进口
}
;
\node
[anchor=west]
(s2) at (3.5em, 0)
{
大幅度
}
;
\node
[anchor=west]
(s3) at (7.9em, 0)
{
下降 了
}
;
\node
[anchor=west,fill=ugreen!50]
(s1) at (0, 0)
{
进口
}
;
\node
[anchor=west,fill=red!50] (s2) at (3.5em, 0)
{
大幅度
}
;
\node
[anchor=west,fill=blue!50]
(s3) at (7.9em, 0)
{
下降 了
}
;
\node
[anchor=east]
(t0) at (-0.5em, -1)
{
目标语:
}
;
\node
[anchor=west]
(t1) at (0, -1)
{
the imports have
}
;
\node
[anchor=west]
(t2) at (8.4em, -1)
{
drastically
}
;
\node
[anchor=west]
(t3) at (14.0em, -1)
{
fallen
}
;
\node
[anchor=west,fill=ugreen!50]
(t1) at (0, -1)
{
the imports have
}
;
\node
[anchor=west,fill=red!50]
(t2) at (8.4em, -1)
{
drastically
}
;
\node
[anchor=west,fill=blue!50]
(t3) at (14.0em, -1)
{
fallen
}
;
\path
[<->, thick]
(s1.south) edge (t1.north);
\path
[<->, thick]
(s2.south) edge (t2.north);
\path
[<->, thick]
(s3.south) edge (t3.north);
\end{scope}
\end{tikzpicture}
\end{center}
\item
<2-> 显然上图中的短语并不是语言学上的短语。这里有:
\\
\vspace
{
0.3em
}
\begin{beamerboxesrounded}
[upper=uppercolblue,lower=lowercolblue,shadow=true]
{
定义 - 短语
}
对于一个句子
$
\textbf
{
w
}
=
w
_
1
...w
_
n
$
,任意子串
$
w
_
i...w
_
j
$
(
$
i
\le
j
$
,
$
0
\le
i
$
,
$
j
\le
n
$
)都是句子
$
\textbf
{
w
}$
的一个
\alert
{
短语
}
\end{beamerboxesrounded}
\begin{itemize}
\item
$
n
$
个词构成的句子可以有
$
\frac
{
n
(
n
+
1
)
}{
2
}$
个短语
\end{itemize}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 什么是短语翻译推导
\begin{frame}
{
双语短语
}
\begin{itemize}
\item
进一步,可以定义
\\
\begin{beamerboxesrounded}
[upper=uppercolblue,lower=lowercolblue,shadow=true]
{
定义 - 句子的短语切分
}
对于一个句子
$
\textbf
{
w
}
=
w
_
1
...w
_
n
$
,可以被切分为
$
m
$
个子串,则称
$
\textbf
{
w
}$
由
$
m
$
个短语组成,记为
$
\textbf
{
w
}
=
p
_
1
...p
_
m
$
,其中
$
p
_
i
$
是
$
\textbf
{
w
}$
的一个短语,
$
p
_
1
...p
_
m
$
也被称作句子
$
\textbf
{
w
}$
的一个
\alert
{
短语切分
}
\end{beamerboxesrounded}
\vspace
{
0.5em
}
\item
<2-> 对于双语的情况
\\
\begin{beamerboxesrounded}
[upper=uppercolblue,lower=lowercolblue,shadow=true]
{
定义 - 双语短语(或短语对)
}
对于源语和目标语句对(
$
\textbf
{
s
}
,
\textbf
{
t
}$
),
$
\textbf
{
s
}$
中短语
$
\tilde
{
s
}_
i
$
和
$
\textbf
{
t
}$
中的短语
$
\tilde
{
t
}_
j
$
可以构成一个双语短语对
$
(
\tilde
{
s
}_
i,
\tilde
{
t
}_
j
)
$
,简称
\alert
{
短语对
}$
(
\tilde
{
s
}_
i,
\tilde
{
t
}_
j
)
$
\end{beamerboxesrounded}
\begin{itemize}
\item
比如,句对``进口 大幅度 下降 了
$
\leftrightarrow
$
the imports have drastically fallen'',有很多短语对,比如
\begin{itemize}
\item
大幅度
$
\leftrightarrow
$
drastically
\item
大幅度 下降
$
\leftrightarrow
$
have drastically fallen
\end{itemize}
\end{itemize}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 融合用双语短语描述翻译
\begin{frame}
{
基于短语的翻译推导
}
\begin{beamerboxesrounded}
[upper=uppercolblue,lower=lowercolblue,shadow=true]
{
定义 - 基于短语的翻译推导
}
{
\small
对于源语和目标语句对(
$
\textbf
{
s
}
,
\textbf
{
t
}$
),有
$
l
$
个短语对
$
\{
(
\tilde
{
s
}_
i,
\tilde
{
t
}_
j
)
\}
$
,且所有源语言短语
$
\{\tilde
{
s
}_
i
\}
$
和所有目标语短语
$
\{\tilde
{
t
}_
j
\}
$
分别构成
$
\textbf
{
s
}$
和
$
\textbf
{
t
}$
的切分,则称这些短语对
$
\{
(
\tilde
{
s
}_
i,
\tilde
{
t
}_
j
)
\}
$
构成了
$
\textbf
{
s
}$
到
$
\textbf
{
t
}$
的
\alert
{
基于短语的翻译推导
}
(简称推导),记为
$
d
(
\{
(
\tilde
{
s
}_
i,
\tilde
{
t
}_
j
)
\}
,
\textbf
{
s
}
,
\textbf
{
t
}
)
$
(简记为
$
d
(
\{
(
\tilde
{
s
}_
i,
\tilde
{
t
}_
j
)
\}
)
$
或
$
d
$
)。
}
\end{beamerboxesrounded}
\vspace
{
-0.5em
}
\begin{center}
\begin{tikzpicture}
\begin{scope}
[minimum height = 18pt]
\node
[anchor=east]
(s0) at (-0.5em, 0)
{$
\textbf
{
s
}$
:
}
;
\node
[anchor=west]
(s1) at (0, 0)
{
进口
}
;
\node
[anchor=west]
(s2) at (3.5em, 0)
{
大幅度
}
;
\node
[anchor=west]
(s3) at (7.9em, 0)
{
下降 了
}
;
\node
[anchor=west,fill=ugreen!50]
(s1) at (0, 0)
{
进口
}
;
\node
[anchor=west,fill=red!50]
(s2) at (3.5em, 0)
{
大幅度
}
;
\node
[anchor=west,fill=blue!50]
(s3) at (7.9em, 0)
{
下降 了
}
;
\node
[anchor=east]
(t0) at (-0.5em, -1)
{$
\textbf
{
t
}$
:
}
;
\node
[anchor=west]
(t1) at (0, -1)
{
the imports have
}
;
\node
[anchor=west]
(t2) at (8.4em, -1)
{
drastically
}
;
\node
[anchor=west]
(t3) at (14.0em, -1)
{
fallen
}
;
\node
[anchor=west,fill=ugreen!50]
(t1) at (0, -1)
{
the imports have
}
;
\node
[anchor=west,fill=red!50]
(t2) at (8.4em, -1)
{
drastically
}
;
\node
[anchor=west,fill=blue!50]
(t3) at (14.0em, -1)
{
fallen
}
;
\path
[<->, thick]
(s1.south) edge (t1.north);
\path
[<->, thick]
(s2.south) edge (t2.north);
\path
[<->, thick]
(s3.south) edge (t3.north);
\node
[anchor=south,inner sep=0pt,yshift=-0.3em]
(sp1) at (s1.north)
{
\scriptsize
{$
\tilde
{
s
}_
1
$}}
;
\node
[anchor=south,inner sep=0pt,yshift=-0.3em]
(sp2) at (s2.north)
{
\scriptsize
{$
\tilde
{
s
}_
2
$}}
;
\node
[anchor=south,inner sep=0pt,yshift=-0.3em]
(sp3) at (s3.north)
{
\scriptsize
{$
\tilde
{
s
}_
3
$}}
;
\node
[anchor=north,inner sep=0pt,yshift=0.3em]
(tp1) at (t1.south)
{
\scriptsize
{$
\tilde
{
t
}_
1
$}}
;
\node
[anchor=north,inner sep=0pt,yshift=0.3em]
(tp2) at (t2.south)
{
\scriptsize
{$
\tilde
{
t
}_
2
$}}
;
\node
[anchor=north,inner sep=0pt,yshift=0.3em]
(tp3) at (t3.south)
{
\scriptsize
{$
\tilde
{
t
}_
3
$}}
;
\end{scope}
\end{tikzpicture}
\end{center}
\vspace
{
-1.5em
}
\begin{itemize}
\item
$
\{\tilde
{
s
}_
1
,
\tilde
{
s
}_
2
,
\tilde
{
s
}_
3
\}
$
是
$
\textbf
{
s
}$
的一个短语切分
\item
$
\{\tilde
{
t
}_
1
,
\tilde
{
t
}_
2
,
\tilde
{
t
}_
3
\}
$
是
$
\textbf
{
t
}$
的一个短语切分
\item
$
\{
(
\tilde
{
s
}_
k,
\tilde
{
t
}_
k
)
\}
$
构成了
$
(
\textbf
{
s
}
,
\textbf
{
t
}
)
$
的一个基于短语的翻译推导
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
短语抽取
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
判别式模型及特征
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
最小错误率训练
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
栈解码
}
%%%------------------------------------------------------------------------------------------------------------
\section
{
基于层次短语的模型
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
同步上下文无关文法
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
层次短语规则及翻译特征
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
基于chart的解码
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
剪枝
}
%%%------------------------------------------------------------------------------------------------------------
\section
{
基于语言学句法的模型
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
基于树结构的文法
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
翻译规则抽取
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
规则匹配
}
\end{CJK}
\end{document}
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论