Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
686fef16
Commit
686fef16
authored
Dec 17, 2019
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
update
parent
adf75862
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
5 行增加
和
93 行删除
+5
-93
Section04-Phrasal-and-Syntactic-Models/section04-test.tex
+5
-93
没有找到文件。
Section04-Phrasal-and-Syntactic-Models/section04-test.tex
查看文件 @
686fef16
...
...
@@ -124,102 +124,14 @@
\section
{
基于层次短语的模型
}
%%%------------------------------------------------------------------------------------------------------------
%%%
短语系统的问题 - 数据稀疏和无法处理长距离依赖
\begin{frame}
{
基于短语的方法的不足
}
%%%
使用翻译规则
\begin{frame}
{
使用翻译规则描述翻译过程
}
\begin{itemize}
\item
短语可以很好的捕捉词语之间的局部搭配和调序,但是长距离依赖需要更长的短语
\item
翻译过程可以用上述规则描述
\begin{itemize}
\item
实践中发现使用超过长度3的短语作用不大
\item
短语非常稀疏,包含多个词的短语大多非常低频
\item
规则的源语和目标语端都对应连续的词串
\item
每个变量在源语和目标语端可以被同步替换
\end{itemize}
\vspace
{
0.5em
}
\begin{center}
\begin{tabular}
{
l | r
}
短语(中文)
&
训练数据中出现频次
\\
\hline
包含
&
3341
\\
包含 多个
&
213
\\
包含 多个 词
&
12
\\
包含 多个 词 的
&
8
\\
包含 多个 词 的 短语
&
0
\\
包含 多个 词 的 短语 大多
&
0
\end{tabular}
\end{center}
\vspace
{
0.5em
}
\item
<2-> 简单使用短语和
$
n
$
-gram语言模型无法处理长距离的调序
\begin{itemize}
\item
引入独立的调序模型,比如简单的基于距离的调序
\item
当然,也可以设计更加复杂的调序模型
\end{itemize}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 短语系统的问题 - 一个实例
\begin{frame}
{
基于短语的方法的不足 - 一个实例
}
\begin{itemize}
\item
一个短语翻译不成功的例子(Chiang, 2015)
\end{itemize}
\vspace
{
-1.5em
}
\begin{center}
\begin{tikzpicture}
\begin{scope}
\node
[anchor=east] (shead) at (0,0)
{
源语:
}
;
\node
[anchor=west] (swords) at (shead.east)
{
澳洲
\ \
是
\ \
与
\ \
北韩
\ \
有
\ \
邦交
\ \
的
\ \
少数
\ \
国家
\ \
之一
}
;
\node
[anchor=north east] (thead) at ([yshift=-0.8em]shead.south east)
{
短语系统:
}
;
\node
[anchor=west] (twords) at (thead.east)
{
Australia is diplomatic relations with North Korea
}
;
\node
[anchor=north west] (twords2) at ([yshift=-0.2em]twords.south west)
{
is one of the few countries
}
;
\node
[anchor=north east] (rhead) at ([yshift=-2.2em]thead.south east)
{
参考译文:
}
;
\node
[anchor=west] (rwords) at (rhead.east)
{
Australia is one of the few countries that have
}
;
\node
[anchor=north west] (rwords2) at ([yshift=-0.2em]rwords.south west)
{
diplomatic relations with North Korea
}
;
\begin{pgfonlayer}
{
background
}
\visible
<2->
{
\draw
[fill=red!20,draw=white]
([xshift=-5.6em]twords.north) rectangle ([xshift=11em]twords.south);
\draw
[fill=blue!20,draw=white]
([xshift=-4.8em]twords2.north) rectangle ([xshift=6.3em]twords2.south);
\node
[anchor=south east,inner sep=1pt,fill=black] (l1) at ([xshift=11em]twords.south)
{
\tiny
{{
\color
{
white
}
1
}}}
;
\node
[anchor=south east,inner sep=1pt,fill=black] (l2) at ([xshift=6.3em]twords2.south)
{
\tiny
{{
\color
{
white
}
2
}}}
;
}
\end{pgfonlayer}
\end{scope}
\end{tikzpicture}
\end{center}
\begin{itemize}
\item
<2-> 从短语系统翻译结果可以看出
\begin{itemize}
\item
diplomatic relations with North Korea能够进行正确调序
\item
one of the few countries能够进行正确调序
\item
\textbf
{
但是
}
,两个短语(
\tikz
{
\node
[fill=black,inner sep=2pt]
{
\tiny
{{
\color
{
white
}
1
}}}
;
}
和
\tikz
{
\node
[fill=black,inner sep=2pt]
{
\tiny
{{
\color
{
white
}
2
}}}
;
}
)没有正确调序 - 怎么办?
\end{itemize}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 引入层次短语规则
\begin{frame}
{
引入新的翻译单元
}
\begin{itemize}
\item
显然,通过由连续单词构成的短语拼装出理想的译文需要比较复杂的机制。但是,语言是有``结构''的,我们可以用一种新的方式描述翻译:
\begin{displaymath}
<
\textrm
{
与
}
\
X
_
1
\ \textrm
{
有
}
\
X
_
2,
\ \ \textrm
{
have
}
\
X
_
2
\ \textrm
{
with
}
\
X
_
1>
\end{displaymath}
这里
$
X
_
1
$
和
$
X
_
2
$
表示两个变量,它们可以被其它连续词串替换。这样,上面这种源语言和目标语言的对应就构成了一种翻译规则或模版,相当于把``
$
\textrm
{
与
}
\
X
_
1
\ \textrm
{
有
}
\
X
_
2
$
''翻译为``
$
\textrm
{
have
}
\
X
_
2
\ \textrm
{
with
}
\
X
_
1
$
'',调序信息就隐含在变量的编号里
\vspace
{
0.5em
}
\item
<2-> 类似的,可以写出很多这样的翻译规则
\vspace
{
-1.5em
}
\begin{eqnarray}
<X
_
1
\ \textrm
{
是
}
\
X
_
2,
&
&
X
_
1
\ \textrm
{
is
}
\
X
_
2>
\nonumber
\\
<X
_
1
\ \textrm
{
之一
}
,
&
&
\textrm
{
one
\ \
of
\ \
}
X
_
1>
\nonumber
\\
<X
_
1
\ \textrm
{
的
}
\
X
_
2,
&
&
X
_
2
\ \textrm
{
that
\ \
have
\ \
}
X
_
1>
\nonumber
\end{eqnarray}
\end{itemize}
\end{frame}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论