Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
aade8184
Commit
aade8184
authored
Apr 12, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
update chapter1
parent
ea2b1f8e
显示空白字符变更
内嵌
并排
正在显示
3 个修改的文件
包含
2 行增加
和
208 行删除
+2
-208
Book/Chapter1/chapter1.tex
+2
-2
Book/Chapter4/Section04-Phrasal-and-Syntactic-Models/section04-test.tex
+0
-206
Book/Chapter4/Section04-Phrasal-and-Syntactic-Models/section04.tex
+0
-0
没有找到文件。
Book/Chapter1/chapter1.tex
查看文件 @
aade8184
...
...
@@ -228,7 +228,7 @@
\subsection
{
统计机器翻译
}
\index
{
Chapter1.4.3
}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\parinterval
统计机器翻译兴起于上世纪90年代
\cite
{
brown1990statistical
}
\cite
{
koehn2003statistical
}
它利用统计模型从单/双语语料中自动学习翻译知识。具体来说,可以使用单语语料学习语言模型,使用双语平行语料学习翻译模型,并使用这些统计模型完成对翻译过程的建模。整个过程不需要人工编写规则,也不需要从实例中构建翻译模板。无论是词、短语,甚至句法结构,统计机器翻译系统都可以自动学习,人更多的是参与定义翻译所需的特征和基本翻译单元的形式。而翻译知识都保存在模型的参数中。
\parinterval
统计机器翻译兴起于上世纪90年代
\cite
{
brown1990statistical
,
koehn2003statistical
}
它利用统计模型从单/双语语料中自动学习翻译知识。具体来说,可以使用单语语料学习语言模型,使用双语平行语料学习翻译模型,并使用这些统计模型完成对翻译过程的建模。整个过程不需要人工编写规则,也不需要从实例中构建翻译模板。无论是词、短语,甚至句法结构,统计机器翻译系统都可以自动学习,人更多的是参与定义翻译所需的特征和基本翻译单元的形式。而翻译知识都保存在模型的参数中。
%----------------------------------------------
% 图1.11
\begin{figure}
[htp]
...
...
@@ -245,7 +245,7 @@
\subsection
{
神经机器翻译
}
\index
{
Chapter1.4.4
}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\parinterval
随着机器学习技术的发展,基于深度学习的神经机器翻译逐渐开始兴起。自2014年开始,它在短短几年内已经在大部分任务上取得了明显的优势
\cite
{
sutskever2014sequence
}
\cite
{
bahdanau2014neural
}
神经机器翻译中,词串被表示成实数向量,即分布式向量表示。这样,翻译过程并不是在离散化的单词和短语上进行,而是在实数向量空间上计算,因此它对词序列表示的方式产生了本质的改变。通常,机器翻译可以被看作一个序列到另一个序列的转化。在神经机器翻译中,序列到序列的转化过程可以由
{
\small\bfnew
{
编码器-解码器
}}
(encoder-decoder)框架实现。其中,编码器把源语言序列进行编码,并提取源语言中信息进行分布式表示,之后解码器再把这种信息转换为另一种语言的表达。
\parinterval
随着机器学习技术的发展,基于深度学习的神经机器翻译逐渐开始兴起。自2014年开始,它在短短几年内已经在大部分任务上取得了明显的优势
\cite
{
sutskever2014sequence
,
bahdanau2014neural
}
神经机器翻译中,词串被表示成实数向量,即分布式向量表示。这样,翻译过程并不是在离散化的单词和短语上进行,而是在实数向量空间上计算,因此它对词序列表示的方式产生了本质的改变。通常,机器翻译可以被看作一个序列到另一个序列的转化。在神经机器翻译中,序列到序列的转化过程可以由
{
\small\bfnew
{
编码器-解码器
}}
(encoder-decoder)框架实现。其中,编码器把源语言序列进行编码,并提取源语言中信息进行分布式表示,之后解码器再把这种信息转换为另一种语言的表达。
%----------------------------------------------
% 图1.12
...
...
Book/Chapter4/Section04-Phrasal-and-Syntactic-Models/section04-test.tex
deleted
100644 → 0
查看文件 @
ea2b1f8e
% !Mode:: "TeX:UTF-8"
% !TEX encoding = UTF-8 Unicode
\def\CTeXPreproc
{
Created by ctex v0.2.13, don't edit!
}
\documentclass
[cjk,t,compress,12pt]
{
beamer
}
\usepackage
{
pstricks
}
\usepackage
{
etex
}
\usepackage
{
eso-pic,graphicx
}
\usepackage
{
fancybox
}
\usepackage
{
amsmath,amssymb
}
\usepackage
{
setspace
}
\usepackage
{
xcolor
}
\usepackage
{
CJK
}
\usepackage
{
tikz
}
\usepackage
{
tikz-qtree
}
\usepackage
{
hyperref
}
\usepackage
{
ulem
}
\usepackage
{
multirow
}
\usepackage
{
tcolorbox
}
\tcbuselibrary
{
skins
}
\usetikzlibrary
{
calc,intersections
}
\usetikzlibrary
{
matrix
}
\usetikzlibrary
{
patterns
}
\usetikzlibrary
{
arrows,decorations.pathreplacing
}
\usetikzlibrary
{
shadows
}
\usetikzlibrary
{
shadows.blur
}
\usepgflibrary
{
arrows
}
\usetikzlibrary
{
arrows
}
\usetikzlibrary
{
decorations
}
\usetikzlibrary
{
arrows,shapes
}
\usetikzlibrary
{
positioning,fit,calc
}
\usetikzlibrary
{
mindmap,backgrounds
}
% mind map
\DeclareMathOperator*
{
\argmax
}{
arg
\,
max
}
\DeclareMathOperator*
{
\argmin
}{
arg
\,
min
}
\setbeamertemplate
{
items
}
[ball]
\usefonttheme
[onlymath]
{
serif
}
\definecolor
{
ugreen
}{
rgb
}{
0,0.5,0
}
\definecolor
{
lgreen
}{
rgb
}{
0.9,1,0.8
}
\definecolor
{
xtgreen1
}{
rgb
}{
0.824,0.898,0.8
}
\definecolor
{
xtgreen
}{
rgb
}{
0.914,0.945,0.902
}
\definecolor
{
lightgray
}{
gray
}{
0.85
}
\setbeamercolor
{
uppercol
}{
fg=white,bg=ugreen
}
\setbeamercolor
{
lowercol
}{
fg=black,bg=xtgreen
}
\definecolor
{
darkred
}{
rgb
}{
0.55, 0.0, 0.0
}
\definecolor
{
alizarin
}{
rgb
}{
0.82, 0.1, 0.26
}
\definecolor
{
ublue
}{
rgb
}{
0.152,0.250,0.545
}
\setbeamercolor
{
uppercolblue
}{
fg=white,bg=ublue
}
\setbeamercolor
{
lowercolblue
}{
fg=black,bg=blue!10
}
\usefonttheme
[onlylarge]
{
structurebold
}
\newlength
{
\mystep
}
\newlength
{
\base
}
\newlength
{
\wseg
}
\newlength
{
\hseg
}
\newlength
{
\wnode
}
\newlength
{
\hnode
}
\IfFileExists
{
C:/WINDOWS/win.ini
}
{
\newcommand
{
\mycfont
}{
you
}}
{
\newcommand
{
\mycfont
}{
gbsn
}}
\begin{CJK}
{
UTF8
}{
\mycfont
}
\end{CJK}
\setbeamerfont*
{
frametitle
}{
size=
\large
,series=
\bfseries
}
\setbeamertemplate
{
navigation symbols
}{
\begin{CJK}
{
UTF8
}{
\mycfont
}
第四章 基于短语和句法的统计翻译模型
\hspace*
{
2em
}
肖桐
\&
朱靖波
\end{CJK}
\hspace*
{
2em
}
\today
\hspace*
{
2em
}
\insertframenumber
{}
/
\inserttotalframenumber
}
\setbeamertemplate
{
itemize items
}
[circle]
% if you want a circle
\setbeamertemplate
{
itemize subitem
}
[triangle]
% if you want a triangle
\setbeamertemplate
{
itemize subsubitem
}
[ball]
% if you want a ball
\begin{document}
\begin{CJK}
{
UTF8
}{
\mycfont
}
\title
{
\Large
{
基于短语和句法的统计翻译模型
}}
\author
{
\large
{
\textbf
{
肖桐
\ \
朱靖波
}}}
\institute
{
\blue
{
\url
{
xiaotong@mail.neu.edu.cn
}}
\black
{}
\\
\blue
{
\url
{
zhujingbo@mail.neu.edu.cn
}}
\black
{}
\\
\vspace
{
1.0em
}
东北大学 自然语言处理实验室
\\
\blue
{
\underline
{
\url
{
http://www.nlplab.com
}}}
\black
{}
\\
\vspace
{
0.2cm
}
\hspace
{
0.1cm
}
\includegraphics
[scale=0.1]
{
../Figures/logo.pdf
}
}
\date
{}
\maketitle
\setlength
{
\leftmargini
}{
1em
}
\setlength
{
\leftmarginii
}{
1em
}
%%%------------------------------------------------------------------------------------------------------------
\section
{
使用更大的翻译单元
}
%%%------------------------------------------------------------------------------------------------------------
\section
{
基于短语的模型
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
建模
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
短语抽取
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
判别式模型及特征
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
最小错误率训练
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
栈解码
}
%%%------------------------------------------------------------------------------------------------------------
\section
{
基于层次短语的模型
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
同步上下文无关文法
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
层次短语规则及翻译特征
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
基于chart的解码
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
剪枝
}
%%%------------------------------------------------------------------------------------------------------------
\section
{
基于语言学句法的模型
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
基于树结构的文法
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
翻译规则抽取
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
引入双语句法信息
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
规则匹配
}
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
改进方法
}
%%%------------------------------------------------------------------------------------------------------------
%%% last slide
\begin{frame}
{
Last Slide
}
\vspace
{
1em
}
\begin{center}
\begin{tikzpicture}
\begin{scope}
[level distance=25pt]
\node
[]
(x) at (-4,0)
{}
;
\begin{scope}
[sibling distance=15pt]
\Tree
[.
\node
(en1)
{
VP
}
;
[.
\node
(en2)
{
VP
}
;
[.VB
\textbf
{
Thank
}
]
[.PRP
\textbf
{
you
}
]
]
[.
\node
(en3)
{
ADJP
}
;
[.RB
\textbf
{
very
}
]
[.JJ
\textbf
{
much
}
]
]
]
\end{scope}
\begin{scope}
[grow'=up, xshift=-0.2in, yshift=-2.6in, sibling distance=34pt]
\Tree
[.
\node
(cn1)
{
VP
}
;
[.
\node
(cn2)
{
ADVP
}
; [.AD
\textbf
{
非常
}
] ]
[.
\node
(cn3)
{
VP
}
;
[.VV
\textbf
{
感谢
}
]
[.PR
\textbf
{
大家
}
]
]
]
\end{scope}
\draw
[<->, very thick, dotted, red]
(cn1.east) .. controls +(east:4.5) and +(east:4.5) .. (en1.east);
\draw
[<->, very thick, dotted, ugreen]
(cn2.east) .. controls +(east:2) and +(west:2) .. (en3.west);
\draw
[<->, very thick, dotted, blue]
(cn3.west) .. controls +(west:2) and +(south:2) .. (en2.south);
\end{scope}
\end{tikzpicture}
\end{center}
\end{frame}
\end{CJK}
\end{document}
Book/Chapter4/Section04-Phrasal-and-Syntactic-Models/section04.tex
deleted
100644 → 0
查看文件 @
ea2b1f8e
This source diff could not be displayed because it is too large. You can
view the blob
instead.
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论