Commit aade8184 by 曹润柘

update chapter1

parent ea2b1f8e
......@@ -228,7 +228,7 @@
\subsection{统计机器翻译}\index{Chapter1.4.3}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\parinterval 统计机器翻译兴起于上世纪90年代\cite{brown1990statistical}\cite{koehn2003statistical}它利用统计模型从单/双语语料中自动学习翻译知识。具体来说,可以使用单语语料学习语言模型,使用双语平行语料学习翻译模型,并使用这些统计模型完成对翻译过程的建模。整个过程不需要人工编写规则,也不需要从实例中构建翻译模板。无论是词、短语,甚至句法结构,统计机器翻译系统都可以自动学习,人更多的是参与定义翻译所需的特征和基本翻译单元的形式。而翻译知识都保存在模型的参数中。
\parinterval 统计机器翻译兴起于上世纪90年代\cite{brown1990statistical,koehn2003statistical}它利用统计模型从单/双语语料中自动学习翻译知识。具体来说,可以使用单语语料学习语言模型,使用双语平行语料学习翻译模型,并使用这些统计模型完成对翻译过程的建模。整个过程不需要人工编写规则,也不需要从实例中构建翻译模板。无论是词、短语,甚至句法结构,统计机器翻译系统都可以自动学习,人更多的是参与定义翻译所需的特征和基本翻译单元的形式。而翻译知识都保存在模型的参数中。
%----------------------------------------------
% 图1.11
\begin{figure}[htp]
......@@ -245,7 +245,7 @@
\subsection{神经机器翻译}\index{Chapter1.4.4}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\parinterval 随着机器学习技术的发展,基于深度学习的神经机器翻译逐渐开始兴起。自2014年开始,它在短短几年内已经在大部分任务上取得了明显的优势\cite{sutskever2014sequence}\cite{bahdanau2014neural}神经机器翻译中,词串被表示成实数向量,即分布式向量表示。这样,翻译过程并不是在离散化的单词和短语上进行,而是在实数向量空间上计算,因此它对词序列表示的方式产生了本质的改变。通常,机器翻译可以被看作一个序列到另一个序列的转化。在神经机器翻译中,序列到序列的转化过程可以由{\small\bfnew{编码器-解码器}}(encoder-decoder)框架实现。其中,编码器把源语言序列进行编码,并提取源语言中信息进行分布式表示,之后解码器再把这种信息转换为另一种语言的表达。
\parinterval 随着机器学习技术的发展,基于深度学习的神经机器翻译逐渐开始兴起。自2014年开始,它在短短几年内已经在大部分任务上取得了明显的优势\cite{sutskever2014sequence,bahdanau2014neural}神经机器翻译中,词串被表示成实数向量,即分布式向量表示。这样,翻译过程并不是在离散化的单词和短语上进行,而是在实数向量空间上计算,因此它对词序列表示的方式产生了本质的改变。通常,机器翻译可以被看作一个序列到另一个序列的转化。在神经机器翻译中,序列到序列的转化过程可以由{\small\bfnew{编码器-解码器}}(encoder-decoder)框架实现。其中,编码器把源语言序列进行编码,并提取源语言中信息进行分布式表示,之后解码器再把这种信息转换为另一种语言的表达。
%----------------------------------------------
% 图1.12
......
% !Mode:: "TeX:UTF-8"
% !TEX encoding = UTF-8 Unicode
\def\CTeXPreproc{Created by ctex v0.2.13, don't edit!}
\documentclass[cjk,t,compress,12pt]{beamer}
\usepackage{pstricks}
\usepackage{etex}
\usepackage{eso-pic,graphicx}
\usepackage{fancybox}
\usepackage{amsmath,amssymb}
\usepackage{setspace}
\usepackage{xcolor}
\usepackage{CJK}
\usepackage{tikz}
\usepackage{tikz-qtree}
\usepackage{hyperref}
\usepackage{ulem}
\usepackage{multirow}
\usepackage{tcolorbox}
\tcbuselibrary{skins}
\usetikzlibrary{calc,intersections}
\usetikzlibrary{matrix}
\usetikzlibrary{patterns}
\usetikzlibrary{arrows,decorations.pathreplacing}
\usetikzlibrary{shadows}
\usetikzlibrary{shadows.blur}
\usepgflibrary{arrows}
\usetikzlibrary{arrows}
\usetikzlibrary{decorations}
\usetikzlibrary{arrows,shapes}
\usetikzlibrary{positioning,fit,calc}
\usetikzlibrary{mindmap,backgrounds} % mind map
\DeclareMathOperator*{\argmax}{arg\,max}
\DeclareMathOperator*{\argmin}{arg\,min}
\setbeamertemplate{items}[ball]
\usefonttheme[onlymath]{serif}
\definecolor{ugreen}{rgb}{0,0.5,0}
\definecolor{lgreen}{rgb}{0.9,1,0.8}
\definecolor{xtgreen1}{rgb}{0.824,0.898,0.8}
\definecolor{xtgreen}{rgb}{0.914,0.945,0.902}
\definecolor{lightgray}{gray}{0.85}
\setbeamercolor{uppercol}{fg=white,bg=ugreen}
\setbeamercolor{lowercol}{fg=black,bg=xtgreen}
\definecolor{darkred}{rgb}{0.55, 0.0, 0.0}
\definecolor{alizarin}{rgb}{0.82, 0.1, 0.26}
\definecolor{ublue}{rgb}{0.152,0.250,0.545}
\setbeamercolor{uppercolblue}{fg=white,bg=ublue}
\setbeamercolor{lowercolblue}{fg=black,bg=blue!10}
\usefonttheme[onlylarge]{structurebold}
\newlength{\mystep}
\newlength{\base}
\newlength{\wseg}
\newlength{\hseg}
\newlength{\wnode}
\newlength{\hnode}
\IfFileExists{C:/WINDOWS/win.ini}
{\newcommand{\mycfont}{you}}
{\newcommand{\mycfont}{gbsn}}
\begin{CJK}{UTF8}{\mycfont}
\end{CJK}
\setbeamerfont*{frametitle}{size=\large,series=\bfseries}
\setbeamertemplate{navigation symbols}{\begin{CJK}{UTF8}{\mycfont} 第四章 基于短语和句法的统计翻译模型 \hspace*{2em} 肖桐\&朱靖波 \end{CJK} \hspace*{2em} \today \hspace*{2em} \insertframenumber{}/\inserttotalframenumber}
\setbeamertemplate{itemize items}[circle] % if you want a circle
\setbeamertemplate{itemize subitem}[triangle] % if you want a triangle
\setbeamertemplate{itemize subsubitem}[ball] % if you want a ball
\begin{document}
\begin{CJK}{UTF8}{\mycfont}
\title{\Large{基于短语和句法的统计翻译模型}}
\author{\large{\textbf{肖桐\ \ 朱靖波}}}
\institute{
\blue{\url{xiaotong@mail.neu.edu.cn}} \black{} \\
\blue{\url{zhujingbo@mail.neu.edu.cn}} \black{} \\
\vspace{1.0em}
东北大学 自然语言处理实验室 \\
\blue{\underline{\url{http://www.nlplab.com}}} \black{} \\
\vspace{0.2cm}
\hspace{0.1cm} \includegraphics[scale=0.1]{../Figures/logo.pdf}
}
\date{}
\maketitle
\setlength{\leftmargini}{1em}
\setlength{\leftmarginii}{1em}
%%%------------------------------------------------------------------------------------------------------------
\section{使用更大的翻译单元}
%%%------------------------------------------------------------------------------------------------------------
\section{基于短语的模型}
%%%------------------------------------------------------------------------------------------------------------
\subsection{建模}
%%%------------------------------------------------------------------------------------------------------------
\subsection{短语抽取}
%%%------------------------------------------------------------------------------------------------------------
\subsection{判别式模型及特征}
%%%------------------------------------------------------------------------------------------------------------
\subsection{最小错误率训练}
%%%------------------------------------------------------------------------------------------------------------
\subsection{栈解码}
%%%------------------------------------------------------------------------------------------------------------
\section{基于层次短语的模型}
%%%------------------------------------------------------------------------------------------------------------
\subsection{同步上下文无关文法}
%%%------------------------------------------------------------------------------------------------------------
\subsection{层次短语规则及翻译特征}
%%%------------------------------------------------------------------------------------------------------------
\subsection{基于chart的解码}
%%%------------------------------------------------------------------------------------------------------------
\subsection{剪枝}
%%%------------------------------------------------------------------------------------------------------------
\section{基于语言学句法的模型}
%%%------------------------------------------------------------------------------------------------------------
\subsection{基于树结构的文法}
%%%------------------------------------------------------------------------------------------------------------
\subsection{翻译规则抽取}
%%%------------------------------------------------------------------------------------------------------------
\subsection{引入双语句法信息}
%%%------------------------------------------------------------------------------------------------------------
\subsection{规则匹配}
%%%------------------------------------------------------------------------------------------------------------
\subsection{改进方法}
%%%------------------------------------------------------------------------------------------------------------
%%% last slide
\begin{frame}{Last Slide}
\vspace{1em}
\begin{center}
\begin{tikzpicture}
\begin{scope}[level distance=25pt]
\node[] (x) at (-4,0) {};
\begin{scope}[sibling distance=15pt]
\Tree[.\node(en1){VP};
[.\node(en2){VP};
[.VB \textbf{Thank} ]
[.PRP \textbf{you} ]
]
[.\node(en3){ADJP};
[.RB \textbf{very} ]
[.JJ \textbf{much} ]
]
]
\end{scope}
\begin{scope}[grow'=up, xshift=-0.2in, yshift=-2.6in, sibling distance=34pt]
\Tree[.\node(cn1){VP};
[.\node(cn2){ADVP}; [.AD \textbf{非常} ] ]
[.\node(cn3){VP};
[.VV \textbf{感谢} ]
[.PR \textbf{大家} ]
]
]
\end{scope}
\draw[<->, very thick, dotted, red] (cn1.east) .. controls +(east:4.5) and +(east:4.5) .. (en1.east);
\draw[<->, very thick, dotted, ugreen] (cn2.east) .. controls +(east:2) and +(west:2) .. (en3.west);
\draw[<->, very thick, dotted, blue] (cn3.west) .. controls +(west:2) and +(south:2) .. (en2.south);
\end{scope}
\end{tikzpicture}
\end{center}
\end{frame}
\end{CJK}
\end{document}
This source diff could not be displayed because it is too large. You can view the blob instead.
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论