chapterpreface.tex 9.28 KB
Newer Older
曹润柘 committed
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
% !Mode:: "TeX:UTF-8"
% !TEX encoding = UTF-8 Unicode

%----------------------------------------------------------------------------------------
% 机器翻译:统计建模与深度学习方法
% Machine Translation: Statistical Modeling and Deep Learning Methods
%
% Copyright 2020
% 肖桐(xiaotong@mail.neu.edu.cn) 朱靖波 (zhujingbo@mail.neu.edu.cn)
%----------------------------------------------------------------------------------------

\renewcommand\figurename{}

%----------------------------------------------------------------------------------------
%	PREFACE
%----------------------------------------------------------------------------------------

{\color{white}}
xiaotong committed
19
\vspace{1em}
曹润柘 committed
20
\begin{center}
xiaotong committed
21
{\Huge \bfnew{\ \ \ \ }}
曹润柘 committed
22 23 24 25 26
\end{center}
\vspace{2em}

\begin{spacing}{1.18}

xiaotong committed
27
\noindent {\sffamily\bfseries 1. 本书的由来}
曹润柘 committed
28

xiaotong committed
29
\vspace{0.5em}
曹润柘 committed
30

xiaotong committed
31
让计算机进行自然语言的翻译是人类长期的梦想,也是人工智能的终极目标之一。自上世纪九十年代起,机器翻译迈入了基于统计建模的时代,发展到今天,已经大量应用了深度学习等机器学习方法,并且取得了令人瞩目的进步。在这个时代背景下,对机器翻译的模型、方法和实现技术进行深入了解是自然语言处理领域研究者和实践者所渴望的。
xiaotong committed
32

xiaotong committed
33
与所有从事机器翻译研究的人一样,笔者也梦想着有朝一日机器翻译能够完全实现。这个想法可以追溯到1980年,姚天顺教授和王宝库教授创立了东北大学自然语言处理实验室,把机器翻译作为毕生为之奋斗的目标。这也影响了包括笔者在内的许多人。虽然,那时的机器翻译技术并不先进,研究条件也异常艰苦,但是实现机器翻译的梦想从未改变。
xiaotong committed
34

xiaotong committed
35
步入二十一世纪后,统计学习方法的兴起给机器翻译带来了全新的思路,同时也带来了巨大的技术进步。笔者有幸经历了那个年代,目睹了机器翻译的成长。同时,也加入到机器翻译研究的浪潮中。从2007年开始研发NiuTrans开源系统,到2012年正式进行机器翻译产业化,并创立小牛翻译,笔者不断地被机器翻译所取得的进步所感动。那时,笔者就曾经思考过将机器翻译的模型和方法进行总结,形成资料供人阅读。虽然粗略写过一些文字,但是未成体系,只是在相关的教学环节中进行使用,供实验室同学闲暇时参考阅读。
xiaotong committed
36 37 38 39 40

但是机器翻译领域进展之快是无法预见的。2016年之后,随着深度学习方法在机器翻译中的进一步应用,机器翻译迎来了前所未有的大好机遇。新的技术方法层出不穷,机器翻译系统也得到了广泛应用。这时,笔者心里又涌现出将机器翻译的技术内容编撰成书的想法。这种强烈的念头使得笔者完成了本书的第一个版本(包含七章),并开源供人广泛阅读。承蒙同行们厚爱,得到了很多反馈,包括一些批评意见。这些使得笔者可以更加全面地梳理思路。

最初,笔者的想法仅仅是将机器翻译的技术内容做成资料供人阅读。但是,朋友、同事们一直鼓励将内容正式出版。虽然担心书的内容不够精致,无法给同行作为参考,但是最终还是下定决心重构内容。所幸,得到电子工业出版社的支持,形成新版,共十八章。

xiaotong committed
41
写作中,每当笔者翻起以前的资料,都会想起当年的一些故事。与其说这部书是写给读者,还不如说这本书是写给笔者自己,写给所有同笔者一样,经历过或正在经历机器翻译蓬勃发展年代的人。希望本书可以作为一个时代的记录,但是这个时代并未结束,还将继续,并更加美好。
xiaotong committed
42 43 44 45

\vspace{1.0em}

\noindent {\sffamily\bfseries 2. 本书的特色}
曹润柘 committed
46 47

\vspace{0.5em}
xiaotong committed
48

xiaotong committed
49
本书全面回顾了近三十年内机器翻译的技术发展历程,并围绕{\sffamily\bfseries 机器翻译的建模}这一主题对机器翻译的技术方法进行了全面介绍。在写作中,笔者力求用朴实的语言和简洁的实例阐述机器翻译的基本模型,同时对相关的技术前沿进行讨论。其中也会涉及大量的实践经验,包括许多机器翻译系统开发的细节。从这个角度来说,本书不单单是一本理论书籍,它还结合了机器翻译的应用,给读者提供了很多机器翻译技术落地的具体思路。
xiaotong committed
50

xiaotong committed
51
本书可以供计算机相关专业高年级本科生及研究生学习之用,也可以作为自然语言处理领域,特别是机器翻译方向相关研究人员的参考资料。此外,本书各章的主题都十分明确,内容也相对集中。因此,读者也可将每章作为某一专题的学习资料。
xiaotong committed
52 53 54 55 56 57 58

{\sffamily\bfseries 用最简单的方式阐述机器翻译的基本思想}是笔者所期望达到的目标。但是,书中不可避免会使用一些形式化定义和算法的抽象描述,因此,笔者尽所能通过图例进行解释(本书共XXX张插图)。不过,本书所包含的内容较为广泛,难免会有疏漏,望读者海涵,并指出不当之处。

\vspace{1.0em}

\noindent {\sffamily\bfseries 3. 本书的内容}

曹润柘 committed
59
\vspace{0.5em}
xiaotong committed
60 61 62 63

本书共分为四个部分,十八章。章节的顺序参考了机器翻译技术发展的时间脉络,同时兼顾了机器翻译知识体系的内在逻辑。本书的主要内容包括:

\begin{itemize}
曹润柘 committed
64
\vspace{0.5em}
xiaotong committed
65 66 67 68 69 70 71
\item 第一部分:机器翻译基础
    \begin{itemize}
    \item 第一章\ 机器翻译的前世今生
    \item 第二章\ 统计语言建模基础
    \item 第三章\ 词法分析和语法分析基础
    \item 第四章\ 翻译质量评价
    \end{itemize}
曹润柘 committed
72
\vspace{0.5em}
xiaotong committed
73 74 75 76 77 78 79
\item 第二部分:统计机器翻译
    \begin{itemize}
    \item 第五章\ 基于词的机器翻译建模
    \item 第六章\ 基于扭曲度和繁衍率的模型
    \item 第七章\ 基于短语的模型
    \item 第八章\ 基于句法的模型
    \end{itemize}
曹润柘 committed
80
\vspace{0.5em}
xiaotong committed
81 82 83 84 85 86 87
\item 第三部分:神经机器翻译
    \begin{itemize}
    \item 第九章\ 人工神经网络基础及神经语言模型
    \item 第十章\ 基于循环神经网络的模型
    \item 第十一章\ 基于卷积神经网络的模型
    \item 第十二章\ 基于自注意力的模型
    \end{itemize}
曹润柘 committed
88
\vspace{0.5em}
xiaotong committed
89 90 91 92
\item 第四部分:机器翻译前沿
    \begin{itemize}
    \item 第十三章\ 神经机器翻译模型训练
    \item 第十四章\ 神经机器翻译模型推断
xiaotong committed
93
    \item 第十五章\ 神经机器翻译结构优化
xiaotong committed
94
    \item 第十六章\ 低资源机器翻译
xiaotong committed
95
    \item 第十七章\ 多模态、多层次机器翻译
xiaotong committed
96
    \item 第十八章\ 机器翻译应用技术
xiaotong committed
97
    \end{itemize}
曹润柘 committed
98 99
\end{itemize}

xiaotong committed
100
\vspace{0.5em}
曹润柘 committed
101

xiaotong committed
102
其中,第一部分是本书的基础知识部分,包含统计建模、语言分析、机器翻译评价等。在第一章对机器翻译的历史及现状进行介绍之后,第二章通过语言建模任务将统计建模的思想阐述出来,同时这部分内容也会作为后续机器翻译模型及方法的基础。第三章重点介绍机器翻译所涉及的词法和句法分析方法,旨在为后续相关概念的使用进行铺垫,同时进一步展示统计建模思想在相关问题上的应用。第四章相对独立,系统地介绍了机器翻译结果的评价方法,这部分内容也是机器翻译建模及系统设计所需的前置知识。
xiaotong committed
103

xiaotong committed
104
本书的第二部分主要介绍统计机器翻译的基本模型。第五章是整个机器翻译建模的基础。第六章进一步对扭曲度和产出率两个概念进行介绍,同时给出相关的翻译模型,这些模型在后续章节的内容中都有涉及。第七章和第八章分别介绍了基于短语和句法的模型。它们都是统计机器翻译的经典模型,其思想也构成了机器翻译成长过程中最精华的部分。
xiaotong committed
105

xiaotong committed
106
本书的第三部分主要介绍神经机器翻译模型,该模型也是近些年机器翻译的热点。第九章介绍了神经网络和深度学习的基础知识以保证本书知识体系的完备性。同时,第九章也介绍了基于神经网络的语言模型,其建模思想在神经机器翻译中被大量使用。第十、十一、十二章分别对三种经典的神经机器翻译模型进行介绍,以模型提出的时间为序,从最初的基于循环网络的模型,到最新的Transformer模型均有涉及。其中也会对编码器-解码器框架、注意力机制等经典方法和技术进行介绍。
xiaotong committed
107

xiaotong committed
108
本书的第四部分会进一步对机器翻译的前沿技术进行讨论,以神经机器翻译为主。第十三、十四、十五章是神经机器翻译研发的三个主要方面,也是近几年机器翻译领域讨论最多的几个方向。第十六章也是机器翻译的热门方向之一,包括无监督翻译等主题都会在这里被讨论。第十六章会对语音、图像翻译等多模态方法以及篇章级翻译等方法进行介绍,它们可以被看作是机器翻译在更多任务上的扩展。第十七章会结合笔者在各种机器翻译比赛和机器翻译产品研发的经验,对机器翻译的应用技术进行讨论。
曹润柘 committed
109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126

%-------------------------------------------
\begin{figure}[htp]
\centering
\centering
\input{./ChapterPreface/Figures/figure-preface}
\end{figure}
%-------------------------------------------

\end{spacing}