合并分支 'master' 到 'zengxin'

Master 查看合并请求 !197

合并分支 'master' 到 'zengxin'
Master 查看合并请求 !197
2bf4b2fd · zengxin · 199a84b1 · 57dc6137 · 2bf4b2fd · 2bf4b2fd
Commit 2bf4b2fd authored May 16, 2020 by zengxin
--- a/Book/Chapter1/chapter1.tex
+++ b/Book/Chapter1/chapter1.tex
@@ -2,6 +2,14 @@
 % !TEX encoding = UTF-8 Unicode

 %----------------------------------------------------------------------------------------
+% 机器翻译：统计建模与深度学习方法
+% Machine Translation: Statistical Modeling and Deep Learning Methods
+%
+% Copyright 2020
+% 肖桐(xiaotong@mail.neu.edu.cn) 朱靖波 (zhujingbo@mail.neu.edu.cn)
+%----------------------------------------------------------------------------------------
+
+%----------------------------------------------------------------------------------------
 %    CONFIGURATIONS
 %----------------------------------------------------------------------------------------

@@ -38,7 +46,7 @@

 \parinterval 一直以来，文字的翻译往往是由人工完成。让计算机像人一样进行翻译似乎还是电影中的桥段，因为人们很难想象语言的多样性和复杂性可以用计算机语言进行描述。但是时至今日，人工智能技术的发展已经大大超越了人类传统的认知，用计算机进行自动翻译也不再是一种梦想，它已经深入到人们生活的很多方面，并发挥着重要作用。而这种由计算机进行自动翻译的过程也被称作{\small\bfnew{机器翻译}}\index{机器翻译}（Machine Translation）\index{Machine Translation}。类似地，自动翻译、智能翻译、多语言自动转换等概念也是指同样的事情。如果将今天的机器翻译和人工翻译进行对比，可以发现机器翻译系统所生成的译文还并不完美，甚至有时翻译质量非常差，但是它的生成速度快且成本低廉，更为重要的是机器翻译系统可以从大量数据中不断学习和进化。

-\parinterval 人工翻译尽管精度很高，但是费时费力。当需要翻译大量的文本且精度要求不那么高时，比如海量数据的浏览型任务，机器翻译的优势就体现出来。对于人工作业无法完成的事情，使用机器翻译可能只需花费几个小时甚至几分钟就能完成。这就类似于拿着锄头耕地种庄稼和使用现代化机器作业之间的区别。
+\parinterval 人工翻译尽管精度很高，但是费时费力。当需要翻译大量的文本且精度要求不那么高时，比如海量数据的浏览型任务，机器翻译的优势就体现出来了。对于人工作业无法完成的事情，使用机器翻译可能只需花费几个小时甚至几分钟就能完成。这就类似于拿着锄头耕地种庄稼和使用现代化机器作业之间的区别。

 \parinterval 实现机器翻译往往需要多个学科知识的融合，如数学、语言学、计算机科学、心理学等等。而最终呈现给使用者的是一套软件系统\ \dash\ 机器翻译系统。通俗来讲，机器翻译系统就是一个可以在计算机上运行的软件工具，与人们使用的其他软件一样，只不过机器翻译系统是由``不可见的程序''组成。虽然这个系统非常复杂，但是呈现出来的展示形式却很简单，比如输入是待翻译的句子或文本，输出是译文句子或文本。

@@ -67,7 +75,7 @@
 \vspace{0.5em}
 \item {\small\bfnew{自然语言翻译问题的复杂性极高}}。语言是人类进化的最高成就之一，自然语言具有高度的概括性、灵活性、多样性，这些都很难用几个简单的模型和算法进行描述。因此，翻译问题的数学建模和计算机程序实现难度很大。虽然近几年Alpha Go等人工智能系统在围棋等领域取得了令人瞩目的成绩，但是，相比翻译来说，围棋等棋类任务仍然``简单''，比如，对于一个句子，其潜在的译文几乎是不可穷尽的，即使同一句话不同人的理解也不尽相同，甚至在翻译一个句子、一个单词的时候，要考虑整个篇章的上下文语境，这些问题都不是传统棋类任务所具备的。
 \vspace{0.5em}
-\item {\small\bfnew{计算机的``理解''与人类的``理解''存在鸿沟}}。人类一直希望把自己翻译时所使用的知识描述出来，并用计算机程序进行实现，例如早期基于规则的机器翻译方法就源自这个思想。但是，经过实践发现，人和计算机在``理解''自然语言上存在着明显差异。首先，人类的语言能力是经过长时间多种外部环境因素共同作用形成的，这种能力很难直接准确地表达。人类的语言知识本身就很难描述，更不用说让计算机来理解；其次，人和机器翻译系统理解语言的目的不一样。人理解和使用语言是为了进行生活和工作，而机器翻译系统更多的是为了对某些数学上定义的目标函数进行优化。也就是说，机器翻译系统关注的是翻译这个单一目标，而并不是像人一样进行复杂的活动；此外，人和计算机的运行方式有着本质区别。人类语言能力的生物学机理与机器翻译系统所使用的计算模型本质上是不同的，机器翻译系统使用的是其自身能够理解的``知识''，比如，统计学上的词语表示。这种``知识''并不需要人来理解，当然从系统开发的角度，计算机也并不需要理解人是如何思考的。
+\item {\small\bfnew{计算机的``理解''与人类的``理解''存在鸿沟}}。人类一直希望把自己翻译时所使用的知识描述出来，并用计算机程序进行实现，例如早期基于规则的机器翻译方法就源自这个思想。但是，经过实践发现，人和计算机在``理解''自然语言上存在着明显差异。首先，人类的语言能力是经过长时间在多种外部环境因素共同作用下形成的，这种能力很难直接准确地表达。况且人类的语言知识本身就很难描述，更不用说让计算机来理解；其次，人和机器翻译系统理解语言的目的不一样。人理解和使用语言是为了进行生活和工作，而机器翻译系统更多的是为了对某些数学上定义的目标函数进行优化。也就是说，机器翻译系统关注的是翻译这个单一目标，而并不是像人一样进行复杂的活动；此外，人和计算机的运行方式有着本质区别。人类语言能力的生物学机理与机器翻译系统所使用的计算模型本质上是不同的，机器翻译系统使用的是其自身能够理解的``知识''，比如，统计学上的词语表示。这种``知识''并不需要人来理解，当然从系统开发的角度，计算机也并不需要理解人是如何思考的。
 \vspace{0.5em}
 \item {\small\bfnew{单一的方法无法解决多样的翻译问题}}。首先，语种的多样性会导致任意两种语言之间的翻译实际上都是不同的翻译任务。比如，世界上存在的语言多达几千种，如果选择任意两种语言进行互译就产生上百万种翻译方向。虽然已经有研究者尝试用同一个框架甚至同一个翻译系统进行全语种的翻译，但是这类系统离真正可用还有很远的距离；其次，不同的领域，不同的应用场景对翻译也有不同的需求。比如，文学作品的翻译和新闻的翻译就有不同、口译和笔译也有不同，类似的情况不胜枚举。机器翻译要适用于多样的需求，这些又进一步增加了计算机建模的难度；再次，对于机器翻译来说，充足的高质量数据是必要的，但是不同语种、不同领域、不同应用场景所拥有的数据量有明显差异，甚至很多语种几乎没有可用的数据，这时开发机器翻译系统的难度可想而知。值得注意的是，现在的机器翻译还无法像人类一样在学习少量样例的情况下进行举一反三，因此数据稀缺情况下的机器翻译也给研究者带来了很大的挑战。
 \vspace{0.5em}
@@ -102,7 +110,7 @@
 \end{figure}
 %------------------------------------------

-\parinterval 随后，更多的翻译工作在文化和知识传播中开展。其中一个典型代表是宗教文献的翻译。在人类的历史长河中，宗教是人类意识形态的一个重要载体。为了宣传教义，产生了大量的宗教文献。在西方，一项最早被记录的翻译活动是将旧约圣经（希伯来文及埃兰文）翻译为希腊文版本。并且迄今为止人类历史上翻译版本最多的书就是圣经。在中国唐代，有一位世界性的重量级文化人物\ \dash \ 玄奘，他不仅是佛学家、旅行家，还是翻译家。玄奘西行求法归来后把全部的心血和智慧奉献给了译经事业，在助手们的帮助下，共翻译佛教经论74部，1335卷，每卷万字左右，合计1335万字，占去整个唐代译经总数的一半以上，树立了我国古代翻译思想的光辉典范。
+\parinterval 随后，更多的翻译工作在文化和知识传播中开展。其中一个典型代表是宗教文献的翻译。在人类的历史长河中，宗教是人类意识形态的一个重要载体。为了宣传教义，人们编写了大量的宗教文献。在西方，一项最早被记录的翻译活动是将旧约圣经（希伯来文及埃兰文）翻译为希腊文版本。迄今为止人类历史上翻译版本最多的书就是圣经。在中国唐代，有一位世界性的重量级文化人物\ \dash \ 玄奘，他不仅是佛学家、旅行家，还是翻译家。玄奘西行求法归来后把全部的心血和智慧奉献给了译经事业，在助手们的帮助下，共翻译佛教经论74部，1335卷，每卷万字左右，合计1335万字，占去整个唐代译经总数的一半以上，树立了我国古代翻译思想的光辉典范。

 \parinterval 翻译在人类历史长河中起到了重要的作用。一方面，由于语言文字、文化和地理位置的差异性，使得翻译成为一个重要的需求；另一方面，翻译也加速了不同文明的融会贯通，促进了世界的发展。今天，翻译已经成为重要的行业之一，包括各个高校也都设立了翻译及相关专业，相关人才不断涌现。据《2019年中国语言服务行业发展报告》统计：全球语言服务产值预计将首次接近500亿美元；中国涉及语言服务的在营企业360,000余家，语言服务为主营业务的在营企业近万家，总产值超过300亿元，年增长3\%以上；全国开设外语类专业的高校数量多达上千所，其中设立有翻译硕士（MTI）和翻译本科（BTI）专业的院校分别有250余所和280余所，MTI累计招生数达6万余人\cite{赵军峰2019深化改革}。当然，面对着巨大的需求，如何使用技术手段提高人工翻译效率，比如：机器辅助翻译，也是人工翻译和机器翻译领域需要共同探索的方向。

@@ -289,7 +297,7 @@

 \subsection{统计机器翻译}

-\parinterval 统计机器翻译兴起于上世纪90年代\cite{brown1990statistical,koehn2003statistical}它利用统计模型从单/双语语料中自动学习翻译知识。具体来说，可以使用单语语料学习语言模型，使用双语平行语料学习翻译模型，并使用这些统计模型完成对翻译过程的建模。整个过程不需要人工编写规则，也不需要从实例中构建翻译模板。无论是词还是短语，甚至是句法结构，统计机器翻译系统都可以自动学习。人更多的是参与定义翻译所需的特征和基本翻译单元的形式，而翻译知识都保存在模型的参数中。
+\parinterval 统计机器翻译兴起于上世纪90年代\cite{brown1990statistical,koehn2003statistical}它利用统计模型从单/双语语料中自动学习翻译知识。具体来说，可以使用单语语料学习语言模型，使用双语平行语料学习翻译模型，并使用这些统计模型完成对翻译过程的建模。整个过程不需要人工编写规则，也不需要从实例中构建翻译模板。无论是词还是短语，甚至是句法结构，统计机器翻译系统都可以自动学习。人更多的是定义翻译所需的特征和基本翻译单元的形式，而翻译知识都保存在模型的参数中。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -302,7 +310,7 @@

 \parinterval 图\ref{fig:1-11}展示了一个统计机器翻译系统运行的简单实例。整个系统需要两个模型：翻译模型和语言模型。其中，翻译模型从双语平行语料中学习翻译知识，得到短语表，其中包含各种词汇的翻译及其概率，这样可以度量源语言和目标语言片段之间互为翻译的可能性大小；语言模型从单语语料中学习目标语的词序列生成规律，来衡量目标语言译文的流畅性。最后，将这两种模型联合使用，翻译引擎来搜索尽可能多的翻译结果，并计算不同翻译结果的可能性大小，最后将概率最大的译文作为最终结果输出。这个过程并没有显性使用人工翻译规则和模板，译文的生成仅仅依赖翻译模型和语言模型中的统计参数。

-\parinterval 由于没有对翻译过程进行过多的限制，统计机器翻译有很灵活的译文生成方式，因此系统可以处理更加多样的句子。但是这种方法也带来了一些问题：首先，虽然并不需要人工定义翻译规则或模板，统计机器翻译系统仍然需要人工定义翻译特征。提升翻译品质往往需要大量的特征工程，导致人工特征设计的好坏会对系统产生决定性影响；其次，统计机器翻译的模块较多，系统研发比较复杂；再次，随着训练数据增多，统计机器翻译的模型（比如短语翻译表）会明显增大，在系统存储资源受限的情况下，不利于系统的正常使用。
+\parinterval 由于没有对翻译过程进行过多的限制，统计机器翻译有很灵活的译文生成方式，因此系统可以处理更加多样的句子。但是这种方法也带来了一些问题：首先，虽然并不需要人工定义翻译规则或模板，但统计机器翻译系统仍然需要人工定义翻译特征。提升翻译品质往往需要大量的特征工程，这导致人工特征设计的好坏会对系统产生决定性影响；其次，统计机器翻译的模块较多，系统研发比较复杂；再次，随着训练数据增多，统计机器翻译的模型（比如短语翻译表）会明显增大，在系统存储资源受限的情况下，这种模型不利于系统的正常使用。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -310,7 +318,7 @@

 \subsection{神经机器翻译}

-\parinterval 随着机器学习技术的发展，基于深度学习的神经机器翻译逐渐开始兴起。自2014年开始，它在短短几年内已经在大部分任务上取得了明显的优势\cite{NIPS2014_5346,bahdanau2014neural}。在神经机器翻译中，词串被表示成实数向量，即分布式向量表示。这样，翻译过程并不是在离散化的单词和短语上进行，而是在实数向量空间上计算，因此它对词序列表示的方式产生了本质的改变。通常，机器翻译可以被看作一个序列到另一个序列的转化。在神经机器翻译中，序列到序列的转化过程可以由{\small\bfnew{编码器-解码器}}\index{编码器-解码器}（encoder-decoder）\index{encoder-decoder}框架实现。其中，编码器把源语言序列进行编码，并提取源语言中信息进行分布式表示，之后解码器再把这种信息转换为另一种语言的表达。
+\parinterval 随着机器学习技术的发展，基于深度学习的神经机器翻译逐渐兴起。自2014年开始，它在短短几年内已经在大部分任务上取得了明显的优势\cite{NIPS2014_5346,bahdanau2014neural}。在神经机器翻译中，词串被表示成实数向量，即分布式向量表示。这样，翻译过程并不是在离散化的单词和短语上进行，而是在实数向量空间上计算，因此它对词序列表示的方式产生了本质的改变。通常，机器翻译可以被看作一个序列到另一个序列的转化。在神经机器翻译中，序列到序列的转化过程可以由{\small\bfnew{编码器-解码器}}\index{编码器-解码器}（encoder-decoder）\index{encoder-decoder}框架实现。其中，编码器把源语言序列进行编码，并提取源语言中信息进行分布式表示，之后解码器再把这种信息转换为另一种语言的表达。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -323,7 +331,7 @@

 \parinterval 图\ref{fig:1-12}展示了一个神经机器翻译的实例。首先，通过编码器，源语言序列``我对你感到满意''经过多层神经网络编码生成一个向量表示，即图中的向量（0.2，-1，6，5，0.7，-2）。再将该向量作为输入送到解码器中，解码器把这个向量解码成目标语言序列。注意，目标语言序列的生成是逐词进行的（虽然图中展示的是解码器生成整个序列，但是在具体实现时是逐个单词生成目标语译文），产生某个词的时候依赖之前生成的目标语言的历史信息，直到产生句子结束符为止。

-\parinterval 相比统计机器翻译，神经机器翻译的优势体现在其不需要特征工程，所有信息由神经网络自动从原始输入中提取。而且，相比离散化的表示，词和句子的分布式连续空间表示可以为建模提供更为丰富的信息，同时可以使用相对成熟的基于梯度的方法优化模型。此外，神经网络的存储需求较小，天然适合小设备上的应用。但是，神经机器翻译也存在问题。首先，虽然脱离了特征工程，神经网络的结构需要人工设计，即使设计好结构，系统的调优、超参数的设置等仍然依赖大量的实验；其次，神经机器翻译现在缺乏可解释性，其过程和人的认知差异很大，通过人的先验知识干预的程度差；再次，神经机器翻译对数据的依赖很大，数据规模、质量对性能都有很大影响，特别是在数据稀缺的情况下，充分训练神经网络具有挑战。
+\parinterval 相比统计机器翻译，神经机器翻译的优势体现在其不需要特征工程，所有信息由神经网络自动从原始输入中提取。而且，相比离散化的表示，词和句子的分布式连续空间表示可以为建模提供更为丰富的信息，同时可以使用相对成熟的基于梯度的方法优化模型。此外，神经网络的存储需求较小，天然适合小设备上的应用。但是，神经机器翻译也存在问题。首先，虽然脱离了特征工程，但神经网络的结构需要人工设计，即使设计好结构，系统的调优、超参数的设置等仍然依赖大量的实验；其次，神经机器翻译现在缺乏可解释性，其过程和人的认知差异很大，通过人的先验知识干预的程度差；再次，神经机器翻译对数据的依赖很大，数据规模、质量对性能都有很大影响，特别是在数据稀缺的情况下，充分训练神经网络具有挑战。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -547,7 +555,7 @@ His house is on the south bank of the river.

 \parinterval （一）网页翻译

-\parinterval 进入信息爆炸的时代之后，互联网上海量的数据随处可得，然而由于国家和地区语言的不同，网络上的数据也呈现出多语言的特性。当人们在遇到包含不熟悉语言的网页时，无法及时有效地获取其中的信息。因此，对不同语言的网页进行翻译是必不可少的一步。由于网络上网页的数量数不胜数，依靠人工对网页进行翻译是不切实际的，相反，机器翻译十分适合这个任务。目前，市场上有很多浏览器提供网页翻译的服务，极大地简化了人们从网络上获获取不同语言信息的方式。
+\parinterval 进入信息爆炸的时代之后，互联网上海量的数据随处可得，然而由于国家和地区语言的不同，网络上的数据也呈现出多语言的特性。当人们在遇到包含不熟悉语言的网页时，无法及时有效地获取其中的信息。因此，对不同语言的网页进行翻译是必不可少的一步。由于网络上网页的数量数不胜数，依靠人工对网页进行翻译是不切实际的，相反，机器翻译十分适合这个任务。目前，市场上有很多浏览器提供网页翻译的服务，极大地简化了人们从网络上获取不同语言信息的难度。

 \parinterval （二）科技文献翻译

@@ -569,7 +577,7 @@ His house is on the south bank of the river.

 \parinterval （四）社交

-\parinterval 社交是人们的重要社会活动。人们可以通过各种各样的社交软件做到即时通讯，进行协作或者分享自己的观点。然而受限于语言问题，人们的社交范围往往不会超出自己所掌握的语种范围，很难方便地进行跨语言社交。随着机器翻译技术的发展，越来越多的社交软件开始支持自动翻译，用户可以轻易地将各种语言的内容翻译成自己的母语，方便了人们的交流，让语言问题不再是社交的障碍。
+\parinterval 社交是人们的重要社会活动。人们可以通过各种各样的社交软件做到即时通讯，进行协作或者分享自己的观点。然而受限于语言问题，人们的社交范围往往不会超出自己所掌握的语种范围，很难方便地进行跨语言社交。随着机器翻译技术的发展，越来越多的社交软件开始支持自动翻译，用户可以轻易地将各种语言的内容翻译成自己的母语，方便了人们的交流，让语言问题不再成为社交的障碍。

 \parinterval （五）同声传译

@@ -577,7 +585,7 @@ His house is on the south bank of the river.

 \parinterval （六）医药领域翻译

-\parinterval 在医药领域中，从药品研发、临床试验到药品注册，都有着大量的翻译需求。比如，在新药注册阶段，在限定申报时间的同时，更是对翻译质量有着极高的要求。由于医药领域专业词汇量庞大、单词冗长复杂、术语准确且文体专业性强，翻译难度明显高于其他领域，人工翻译的方式代价大且很难满足效率的要求。为此，机器翻译近几年在医药领域取得广泛应用。在针对医药领域进行优化后，机器翻译质量可以很好地满足翻译的要求。
+\parinterval 在医药领域中，从药品研发、临床试验到药品注册，都有着大量的翻译需求。比如，在新药注册阶段，限定申报时间的同时，更是对翻译质量有着极高的要求。由于医药领域专业词汇量庞大、单词冗长复杂、术语准确且文体专业性强，翻译难度明显高于其他领域，人工翻译的方式代价大且很难满足效率的要求。为此，机器翻译近几年在医药领域取得广泛应用。在针对医药领域进行优化后，机器翻译质量可以很好地满足翻译的要求。

 \parinterval （七）中国传统语言文化的翻译


--- a/Book/Chapter2/Figures/figure-word-segmentation-based-on-statistics.tex
+++ b/Book/Chapter2/Figures/figure-word-segmentation-based-on-statistics.tex
@@ -60,16 +60,16 @@
 {
 \node [anchor=north west] (seg4) at ([xshift=-1.0em,yshift=0.4em]seg3.south west) {...};
 \node [anchor=east,ugreen] (p1seg1) at ([xshift=0.5em]seg1.west) {P(};
-\node [anchor=west,ugreen] (p2seg1) at ([xshift=-0.5em]seg1.east) {)=.1};
+\node [anchor=west,ugreen] (p2seg1) at ([xshift=-0.5em]seg1.east) {)=0.1};
 \node [anchor=east,ugreen] (p1seg2) at ([xshift=0.5em]seg2.west) {P(};
-\node [anchor=west,ugreen] (p2seg2) at ([xshift=-0.5em]seg2.east) {)=.6};
+\node [anchor=west,ugreen] (p2seg2) at ([xshift=-0.5em]seg2.east) {)=0.6};
 \node [anchor=east,ugreen] (p1seg3) at ([xshift=0.5em]seg3.west) {P(};
-\node [anchor=west,ugreen] (p2seg3) at ([xshift=-0.5em]seg3.east) {)=.2};
+\node [anchor=west,ugreen] (p2seg3) at ([xshift=-0.5em]seg3.east) {)=0.2};
 }

 {
-\node [anchor=east,draw,dashed,red,thick,minimum width=12.6em,minimum height=1.4em] (final) at (p2seg2.east) {};
-\node [anchor=west,red] (finallabel) at ([xshift=2.7em]sentlabel.east) {输出概率最大的结果};
+\node [anchor=east,draw,dashed,red,thick,minimum width=13em,minimum height=1.4em] (final) at (p2seg2.east) {};
+\node [anchor=west,red] (finallabel) at ([xshift=3.1em]sentlabel.east) {输出概率最大的结果};
 %\node [anchor=north east,red] (finallabel2) at ([yshift=0.5em]finallabel.south east) {的结果};
 \draw [->,thick,red] ([xshift=0.0em,yshift=-0.5em]final.north east) ..controls +(east:0.3) and +(south:0.0).. ([xshift=1.0em]finallabel.south);
 }

--- a/Book/Chapter2/chapter2.tex
+++ b/Book/Chapter2/chapter2.tex
@@ -2,6 +2,14 @@
 % !TEX encoding = UTF-8 Unicode

 %----------------------------------------------------------------------------------------
+% 机器翻译：统计建模与深度学习方法
+% Machine Translation: Statistical Modeling and Deep Learning Methods
+%
+% Copyright 2020
+% 肖桐(xiaotong@mail.neu.edu.cn) 朱靖波 (zhujingbo@mail.neu.edu.cn)
+%----------------------------------------------------------------------------------------
+
+%----------------------------------------------------------------------------------------
 %    CONFIGURATIONS
 %----------------------------------------------------------------------------------------

@@ -22,7 +30,7 @@

 \parinterval 语言分析部分将以汉语为例介绍词法和句法分析的基本概念。它们都是自然语言处理中的经典问题，而且在机器翻译中也会经常被使用。同样，本章会介绍这两个任务的定义和求解问题的思路。

-\parinterval 语言建模是机器翻译中最常用的一种技术，它主要用于句子的生成和流畅度评价。本章会以传统统计语言模型为例，对语言建模的相关概念进行介绍。但是，这里并不深入探讨语言模型技术，在后面的章节中还会单独对神经网络语言模型等前沿技术进行讨论。\\ \\ \\
+\parinterval 语言建模是机器翻译中最常用的一种技术，它主要用于句子的生成和流畅度评价。本章会以传统统计语言模型为例，对语言建模的相关概念进行介绍。但是，这里并不深入探讨语言模型技术，在后面的章节中还会单独对神经网络语言模型等前沿技术进行讨论。

 %----------------------------------------------------------------------------------------
 %    NEW SECTION
@@ -30,7 +38,7 @@

 \section{问题概述 }

-\parinterval 很多时候机器翻译系统被看作是孤立的``黑盒''系统（图 \ref {fig:2-1} (a)）。将一段文本作为输入送入机器翻译系统之后，系统输出翻译好的译文。但是真实的机器翻译系统非常复杂，因为系统看到的输入和输出的实际上只是一些符号串，这些符号并没有任何意义，因此需要进一步对这些符号串进行处理才能更好的使用它们，比如，需要定义翻译中最基本的单元是什么？符号串是否还有结构信息？如何用数学工具刻画这些基本单元和结构？
+\parinterval 很多时候机器翻译系统被看作是孤立的``黑盒''系统（图 \ref {fig:2-1} (a)）。将一段文本作为输入送入机器翻译系统之后，系统输出翻译好的译文。但是真实的机器翻译系统非常复杂，因为系统看到的输入和输出实际上只是一些符号串，这些符号并没有任何意义，因此需要进一步对这些符号串进行处理才能更好的使用它们。比如，需要定义翻译中最基本的单元是什么？符号串是否具有结构信息？如何用数学工具刻画这些基本单元和结构？

 %----------------------------------------------
 \begin{figure}[htp]
@@ -51,21 +59,21 @@
 \end{figure}
 %-------------------------------------------

-\parinterval 图\ref{fig:2-1} (b)展示了一个机器翻译系统的输入和输出形式。可以看到，输入的中文字串``猫喜欢吃鱼''被加工成一个新的结构（图\ref {fig:2-2}）。直觉上，这个结构有些奇怪，因为上面多了很多新的符号，而且还有一些线将不同符号进行连接。实际上这就是语言分析中对句子常用的结构表示 —— 短语结构树。从原始的词串转化为图\ref {fig:2-2} 的样子，有两个步骤：
+\parinterval 图\ref{fig:2-1} (b)展示了一个机器翻译系统的输入和输出形式。可以看到，输入的中文词串``猫喜欢吃鱼''被加工成一个新的结构（图\ref {fig:2-2}）。直觉上，这个结构有些奇怪，因为上面多了很多新的符号，而且还有一些线将不同符号进行连接。实际上这就是语言分析中对句子常用的结构表示 —— 短语结构树。从原始的词串转化为图\ref {fig:2-2} 的样子，有两个步骤：

 \begin{itemize}
 \vspace{0.5em}
 \item {\small\bfnew{分词}}\index{分词}（Segmentation）\index{Segmentation}：这个过程会把词串进行切分，切割成最小的单元。因为只有知道了什么是待处理字符串的最小单元，机器翻译系统才能对其进行表示、分析和生成。
 \vspace{0.5em}
-\item {\small\bfnew{句法分析}}\index{句法分析}（Parsing）\index{Parsing}：这个过程会对分词的结果进行进一步分析，得到句子的句法结构，这种结构是对句子的进一步抽象。比如，NP+VP就可以表示由名词短语(NP)和动词短语(VP)构成的主谓结构。利用这些信息，机器翻译可以更加准确的对语言的结构进行分析和生成。
+\item {\small\bfnew{句法分析}}\index{句法分析}（Parsing）\index{Parsing}：这个过程会对分词的结果进行进一步分析，得到句子的句法结构。这种结构是对句子的进一步抽象，比如，NP+VP就可以表示由名词短语(NP)和动词短语(VP)构成的主谓结构。利用这些信息，机器翻译可以更加准确地对语言的结构进行分析和生成。
 \vspace{0.5em}
 \end{itemize}

-\parinterval 类似的，机器翻译输出的结果也可以包含同样的信息。甚至系统输出英文译文之后，还有一个额外的步骤来把部分英文单词的大小写恢复出来，比如，上例中句首单词Cats的首字母要大写。
+\parinterval 类似地，机器翻译输出的结果也可以包含同样的信息。甚至系统输出英文译文之后，还有一个额外的步骤来把部分英文单词的大小写恢复出来，比如，上例中句首单词Cats的首字母要大写。

 \parinterval 一般来说，在送入机器翻译系统前需要对文字序列进行处理和加工，这个过程被称为{\small\sffamily\bfseries{预处理}}\index{预处理}（Pre-processing）\index{Pre-processing}。同理，在机器翻译模型输出译文后进行的处理被称作{\small\sffamily\bfseries{后处理}}\index{后处理}（Post-processing）\index{Post-processing}。这两个过程对机器翻译性能影响很大，比如，在神经机器翻译里，不同的分词策略可能会造成翻译性能的天差地别。

-\parinterval 值得注意的是，有些观点认为，不论是分词还是句法分析，对于机器翻译来说并不要求符合人的认知和语言学约束。换句话说，机器翻译所使用的``单词''和``结构''本身并不是为了符合人类的解释，它们更直接目的是为了进行翻译。从系统开发的角度，有时候即使进行一些与人类的语言习惯有差别的处理，仍然会带来性能的提升，比如在神经机器翻译中，在传统分词的基础上进一步使用双字节编码（Byte Pair Encoding，BPE）子词切分会使得机器翻译性能大幅提高。当然，自然语言处理中语言学信息的使用一直是学界关注的焦点。甚至关于语言学结构对机器翻译是否有作用这个问题也有争论。但是不能否认的是，无论是语言学的知识，还是计算机自己学习到的知识，对机器翻译都是有价值的。在后续章节会看到，这两种类型的知识对机器翻译帮助很大 \footnote[1]{笔者并不认同语言学结构对机器翻译的帮助有限，相反机器翻译需要更多的人类先验知识的指导。当然，这个问题不是这里讨论的重点。} 。
+\parinterval 值得注意的是，有些观点认为，不论是分词还是句法分析，对于机器翻译来说并不要求符合人的认知和语言学约束。换句话说，机器翻译所使用的``单词''和``结构''本身并不是为了符合人类的解释，它们更直接目的是为了进行翻译。从系统开发的角度，有时候即使是一些与人类的语言习惯有差别的处理，仍然会带来性能的提升，比如在神经机器翻译中，在传统分词的基础上进一步使用双字节编码（Byte Pair Encoding，BPE）子词切分会使得机器翻译性能大幅提高。当然，自然语言处理中语言学信息的使用一直是学界关注的焦点。甚至关于语言学结构对机器翻译是否有作用这个问题也有争论。但是不能否认的是，无论是语言学的知识，还是计算机自己学习到的知识，对机器翻译都是有价值的。在后续章节会看到，这两种类型的知识对机器翻译帮助很大 \footnote[1]{笔者并不认同语言学结构对机器翻译的帮助有限，相反机器翻译需要更多的人类先验知识的指导。当然，这个问题不是这里讨论的重点。} 。

 \parinterval 剩下的问题是如何进行句子的切分和结构的分析。思路有很多，一种常用的方法是对问题进行概率化，用统计模型来描述问题并求解之。比如，一个句子切分的好坏，并不是非零即一的判断，而是要估计出这种切分的可能性大小，最终选择可能性最大的结果进行输出。这也是一种典型的用统计建模的方式来描述自然语言处理问题的方法。

@@ -87,7 +95,7 @@
 \subsection{随机变量和概率}
 \parinterval 在自然界中，很多{\small\bfnew{事件}}\index{事件}（Event）\index{Event}是否会发生是不确定的。例如，明天会下雨、掷一枚硬币是正面朝上、扔一个骰子的点数是5$\cdots\cdots$这类事件可能会发生也可能不会发生。通过大量的重复试验，能发现其具有某种规律性的事件叫做{\small\sffamily\bfseries{随机事件}}\index{随机事件}。

-\parinterval {\small\sffamily\bfseries{随机变量}}\index{随机变量}（Random Variable）\index{Random Variable}是对随机事件发生可能状态的描述，是随机事件的数量表征。设$\Omega = \{ \omega \}$为一个随机试验的样本空间，$X=X(\omega)$就是定义在样本空间$\omega$上的单值实数函数，即$X=X(\omega)$为随机变量，记为$X$。随机变量是一种能随机选取数值的变量，常用大写的英文字母或希腊字母表示，其取值通常用小写字母来表示。例如，用$A$ 表示一个随机变量，用$a$表示变量$A$的一个取值。根据随机变量可以选取的值，可以将其划分为离散变量和连续变量。
+\parinterval {\small\sffamily\bfseries{随机变量}}\index{随机变量}（Random Variable）\index{Random Variable}是对随机事件发生可能状态的描述，是随机事件的数量表征。设$\Omega = \{ \omega \}$为一个随机试验的样本空间，$X=X(\omega)$就是定义在样本空间$\Omega$上的单值实数函数，即$X=X(\omega)$为随机变量，记为$X$。随机变量是一种能随机选取数值的变量，常用大写的英文字母或希腊字母表示，其取值通常用小写字母来表示。例如，用$A$ 表示一个随机变量，用$a$表示变量$A$的一个取值。根据随机变量可以选取的值的某些性质，可以将其划分为离散变量和连续变量。

 \parinterval 离散变量是指在其取值区间内可以被一一列举，总数有限并且可计算的数值变量。例如，用随机变量$X$代表某次投骰子出现的点数，点数只可能取1$\sim$6这6个整数，$X$就是一个离散变量。

@@ -97,6 +105,8 @@

 \parinterval 在实际问题中，往往需要得到随机变量的概率值。但是，真实的概率值可能是无法准确知道的，这时就需要对概率进行{\small\sffamily\bfseries{估计}}\index{估计}，得到的结果是概率的{\small\sffamily\bfseries{估计值}}\index{估计值}（Estimate）\index{Estimate}。在概率论中，一个很简单的方法是利用相对频度作为概率的估计值。如果$\{x_1,x_2,\dots,x_n \}$是一个试验的样本空间，在相同情况下重复试验$N$次，观察到样本$x_i (1\leq{i}\leq{n})$的次数为$n (x_i )$，那么$x_i$在这$N$次试验中的相对频率是$\frac{n(x_i )}{N}$。当$N$越来越大时，相对概率也就越来越接近真实概率$\textrm{P}(x_i)$，即$\lim_{N \to \infty}\frac{n(x_i )}{N}=\textrm{P}(x_i)$。 实际上，很多概率模型都等同于相对频度估计，比如，对于一个服从多项式分布的变量的极大似然估计就可以用相对频度估计实现。

+\parinterval 概率函数是用函数形式给出离散变量每个取值发生的概率，其实就是将变量的概率分布转化为数学表达形式。如果把$A$看做一个离散变量，$a$看做变量$A$的一个取值，那么$\textrm{P}(A)$被称作变量$A$的概率函数，$\textrm{P}(A=a)$被称作$A = a$的概率值，简记为$\textrm{P}(a)$。例如，在相同条件下掷一个骰子50次，用$A$表示投骰子出现的点数这个离散变量，$a_i$表示点数的取值，$\textrm{P}_i$表示$A=a_i$的概率值。下表为$A$的概率分布，给出了$A$的所有取值及其概率。
+
 %--------------------------------------------------------------------
 \begin{table}[htp]
 \centering
@@ -110,9 +120,15 @@
 \end{table}
 %--------------------------------------------------------------------

-\parinterval 概率函数是用函数形式给出离散变量每个取值发生的概率，其实就是将变量的概率分布转化为数学表达形式。如果把$A$看做一个离散变量，$a$看做变量$A$的一个取值，那么$\textrm{P}(A)$被称作变量$A$的概率函数，$\textrm{P}(A=a)$被称作$A = a$的概率值，简记为$\textrm{P}(a)$。例如，在相同条件下掷一个骰子50次，用$A$表示投骰子出现的点数这个离散变量，$a_i$表示点数的取值，$\textrm{P}_i$表示$A=a_i$的概率值。表\ref{tab:2-1}为$A$的概率分布，给出了$A$的所有取值及其概率。
+\parinterval 除此之外，概率函数$\textrm{P}(\cdot)$还具有非负性、归一性等特点，非负性是指，所有的概率函数$\textrm{P}(\cdot)$都必须是大于等于0的数值，概率函数中不可能出现负数，即$\forall{x},\textrm{P}{(x)}\geq{0}$。归一性，又称规范性，简单的说就是所有可能发生的事件的概率总和为1，即$\sum_{x}\textrm{P}{(x)}={1}$。
+
+\parinterval 对于离散变量$A$，$\textrm{P}(A=a)$是个确定的值，可以表示事件$A=a$的可能性大小；而对于连续变量，求在某个定点处的概率是无意义的，只能求其落在某个取值区间内的概率。因此，用{\small\sffamily\bfseries{概率分布函数}}\index{概率分布函数}$F(x)$和{\small\sffamily\bfseries{概率密度函数}}\index{概率密度函数}$f(x)$来统一描述随机变量取值的分布情况（如图\ref{fig:2-3}）。概率分布函数$F(x)$表示取值小于等于某个值的概率，是概率的累加（或积分）形式。假设$A$是一个随机变量，$a$是任意实数，将函数$F(a)=\textrm{P}\{A\leq a\}$，$-\infty<a<\infty $定义为$A$的分布函数。通过分布函数，可以清晰地表示任何随机变量的概率。

-\parinterval 除此之外，概率函数$\textrm{P}(\cdot)$还具有非负性、归一性等特点，非负性是指，所有的概率函数$\textrm{P}(\cdot)$都必须是大于等于0的数值，概率函数中不可能出现负数：$\forall{x},\textrm{P}{(x)}\geq{0}$。归一性，又称规范性，简单的说就是所有可能发生的事件的概率总和为1，即$\sum_{x}\textrm{P}{(x)}={1}$。
+\parinterval 概率密度函数反映了变量在某个区间内的概率变化快慢，概率密度函数的值是概率的变化率，该连续变量的概率也就是对概率密度函数求积分得到的结果。设$f(x) \geq 0$是连续变量$X$的概率密度函数，$X$的分布函数就可以用如下公式定义：
+\begin{eqnarray}
+F(x)=\int_{-\infty}^x f(x)dx
+\label{eq:2-1}
+\end{eqnarray}

 %----------------------------------------------
 \begin{figure}[htp]
@@ -122,25 +138,15 @@
 \label{fig:2-3}
 \end{figure}
 %-------------------------------------------
-\vspace{-1em}
-
-\parinterval 对于离散变量$A$，$\textrm{P}(A=a)$是个确定的值，可以表示事件$A=a$的可能性大小；而对于连续变量，求在某个定点处的概率是无意义的，只能求其落在某个取值区间内的概率。因此，用{\small\sffamily\bfseries{概率分布函数}}\index{概率分布函数}$F(x)$和{\small\sffamily\bfseries{概率密度函数}}\index{概率密度函数}$f(x)$来统一描述随机变量取值的分布情况（如图\ref{fig:2-3}）。概率分布函数$F(x)$表示取值小于某个值的概率，是概率的累加（或积分）形式。假设$A$是一个随机变量，$a$是任意实数，将函数$F(a)=\textrm{P}\{A\leq a\}$，$-\infty<a<\infty $定义为$A$的分布函数。通过分布函数，可以清晰地表示任何随机变量的概率。
-
-\parinterval 概率密度函数反映了变量在某个区间内的概率变化快慢，概率密度函数的值是概率的变化率，该连续变量的概率也就是对概率密度函数求积分得到的结果。设$f(x) \geq 0$是连续变量$X$的概率密度函数，$X$的分布函数就可以用如下公式定义：
-\begin{eqnarray}
-F(X)=\int_{-\infty}^x f(x)dx
-\label{eq:2-1}
-\end{eqnarray}
-

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------

 \subsection{联合概率、条件概率和边缘概率}
-\parinterval {\small\sffamily\bfseries{联合概率}}\index{联合概率}（Joint Probability）\index{Joint Probability}是指多个事件同时发生，每个随机变量满足各自条件的概率，表示为$\textrm{P}(AB)$。{\small\sffamily\bfseries{条件概率}}\index{条件概率}（Conditional Probability）\index{Conditional Probability}是指$A$、$B$为任意的两个事件，在事件$A$已出现的前提下，事件$B$出现的概率，使用$\textrm{P}(B \mid A)$表示。通常来说，$\textrm{P}(B \mid A) \neq \textrm{P}(B)$。
+\parinterval {\small\sffamily\bfseries{联合概率}}\index{联合概率}（Joint Probability）\index{Joint Probability}是指多个事件共同发生，每个随机变量满足各自条件的概率，表示为$\textrm{P}(AB)$或$\textrm{P}(A\cap{B})$。{\small\sffamily\bfseries{条件概率}}\index{条件概率}（Conditional Probability）\index{Conditional Probability}是指$A$、$B$为任意的两个事件，在事件$A$已出现的前提下，事件$B$出现的概率，使用$\textrm{P}(B \mid A)$表示。

-\parinterval 贝叶斯法则是条件概率计算时的重要依据，条件概率可以表示为
+\parinterval 贝叶斯法则(见\ref{sec:2.2.3}小节)是条件概率计算时的重要依据，条件概率可以表示为
 \begin{eqnarray}
 \textrm{P}{(B|A)} & = & \frac{\textrm{P}(A\cap{B})}{\textrm{P}(A)}  \nonumber \\
                           & = & \frac{\textrm{P}(A)\textrm{P}(B|A)}{\textrm{P}(A)}  \nonumber \\
@@ -148,7 +154,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{eq:2-2}
 \end{eqnarray}

-\parinterval {\small\sffamily\bfseries{边缘概率}}\index{边缘概率}（marginal probability）\index{marginal probability}是和联合概率对应的，它指的是$\textrm{P}(X=a)$或$\textrm{P}(Y=b)$，即仅与单个随机变量有关的概率称为边缘概率。对于离散随机变量$X$和$Y$，如果知道$\textrm{P}(X,Y)$，则边缘概率$\textrm{P}(X)$可以通过求和的方式得到。对于$\forall x \in X $，有
+\parinterval {\small\sffamily\bfseries{边缘概率}}\index{边缘概率}（marginal probability）\index{marginal probability}是和联合概率对应的，它指的是$\textrm{P}(X=a)$或$\textrm{P}(Y=b)$，即仅与单个随机变量有关的概率。对于离散随机变量$X$和$Y$，如果知道$\textrm{P}(X,Y)$，则边缘概率$\textrm{P}(X)$可以通过求和的方式得到。对于$\forall x \in X $，有
 \begin{eqnarray}
 \textrm{P}(X=x)=\sum_{y}  \textrm{P}(X=x,Y=y)
 \label{eq:2-3}
@@ -156,7 +162,7 @@ F(X)=\int_{-\infty}^x f(x)dx

 \parinterval 对于连续变量，边缘概率$\textrm{P}(X)$需要通过积分得到，如下式所示
 \begin{eqnarray}
-\textrm{P}(X)=\int \textrm{P}(x,y)dy
+\textrm{P}(X=x)=\int \textrm{P}(x,y)dy
 \label{eq:2-4}
 \end{eqnarray}

@@ -180,7 +186,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{fig:2-4}
 \end{figure}
 %-------------------------------------------
-\vspace{-1.3em}
+
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------
@@ -201,15 +207,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{eqnarray}

 \parinterval 下面的例子有助于更好的理解链式法则，如图\ref{fig:2-5}所示，$A$、$B$、$C$、$D$、\\ $E$分别代表五个事件，其中，$A$只和$B$有关，$C$只和$B$、$D$有关，$E$只和$C$有关，$B$和$D$不依赖其他任何事件。则$\textrm{P}(A,B,C,D,E)$的表达式如下式：
-\begin{eqnarray}
-&   & \textrm{P}(A,B,C,D,E) \nonumber \\
-&=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(A,B,C,D) \nonumber \\
-&=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(D \mid A,B,C) \cdot \textrm{P}(A,B,C) \nonumber \\
-&=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(D \mid A,B,C) \cdot \textrm{P}(C \mid A,B) \cdot \textrm{P}(A,B) \nonumber \\
-&=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(D \mid A,B,C) \cdot \textrm{P}(C \mid A,B) \cdot \textrm{P}(B \mid A) \cdot \textrm{P}(A)
-\label{eq:2-7}
-\end{eqnarray}
-\vspace{-2em}
+
 %----------------------------------------------
 \begin{figure}[htp]
 \centering
@@ -219,7 +217,15 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{fig:2-5}
 \end{figure}
 %-------------------------------------------
-\vspace{2.5em}
+
+\begin{eqnarray}
+&   & \textrm{P}(A,B,C,D,E) \nonumber \\
+&=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(A,B,C,D) \nonumber \\
+&=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(D \mid A,B,C) \cdot \textrm{P}(A,B,C) \nonumber \\
+&=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(D \mid A,B,C) \cdot \textrm{P}(C \mid A,B) \cdot \textrm{P}(A,B) \nonumber \\
+&=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(D \mid A,B,C) \cdot \textrm{P}(C \mid A,B) \cdot \textrm{P}(B \mid A) \cdot \textrm{P}(A)
+\label{eq:2-7}
+\end{eqnarray}

 \parinterval 根据图\ref {fig:2-5} 易知$E$只和$C$有关，所以$\textrm{P}(E \mid A,B,C,D)=\textrm{P}(E \mid C)$；$D$不依赖于其他事件，所以$\textrm{P}(D \mid A,B,C)=\textrm{P}(D)$；$C$只和$B$、$D$有关，所以$\textrm{P}(C \mid A,B)=\textrm{P}(C \mid B)$；$B$不依赖于其他事件，所以$\textrm{P}(B \mid  A)=\textrm{P}(B)$。最终化简可得：
 \begin{eqnarray}
@@ -231,9 +237,9 @@ F(X)=\int_{-\infty}^x f(x)dx
 %    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsection{贝叶斯法则}
+\subsection{贝叶斯法则}\label{sec:2.2.3}

-\parinterval 首先介绍一下全概率公式：{\small\bfnew{全概率公式}}\index{全概率公式}（Law of Total Probability）\index{Law of Total Probability}是概率论中重要的公式，它可以将一个复杂事件发生的概率分解成不同情况的小事件发生概率的和。这里先介绍一个概念——划分。若集合$S$的一个划分事件为$\{B_1,...,B_n\}$是指它们满足$\bigcup_{i=1}^n B_i=S \textrm{且}B_iB_j=\varnothing , i,j=1,...,n,i\neq j$。设$\{B_1,...,B_n\}$是$S$的一个划分，则事件$A$的全概率公式可以被描述为：
+\parinterval 首先介绍一下全概率公式：{\small\bfnew{全概率公式}}\index{全概率公式}（Law of Total Probability）\index{Law of Total Probability}是概率论中重要的公式，它可以将一个复杂事件发生的概率分解成不同情况的小事件发生概率的和。这里先介绍一个概念——划分。集合$S$的一个划分事件为$\{B_1,...,B_n\}$是指它们满足,$\bigcup_{i=1}^n B_i=S \textrm{且}B_iB_j=\varnothing , i,j=1,...,n,i\neq j$。此时事件$A$的全概率公式可以被描述为：

 \begin{eqnarray}
 \textrm{P}(A)=\sum_{k=1}^n \textrm{P}(A \mid B_k)\textrm{P}(B_k)
@@ -261,7 +267,6 @@ F(X)=\int_{-\infty}^x f(x)dx
 & = &{0.36}
 \label{eq:2-10}
 \end{eqnarray}
-\vspace{-2em}

 \parinterval {\small\sffamily\bfseries{贝叶斯法则}}\index{贝叶斯法则}（Bayes' rule）\index{Bayes' rule}是概率论中的一个经典公式，通常用于已知$\textrm{P}(A \mid B)$求$\textrm{P}(B \mid A)$。可以表述为：设$\{B_1,...,B_n\}$是$S$的一个划分，$A$为事件，则对于$i=1,...,n$，有如下公式
 \begin{eqnarray}
@@ -276,9 +281,8 @@ F(X)=\int_{-\infty}^x f(x)dx
                     & = & \frac { \textrm{P}(A \mid B)\textrm{P}(B) }  {\textrm{P}(A \mid B)\textrm{P}(B)+\textrm{P}(A \mid \bar{B}) \textrm{P}(\bar{B})}
 \label{eq:2-12}
 \end{eqnarray}
-\vspace{-1.5em}

-\parinterval 贝叶斯公式常用于根据已知的结果来推断使之发生的各因素的可能性。\\ \\
+\parinterval 贝叶斯公式常用于根据已知的结果来推断使之发生的各因素的可能性。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -319,7 +323,6 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{fig:2-6}
 \end{figure}
 %-------------------------------------------
-\vspace{0.5em}

 \parinterval 自信息处理的是变量单一取值的情况。若量化整个概率分布中的不确定性或信息量，可以用信息熵，记为$\textrm{H}(x)$。其公式如下：
 \begin{eqnarray}
@@ -336,7 +339,7 @@ F(X)=\int_{-\infty}^x f(x)dx

 \subsubsection{KL距离}

-\parinterval 如果同一个随机变量$X$上有两个独立的概率分布P$(x)$和Q$(x)$，那么可以使用KL距离(``Kullback-Leibler''散度)来衡量这两个分布的不同，这种度量就是{\small\bfnew{相对熵}}\index{相对熵}（Relative Entropy）\index{Relative Entropy}。其公式如下：
+\parinterval 如果同一个随机变量$X$上有两个概率分布P$(x)$和Q$(x)$，那么可以使用KL距离(``Kullback-Leibler''散度)来衡量这两个分布的不同，这种度量就是{\small\bfnew{相对熵}}\index{相对熵}（Relative Entropy）\index{Relative Entropy}。其公式如下：
 \begin{eqnarray}
 \textrm{D}_{\textrm{KL}}(\textrm{P}\parallel \textrm{Q}) & = & \sum_{x \in \textrm{X}} [ \textrm{P}(x)\log \frac{\textrm{P}(x) }{ \textrm{Q}(x) } ]  \nonumber \\
                                                                                       & = & \sum_{x \in \textrm{X} }[ \textrm{P}(x)(\log\textrm{P}(x)-\log \textrm{Q}(x))]
@@ -350,6 +353,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \item 非负性，即$\textrm{D}_{\textrm{KL}} (\textrm{P} \parallel \textrm{Q}) \ge 0$，等号成立条件是$\textrm{P}$和$\textrm{Q}$相等。
 \vspace{0.5em}
 \item 不对称性，即$\textrm{D}_{\textrm{KL}} (\textrm{P} \parallel \textrm{Q}) \neq \textrm{D}_{\textrm{KL}} (\textrm{Q}  \parallel \textrm{P})$，所以$\textrm{KL}$距离并不是常用的欧式空间中的距离。为了消除这种不确定性，有时也会使用$\textrm{D}_{\textrm{KL}} (\textrm{P}  \parallel \textrm{Q})+\textrm{D}_{\textrm{KL}} (\textrm{Q}  \parallel \textrm{P})$作为度量两个分布差异性的函数。
+\vspace{0.5em}
 \end{itemize}

 %----------------------------------------------------------------------------------------
@@ -407,7 +411,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{definition}
 %-------------------------------------------

-\parinterval 从语言学的角度来看，普遍认为词是可以单独运用的、包含意义的基本单位。这样可以使用有限的词组合出无限的句子，这也正体现出自然语言的奇妙之处。
+\parinterval 从语言学的角度来看，人们普遍认为词是可以单独运用的、包含意义的基本单位。这样可以使用有限的词组合出无限的句子，这也正体现出自然语言的奇妙之处。

 \parinterval 不过，机器翻译并不仅仅局限在语言学定义的单词。比如，神经机器翻译中广泛使用的BPE子词切分方法（见第七章），可以被理解为将词的一部分也进行切开，也就是得到词片段送给机器翻译系统使用。比如，对如下英文字符串，可以得到如下切分结果
 \vspace{0.5em}
@@ -441,7 +445,6 @@ F(X)=\int_{-\infty}^x f(x)dx

 \parinterval 但是，基于词典的分词方法很``硬''。这是因为自然语言非常灵活，经常出现歧义，用词典定义的合法单词之间有重叠的交叉型歧义就很难解决。图\ref{fig:2-9} 就给出了上面例子中的交叉型歧义，从词典中查看，``实现''和``现在''都是合法的单词，但是在句子中二者有重叠，因此词典无法告诉我们哪个结果是正确的。

-\setlength{\belowcaptionskip}{-0.5em}
 %----------------------------------------------
 \begin{figure}[htp]
 \centering
@@ -473,7 +476,7 @@ F(X)=\int_{-\infty}^x f(x)dx

 \begin{itemize}
 \vspace{0.5em}
-\item {\small\bfnew{训练}}\index{训练}（Training）\index{Training}。利用标注数据，对统计模型的参数进行学习。\\
+\item {\small\bfnew{训练}}\index{训练}（Training）\index{Training}。利用标注数据，对统计模型的参数进行学习。
 \vspace{0.5em}
 \item {\small\bfnew{推断}}\index{推断}（Inference）\index{Inference}。利用学习到的模型和参数，对新的句子进行切分。
 \vspace{0.5em}
@@ -490,6 +493,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 %-------------------------------------------

 \parinterval 图\ref{fig:2-10} 给出了一个基于统计建模的汉语分词实例。左侧是标注数据，其中每个句子是已经经过人工标注的分词结果（单词用斜杠分开）。之后，建立一个统计模型，记为$\textrm{P}(\cdot)$。模型通过在标注数据上的学习来对问题进行描述，即学习$\textrm{P}(\cdot)$。最后，对于新的未分词的句子，使用模型$\textrm{P}(\cdot)$对每个可能的切分方式进行概率估计，之后选择概率最高的切分结果输出。
+\vspace{-0.5em}

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -497,7 +501,8 @@ F(X)=\int_{-\infty}^x f(x)dx

 \subsubsection{掷骰子游戏}

-\parinterval 上述过程的核心在于从数据中学习一种对分词现象的统计描述，即学习函数$\textrm{P}(\cdot)$。如何让计算机利用分词好的数据学习到分词的知识呢？可以先看一个有趣的实例（图\ref{fig:2-11}），用生活中比较常见的掷骰子来说，掷一个骰子，玩家猜一个数字，猜中就算赢，按照一般的常识，随便选一个数字，获胜的概率是一样的，即所有选择的获胜概率仅是$1/6$。因此这个游戏玩家很难获胜，除非运气很好。假设进行一次游戏，玩家随便选了一个数字，比如是1，投掷30骰子，得到命中$7/30 > 1/6$，还不错。
+\parinterval 上述过程的核心在于从数据中学习一种对分词现象的统计描述，即学习函数$\textrm{P}(\cdot)$。如何让计算机利用分词好的数据学习到分词的知识呢？可以先看一个有趣的实例（图\ref{fig:2-11}），用生活中比较常见的掷骰子来说，掷一个骰子，玩家猜一个数字，猜中就算赢，按照一般的常识，随便选一个数字，获胜的概率是一样的，即所有选择的获胜概率仅是$1/6$。因此这个游戏玩家很难获胜，除非运气很好。假设进行一次游戏，玩家随便选了一个数字，比如是1，投掷30次骰子，得到命中$7/30 > 1/6$，还不错。
+\vspace{-0.5em}

 %----------------------------------------------
 \begin{figure}[htp]
@@ -509,7 +514,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{figure}
 %-------------------------------------------

-\vspace{0.5em}
+\vspace{-0.5em}
 \parinterval 似乎玩家的胜利只能来源于运气。不过，请注意，这里的假设``随便选一个数字''本身就是一个概率模型，它对骰子的六个面的出现做了均匀分布假设。
 \begin{eqnarray}
 \textrm{P(``1'')}=\textrm{P(``2'')}=...=\textrm{P(``5'')}=\textrm{P(``6'')}=1/6
@@ -517,7 +522,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{eqnarray}

 \vspace{-0.5em}
-\parinterval 但是这个游戏没有人规定骰子是均匀的（有些被坑了的感觉）。但是如果骰子的六个面不均匀呢？我们可以用一种更加``聪明''的方式定义一种新的模型，即定义骰子的每一个面都以一定的概率出现，而不是相同的概率。描述如公式\ref{eq:2-18}，这里，$\theta_1 \sim \theta_5$可以被看作是模型的参数，因此这个模型的自由度是5。对于这样的模型，参数确定了，模型也就确定了。
+\parinterval 但是这个游戏没有人规定骰子是均匀的（有些被坑了的感觉）。如果骰子的六个面不均匀呢？我们可以用一种更加``聪明''的方式定义一种新的模型，即定义骰子的每一个面都以一定的概率出现，而不是相同的概率。描述如下：
 \begin{eqnarray}
 \textrm{P(``1'')} &=&\theta_1 \nonumber \\
 \textrm{P(``2'')} &=&\theta_2 \nonumber \\
@@ -528,7 +533,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{eq:2-18}
 \end{eqnarray}

-\parinterval 但是，新的问题来了，在定义骰子每个面的概率后，如何求出具体的值呢？一种常用的方法是，从大量实例中学习模型参数，这个方法也是常说的{\small\bfnew{参数估计}}\index{参数估计}（Parameter Estimation）\index{Parameter Estimation}。可以将这个不均匀的骰子先实验性的掷很多次，这可以被看作是独立同分布的若干次采样，比如$X$ 次，发现``1'' 出现$X_1$ 次，``2'' 出现$X_2$ 次，以此类推，得到了各个面出现的次数。假设掷骰子中每个面出现的概率符合多项式分布，通过简单的概率论知识可以知道每个面出现概率的极大似然估计为：
+\noindent 这里，$\theta_1 \sim \theta_5$可以被看作是模型的参数，因此这个模型的自由度是5。对于这样的模型，参数确定了，模型也就确定了。但是，新的问题来了，在定义骰子每个面的概率后，如何求出具体的值呢？一种常用的方法是，从大量实例中学习模型参数，这个方法也是常说的{\small\bfnew{参数估计}}\index{参数估计}（Parameter Estimation）\index{Parameter Estimation}。可以将这个不均匀的骰子先实验性的掷很多次，这可以被看作是独立同分布的若干次采样，比如$X$ 次，发现``1'' 出现$X_1$ 次，``2'' 出现$X_2$ 次，以此类推，得到了各个面出现的次数。假设掷骰子中每个面出现的概率符合多项式分布，通过简单的概率论知识可以知道每个面出现概率的极大似然估计为：
 \begin{eqnarray}
 \textrm{P(``i'')}=\frac {X_i}{X}
 \label{eq:2-19}
@@ -545,11 +550,8 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{figure}
 %-------------------------------------------

-\vspace{0.5em}
 \parinterval 于是，我们看到了一个有倾向性的模型（图 \ref{fig:2-13}）：在这样的预先实验基础上，可以知道如果再次玩掷骰子游戏的话，选则数字``4''获胜的可能性是最大的。

-\parinterval 通过上面这个掷骰子的游戏，可以得到一个道理：{\small\sffamily\bfseries{上帝是不公平的}}。因为在``公平''的世界中，没有任何一个模型可以学到有价值的事情。从机器学习的角度来看，所谓的``不公平''实际上这是客观事物中蕴含的一种{\small\sffamily\bfseries{偏置}}\index{偏置}（Bias）\index{Bias}，也就是很多事情天然就有对某些情况有倾向。而图像处理、自然语言处理等问题中绝大多数都存在着偏置。比如，我们翻译一个英文单词的时候，它最可能的翻译结果往往就是那几个词。设计统计模型的目的正是要学习这种偏置，之后利用这种偏置对新的问题做出足够好的决策。
-
 %----------------------------------------------
 \begin{figure}[htp]
 \centering
@@ -558,7 +560,8 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{fig:2-13}
 \end{figure}
 %-------------------------------------------
-\vspace{-0.5em}
+
+\parinterval 通过上面这个掷骰子的游戏，可以得到一个道理：{\small\sffamily\bfseries{上帝是不公平的}}。因为在``公平''的世界中，没有任何一个模型可以学到有价值的事情。从机器学习的角度来看，所谓的``不公平''实际上这是客观事物中蕴含的一种{\small\sffamily\bfseries{偏置}}\index{偏置}（Bias）\index{Bias}，也就是很多事情天然就有对某些情况有倾向。而图像处理、自然语言处理等问题中绝大多数都存在着偏置。比如，我们翻译一个英文单词的时候，它最可能的翻译结果往往就是那几个词。设计统计模型的目的正是要学习这种偏置，之后利用这种偏置对新的问题做出足够好的决策。

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -627,7 +630,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{eq:2-20}
 \end{eqnarray}
 }
-\vspace{0.5em}
+

 \parinterval 以``确实现在数据很多''这个实例来说，如果把这句话按照``确实/现在/数据/很/多''这样的方式进行切分，这个句子切分的概率P(``确实/现在/数据/很/多'')可以通过每个词出现概率相乘的方式进行计算。
 \begin{eqnarray}
@@ -640,10 +643,6 @@ F(X)=\int_{-\infty}^x f(x)dx

 这个假设也是自然语言处理中1-gram语言模型假设，即当前词的生成与任何历史都无关。当然，独立性假设并不能完美描述客观世界的问题，但是它大大化简了问题的复杂度。

-\parinterval 最后再整体看一下分词系统的学习和使用过程。如图\ref {fig:2-17}所示，我们利用大量人工标注好的分词数据，通过统计学习方法获得一个统计模型$\textrm{P}(\cdot)$，给定任意分词结果$W=w_1 w_2...w_m$，都能通过$\textrm{P}(W)=\textrm{P}(w_1) \cdot \textrm{P}(w_2 ) \cdot ... \cdot \textrm{P}(w_m)$计算这种切分的概率值。
-
-\parinterval 经过充分训练的统计模型$\textrm{P}(\cdot)$就是得到的分词模型。对于输入的新句子$S$，通过这个模型找到最佳的分词结果$W^*$输出。假设输入句子$S$是``确实现在数据很多''，可以通过列举获得不同切分方式的概率，其中概率最高的切分方式，就是系统的目标输出。
-
 %----------------------------------------------
 \begin{figure}[htp]
 \centering
@@ -653,7 +652,10 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{figure}
 %-------------------------------------------

-\vspace{0.5em}
+\parinterval 最后再整体看一下分词系统的学习和使用过程。如图\ref {fig:2-17}所示，我们利用大量人工标注好的分词数据，通过统计学习方法获得一个统计模型$\textrm{P}(\cdot)$，给定任意分词结果$W=w_1 w_2...w_m$，都能通过$\textrm{P}(W)=\textrm{P}(w_1) \cdot \textrm{P}(w_2 ) \cdot ... \cdot \textrm{P}(w_m)$计算这种切分的概率值。
+
+\parinterval 经过充分训练的统计模型$\textrm{P}(\cdot)$就是得到的分词模型。对于输入的新句子$S$，通过这个模型找到最佳的分词结果$W^*$输出。假设输入句子$S$是``确实现在数据很多''，可以通过列举获得不同切分方式的概率，其中概率最高的切分方式，就是系统的目标输出。
+
 \parinterval 这种分词方法也被称作基于1-gram语言模型的分词，或全概率分词，使用标注好的分词数据进行学习，获得分词模型。这种方法最大的优点是整个学习过程（模型训练过程）和推导过程（处理新句子进行切分的过程）都是全自动进行的。这种方法虽然简单，但是其效率很高，因此被广泛应用在工业界系统里。

 \parinterval 当然，真正的分词系统还需要解决很多其他问题，比如使用动态规划等方法高效搜索最优解以及如何处理未见过的词等等，由于本节的重点是介绍中文分词的基础方法和统计建模思想，因此无法覆盖所有中文分词的技术内容，有兴趣的读者可以参考\ref{sec2:summary}节的相关文献做进一步深入研究。
@@ -663,10 +665,9 @@ F(X)=\int_{-\infty}^x f(x)dx
 %----------------------------------------------------------------------------------------

 \sectionnewpage
-\vspace{-0.5em}
 \section{$n$-gram语言模型 }

-\parinterval 在基于统计的汉语分词模型中，我们通过``大题小做''的技巧，利用独立性假设把整个句子的单词切分概率转化为每个单个词出现概率的乘积。这里，每个单词也被称作1-gram（或uni-gram），而1-gram概率的乘积实际上也是在度量词序列出现的可能性（记为$\textrm{P}(w_1 w_2...w_m)$）。这种计算整个单词序列概率$\textrm{P}(w_1 w_2...w_m)$的方法被称为统计语言模型。1-gram语言模型是最简单的一种语言模型，它没有考虑任何的上下文。很自然的一个问题是：能否考虑上下文信息构建更强大的语言模型，进而得到更准确的分词结果。下面将进一步介绍更加通用的$n$-gram语言模型，它在机器翻译及其他自然语言处理任务中有更加广泛的应用。\\ \\
+\parinterval 在基于统计的汉语分词模型中，我们通过``大题小做''的技巧，利用独立性假设把整个句子的单词切分概率转化为每个单个词出现概率的乘积。这里，每个单词也被称作1-gram（或uni-gram），而1-gram概率的乘积实际上也是在度量词序列出现的可能性（记为$\textrm{P}(w_1 w_2...w_m)$）。这种计算整个单词序列概率$\textrm{P}(w_1 w_2...w_m)$的方法被称为统计语言模型。1-gram语言模型是最简单的一种语言模型，它没有考虑任何的上下文。很自然的一个问题是：能否考虑上下文信息构建更强大的语言模型，进而得到更准确的分词结果。下面将进一步介绍更加通用的$n$-gram语言模型，它在机器翻译及其他自然语言处理任务中有更加广泛的应用。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -684,7 +685,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{definition}
 %-------------------------------------------

-\parinterval 直接求$\textrm{P}(w_1 w_2...w_m)$并不简单，因为如果把整个词串$w_1 w_2...w_m$作为一个变量，模型的参数量会非常大。$w_1 w_2...w_m$有$|V|^m$种可能性，这里$|V|$表示词汇表大小。显然，当$m$ 增大的时候会使模型复杂度会急剧增加，甚至都无法进行存储和计算。既然把$w_1 w_2...w_m$作为一个变量不好处理，就可以考虑对这个序列的生成过程进行分解。使用链式法则，很容易得到
+\parinterval 直接求$\textrm{P}(w_1 w_2...w_m)$并不简单，因为如果把整个词串$w_1 w_2...w_m$作为一个变量，模型的参数量会非常大。$w_1 w_2...w_m$有$|V|^m$种可能性，这里$|V|$表示词汇表大小。显然，当$m$ 增大时，模型的复杂度会急剧增加，甚至都无法进行存储和计算。既然把$w_1 w_2...w_m$作为一个变量不好处理，就可以考虑对这个序列的生成过程进行分解。使用链式法则，很容易得到
 \begin{eqnarray}
 \textrm{P}(w_1 w_2...w_m)=\textrm{P}(w_1)\textrm{P}(w_2|w_1)\textrm{P}(w_3|w_1 w_2)...\textrm{P}(w_m|w_1 w_2...w_{m-1})
 \label{eq:2-22}
@@ -694,7 +695,7 @@ F(X)=\int_{-\infty}^x f(x)dx

 \parinterval 换一个角度看，$\textrm{P}(w_m|w_1 w_2...w_{m-1})$体现了一种基于``历史''的单词生成模型，也就是把前面生成的所有单词作为``历史''，并参考这个``历史''生成当前单词。但是这个``历史''的长度和整个序列长度是相关的，也是一种长度变化的历史序列。为了化简问题，一种简单的想法是使用定长历史，比如，每次只考虑前面$n-1$个历史单词来生成当前单词，这就是$n$-gram语言模型。这个模型的数学描述如下：
 \begin{eqnarray}
-\textrm{P}(w_m|w_{m-n+1}...w_{m-1})=\textrm{P}(w_m|w_1 w_2...w_{m-1})
+\textrm{P}(w_m|w_1 w_2...w_{m-1}) \approx \textrm{P}(w_m|w_{m-n+1}...w_{m-1})
 \label{eq:2-23}
 \end{eqnarray}

@@ -716,24 +717,25 @@ F(X)=\int_{-\infty}^x f(x)dx
 }
 \end{center}

-\parinterval 可以看到，1-gram语言模型只是$n$-gram语言模型的一种特殊形式。$n$-gram的优点在于，它所使用的历史信息是有限的，即$n-1$个单词。这种性质也反映了经典的马尔可夫链的思想\cite{liuke-markov-2004}\cite{resnick1992adventures}有时也被称作马尔可夫假设或者马尔可夫属性。因此$n$-gram也可以被看作是变长序列上的一种马尔可夫模型，比如，2-gram语言模型对应着1阶马尔可夫模型，3-gram语言模型对应着2阶马尔可夫模型，以此类推。
+\parinterval 可以看到，1-gram语言模型只是$n$-gram语言模型的一种特殊形式。$n$-gram的优点在于，它所使用的历史信息是有限的，即$n-1$个单词。这种性质也反映了经典的马尔可夫链的思想\cite{liuke-markov-2004}\cite{resnick1992adventures}，有时也被称作马尔可夫假设或者马尔可夫属性。因此$n$-gram也可以被看作是变长序列上的一种马尔可夫模型，比如，2-gram语言模型对应着1阶马尔可夫模型，3-gram语言模型对应着2阶马尔可夫模型，以此类推。

 \parinterval 那么，如何计算$\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$呢？有很多种选择，比如：

 \begin{itemize}
 \vspace{0.5em}
-\item {\small\bfnew{极大似然估计}}\index{极大似然估计}：直接利用词序列在训练数据中出现的频度计算出$\textrm{P}(w_m|w_{m-n+1}$\\$... w_{m-1})$
+\item {\small\bfnew{极大似然估计}}\index{极大似然估计}。直接利用词序列在训练数据中出现的频度计算出$\textrm{P}(w_m|w_{m-n+1}$\\$... w_{m-1})$
 \begin{eqnarray}
 \textrm{P}(w_m|w_{m-n+1}...w_{m-1})=\frac{\textrm{count}(w_{m-n+1}...w_m)}{\textrm{count}(w_{m-n+1}...w_{m-1})}
 \label{eq:2-24}
+\vspace{0.5em}
 \end{eqnarray}

 其中，$\textrm{count}(\cdot)$是在训练数据中统计频次的函数。

-\vspace{0.5em}
-\item {\small\bfnew{人工神经网络方法}}\index{人工神经网络方法}：构建一个人工神经网络估计$\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$的值，比如，可以构建一个前馈神经网络来对$n$-gram进行建模。
-\vspace{0.5em}
+\vspace{0.3em}
+\item {\small\bfnew{人工神经网络方法}}\index{人工神经网络方法}。构建一个人工神经网络估计$\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$的值，比如，可以构建一个前馈神经网络来对$n$-gram进行建模。
 \end{itemize}
+\vspace{0.3em}

 \parinterval 极大似然估计方法和前面介绍的统计分词中的方法是一致的，它的核心是使用$n$-gram出现的频度进行参数估计，因此也是自然语言处理中一类经典的$n$-gram方法。基于人工神经网络的方法在近些年也非常受关注，它直接利用多层神经网络对问题的输入$(w_{m-n+1}...w_{m-1})$和输出$\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$进行建模，而模型的参数通过网络中神经元之间连接的权重进行体现。严格意义上了来说，基于人工神经网络的方法并不算基于$n$-gram的方法，或者说它并没有显性记录$n$-gram的生成概率，也不依赖$n$-gram的频度进行参数估计。为了保证内容的连贯性，本章将仍以传统$n$-gram语言模型为基础进行讨论，基于人工神经网络的方法将会在第五章和第六章进行详细介绍。

@@ -761,7 +763,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{eq:2-26}
 \end{eqnarray}

-\parinterval 显然，这个结果是不能接受的。因为即使语料中没有 ``确实''和``现在''两个词连续出现，但是这种搭配也是客观存在的。这时简单的用极大似然估计得到概率却是0，导致整个切分结果的概率为0。 更常见的问题是那些根本没有出现在词表中的词，称为{\small\sffamily\bfseries{未登录词}}\index{未登录词}（Out-of-Vocabulary Word，OOV Word）\index{Out-of-Vocabulary Word，OOV Word}，比如一些生僻词，可能模型训练阶段从来没有看到过，这时模型仍然会给出0 概率。图\ref{fig:2-18}展示了一个真实语料库中词语出现频度的分布，可以看到绝大多数词都是低频词。
+\parinterval 显然，这个结果是不能接受的。因为即使语料中没有 ``确实''和``现在''两个词连续出现，这种搭配也是客观存在的。这时简单的用极大似然估计得到概率却是0，导致整个切分结果的概率为0。 更常见的问题是那些根本没有出现在词表中的词，称为{\small\sffamily\bfseries{未登录词}}\index{未登录词}（Out-of-Vocabulary Word，OOV Word）\index{Out-of-Vocabulary Word，OOV Word}，比如一些生僻词，可能模型训练阶段从来没有看到过，这时模型仍然会给出0 概率。图\ref{fig:2-18}展示了一个真实语料库中词语出现频度的分布，可以看到绝大多数词都是低频词。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -785,6 +787,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \parinterval {\small\bfnew{加法平滑}}\index{加法平滑}（Additive Smoothing）\index{Additive Smoothing}是一种简单的平滑技术。本小节首先介绍这一方法，希望通过它了解平滑算法的思想。通常情况下，系统研发者会利用采集到的语料库来模拟真实的全部语料库。当然，没有一个语料库能覆盖所有的语言现象。常见的一个问题是，使用的语料无法涵盖所有的词汇。因此，直接依据这样语料所获得的统计信息来获取语言模型就会产生偏差。假设依据某语料$C$ （从未出现`` 确实 现在''二元语法），评估一个已经分好词的句子$S$ =``确实/现在/物价/很/高''的概率。当计算``确实/现在''的概率时，$\textrm{P}(S) = 0$。显然这个结果是不合理的。

 \parinterval 加法平滑方法假设每个$n$-gram出现的次数比实际统计次数多$\theta$次，$0 \le \theta\le 1$。这样，计算概率的时候分子部分不会为0。重新计算$\textrm{P}(\textrm{现在}|\textrm{确实})$，可以得到：
+
 \begin{eqnarray}
 \textrm{P}(\textrm{现在}|\textrm{确实}) & =  & \frac{\theta + \textrm{count}(\textrm{确实/现在})}{\sum_{w}^{|V|}(\theta + \textrm{count}(\textrm{确实/}w))} \nonumber \\
                                                             & =  & \frac{\theta + \textrm{count}(\textrm{确实/现在})}{\theta{|V|} + \textrm{count}(\textrm{确实})}
@@ -850,14 +853,13 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\

 \parinterval 这里使用一个例子来说明这个方法是如何对事件出现的可能性进行平滑的。仍然考虑在加法平滑法中统计单词的例子，根据古德-图灵方法进行修正如表\ref{tab:2-21}所示。

-\vspace{0.5em}
 %------------------------------------------------------
 \begin{table}[htp]{
 \begin{center}
 \caption{单词出现频次及古德-图灵平滑结果}
 {
 \begin{tabular}{l|lll}
-\rule{0pt}{10pt} $r$ & $n_r$ & $n^*$ & $\textrm{P}_r$\\ \hline
+\rule{0pt}{10pt} $r$ & $n_r$ & $r^*$ & $\textrm{P}_r$\\ \hline
 \rule{0pt}{10pt} 0 & 14 & 0.21 & 0.018 \\
 \rule{0pt}{10pt} 1 & 3 & 0.67 & 0.056 \\
 \rule{0pt}{10pt} 2 & 1 & 3 & 0.25 \\
@@ -959,7 +961,6 @@ c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}
 %----------------------------------------------------------------------------------------

 \sectionnewpage
-\vspace{-0.5em}
 \section{句法分析（短语结构分析）}
 \parinterval 通过前面两节的内容，已经了解什么叫做``词''、如何对分词问题进行统计建模。同时也了解了如何对词序列的生成进行概率描述。无论是分词还是语言模型都是句子浅层词串信息的一种表示。对于一个自然语言句子来说，它更深层次的结构信息可以通过句法信息来描述，而句法信息也是机器翻译和自然语言处理其他任务中常用的知识之一。

@@ -980,14 +981,13 @@ c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}
 \end{figure}
 %---------------------------

-\vspace{0.3em}
 \parinterval 图\ref{fig:2-20}右侧展示的是另一种句法结构，被称作依存句法树。依存句法树表示了句子中单词和单词之间的依存关系。比如，从这个例子可以了解，``猫''依赖``喜欢''，``吃''依赖``喜欢''，``鱼''依赖``吃''。

 \parinterval 短语结构树和依存句法树的结构和功能有很大不同。短语结构树的叶子节点是单词，中间节点是词性或者短语句法标记。在短语结构分析中，通常把单词称作{\small\bfnew{终结符}}\index{终结符}（Terminal）\index{Terminal}，把词性称为{\small\bfnew{预终结符}}\index{预终结符}（Pre-terminal）\index{Pre-terminal}，而把其他句法标记称为{\small\bfnew{非终结符}}\index{非终结符}（Non-terminal）\index{Non-terminal}。依存句法树没有预终结符和非终结符，所有的节点都是句子里的单词，通过不同节点间的连线表示句子中各个单词之间的依存关系。每个依存关系实际上都是有方向的，头和尾分别指向``接受''和``发出''依存关系的词。依存关系也可以进行分类，图\ref{fig:2-20}中我们对每个依存关系的类型都进行了标记，这也被称作是有标记的依存分析。如果不生成这些标记，这样的句法分析被称作无标记的依存分析。

 \parinterval 虽然短语结构树和依存树的句法表现形式有很大不同，但是它们在某些条件下能相互转化。比如，可以使用启发性规则将短语结构树自动转化为依存树。从应用的角度，依存分析由于形式更加简单，而且直接建模词语之间的依赖，因此在自然语言处理领域中受到很多关注。在机器翻译中，无论是哪种句法树结构，都已经被证明会对机器翻译系统产生帮助。特别是短语结构树，在机器翻译中的应用历史更长，研究更为深入，因此本节将会以短语结构分析为例介绍句法分析的相关概念。

-\parinterval 而句法分析到底是什么呢？简单的理解，句法分析就是在小学语文课程中学习的句子成分的分析，以及对句子中各个成分内部、外部关系的判断。更规范一些的定义，可以参照维基百科和百度百科的句法分析的解释。
+\parinterval 而句法分析到底是什么呢？简单的理解，句法分析就是在小学语文课程中学习的句子成分的分析，以及对句子中各个成分内部、外部关系的判断。更规范一些的定义，可以参照百度百科维基百科的句法分析的解释。

 %-------------------------------------------
 \vspace{-0.0em}
@@ -1005,15 +1005,16 @@ c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}

 \begin{itemize}
 \vspace{0.5em}
-\item 形式化的文法：描述语言结构的定义，由文法规则组成
+\item 形式化的文法：描述语言结构的定义，由文法规则组成。
 \vspace{0.5em}
-\item 符号串：在本节中，符号串就是指词串，由前面提到的分词系统生成
+\item 符号串：在本节中，符号串就是指词串，由前面提到的分词系统生成。
 \vspace{0.5em}
-\item 分析：使用形式文法对符号串进行分析的具体方法，在这里指实现分析的计算机算法
+\item 分析：使用形式文法对符号串进行分析的具体方法，在这里指实现分析的计算机算法。
 \vspace{0.5em}
 \end{itemize}

 \parinterval 以上三点是实现一个句法分析器的要素。本节的后半部分会对相关的概念和技术方法进行介绍。
+\vspace{-0.5em}

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -1065,7 +1066,6 @@ S=\{\textrm{IP}\} \nonumber

 最后，文法的规则集定义图\ref{fig:2-21}所示（其中$r_i$为规则的编号）

-%\setlength{\belowcaptionskip}{-1em}
 %----------------------------------------------
 \begin{figure}[htp]
    \centering
@@ -1133,8 +1133,7 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{
 \end{figure}
 %-------------------------------------------

-\vspace{0.5em}
-\parinterval 通常，可以把推导简记为$d=r_1 \circ r_2 \circ ... \circ r_n$，其中$ \circ $表示规则的组合。显然，$d$也对应了树形结构，也就是句法分析结果。从这个角度看，推导就是描述句法分析树的一种方式。此外，规则的推导也把规则的使用过程与生成的字符串对应起来。一个推导所生成的字符串，也被称作文法所产生的一个{\small\bfnew{句子}}\index{句子}（Sentence）\index{Sentence}。而一个文法所能生成的所有句子是这个文法所对应的{\small\bfnew{语言}}\index{语言}（Language）\index{Language}。
+\parinterval 通常，可以把推导简记为$d=r_1 \circ r_2 \circ ... \circ r_n$，其中$ \circ $表示规则的组合。显然，$d$也对应了树形结构，也就是句法分析结果。从这个角度看，推导就是描述句法分析树的一种方式。此外，规则的推导也把规则的使用过程与生成的字符串对应起来。一个推导所生成的字符串，也被称作文法所产生的一个{\small\bfnew{句子}}\index{句子}（Sentence）\index{Sentence}。而一个文法所能生成的所有句子的集合是这个文法所对应的{\small\bfnew{语言}}\index{语言}（Language）\index{Language}。

 \parinterval 但是，句子和规则的推导并不是一一对应的。同一个句子，往往有很多推导的方式，这种现象被称为{\small\bfnew{歧义}}\index{歧义}（Ambiguity）\index{Ambiguity}。甚至同一棵句法树，也可以对应不同的推导。图\ref{fig:2-23} 给出同一棵句法树所对应的两种不同的规则推导。

@@ -1148,11 +1147,12 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{
 \end{figure}
 %-------------------------------------------

-\vspace{0.5em}
 \parinterval 显然，规则顺序的不同会导致句法树的推导这一确定的过程变得不确定。因此，需要进行{\small\bfnew{消歧}}\index{消歧}（Disambiguation）\index{Disambiguation}。这里，可以使用启发式方法：要求规则使用都服从最左优先原则，这样得到的推导被称为{\small\bfnew{最左优先推导}}\index{最左优先推导}（Left-most Derivation）\index{Left-most Derivation}。图\ref{fig:2-23}中的推导1 就是符合最左优先原则的推导。

 \parinterval 这样，对于一个上下文无关文法，每一棵句法树都有唯一的最左推导与之对应。于是，句法分析可以被描述为：对于一个句子找到能够生成它的最佳推导，这个推导所对应的句法树就是这个句子的句法分析结果。

+\parinterval 不过问题又回来了，怎样才能知道什么样的推导或者句法树是``最佳''的呢？如图\ref{fig:2-24}所示，对于语言学专家，他们可以很确定的分辨出哪些句法树是正确的，哪些句法树是错误。甚至普通人也可以通过一些课本中学到的知识产生一些模糊的判断。而计算机如何进行判别呢？沿着前面介绍的统计建模的思想，计算机可以得出不同句法树出现的概率，进而选择概率最高的句法树作为输出，而这正是统计句法分析所做的事情。
+
 %-------------------------------------------
 \begin{figure}[htp]
    \centering
@@ -1162,8 +1162,6 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{
 \end{figure}
 %-------------------------------------------

-\parinterval 不过问题又回来了，怎样才能知道什么样的推导或者句法树是``最佳''的呢？对于语言学专家来说，可以很确定的分辨出哪些句法树是正确的，哪些句法树是错误。甚至对于普通人，也通过一些课本中学到知识产生一些模糊的判断。而计算机如何进行判别呢？沿着前面介绍的统计建模的思想，计算机可以得出不同句法树出现的概率，进而选择概率最高的句法树作为输出，而这正是统计句法分析所做的事情
-
 \parinterval 在统计句法分析中，需要对每个推导进行统计建模，于是定义一个模型$\textrm{P}( \cdot )$，对于任意的推导$d$，都可以用$\textrm{P}(d)$计算出推导$d$的概率。这样，给定一个输入句子，我们可以对所有可能的推导用$\textrm{P}(d)$计算其概率值，并选择概率最大的结果作为句法分析的结果输出（图\ref{fig:2-25}）。

 %-------------------------------------------
@@ -1234,6 +1232,7 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
 \parinterval 这也对应了词串``吃\ 鱼''的生成过程。首先，从起始非终结符VP开始，使用规则$r_6$生成两个非终结符VV和NN；进一步，分别使用规则$r_3$和$r_4$从VV和NN进一步生成单词``吃''和``鱼''。整个过程的概率等于三条规则概率的乘积。

 \parinterval 新的问题又来了，如何得到规则的概率呢？这里仍然可以从数据中学习文法规则的概率。假设有人工标注的数据，它包括很多人工标注句法树的句法，称之为{\small\bfnew{树库}}\index{树库}（Treebank）\index{Treebank}。然后，对于规则$\textrm{r}:\alpha \to \beta$可以使用极大似然估计：
+
 \begin{eqnarray}
 \textrm{P}(r)  = \frac{\text{规则$r$在树库中出现的次数}}{\alpha \text{在树库中出现的次数}}
 \label{eq:2-49}
@@ -1250,9 +1249,8 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
 \end{figure}
 %-------------------------------------------

-\vspace{0.5em}
 \parinterval 图\ref{fig:2-27}展示了基于统计的句法分析的流程。首先，通过树库上的统计，获得各个规则的概率，这样就得到了一个上下文无关句法分析模型$\textrm{P}( \cdot )$。对于任意句法分析结果$d=r_1 \circ r_2 \circ ... \circ r_n$，都能通过如下公式计算其概率值：
-\setlength{\belowdisplayskip}{1pt}
+
 \begin{equation}
 \textrm{P}(d)= \prod_{i=1}^{n}\textrm{P}(r_i)
 \end{equation}
@@ -1266,7 +1264,6 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
 \end{figure}
 %-------------------------------------------

-\vspace{1em}
 \parinterval 在获取统计分析模型后，就可以使用模型对任意句子进行分析，计算每个句法分析树的概率，并输出概率最高的树作为句法分析的结果。

 %----------------------------------------------------------------------------------------
@@ -1274,7 +1271,6 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
 %----------------------------------------------------------------------------------------

 \sectionnewpage
-\vspace{0.5em}
 \section{小结及深入阅读} \label{sec2:summary}

 \parinterval 本章重点介绍了如何对自然语言处理问题进行统计建模，并从数据中自动学习统计模型的参数，最终使用学习到的模型对新的问题进行处理。之后，本章将这种思想应用到三个自然语言处理任务中，包括：中文分词、语言建模、句法分析，它们也和机器翻译有着紧密的联系。通过系统化的建模，可以发现：经过适当的假设和化简，统计模型可以很好的描述复杂的自然语言处理问题。相关概念和方法也会在后续章节的内容中被广泛使用。
@@ -1284,9 +1280,9 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
 \begin{adjustwidth}{1em}{}
 \begin{itemize}
 \vspace{0.5em}
-\item 在建模方面，本章介绍的三个任务均采用的是基于人工先验知识进行模型设计的思路。也就是，问题所表达的现象被``一步一步''生成出来。这是一种典型的生成式建模思想，它把要解决的问题看作一些观测结果的隐含变量（比如，句子是观测结果，分词结果是隐含在背后的变量），之后通过对隐含变量生成观测结果的过程进行建模，以达到对问题进行数学描述的目的。这类模型一般需要依赖一些独立性假设，假设的合理性对最终的性能有较大影响。相对于{\small\sffamily\bfseries{生成模型}}\index{生成模型}（Generative Model）\index{Generative Model}，另一类方法{\small\sffamily\bfseries{判别模型}}\index{判别模型}（Discriminative Model）\index{Discriminative Model}，它直接描述了从隐含变量生成观测结果的过程，这样对问题的建模更加直接，同时这类模型可以更加灵活的引入不同的特征。判别模型在自然语言处理中也有广泛应用\cite{shannon1948mathematical}\cite{ng2002discriminative}。 在本书的第四章也会使用到判别式模型。
+\item 在建模方面，本章介绍的三个任务均采用的是基于人工先验知识进行模型设计的思路。也就是，问题所表达的现象被``一步一步''生成出来。这是一种典型的生成式建模思想，它把要解决的问题看作一些观测结果的隐含变量（比如，句子是观测结果，分词结果是隐含在背后的变量），之后通过对隐含变量生成观测结果的过程进行建模，以达到对问题进行数学描述的目的。这类模型一般需要依赖一些独立性假设，假设的合理性对最终的性能有较大影响。相对于{\small\sffamily\bfseries{生成模型}}\index{生成模型}（Generative Model）\index{Generative Model}，另一类方法是{\small\sffamily\bfseries{判别模型}}\index{判别模型}（Discriminative Model）\index{Discriminative Model}，它直接描述了从隐含变量生成观测结果的过程，这样对问题的建模更加直接，同时这类模型可以更加灵活的引入不同的特征。判别模型在自然语言处理中也有广泛应用\cite{shannon1948mathematical}\cite{ng2002discriminative}。 在本书的第四章也会使用到判别式模型。
 \vspace{0.5em}
-\item 从现在自然语言处理的前沿看，基于端到端学习的深度学习方法在很多任务中都取得了领先的性能。但是，本章并没有涉及深度学习及相关方法，这是由于笔者认为：对问题的建模是自然语言处理的基础，对问题的本质刻画并不会因为方法的改变而改变。因此，本章的内容没有太多的陷入到更加复杂的模型和算法设计中，相反，我们希望关注对基本问题的理解和描述。不过，一些前沿方法仍可以作为参考，包括：基于条件随机场和双向长短时记忆模型的序列标注模型\cite{lafferty2001conditional}\cite{huang2015bidirectional}\cite{ma2016end}、神经语言模型\cite{bengio2003neural}\cite{mikolov2010recurrent}、神经句法分析模型\cite{chen2014fast}\cite{zhu2015long}。
+\item 从现在自然语言处理的前沿看，基于端到端学习的深度学习方法在很多任务中都取得了领先的性能。但是，本章并没有涉及深度学习及相关方法，这是由于笔者认为：对问题的建模是自然语言处理的基础，对问题的本质刻画并不会因为方法的改变而改变。因此，本章的内容没有太多地陷入到更加复杂的模型和算法设计中，相反，我们希望关注对基本问题的理解和描述。不过，一些前沿方法仍可以作为参考，包括：基于条件随机场和双向长短时记忆模型的序列标注模型\cite{lafferty2001conditional}\cite{huang2015bidirectional}\cite{ma2016end}、神经语言模型\cite{bengio2003neural}\cite{mikolov2010recurrent}、神经句法分析模型\cite{chen2014fast}\cite{zhu2015long}。
 \vspace{0.5em}
 \item 此外，本章并没有对模型的推断方法进行深入介绍。比如，对于一个句子如何有效的找到概率最大的分词结果？显然，简单枚举是不可行的。对于这类问题比较简单的解决方法是使用动态规划\cite{huang2008advanced}。如果使用动态规划的条件不满足，可以考虑使用更加复杂的搜索策略，并配合一定剪枝方法。实际上，无论是$n$-gram语言模型还是简单的上下文无关文法都有高效的推断方法。比如，$n$-gram语言模型可以被视为概率有限状态自动机，因此可以直接使用成熟的自动机工具。对于更复杂的句法分析问题，可以考虑使用移进-规约方法来解决推断问题\cite{aho1972theory}。
 \vspace{0.5em}

--- a/Book/Chapter3/Chapter3.tex
+++ b/Book/Chapter3/Chapter3.tex
@@ -2,6 +2,14 @@
 % !TEX encoding = UTF-8 Unicode

 %----------------------------------------------------------------------------------------
+% 机器翻译：统计建模与深度学习方法
+% Machine Translation: Statistical Modeling and Deep Learning Methods
+%
+% Copyright 2020
+% 肖桐(xiaotong@mail.neu.edu.cn) 朱靖波 (zhujingbo@mail.neu.edu.cn)
+%----------------------------------------------------------------------------------------
+
+%----------------------------------------------------------------------------------------
 %    CONFIGURATIONS
 %----------------------------------------------------------------------------------------

@@ -690,7 +698,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}
 \vspace{0.5em}
 \item 根据译文$\mathbf{t}$选择源文$\mathbf{s}$的长度$m$，用$\textrm{P}(m|\mathbf{t})$表示；
 \vspace{0.5em}
-\item 当确定源语言句子的长度$m$后，循环每个位置$j$逐次生成每个源语言单词$s_j$，也就是$\prod_{j=1}^m$计算的内容；
+\item 当确定源语言句子的长度$m$后，循环每个位置$j$逐次生成每个源语言单词$s_j$，也就是$\prod_{j=1}^m \cdot$计算的内容；
 \vspace{0.5em}
 \item 对于每个位置$j$，根据译文$\mathbf{t}$、源文长度$m$、已经生成的源语言单词$s_1^{j-1}$和对齐$a_1^{j-1}$，生成第$j$个位置的对齐结果$a_j$，用$\textrm{P}(a_j|a_1^{j-1},s_1^{j-1},m,\mathbf{t})$表示；
 \vspace{0.5em}
@@ -790,7 +798,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}
 \label{eq:3-23}
 \end{eqnarray}

-\parinterval 在公式\ref{eq:3-23}中，需要遍历所有的词对齐，即$ \sum_{\mathbf{a}}{\cdot}$。但这种表示不够直观，因此可以把这个过程重新表示为下形式：
+\parinterval 在公式\ref{eq:3-23}中，需要遍历所有的词对齐，即$ \sum_{\mathbf{a}}{\cdot}$。但这种表示不够直观，因此可以把这个过程重新表示为如下形式：
 \begin{eqnarray}
 \textrm{P}(\mathbf{s}|\mathbf{t})={\sum_{a_1=0}^{l}\cdots}{\sum_{a_m=0}^{l}\frac{\varepsilon}{(l+1)^m}}{\prod_{j=1}^{m}f(s_j|t_{a_j})}
 \label{eq:3-24}

--- a/Book/Chapter4/Figures/cky-algorithm.tex
+++ b/Book/Chapter4/Figures/cky-algorithm.tex
@@ -9,7 +9,7 @@
 \begin{scope}[scale=0.85]

 \node[srcnode] (c1) at (0,0) {\normalsize{\textbf{Function} CKY-Algorithm($\textbf{s},G$)}};
-\node[srcnode,anchor=north west] (c21) at ([xshift=1.5em,yshift=0.4em]c1.south west) {\normalsize{\textbf{fore} $j=0$ to $ J - 1$}};
+\node[srcnode,anchor=north west] (c21) at ([xshift=1.5em,yshift=0.4em]c1.south west) {\normalsize{\textbf{for} $j=0$ to $ J - 1$}};
 \node[srcnode,anchor=north west] (c22) at ([xshift=1.5em,yshift=0.4em]c21.south west) {\normalsize{$span[j,j+1 ]$.Add($A \to a \in G$)}};
 \node[srcnode,anchor=north west] (c3) at ([xshift=-1.5em,yshift=0.4em]c22.south west) {\normalsize{\textbf{for} $l$ = 1 to $J$}};
 \node[srcnode,anchor=west] (c31) at ([xshift=6em]c3.east) {\normalsize{// length of span}};

--- a/Book/Chapter4/chapter4.tex
+++ b/Book/Chapter4/chapter4.tex
@@ -2,6 +2,14 @@
 % !TEX encoding = UTF-8 Unicode

 %----------------------------------------------------------------------------------------
+% 机器翻译：统计建模与深度学习方法
+% Machine Translation: Statistical Modeling and Deep Learning Methods
+%
+% Copyright 2020
+% 肖桐(xiaotong@mail.neu.edu.cn) 朱靖波 (zhujingbo@mail.neu.edu.cn)
+%----------------------------------------------------------------------------------------
+
+%----------------------------------------------------------------------------------------
 %    CONFIGURATIONS configurations
 %----------------------------------------------------------------------------------------
 \renewcommand\figurename{图}%将figure改为图

--- a/Book/Chapter5/Figures/fig-activation.tex
+++ b/Book/Chapter5/Figures/fig-activation.tex
-%%%------------------------------------------------------------------------------------------------------------
-\begin{figure}
-\subfigure[softplus]{
-\centering
-\begin{minipage}{.2\textwidth}
-\begin{tikzpicture}
- \draw[->](-1.2,0)--(1.2,0)node[left,below,font=\tiny]{$x$};
-\draw[->](0,-1.2)--(0,1.2)node[right,font=\tiny]{$y$};
-\foreach \x in {-1.0,-0.5,0.0,0.5,1.0}{\draw(\x,0)--(\x,0.05)node[below,outer sep=2pt,font=\tiny]at(\x,0){\x};}
-\foreach \y in {1.0,0.5}{\draw(0,\y)--(0.05,\y)node[left,outer sep=2pt,font=\tiny]at(0,\y){\y};}
-\draw[color=red ,domain=-1.2:1]plot(\x,{ln(1+(exp(\x))});
-\node[black,anchor=south] at (0,1.2) {\small $y = ln(1+e^x)$};
-\end{tikzpicture}
-\end{minipage}%
-}
-\hfill
-\subfigure[sigmoid]{
-\centering
-\begin{minipage}{.2\textwidth}
-\begin{tikzpicture}
-\draw[->](-1.2,0)--(1.2,0)node[left,below,font=\tiny]{$x$};
-\draw[->](0,-1.2)--(0,1.2)node[right,font=\tiny]{$y$};
-\draw[dashed](-1.2,1)--(1.2,1);
-\foreach \x in {-1,-0.5,0,0.5,1}{\draw(\x,0)--(\x,0.05)node[below,outer sep=2pt,font=\tiny]at(\x,0){
-\pgfmathparse{(\x)*5}
-\pgfmathresult};}
-\foreach \y in {0.5,1.0}{\draw(0,\y)--(0.05,\y)node[left,outer sep=2pt,font=\tiny]at(0,\y){\y};}
-\draw[color=red,domain=-1.2:1.2]plot(\x,{1/(1+(exp(-5*\x)))});
-\node[black,anchor=south] at (0,1.2) {\small $y = \frac{1}{1+e^{-x}}$};
-\end{tikzpicture}
-   \end{minipage}%
-}
-\hfill
-\subfigure[tanh]{
- \centering
-\begin{minipage}{.2\textwidth}
-\begin{tikzpicture}
-\draw[->](-1.2,0)--(1.2,0)node[left,below,font=\tiny]{$x$};
-\draw[->](0,-1.2)--(0,1.2)node[right,font=\tiny]{$y$};
-\draw[dashed](-1.2,1)--(1.2,1);
-\draw[dashed](-1.2,-1)--(1.2,-1);
-\foreach \x in {-1.0,-0.5,0.0,0.5,1.0}{\draw(\x,0)--(\x,0.05)node[below,outer sep=2pt,font=\tiny]at(\x,0){\x};}
-\foreach \y in {0.5,1.0}{\draw(0,\y)--(0.05,\y)node[left,outer sep=2pt,font=\tiny]at(0,\y){\y};}
-\draw[color=red ,domain=-1.2:1.2]plot(\x,{tanh(\x)});
-\node[black,anchor=south] at (0,1.2) {\small $y = \frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$};
-\end{tikzpicture}
-\end{minipage}
-}\\    \vspace{-1em}
-\subfigure[relu]{
-\centering
-\begin{minipage}{.2\textwidth}
-\begin{tikzpicture}
-        \draw[->](-1.2,0)--(1.2,0)node[left,below,font=\tiny]{$x$};
-        \draw[->](0,-1.2)--(0,1.2)node[right,font=\tiny]{$y$};
-        \draw[dashed](-1.2,1)--(1.2,1);
-        \draw[dashed](-1.2,-1)--(1.2,-1);
-        \foreach \x in {-1.0,-0.5,0.0,0.5,1.0}{\draw(\x,0)--(\x,0.05)node[below,outer sep=2pt,font=\tiny]at(\x,0){\x};}
-        \foreach \y in {0.5,1.0}{\draw(0,\y)--(0.05,\y)node[left,outer sep=2pt,font=\tiny]at(0,\y){\y};}
-        \draw[color=red ,domain=-1.2:1.2]plot(\x,{max(\x,0)});
-        \node[black,anchor=south] at (0,1.2) {\small $y =\max (0, x)$};
-        \end{tikzpicture}
-    \end{minipage}%
-    }
-    \hfill
-    \subfigure[gaussian]{
-    \centering
-    \begin{minipage}{.2\textwidth}
-        \begin{tikzpicture}
-        \draw[->](-1.2,0)--(1.2,0)node[left,below,font=\tiny]{$x$};
-        \draw[->](0,-1.2)--(0,1.2)node[right,font=\tiny]{$y$};
-        \draw[dashed](-1.2,1)--(1.2,1);
-        \foreach \x in {-1.0,-0.5,0.0,0.5,1.0}{\draw(\x,0)--(\x,0.05)node[below,outer sep=2pt,font=\tiny]at(\x,0){\x};}
-        \foreach \y in {0.5,1.0}{\draw(0,\y)--(0.05,\y)node[left,outer sep=2pt,font=\tiny]at(0,\y){\y};}
-        \draw[color=red ,domain=-1.2:1.2]plot(\x,{exp(-1*((\x)^2))});
-        \node[black,anchor=south] at (0,1.2) {\small $y =e^{-x^2}$};
-        \end{tikzpicture}
-    \end{minipage}%
-    }
-    \hfill
-    \subfigure[identity]{
-    \centering
-    \begin{minipage}{.2\textwidth}
-        \begin{tikzpicture}
-        \draw[->](-1.2,0)--(1.2,0)node[left,below,font=\tiny]{$x$};
-        \draw[->](0,-1.2)--(0,1.2)node[right,font=\tiny]{$y$};
-        \foreach \x in {-1.0,-0.5,0.0,0.5,1.0}{\draw(\x,0)--(\x,0.05)node[below,outer sep=2pt,font=\tiny]at(\x,0){\x};}
-        \foreach \y in {0.5,1.0}{\draw(0,\y)--(0.05,\y)node[left,outer sep=2pt,font=\tiny]at(0,\y){\y};}
-        \draw[color=red ,domain=-1:1]plot(\x,\x);
-        \node[black,anchor=south] at (0,1.2) {\small $y =x$};
-        \end{tikzpicture}
-    \end{minipage}
-    }
-
-    \end{figure}
-%%%------------------------------------------------------------------------------------------------------------
-
--- a/Book/Chapter5/Figures/fig-broadcast.tex
+++ b/Book/Chapter5/Figures/fig-broadcast.tex
@@ -8,7 +8,7 @@
    \node [fill=orange!20,inner sep=0pt,minimum height=0.49cm,minimum width=0.49cm] at (\x,\y) {$\number\value{mycount1}$};
    \addtocounter{mycount1}{1};
  }
-\node [anchor=south] (varlabel) at (0,0.6) {$\textbf{s}$};
+\node [anchor=south] (varlabel) at (0,0.6) {$\mathbf{s}$};
 \node [anchor=north] (labelc) at (0,-0.7) {\footnotesize{(a)}};
 \end{scope}

@@ -20,7 +20,7 @@
    \node [fill=green!20,inner sep=0pt,minimum height=0.48cm,minimum width=0.48cm] at (\x,\y) {$1$};
    \addtocounter{mycount1}{1};
  }
-\node [anchor=south] (varlabel) at (0,0.1) {$\textbf{b}$};
+\node [anchor=south] (varlabel) at (0,0.1) {$\mathbf{b}$};
 \node [anchor=north] (labelc) at (0,-0.7) {\footnotesize{(b)}};
 \end{scope}

@@ -34,7 +34,7 @@
    \node [fill=orange!20,inner sep=0pt,minimum height=0.49cm,minimum width=0.49cm] at (\x,\y) {$\number\value{mycount1}$};
    \addtocounter{mycount1}{1};
  }
-\node [anchor=south] (varlabel) at (0,0.6) {$\textbf{s}$};
+\node [anchor=south] (varlabel) at (0,0.6) {$\mathbf{s}$};
 \end{scope}
 \begin{scope}[yshift=-1in,xshift=1.5in]
 \setcounter{mycount1}{1}
@@ -49,8 +49,8 @@
    \node [fill=purple!20,inner sep=0pt,minimum height=0.49cm,minimum width=0.49cm] at (\x,\y) {$1$};
    \addtocounter{mycount1}{1};
  }
-\node [anchor=center] (plabel) at (-4.5em,0) {\huge{$\textbf{+}$}};
-\node [anchor=south] (varlabel) at (0,0.6) {$\textbf{b}$};
+\node [anchor=center] (plabel) at (-4.5em,0) {\huge{$\mathbf{+}$}};
+\node [anchor=south] (varlabel) at (0,0.6) {$\mathbf{b}$};
 \node [anchor=north] (labelc) at (0,-0.7) {\footnotesize{(c)}};
 \end{scope}
 \begin{scope}[yshift=-1in,xshift=3in]
@@ -61,8 +61,8 @@
    \node [fill=orange!20,inner sep=0pt,minimum height=0.49cm,minimum width=0.49cm] at (\x,\y) {$\number\value{mycount1}$};
    \addtocounter{mycount1}{1};
  }
-\node [anchor=center] (plabel) at (-4.5em,0) {\huge{$\textbf{=}$}};
-\node [anchor=south] (varlabel) at (0,0.6) {$\textbf{s+b}$};
+\node [anchor=center] (plabel) at (-4.5em,0) {\huge{$\mathbf{=}$}};
+\node [anchor=south] (varlabel) at (0,0.6) {$\mathbf{s}+\mathbf{b}$};
 \end{scope}



--- a/Book/Chapter5/Figures/fig-code-niutensor-one.tex
+++ b/Book/Chapter5/Figures/fig-code-niutensor-one.tex
@@ -25,5 +25,45 @@
 \end{tikzpicture}
 \end{center}
 \end{tcolorbox}
+\hspace{0.1in} \scriptsize{(a) 构建单层神经网络}
+\\
+\begin{tcolorbox}
+[bicolor,sidebyside,width=11cm,righthand width=4cm,size=title,frame engine=empty,
+ colback=blue!10!white,colbacklower=black!5!white]
+ {\scriptsize
+\begin{tabbing}
+\texttt{XTensor x, y, h1, h2;} \\
+\texttt{XTensor w1, b1, w2, w3;} \\
+\texttt{InitTensor3D(\&x, 3, 4, 5);} \\
+\texttt{InitTensor2D(\&w1, 5, 3);} \\
+\texttt{InitTensor1D(\&b1, 3);} \\
+\texttt{InitTensor2D(\&w2, 3, 6);} \\
+\texttt{InitTensor2D(\&w3, 6, 4);} \\
+\texttt{...} \\
+\texttt{h1 = Sigmoid(MMul(x, w1) + b1);} \\
+\texttt{h2 = HandTanH(MMul(h1, w2));} \\
+\texttt{y = Relu(MMul(h2, w3));}
+\end{tabbing}
+}
+\tcblower
+\begin{center}
+\begin{tikzpicture}
+\node [draw,circle,inner sep=2pt,fill=red!30!white,blur shadow={shadow xshift=1pt,shadow yshift=-1pt}] (x) at (0,0) {\footnotesize{$\textrm{x}$}};
+\node [anchor=south,draw,rounded corners,inner sep=2pt,minimum width=4em,fill=green!30!white,blur shadow={shadow xshift=1pt,shadow yshift=-1pt}] (layer1) at ([yshift=0.7em]x.north) {\scriptsize{layer1}};
+\node [anchor=south,draw,rounded corners,inner sep=2pt,minimum width=4em,fill=green!30!white,blur shadow={shadow xshift=1pt,shadow yshift=-1pt}] (layer2) at ([yshift=1.0em]layer1.north) {\scriptsize{layer2}};
+\node [anchor=south,draw,rounded corners,inner sep=2pt,minimum width=4em,fill=green!30!white,blur shadow={shadow xshift=1pt,shadow yshift=-1pt}] (layer3) at ([yshift=1.0em]layer2.north) {\scriptsize{layer3}};
+\node [anchor=south,draw,circle,inner sep=2pt,fill=red!30!white,blur shadow={shadow xshift=1pt,shadow yshift=-1pt}] (y) at ([yshift=0.7em]layer3.north) {\scriptsize{$\textrm{y}$}};
+\draw [thick,->] (x.north) -- (layer1.south);
+\draw [thick,->] (layer1.north) -- (layer2.south);
+\draw [thick,->] (layer2.north) -- (layer3.south);
+\draw [thick,->] (layer3.north) -- (y.south);
+\node [anchor=west,align=left] (xshape) at (x.east) {\tiny{shape: 3*4*5}};
+\node [anchor=west,align=left] (yshape) at (y.east) {\tiny{shape: 3*4*4}};
+\node [anchor=south west,align=left,inner sep=2pt] (l1shape) at ([xshift=0.3em]layer1.north) {\tiny{shape: 3*4*3}};
+\node [anchor=south west,align=left,inner sep=2pt] (l2shape) at ([xshift=0.3em]layer2.north) {\tiny{shape: 3*4*6}};
+\end{tikzpicture}
+\end{center}
+\end{tcolorbox}
+\hspace{0.1in} \scriptsize{(b) 构建三层神经网络}
 %%%------------------------------------------------------------------------------------------------------------

--- a/Book/Chapter5/Figures/fig-code-niutensor-three.tex
+++ b/Book/Chapter5/Figures/fig-code-niutensor-three.tex
-%%%------------------------------------------------------------------------------------------------------------
-\begin{tcolorbox}
-[bicolor,sidebyside,width=11cm,righthand width=4cm,size=title,frame engine=empty,
- colback=blue!10!white,colbacklower=black!5!white]
- {\scriptsize
-\begin{tabbing}
-\texttt{XTensor x, y, h1, h2;} \\
-\texttt{XTensor w1, b1, w2, w3;} \\
-\texttt{InitTensor3D(\&x, 3, 4, 5);} \\
-\texttt{InitTensor2D(\&w1, 5, 3);} \\
-\texttt{InitTensor1D(\&b1, 3);} \\
-\texttt{InitTensor2D(\&w2, 3, 6);} \\
-\texttt{InitTensor2D(\&w3, 6, 4);} \\
-\texttt{...} \\
-\texttt{h1 = Sigmoid(MMul(x, w1) + b1);} \\
-\texttt{h2 = HandTanH(MMul(h1, w2));} \\
-\texttt{y = Relu(MMul(h2, w3));}
-\end{tabbing}
-}
-\tcblower
-\begin{center}
-\begin{tikzpicture}
-\node [draw,circle,inner sep=2pt,fill=red!30!white,blur shadow={shadow xshift=1pt,shadow yshift=-1pt}] (x) at (0,0) {\footnotesize{$\textrm{x}$}};
-\node [anchor=south,draw,rounded corners,inner sep=2pt,minimum width=4em,fill=green!30!white,blur shadow={shadow xshift=1pt,shadow yshift=-1pt}] (layer1) at ([yshift=0.7em]x.north) {\scriptsize{layer1}};
-\node [anchor=south,draw,rounded corners,inner sep=2pt,minimum width=4em,fill=green!30!white,blur shadow={shadow xshift=1pt,shadow yshift=-1pt}] (layer2) at ([yshift=1.0em]layer1.north) {\scriptsize{layer2}};
-\node [anchor=south,draw,rounded corners,inner sep=2pt,minimum width=4em,fill=green!30!white,blur shadow={shadow xshift=1pt,shadow yshift=-1pt}] (layer3) at ([yshift=1.0em]layer2.north) {\scriptsize{layer3}};
-\node [anchor=south,draw,circle,inner sep=2pt,fill=red!30!white,blur shadow={shadow xshift=1pt,shadow yshift=-1pt}] (y) at ([yshift=0.7em]layer3.north) {\scriptsize{$\textrm{y}$}};
-\draw [thick,->] (x.north) -- (layer1.south);
-\draw [thick,->] (layer1.north) -- (layer2.south);
-\draw [thick,->] (layer2.north) -- (layer3.south);
-\draw [thick,->] (layer3.north) -- (y.south);
-\node [anchor=west,align=left] (xshape) at (x.east) {\tiny{shape: 3*4*5}};
-\node [anchor=west,align=left] (yshape) at (y.east) {\tiny{shape: 3*4*4}};
-\node [anchor=south west,align=left,inner sep=2pt] (l1shape) at (layer1.north) {\tiny{shape: 3*4*3}};
-\node [anchor=south west,align=left,inner sep=2pt] (l2shape) at (layer2.north) {\tiny{shape: 3*4*6}};
-\end{tikzpicture}
-\end{center}
-\end{tcolorbox}
-%%%------------------------------------------------------------------------------------------------------------
-
--- a/Book/Chapter5/Figures/fig-code-tensor-define-2.tex
+++ b/Book/Chapter5/Figures/fig-code-tensor-define-2.tex
 %%%------------------------------------------------------------------------------------------------------------
-\begin{tcolorbox}[enhanced,width=11cm,frame engine=empty,boxrule=0.1mm,size=title,colback=blue!10!white]
+\begin{tcolorbox}[enhanced,width=12cm,frame engine=empty,boxrule=0.1mm,size=title,colback=blue!10!white]
 \begin{flushleft}
 {\scriptsize
 \begin{tabbing}
-\texttt{XTensor tensor;} \hspace{12em} \= // 声明张量tensor \\
+\texttt{XTensor tensor;} \hspace{14em} \= // 声明张量tensor \\
 \texttt{int sizes[6] = \{2,3,4,2,3,4\};} \> // 张量的形状为2*3*4*2*3*4 \\
 \texttt{InitTensor(\&tensor, 6, sizes, X\_FLOAT);} \> // 定义形状为sizes的6阶张量
 \end{tabbing}
 }
 \end{flushleft}
 \end{tcolorbox}
+\hspace{0.1in} \scriptsize{(a) NiuTensor定义张量程序}
+\\
+\begin{tcolorbox}[enhanced,width=12cm,frame engine=empty,boxrule=0.1mm,size=title,colback=blue!10!white]
+\begin{flushleft}
+{\scriptsize
+\begin{tabbing}
+\texttt{XTensor a, b, c;} \hspace{13.5em} \= // 声明张量tensor \\
+\texttt{InitTensor1D(\&a, 10, X\_INT);} \> // 10维的整数型向量\\
+\texttt{InitTensor1D(\&b, 10);} \> // 10维的向量，缺省类型(浮点)\\
+\texttt{InitTensor4D(\&c, 10, 20, 30, 40);} \> // 10*20*30*40的4阶张量(浮点)
+\end{tabbing}
+}
+\end{flushleft}
+\end{tcolorbox}
+\hspace{0.1in} \scriptsize{(b) 定义张量的简便方式程序}
+\\
+\begin{tcolorbox}[enhanced,width=12cm,frame engine=empty,boxrule=0.1mm,size=title,colback=blue!10!white]
+\begin{flushleft}
+{\scriptsize
+\begin{tabbing}
+\texttt{XTensor tensorGPU;} \hspace{12.5em} \= // 声明张量tensor \\
+\texttt{InitTensor2D(\&tensorGPU, 10, 20,} $\backslash$ \> // 在编号为0的GPU上定义张量 \\
+\hspace{6.7em} \texttt{X\_FLOAT, 0);}
+\end{tabbing}
+}
+\end{flushleft}
+\end{tcolorbox}
+\hspace{0.1in} \scriptsize{(c) 在GPU上定义张量程序}
 %%%------------------------------------------------------------------------------------------------------------

--- a/Book/Chapter5/Figures/fig-code-tensor-define-3.tex
+++ b/Book/Chapter5/Figures/fig-code-tensor-define-3.tex
-%%%------------------------------------------------------------------------------------------------------------
-\begin{tcolorbox}[enhanced,width=11cm,frame engine=empty,boxrule=0.1mm,size=title,colback=blue!10!white]
-\begin{flushleft}
-{\scriptsize
-\begin{tabbing}
-\texttt{XTensor a, b, c;} \hspace{11.5em} \= // 声明张量tensor \\
-\texttt{InitTensor1D(\&a, 10, X\_INT);} \> // 10维的整数型向量\\
-\texttt{InitTensor1D(\&b, 10);} \> // 10维的向量，缺省类型(浮点)\\
-\texttt{InitTensor4D(\&c, 10, 20, 30, 40);} \> // 10*20*30*40的4阶张量(浮点)
-\end{tabbing}
-}
-\end{flushleft}
-\end{tcolorbox}
-%%%------------------------------------------------------------------------------------------------------------
-
--- a/Book/Chapter5/Figures/fig-code-tensor-define-GPU.tex
+++ b/Book/Chapter5/Figures/fig-code-tensor-define-GPU.tex
-%%%------------------------------------------------------------------------------------------------------------
-\begin{tcolorbox}[enhanced,width=11cm,frame engine=empty,boxrule=0.1mm,size=title,colback=blue!10!white]
-\begin{flushleft}
-{\scriptsize
-\begin{tabbing}
-\texttt{XTensor tensorGPU;} \hspace{10.5em} \= // 声明张量tensor \\
-\texttt{InitTensor2D(\&tensorGPU, 10, 20,} $\backslash$ \> // 在编号为0的GPU上定义张量 \\
-\hspace{6.7em} \texttt{X\_FLOAT, 0);}
-\end{tabbing}
-}
-\end{flushleft}
-\end{tcolorbox}
-%%%------------------------------------------------------------------------------------------------------------
-
--- a/Book/Chapter5/Figures/fig-code-tensor-define.tex
+++ b/Book/Chapter5/Figures/fig-code-tensor-define.tex
 %------------------------------------------------------------------------------------------------------------
-\begin{tcolorbox}[enhanced,width=11cm,frame engine=empty,boxrule=0.1mm,size=title,colback=blue!10!white]
+\begin{tcolorbox}[enhanced,width=12cm,frame engine=empty,boxrule=0.1mm,size=title,colback=blue!10!white]
 \begin{flushleft}
 {\scriptsize
 \begin{tabbing}
-\texttt{\#include "source/tensor/XTensor.h"} \hspace{4em} \= // 引用XTensor定义的头文件 \\
+\texttt{\#include "source/tensor/XTensor.h"} \hspace{6em} \= // 引用XTensor定义的头文件 \\

 \texttt{using namespace nts;} \> // 引用nts命名空间 \\
 \ \\

--- a/Book/Chapter5/Figures/fig-code-tensor-mul.tex
+++ b/Book/Chapter5/Figures/fig-code-tensor-mul.tex
-%%%------------------------------------------------------------------------------------------------------------
-\begin{tcolorbox}[enhanced,width=11cm,frame engine=empty,boxrule=0.1mm,size=title,colback=blue!10!white]
-\begin{flushleft}
-{\scriptsize
-\begin{tabbing}
-\texttt{XTensor a, b, c;} \hspace{10.0em} \= // 声明张量tensor \\
-\texttt{InitTensor4D(\&a, 2, 2, 3, 4);} \> // a为2*2*3*4的4阶张量 \\
-\texttt{InitTensor2D(\&b, 4, 5);} \> // b为4*5的矩阵 \\
-\texttt{a.SetDataRand();} \> // 随机初始化a \\
-\texttt{b.SetDataRand();} \> // 随机初始化b \\
-\texttt{c = MMul(a, b);} \> // 矩阵乘的结果为2*2*3*5的4阶张量
-\end{tabbing}
-}
-\end{flushleft}
-\end{tcolorbox}
-%%%------------------------------------------------------------------------------------------------------------
-
--- a/Book/Chapter5/Figures/fig-code-tensor-operation.tex
+++ b/Book/Chapter5/Figures/fig-code-tensor-operation.tex
 %%%------------------------------------------------------------------------------------------------------------
-\begin{tcolorbox}[enhanced,width=11cm,frame engine=empty,boxrule=0.1mm,size=title,colback=blue!10!white]
+\begin{tcolorbox}[enhanced,width=12cm,frame engine=empty,boxrule=0.1mm,size=title,colback=blue!10!white]
 \begin{flushleft}
 {\scriptsize
 \begin{tabbing}
-\texttt{XTensor a, b, c, d, e;} \hspace{7em} \= // 声明张量tensor \\
+\texttt{XTensor a, b, c, d, e;} \hspace{9em} \= // 声明张量tensor \\
 \texttt{InitTensor3D(\&a, 2, 3, 4);} \> // a为2*3*4的3阶张量 \\
 \texttt{InitTensor3D(\&b, 2, 3, 4);} \> // b为2*3*4的3阶张量 \\
 \texttt{InitTensor3D(\&c, 2, 3, 4);} \> // c为2*3*4的3阶张量 \\
@@ -17,5 +17,22 @@
 }
 \end{flushleft}
 \end{tcolorbox}
+\hspace{0.1in} \scriptsize{(a) 张量进行1阶运算}
+\\
+\begin{tcolorbox}[enhanced,width=12cm,frame engine=empty,boxrule=0.1mm,size=title,colback=blue!10!white]
+\begin{flushleft}
+{\scriptsize
+\begin{tabbing}
+\texttt{XTensor a, b, c;} \hspace{12.0em} \= // 声明张量tensor \\
+\texttt{InitTensor4D(\&a, 2, 2, 3, 4);} \> // a为2*2*3*4的4阶张量 \\
+\texttt{InitTensor2D(\&b, 4, 5);} \> // b为4*5的矩阵 \\
+\texttt{a.SetDataRand();} \> // 随机初始化a \\
+\texttt{b.SetDataRand();} \> // 随机初始化b \\
+\texttt{c = MMul(a, b);} \> // 矩阵乘的结果为2*2*3*5的4阶张量
+\end{tabbing}
+}
+\end{flushleft}
+\end{tcolorbox}
+\hspace{0.1in} \scriptsize{(b) 张量之间的矩阵乘法}
 %%%------------------------------------------------------------------------------------------------------------

--- a/Book/Chapter5/Figures/fig-four-layers-of-neural-network.tex
+++ b/Book/Chapter5/Figures/fig-four-layers-of-neural-network.tex
@@ -25,10 +25,10 @@
 \node [rectangle,inner sep=0.2em,fill=red!20] [fit = (neuron01) (neuron05)] (layer01) {};
 \end{pgfonlayer}

-\node [anchor=west] (layer00label) at ([xshift=1.25em]x5.east) {\footnotesize{\red{{输入层}}}};
-
+\node [anchor=west] (layer00label) at ([xshift=1.3em]x5.east) {\footnotesize{第0层}};
+\node [anchor=west] (layer00label2) at (layer00label.east) {\footnotesize{\red{(输入层)}}};
 {
-\node [anchor=west] (layer01label) at ([xshift=1em]layer01.east) {\footnotesize{第二层}};
+\node [anchor=west] (layer01label) at ([xshift=1em]layer01.east) {\footnotesize{第1层}};
 }
 {
 \node [anchor=west] (layer01label2) at (layer01label.east) {\footnotesize{\red{({隐层})}}};
@@ -55,7 +55,7 @@
 }
 \end{pgfonlayer}

-\node [anchor=west] (layer02label) at ([xshift=4.4em]layer02.east) {\footnotesize{第三层}};
+\node [anchor=west] (layer02label) at ([xshift=4.4em]layer02.east) {\footnotesize{第2层}};
 {
 \node [anchor=west] (layer02label2) at (layer02label.east) {\footnotesize{\red{({隐层})}}};
 }
@@ -85,7 +85,7 @@
 }
 \end{pgfonlayer}

-\node [anchor=west] (layer03label) at ([xshift=1em]layer03.east) {\footnotesize{第四层}};
+\node [anchor=west] (layer03label) at ([xshift=1em]layer03.east) {\footnotesize{第3层}};
 {
 \node [anchor=west] (layer03label2) at (layer03label.east) {\footnotesize{\red{({输出层})}}};
 }

--- a/Book/Chapter5/Figures/fig-parallel.tex
+++ b/Book/Chapter5/Figures/fig-parallel.tex
@@ -10,9 +10,9 @@
 \tikzstyle{parametershard} = [draw,thick,minimum width=4em,align=left,rounded corners=2pt]

 {
-\node[parametershard,anchor=west,fill=yellow!10] (param1) at (0,0) {$W_o$, $b_o$};
+\node[parametershard,anchor=west,fill=yellow!10] (param1) at (0,0) {$W_o$};
 \node (param2) at ([xshift=1em]param1.east) {};
-\node[parametershard,anchor=west,fill=red!10] (param3) at ([xshift=1em]param2.east) {$W_h$, $b_h$};
+\node[parametershard,anchor=west,fill=red!10] (param3) at ([xshift=1em]param2.east) {$W_h$};
 \node[anchor=south,inner sep=1pt] (serverlabel) at ([yshift=0.2em]param2.north) {\footnotesize{\textbf{parameter server}: $\mathbf w_{new} = \mathbf w - \alpha\cdot \frac{\partial L}{\partial \mathbf w}$}};
 }

@@ -88,9 +88,9 @@
 \tikzstyle{parametershard} = [draw,thick,minimum width=4em,align=left,rounded corners=2pt]

 {
-\node[parametershard,anchor=west,fill=yellow!10] (param1) at (0,0) {$W_o$, $b_o$};
+\node[parametershard,anchor=west,fill=yellow!10] (param1) at (0,0) {$W_o$};
 \node (param2) at ([xshift=1em]param1.east) {};
-\node[parametershard,anchor=west,fill=red!10] (param3) at ([xshift=1em]param2.east) {$W_h$, $b_h$};
+\node[parametershard,anchor=west,fill=red!10] (param3) at ([xshift=1em]param2.east) {$W_h$};
 \node[anchor=south,inner sep=1pt] (serverlabel) at ([yshift=0.2em]param2.north) {\footnotesize{\textbf{parameter server}: $\mathbf w_{new} = \mathbf w - \alpha\cdot \frac{\partial L}{\partial \mathbf w}$}};
 }


--- a/Book/Chapter5/Figures/fig-piecewise.tex
+++ b/Book/Chapter5/Figures/fig-piecewise.tex
@@ -2,7 +2,7 @@
 \begin{tikzpicture}

 %% a two-layer neural network
-\begin{scope}
+\begin{scope}[xshift=2in]
 \tikzstyle{neuronnode} = [minimum size=1.7em,circle,draw,ublue,very thick,inner sep=1pt, fill=white,align=center,drop shadow={shadow xshift=0.1em,shadow yshift=-0.1em}]
 %% output illustration
 \begin{scope}[xshift=2.8in,yshift=0.1in]
@@ -10,7 +10,7 @@
 \draw [->,thick] (-2.2,0) -- (2.2,0);
 \draw [->,thick] (0,0) -- (0,2);
 \draw [-] (-0.05,1) -- (0.05,1);
-\node [anchor=north,inner sep=1pt] (labela) at (0,-0.2) {\footnotesize{(a)}};
+\node [anchor=north,inner sep=1pt] (labelb) at (0,-0.2) {\footnotesize{(b)}};
 }
 {
 \draw [->,thick] (-2.2,0) -- (2.2,0);
@@ -25,7 +25,7 @@
 \end{scope}

 %% a two-layer neural network
-\begin{scope}[xshift=2in]
+\begin{scope}[xshift=0in]
 \tikzstyle{neuronnode} = [minimum size=1.7em,circle,draw,ublue,very thick,inner sep=1pt, fill=white,align=center,drop shadow={shadow xshift=0.1em,shadow yshift=-0.1em}]
 %% output illustration
 \begin{scope}[xshift=2.8in,yshift=0.1in]
@@ -35,7 +35,7 @@
 \draw [-] (-0.05,1) -- (0.05,1);
 \node [anchor=east,inner sep=1pt] (label1) at (0,1) {\tiny{1}};
 \node [anchor=south east,inner sep=1pt] (label2) at (0,0) {\tiny{0}};
-\node [anchor=north,inner sep=1pt] (labelb) at (0,-0.2) {\footnotesize{(b)}};
+\node [anchor=north,inner sep=1pt] (labela) at (0,-0.2) {\footnotesize{(a)}};
 }
 {
 \draw [->,thick] (-2.2,0) -- (2.2,0);

--- a/Book/Chapter5/Figures/fig-rnn-model.tex
+++ b/Book/Chapter5/Figures/fig-rnn-model.tex
-%%%------------------------------------------------------------------------------------------------------------
 \begin{tikzpicture}
 \begin{scope}
 \tikzstyle{rnnnode} = [draw,inner sep=5pt,minimum width=4em,minimum height=1.5em,fill=green!30!white,blur shadow={shadow xshift=1pt,shadow yshift=-1pt}]
@@ -63,7 +62,7 @@
 \draw [->,thick] ([xshift=0.1em]node14.east)--([xshift=1em]node14.east);

 {
-\node [anchor=south] (toplabel1) at ([yshift=2em,xshift=-2em]node32new.north) {\footnotesize{``苹果''的表示：}};
+\node [anchor=south] (toplabel1) at ([yshift=2em,xshift=-1.3em]node32new.north) {\footnotesize{``苹果''的表示：}};
 \node [anchor=west,fill=blue!20!white,minimum width=3em] (toplabel2) at (toplabel1.east) {\footnotesize{上下文}};
 }
 {
@@ -83,5 +82,3 @@

 \end{scope}
 \end{tikzpicture}
\ No newline at end of file
-%%%------------------------------------------------------------------------------------------------------------
-
--- a/Book/Chapter5/Figures/fig-sawtooth.tex
+++ b/Book/Chapter5/Figures/fig-sawtooth.tex
@@ -45,7 +45,7 @@
 \end{scope}

 %%%%%%%%%%%%%%%%%%%%%%%%%%%
-\begin{scope}[yshift=-2in]
+\begin{scope}[yshift=-1.8in]


 \node [anchor=center,color=red] (node1) at (0,0) {};

--- a/Book/Chapter5/Figures/fig-transformer-LM.tex
+++ b/Book/Chapter5/Figures/fig-transformer-LM.tex
  \begin{tikzpicture}
 \begin{scope}
 \node [anchor=west] (w0) at (0,0) {\footnotesize{$w_{0}$}};
-\node [anchor=west] (w1) at ([xshift=6.5em]w0.east) {\footnotesize{$w_{1}$}};
-\node [anchor=west] (w2) at ([xshift=6.5em]w1.east) {\footnotesize{$w_{2}$}};
-\node [anchor=west] (w3) at ([xshift=6.5em]w2.east) {\footnotesize{$w_{3}$}};
+\node [anchor=west] (w1) at ([xshift=7em]w0.east) {\footnotesize{$w_{1}$}};
+\node [anchor=west] (w2) at ([xshift=7em]w1.east) {\footnotesize{$w_{2}$}};
+\node [anchor=west] (w3) at ([xshift=7em]w2.east) {\footnotesize{$w_{3}$}};
 \node [anchor=north] (index0) at ([yshift=0.5em]w0.south) {\footnotesize(index)};
 \node [anchor=north] (index1) at ([yshift=0.5em]w1.south) {\footnotesize(index)};
 \node [anchor=north] (index2) at ([yshift=0.5em]w2.south) {\footnotesize(index)};
 \node [anchor=north] (index3) at ([yshift=0.5em]w3.south) {\footnotesize(index)};

 {
-\node [anchor=south,line width=0.8pt,draw,inner sep=3pt,fill=blue!20!white] (e0) at ([yshift=1em]w0.north) {\footnotesize{$\textbf{e}_0=w_{0} \textbf{C} + \textrm{PE}(0)$}};
-\node [anchor=south,line width=0.8pt,draw,inner sep=3pt,fill=blue!20!white] (e1) at ([yshift=1em]w1.north) {\footnotesize{$\textbf{e}_1=w_{1} \textbf{C} + \textrm{PE}(1)$}};
-\node [anchor=south,line width=0.8pt,draw,inner sep=3pt,fill=blue!20!white] (e2) at ([yshift=1em]w2.north) {\footnotesize{$\textbf{e}_2=w_{2} \textbf{C} + \textrm{PE}(2)$}};
-\node [anchor=south,line width=0.8pt,draw,inner sep=3pt,fill=blue!20!white] (e3) at ([yshift=1em]w3.north) {\footnotesize{$\textbf{e}_3=w_{3} \textbf{C} + \textrm{PE}(3)$}};
+\node [anchor=south,line width=0.8pt,draw,inner sep=3pt,fill=blue!30!white,minimum width=7.5em] (e0) at ([yshift=1em]w0.north) {\footnotesize{$\textbf{e}_0=w_{0} \textbf{C} + \textrm{PE}(0)$}};
+\node [anchor=south,line width=0.8pt,draw,inner sep=3pt,fill=blue!30!white,minimum width=7.5em] (e1) at ([yshift=1em]w1.north) {\footnotesize{$\textbf{e}_1=w_{1} \textbf{C} + \textrm{PE}(1)$}};
+\node [anchor=south,line width=0.8pt,draw,inner sep=3pt,fill=blue!30!white,minimum width=7.5em] (e2) at ([yshift=1em]w2.north) {\footnotesize{$\textbf{e}_2=w_{2} \textbf{C} + \textrm{PE}(2)$}};
+\node [anchor=south,line width=0.8pt,draw,inner sep=3pt,fill=blue!30!white,minimum width=7.5em] (e3) at ([yshift=1em]w3.north) {\footnotesize{$\textbf{e}_3=w_{3} \textbf{C} + \textrm{PE}(3)$}};
 }

 {
-\node [anchor=south,line width=0.8pt,draw,inner sep=3pt,fill=ugreen!20!white] (h0) at ([xshift=-0.5em, yshift=2.0em]e0.north) {\footnotesize{$\textbf{h}_{0}=\textrm{SelfAtt}(\textbf{e}_0,\textbf{e}_3)$}};
-\node [anchor=south,line width=0.8pt,draw,inner sep=3pt,fill=ugreen!20!white] (h1) at ([xshift=0.5em, yshift=2.0em]e1.north) {\footnotesize{$\textbf{h}_{1}=\textrm{SelfAtt}(\textbf{e}_1,\textbf{e}_3)$}};
-\node [anchor=south,line width=0.8pt,draw,inner sep=3pt,fill=ugreen!20!white] (h2) at ([xshift=1.5em, yshift=2.0em]e2.north) {\footnotesize{$\textbf{h}_{2}=\textrm{SelfAtt}(\textbf{e}_2,\textbf{e}_3)$}};
+\node [anchor=south,line width=0.8pt,draw,inner sep=3pt,fill=green!30!white] (h0) at ([ yshift=2.0em]e0.north) {\footnotesize{$\textbf{h}_{0}=\textrm{SelfAtt}(\textbf{e}_0,\textbf{e}_3)$}};
+\node [anchor=south,line width=0.8pt,draw,inner sep=3pt,fill=green!30!white] (h1) at ([ yshift=2.0em]e1.north) {\footnotesize{$\textbf{h}_{1}=\textrm{SelfAtt}(\textbf{e}_1,\textbf{e}_3)$}};
+\node [anchor=south,line width=0.8pt,draw,inner sep=3pt,fill=green!30!white] (h2) at ([ yshift=2.0em]e2.north) {\footnotesize{$\textbf{h}_{2}=\textrm{SelfAtt}(\textbf{e}_2,\textbf{e}_3)$}};
 }


 {
-\node [anchor=south,line width=0.8pt,draw,minimum width=9em,inner sep=3pt,fill=orange!20!white] (f1) at ([xshift=0.5em, yshift=2.0em]h2.north) {\footnotesize{$\textbf{f}_3=\textrm{FNN}([\textbf{h}_0,\textbf{h}_1,\textbf{h}_2,\textbf{e}_3])$}};
-\node [anchor=south,line width=0.8pt,draw,minimum width=9em,inner sep=3pt,fill=orange!20!white] (o1) at ([yshift=1.2em]f1.north) {\footnotesize{$\textbf{y}=\textrm{Softmax}(f_3 \textbf{U})$}};
+\node [anchor=south,line width=0.8pt,draw,minimum width=9em,inner sep=3pt,fill=orange!30!white] (f1) at ([yshift=2.0em]h2.north) {\footnotesize{$\textbf{f}_3=\textrm{FNN}([\textbf{h}_0,\textbf{h}_1,\textbf{h}_2,\textbf{e}_3])$}};
+\node [anchor=south,line width=0.8pt,draw,minimum width=9.5em,inner sep=3pt,fill=orange!30!white] (o1) at ([yshift=1.2em]f1.north) {\footnotesize{$\textbf{y}=\textrm{Softmax}(f_3 \textbf{U})$}};
 }
 \node [anchor=south] (ylabel) at ([yshift=1.2em]o1.north) {\footnotesize{$\textrm{P}(w_4|w_{0}w_{1}w_{2}w_{3})$}};

@@ -34,11 +34,11 @@
 \draw [->,line width=0.6pt] ([yshift=0.1em]w2.north) -- ([yshift=-0.1em]e2.south);
 \draw [->,line width=0.6pt] ([yshift=0.1em]w3.north) -- ([yshift=-0.1em]e3.south);
 \draw [->,line width=0.6pt] ([yshift=0.1em]e0.north) -- ([xshift=0em,yshift=-0.1em]h0.south);
-\draw [->,line width=0.6pt] ([yshift=0.1em]e1.north) -- ([xshift=-0.5em,yshift=-0.1em]h1.south);
-\draw [->,line width=0.6pt] ([yshift=0.1em]e2.north) -- ([xshift=-1em,yshift=-0.1em]h2.south);
-\draw [->,line width=0.6pt] ([yshift=0.1em]e3.north) -- ([xshift=1em,yshift=-0.1em]h0.south);
-\draw [->,line width=0.6pt] ([yshift=0.1em]e3.north) -- ([xshift=1em,yshift=-0.1em]h1.south);
-\draw [->,line width=0.6pt] ([yshift=0.1em]e3.north) -- ([xshift=1em,yshift=-0.1em]h2.south);
+\draw [->,line width=0.6pt] ([yshift=0.1em]e1.north) -- ([xshift=0em,yshift=-0.1em]h1.south);
+\draw [->,line width=0.6pt] ([yshift=0.1em]e2.north) -- ([xshift=0em,yshift=-0.1em]h2.south);
+\draw [->,line width=0.6pt] ([yshift=0.1em]e3.north) -- ([xshift=0.4em,yshift=-0.1em]h0.south);
+\draw [->,line width=0.6pt] ([yshift=0.1em]e3.north) -- ([xshift=0.4em,yshift=-0.1em]h1.south);
+\draw [->,line width=0.6pt] ([yshift=0.1em]e3.north) -- ([xshift=0.4em,yshift=-0.1em]h2.south);

 \draw [->,line width=0.6pt] ([yshift=0.1em]h0.north) -- ([xshift=-2em,yshift=-0.1em]f1.south);
 \draw [->,line width=0.6pt] ([yshift=0.1em]e3.north) -- ([xshift=2em,yshift=-0.1em]f1.south);

--- a/Book/Chapter5/Figures/fig-weather-2layer.tex
+++ b/Book/Chapter5/Figures/fig-weather-2layer.tex
-%%%------------------------------------------------------------------------------------------------------------
-\begin{tikzpicture}
-%左
-\node [anchor=west,draw=ublue,minimum width=1.5em,minimum height=1.5em] (part1-1) at (0,0) {\small{$x_1$}};
-\node [anchor=north,draw=ublue,minimum width=1.5em,minimum height=1.5em] (part1-2) at ([yshift=-2.5em]part1-1.south) {\small {$x_2$}};
-\node [anchor=north,draw=ublue,minimum width=1.5em,minimum height=1.5em] (part1-3) at ([yshift=-2.5em]part1-2.south) {\small {$x_3$}};
-\node [anchor=north,minimum width=3.0em] (part1-4) at ([yshift=-1.0em]part1-3.south) {\small {输入层}};
-\node[anchor=south,minimum height=13em,minimum width=4.0em,draw=ublue,dotted,thick] (part1out) at ([xshift=0.0em,yshift=-8.5em]part1-2.north) {};
-
-%中
-\node [circle,anchor=west,draw=ublue,minimum width=2.0em] (part2-1) at ([xshift=4.6em,yshift=2.0em]part1-2.east) {\small {$a_1$}};
-\node [circle,anchor=west,draw=ublue,minimum width=2.0em] (part2-2) at ([xshift=4.6em,yshift=-2.0em]part1-2.east) {\small {$a_2$}};
-\node [anchor=north,minimum width=3.0em] (part2-3) at ([xshift=0.0em,yshift=-2.79em]part2-2.south) {\small {隐藏层}};
-\node[anchor=south,minimum height=13em,minimum width=4.0em,draw=ublue,dotted,thick] (part2out) at ([xshift=6.4em,yshift=-8.5em]part1-2.north) {};
-
-%右
-\node [circle,anchor=west,draw=ublue,minimum width=2.0em] (part3-1) at ([xshift=10.5em,yshift=0.0em]part1-2.east) {\small {$y$}};
-\node [anchor=west,draw=ublue,minimum width=1.5em,minimum height=1.5em] (part3-2) at ([xshift=1.2em]part3-1.east) {\small {$y$}};
-\node [anchor=north,minimum width=3.0em] (part3-3) at ([xshift=1.4em,yshift=-4.79em]part3-1.south) {\small {输出层}};
-\node[anchor=south,minimum height=13em,minimum width=6.0em,draw=ublue,dotted,thick] (part3out) at ([xshift=13.8em,yshift=-8.5em]part1-2.north) {};
-
-%连线
-
-\draw [->,thick,ublue](part1-1.east)--(part2-1.west);
-\draw [->,thick,ublue](part1-1.east)--(part2-2.west);
-\draw [->,thick,ublue](part1-2.east)--(part2-1.west);
-\draw [->,thick,ublue](part1-2.east)--(part2-2.west);
-\draw [->,thick,ublue](part1-3.east)--(part2-1.west);
-\draw [->,thick,ublue](part1-3.east)--(part2-2.west);
-\draw [->,thick,ublue](part2-1.east)--(part3-1.west);
-\draw [->,thick,ublue](part2-2.east)--(part3-1.west);
-\draw [->,thick,ublue](part3-1.east)--(part3-2.west);
-
-
-\end{tikzpicture}
-%%------------------------------------------------------------------------------------------------------------
-
--- a/Book/Chapter5/Figures/fig-weather-forward.tex
+++ b/Book/Chapter5/Figures/fig-weather-forward.tex
@@ -18,8 +18,8 @@
 \node [anchor=north,minimum width=4.0em,minimum height=1.5em] (part5) at ([yshift=-1.4em]part4.south) {\footnotesize {$\mathbf a$}};
 \draw [-,thick](part4.south)--([yshift=-0.1em]part5.north);
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%
-\node [anchor=west,minimum width=2.0em,minimum height=1.5em,draw,fill=red!20] (part5-3) at ([xshift=0.0em,yshift=0.1em]part5.east) {\footnotesize {$\mathbf w^2$}};
-\node [anchor=west,minimum width=2.0em,minimum height=1.5em,draw,fill=orange!40] (part5-4) at ([xshift=2.0em,yshift=0.0em]part5-3.east) {\footnotesize {$\mathbf b^2$}};
+\node [anchor=west,minimum width=2.0em,minimum height=1.5em,draw,fill=red!20] (part5-3) at ([xshift=0.0em,yshift=0.1em]part5.east) {\footnotesize {$\mathbf w^{[2]}$}};
+\node [anchor=west,minimum width=2.0em,minimum height=1.5em,draw,fill=orange!40] (part5-4) at ([xshift=2.0em,yshift=0.0em]part5-3.east) {\footnotesize {$ b^{[2]}$}};
 \draw[-,thick](part4.south)--(part5-3.north);
 \draw[-,thick](part3.south)--(part5-4.north);
 \node [anchor=south,minimum width=1.5em,minimum height=1.5em] (part5-3-1) at ([xshift=1.1em,yshift=-0.45em]part5-3.north) {\scriptsize {$1\times 2$}};
@@ -41,8 +41,8 @@
 \node [anchor=north,minimum width=4.0em,minimum height=1.5em] (part9) at ([yshift=-1.4em]part8.south) {\footnotesize {$\mathbf x$}};
 \draw [-,thick](part8.south)--([yshift=-0.1em]part9.north);
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%
-\node [anchor=west,minimum width=2.0em,minimum height=1.5em,draw,fill=red!20] (part9-3) at ([xshift=0.0em,yshift=0.1em]part9.east) {\footnotesize {$\mathbf w^1$}};
-\node [anchor=west,minimum width=2.0em,minimum height=1.5em,draw,fill=orange!40] (part9-4) at ([xshift=2.0em,yshift=0.0em]part9-3.east) {\footnotesize {$\mathbf b^1$}};
+\node [anchor=west,minimum width=2.0em,minimum height=1.5em,draw,fill=red!20] (part9-3) at ([xshift=0.0em,yshift=0.1em]part9.east) {\footnotesize {$\mathbf w^{[1]}$}};
+\node [anchor=west,minimum width=2.0em,minimum height=1.5em,draw,fill=orange!40] (part9-4) at ([xshift=2.0em,yshift=0.0em]part9-3.east) {\footnotesize {$\mathbf b^{[1]}$}};
 \draw[-,thick](part8.south)--(part9-3.north);
 \draw[-,thick](part7.south)--(part9-4.north);
 \node [anchor=south,minimum width=1.5em,minimum height=1.5em] (part9-3-1) at ([xshift=1.1em,yshift=-0.45em]part9-3.north) {\scriptsize {$3\times 2$}};

--- a/Book/Chapter5/Figures/fig-weather-model.tex
+++ b/Book/Chapter5/Figures/fig-weather-model.tex
-%%%------------------------------------------------------------------------------------------------------------
-\begin{tikzpicture}
-%左
-\node [anchor=west,draw=ublue,minimum width=3.0em] (part1-1) at (0,0) {\small{天空状况}};
-\node [anchor=north,draw=ublue,minimum width=3.0em] (part1-2) at ([yshift=-2.5em]part1-1.south) {\small {低空气温}};
-\node [anchor=north,draw=ublue,minimum width=3.0em] (part1-3) at ([yshift=-2.5em]part1-2.south) {\small {水平气压}};
-\node [anchor=north,minimum width=3.0em] (part1-4) at ([yshift=-1.0em]part1-3.south) {\small {输入层}};
-\node[anchor=south,minimum height=13em,minimum width=6.0em,draw=ublue,dotted,thick] (part1out) at ([xshift=0.0em,yshift=-8.5em]part1-2.north) {};
-
-%中
-\node [circle,anchor=west,draw=ublue,minimum width=2.2em] (part2-1) at ([xshift=4.0em,yshift=2.0em]part1-2.east) {\footnotesize {温度}};
-\node [circle,anchor=west,draw=ublue,minimum width=2.2em] (part2-2) at ([xshift=4.0em,yshift=-2.0em]part1-2.east) {\footnotesize {风速}};
-\node [anchor=north,minimum width=3.0em] (part2-3) at ([xshift=0.0em,yshift=-2.42em]part2-2.south) {\small {隐藏层}};
-\node[anchor=south,minimum height=13em,minimum width=4.0em,draw=ublue,dotted,thick] (part2out) at ([xshift=7.4em,yshift=-8.5em]part1-2.north) {};
-
-%右
-\node [anchor=west,draw=ublue,minimum width=3.0em] (part3-1) at ([xshift=10.0em,yshift=0.0em]part1-2.east) {\small {穿衣指数}};
-\node [anchor=north,minimum width=3.0em] (part3-2) at ([yshift=-5.05em]part3-1.south) {\small {输出层}};
-\node[anchor=south,minimum height=13em,minimum width=6.0em,draw=ublue,dotted,thick] (part3out) at ([xshift=14.4em,yshift=-8.5em]part1-2.north) {};
-
-%连线
-
-\draw [->,thick,ublue](part1-1.east)--(part2-1.west);
-\draw [->,thick,ublue](part1-1.east)--(part2-2.west);
-\draw [->,thick,ublue](part1-2.east)--(part2-1.west);
-\draw [->,thick,ublue](part1-2.east)--(part2-2.west);
-\draw [->,thick,ublue](part1-3.east)--(part2-1.west);
-\draw [->,thick,ublue](part1-3.east)--(part2-2.west);
-\draw [->,thick,ublue](part2-1.east)--(part3-1.west);
-\draw [->,thick,ublue](part2-2.east)--(part3-1.west);
-
-
-
-\end{tikzpicture}
-%%%------------------------------------------------------------------------------------------------------------
-
--- a/Book/Chapter5/Figures/fig-weather.tex
+++ b/Book/Chapter5/Figures/fig-weather.tex
@@ -7,7 +7,7 @@
 \node [anchor=north,draw=ublue,minimum width=3.55em,fill=yellow!20] (part1-2) at ([yshift=-2.0em]part1-1.south) {\scriptsize {低空气温}};
 \node [anchor=north,draw=ublue,minimum width=3.55em,fill=yellow!20] (part1-3) at ([yshift=-2.0em]part1-2.south) {\scriptsize {水平气压}};
 \node [rectangle,rounded corners,draw=black!50,densely dashed,inner sep=0.4em] [fit = (part1-1) (part1-2) (part1-3) (inputlabel)] (inputshadow) {};
-\node [anchor=north,draw=ublue,minimum width=3.55em,fill=yellow!20] (part1-4) at ([yshift=-2.0em]part1-3.south) {\scriptsize {偏移1}};
+\node [anchor=north,draw=ublue,minimum width=3.55em,fill=yellow!20] (part1-4) at ([yshift=-2.0em]part1-3.south) {\scriptsize {偏置1}};
 \node [anchor=north,minimum width=2.5em] (part1-5) at ([yshift=-0.5em]part1-4.south) {\scriptsize {输入层}};


@@ -16,9 +16,9 @@
 \node [anchor=north] (hidlabel) at ([yshift=3.1em]part2-1.north) {\scriptsize{特征}};
 \node [circle,anchor=west,draw=ublue,minimum width=2.5em,fill=blue!20] (part2-2) at ([xshift=2.0em,yshift=-1.7em]part1-2.east) {\scriptsize {风速}};
 \node [rectangle,rounded corners,draw=black!50,densely dashed,inner sep=0.4em] [fit = (part2-1) (part2-2) (hidlabel) ] (inputshadow) {};
-\node [circle,anchor=west,draw=ublue,minimum width=2.5em,fill=blue!20,inner sep=2pt] (part2-3) at ([xshift=2.0em,yshift=-1.7em]part1-3.east) {\scriptsize {偏移2}};
+\node [circle,anchor=west,draw=ublue,minimum width=2.5em,fill=blue!20,inner sep=2pt] (part2-3) at ([xshift=2.0em,yshift=-1.7em]part1-3.east) {\scriptsize {偏置2}};
 \node [anchor=north,minimum width=3.0em] (part2-4) at ([xshift=0.0em,yshift=-1.6em]part2-3.south) {\scriptsize{隐藏层}};
-\node [anchor=north] (labela) at ([xshift=0.0em,yshift=-4em]part2-3.south) {\footnotesize {(a)}};
+\node [anchor=north] (labela) at ([xshift=0.0em,yshift=-3em]part2-3.south) {\footnotesize {(a)}};

 %右
 \node [anchor=west,draw=ublue,minimum width=3.0em,fill=purple!20] (part3-1) at ([xshift=2em,yshift=0.0em]part2-2.east) {\scriptsize {穿衣指数}};
@@ -54,7 +54,7 @@
 y
 \node [rectangle,rounded corners,draw=black!50,densely dashed,inner sep=0.4em] [fit = (part1-1) (part1-2) (part1-3) (inputlabel)] (inputshadow) {};

-\node [anchor=north,draw=ublue,minimum width=3.55em,fill=yellow!20] (part1-4) at ([yshift=-2.0em]part1-3.south) {\footnotesize {$\mathbf b^1 $}};
+\node [anchor=north,draw=ublue,minimum width=3.55em,fill=yellow!20] (part1-4) at ([yshift=-2.0em]part1-3.south) {\footnotesize {$\mathbf b^{[1]} $}};
 \node [anchor=north,minimum width=2.5em] (part1-5) at ([yshift=-0.5em]part1-4.south) {\scriptsize {输入层}};


@@ -65,9 +65,9 @@ y

 \node [circle,anchor=west,draw=ublue,minimum width=2.5em,fill=blue!20] (part2-2) at ([xshift=2.0em,yshift=-1.7em]part1-2.east) {\large{$a_2$}};
 \node [rectangle,rounded corners,draw=black!50,densely dashed,inner sep=0.4em] [fit = (part2-1) (part2-2) (hidlabel) ] (inputshadow) {};
-\node [circle,anchor=west,draw=ublue,minimum width=2.5em,fill=blue!20,inner sep=2pt] (part2-3) at ([xshift=2.0em,yshift=-1.7em]part1-3.east) {\large {$b^2 $}};
+\node [circle,anchor=west,draw=ublue,minimum width=2.5em,fill=blue!20,inner sep=2pt] (part2-3) at ([xshift=2.0em,yshift=-1.7em]part1-3.east) {\large {$b^{[2]} $}};
 \node [anchor=north,minimum width=3.0em] (part2-4) at ([xshift=0.0em,yshift=-1.6em]part2-3.south) {\scriptsize{隐藏层}};
-\node [anchor=north] (labelb) at ([xshift=0.0em,yshift=-4em]part2-3.south) {\footnotesize {(b)}};
+\node [anchor=north] (labelb) at ([xshift=0.0em,yshift=-3em]part2-3.south) {\footnotesize {(b)}};


 %右

--- a/Book/Chapter5/chapter5.tex
+++ b/Book/Chapter5/chapter5.tex
--- a/Book/Chapter6/Chapter6.tex
+++ b/Book/Chapter6/Chapter6.tex
@@ -2,6 +2,14 @@
 % !TEX encoding = UTF-8 Unicode

 %----------------------------------------------------------------------------------------
+% 机器翻译：统计建模与深度学习方法
+% Machine Translation: Statistical Modeling and Deep Learning Methods
+%
+% Copyright 2020
+% 肖桐(xiaotong@mail.neu.edu.cn) 朱靖波 (zhujingbo@mail.neu.edu.cn)
+%----------------------------------------------------------------------------------------
+
+%----------------------------------------------------------------------------------------
 %    CONFIGURATIONS
 %----------------------------------------------------------------------------------------


--- a/Book/Chapter7/Chapter7.tex
+++ b/Book/Chapter7/Chapter7.tex
@@ -2,6 +2,14 @@
 % !TEX encoding = UTF-8 Unicode

 %----------------------------------------------------------------------------------------
+% 机器翻译：统计建模与深度学习方法
+% Machine Translation: Statistical Modeling and Deep Learning Methods
+%
+% Copyright 2020
+% 肖桐(xiaotong@mail.neu.edu.cn) 朱靖波 (zhujingbo@mail.neu.edu.cn)
+%----------------------------------------------------------------------------------------
+
+%----------------------------------------------------------------------------------------
 %    CONFIGURATIONS
 %----------------------------------------------------------------------------------------

@@ -443,7 +451,7 @@ y = f(x)

 \parinterval 正则化的一种实现是在训练目标中引入一个正则项。在神经机器翻译中，引入正则项的训练目标为：
 \begin{eqnarray}
-\hat{\mathbf{w}}=\argmax_{\mathbf{w}}L(\mathbf{w}) + \lambda R(\mathbf{w})
+\widehat{\mathbf{w}}=\argmax_{\mathbf{w}}L(\mathbf{w}) + \lambda R(\mathbf{w})
 \label{eq:7-2}
 \end{eqnarray}

@@ -1253,7 +1261,7 @@ b &=& \omega_{\textrm{high}}\cdot |\mathbf{x}|

 \parinterval \ref{subsection-7.3.2}节已经指出：增加神经网络的深度有助于对句子进行更充分的表示、同时增加模型的容量。但是，简单地堆叠很多层Transformer网络并不能带来性能上的提升，反而会面临更加严重的梯度消失/梯度爆炸的问题。这是由于伴随神经网络变深，梯度无法有效地从输出层回传到底层网络，造成网络浅层部分的参数无法得到充分训练\cite{WangLearning,DBLP:conf/cvpr/YuYR18}。针对这些问题，已经有研究者开始尝试进行求解，并取得了很好的效果。比如，设计更有利于深层信息传递的网络连接和恰当的参数初始化方法等\cite{DBLP:conf/emnlp/BapnaCFCW18,WangLearning,DBLP:conf/emnlp/ZhangTS19}。

-\parinterval 但是，如何设计一个足够``深''的机器翻译模型仍然是业界关注的热点问题之一。此外，伴随着网络的继续变深，将会面临一些新的问题，例如，如何加速深层网络的训练，如何解决深层网络的过拟合问题等。下面将会对以上问题展开讨论。
+\parinterval 但是，如何设计一个足够``深''的机器翻译模型仍然是业界关注的热点问题之一。此外，伴随着网络的继续变深，将会面临一些新的问题，例如，如何加速深层网络的训练，如何解决深层网络的过拟合问题等。下面将会对以上问题展开讨论。\\ \\

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -1476,7 +1484,16 @@ x_{l+1}=\mathcal{F}(\textrm{LN}(x_l))+x_l
 x_{l+1}=M \cdot \mathcal{F}(\textrm{LN}(x_l))+x_l
 \label{eq:7-25}
 \end{eqnarray}
-$M=0$代表该子层被丢弃，而$M=1$代表正常进行当前子层的计算。图ref{fig:7-34}展示了这个方法与标准Transformer之间的区别。
+$M=0$代表该子层被丢弃，而$M=1$代表正常进行当前子层的计算。图\ref{fig:7-34}展示了这个方法与标准Pre-Norm结构之间的区别。
+
+%----------------------------------------------
+\begin{figure}[htp]
+\centering
+\input{./Chapter7/Figures/figure-sublayer-skip}
+\caption{标准的Pre-Norm结构与基于随机跳跃子层的Pre-Norm结构}
+\label{fig:7-34}
+\end{figure}
+%-------------------------------------------

 \parinterval 除此之外，有研究者已经发现残差网络中底层的子网络通过对输入进行抽象得到的表示对最终的输出有很大的影响，上层网络通过对底层网络得到的表示不断修正来拟合训练目标\cite{DBLP:journals/corr/GreffSS16}。该结论同样适用于Transformer模型，比如，在训练中，残差支路以及底层的梯度范数通常比较大，这也间接表明底层网络在整个优化的过程中需要更大的更新。考虑到这个因素，在设计每一个子层被丢弃的概率时可以采用自底向上线性增大的策略，保证底层的网络相比于顶层更容易保留下来。这里用$L$来代表编码端块的个数，$l$代表当前的子层的编号，那么$M$可以通过以下的方式得到：
 \begin{eqnarray}
@@ -1493,14 +1510,14 @@ p_l=\frac{l}{2L}\cdot \varphi
 \end{eqnarray}
 这里，$1 \leqslant l \leqslant 2L$ ，且$\varphi$是预先设定的超参数。

-\parinterval 在Layer Dropout中，一个由$2L$个子层构成的残差网络，其顶层的输出相当于是$2^{2L}$个子网络的聚合结果。通过随机丢弃$n$个子层，则会屏蔽掉$2^n$个子网络的输出，将子网络的总体数量降低至$2^{2L-n}$。如图\ref{fig:7-34}所示的残差网络展开图，当有3个子层时，从输入到输出共存在8条路径，当删除子层sublayer2后，从输入到输出路径的路径则会减少到4条。
+\parinterval 在Layer Dropout中，一个由$2L$个子层构成的残差网络，其顶层的输出相当于是$2^{2L}$个子网络的聚合结果。通过随机丢弃$n$个子层，则会屏蔽掉$2^n$个子网络的输出，将子网络的总体数量降低至$2^{2L-n}$。如图\ref{fig:7-35}所示的残差网络展开图，当有3个子层时，从输入到输出共存在8条路径，当删除子层sublayer2后，从输入到输出路径的路径则会减少到4条。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter7/Figures/figure-expanded-residual-network}
 \caption{Layer Dropout中残差网络的展开图}
-\label{fig:7-34}
+\label{fig:7-35}
 \end{figure}
 %-------------------------------------------

@@ -1538,31 +1555,31 @@ p_l=\frac{l}{2L}\cdot \varphi
 \vspace{0.5em}
 \end{itemize}

-\parinterval 使用单语数据构建（双语）伪数据属于后者，它也是一种典型的{\small\bfnew{数据增强}}\index{数据增强}（Data Augmentation）\index{Data Augmentation}方法。一种常用做法是{\small\bfnew{回译}}\index{回译}（Back Translation）\index{Back Translation} \cite{DBLP:conf/acl/SennrichHB16,DBLP:conf/emnlp/EdunovOAG18}：训练一个从目标语翻译到源语的系统，也就是一个反向翻译系统；之后，用这个系统翻译目标语言单语数据；最后将单语数据（目标语言）和翻译的结果（源语言）作为训练数据，送入源语言到目标语言的翻译系统。这种做法不需要更改任何模型结构，就能很好的利用单语数据，因此也被广泛采用。图\ref{fig:7-35}给出了回译方法的一个简要流程。
+\parinterval 使用单语数据构建（双语）伪数据属于后者，它也是一种典型的{\small\bfnew{数据增强}}\index{数据增强}（Data Augmentation）\index{Data Augmentation}方法。一种常用做法是{\small\bfnew{回译}}\index{回译}（Back Translation）\index{Back Translation} \cite{DBLP:conf/acl/SennrichHB16,DBLP:conf/emnlp/EdunovOAG18}：训练一个从目标语翻译到源语的系统，也就是一个反向翻译系统；之后，用这个系统翻译目标语言单语数据；最后将单语数据（目标语言）和翻译的结果（源语言）作为训练数据，送入源语言到目标语言的翻译系统。这种做法不需要更改任何模型结构，就能很好的利用单语数据，因此也被广泛采用。图\ref{fig:7-36}给出了回译方法的一个简要流程。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter7/Figures/figure-application-process-of-back-translation}
 \caption{回译方法的流程}
-\label{fig:7-35}
+\label{fig:7-36}
 \end{figure}
 %-------------------------------------------

 \parinterval 在理想情况下，生成的伪数据和真实数据分布越接近越好。不过，在实践中发现，即使一些简单的策略也能带来性能的增长。比如，在一些低资源的语种，仅仅通过将目标语句子复制到源语端构造的伪数据都能为模型带来增益\cite{DBLP:conf/wmt/CurreyBH17}。相比这些简单的构造策略，利用目标语言单语数据进行回译可以获得更高质量的伪数据。因为目标语是正确的句子，这种方法可以保证译文的流畅度。这也间接达到了对目标语言进行语言建模的目的。在富资源的语种中，通常对回译产生的源语句子添加一些噪音，比如随机删除、替换一些词，或者交换两个词的位置，这样可以为模型提供一些训练噪声。而在低资源的语种上，由于双语数据稀缺，模型需要更多的高质量双语数据，不加噪音反而具有更好的效果。

-\parinterval 回译方法的一个问题是：反向翻译模型的训练只依赖于有限的双语数据，生成的源语言端伪数据的质量难以保证。为此，可以采用{\small\bfnew{迭代式回译}}\index{迭代式回译}（Iterative Back Translation）\index{Iterative Back Translation}的方法，同时利用源语端和目标语端的单语数据，不断通过回译的方式来提升前向和反向翻译模型的性能。图\ref{fig:7-36}展示了迭代式回译的框架。首先使用双语数据训练一个前向翻译模型，然后利用源语言单语数据通过回译的方式来提升反向翻译模型的性能，最后由反向翻译模型和目标端单语数据生成的伪数据来提升前向翻译模型的性能。可以看出，这个往复的过程是闭环的，因此可以一直进行下去，直到两个翻译模型的性能不再提升。
+\parinterval 回译方法的一个问题是：反向翻译模型的训练只依赖于有限的双语数据，生成的源语言端伪数据的质量难以保证。为此，可以采用{\small\bfnew{迭代式回译}}\index{迭代式回译}（Iterative Back Translation）\index{Iterative Back Translation}的方法，同时利用源语端和目标语端的单语数据，不断通过回译的方式来提升前向和反向翻译模型的性能。图\ref{fig:7-37}展示了迭代式回译的框架。首先使用双语数据训练一个前向翻译模型，然后利用源语言单语数据通过回译的方式来提升反向翻译模型的性能，最后由反向翻译模型和目标端单语数据生成的伪数据来提升前向翻译模型的性能。可以看出，这个往复的过程是闭环的，因此可以一直进行下去，直到两个翻译模型的性能不再提升。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter7/Figures/figure-example-of-iterative-back-translation}
 \caption{迭代式回译方法的流程}
-\label{fig:7-36}
+\label{fig:7-37}
 \end{figure}
 %-------------------------------------------

-\parinterval 与回译的方法类似，源语言的单语数据也可以通过一个双语数据训练的翻译模型获得对应的目标语，构造{\small\bfnew{前向翻译}}\index{前向翻译}（Forward Translation）\index{Forward Translation}的伪数据。与回译方法相反，前向翻译伪数据中源语端是真实的，而目标语端是生成的，构造的伪数据对译文的流畅性并没有太大帮助，其主要作用是丰富了训练数据中源语的表示，提升翻译模型中编码器的性能。大多数情况下，前向翻译方法带来的性能提升效果要弱于回译。
+\parinterval 与回译的方法类似，源语言的单语数据也可以通过一个双语数据训练的翻译模型获得对应的目标语，构造{\small\bfnew{前向翻译}}\index{前向翻译}（Forward Translation）\index{Forward Translation}的伪数据。与回译方法相反，前向翻译伪数据中源语端是真实的，而目标语端是生成的，构造的伪数据对译文的流畅性并没有太大帮助，其主要作用是丰富了训练数据中源语的表示，提升翻译模型中编码器的性能。大多数情况下，前向翻译方法带来的性能提升效果要弱于回译。\\

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -1572,14 +1589,14 @@ p_l=\frac{l}{2L}\cdot \varphi

 \parinterval 编码器-解码器框架天然就包含了对输入（源语言）和输出（目标语言）进行表示学习的过程。比如，在编码端需要学习一种分布式表示（Distributed Representation）来表示源语言句子的信息，这种分布式表示既包含单词的表示也包括整个序列的表示。因此，可以使用更大规模的源语言单语数据完成编码器的训练。

-\parinterval 实现上述想法的一种手段是{\small\bfnew{预训练}}\index{预训练}（Pre-training）\index{Pre-training}。常用的方法是将机器翻译模型中的一部分（比如，编码器）单独提抽取出来，之后用语言建模等方式在大规模单语数据上进行训练。得到优化后的参数后，将其重新放入神经机器翻译模型中，作为模型的初始值。最后，神经机器翻译模型在双语数据上进行{\small\bfnew{微调}}\index{微调}（Fine-tuning）\index{Fine-tuning}，以得到最终的翻译模型。图\ref{fig:7-37}给出了机器翻译编码器预训练流程的示意图。
+\parinterval 实现上述想法的一种手段是{\small\bfnew{预训练}}\index{预训练}（Pre-training）\index{Pre-training}。常用的方法是将机器翻译模型中的一部分（比如，编码器）单独提抽取出来，之后用语言建模等方式在大规模单语数据上进行训练。得到优化后的参数后，将其重新放入神经机器翻译模型中，作为模型的初始值。最后，神经机器翻译模型在双语数据上进行{\small\bfnew{微调}}\index{微调}（Fine-tuning）\index{Fine-tuning}，以得到最终的翻译模型。图\ref{fig:7-38}给出了机器翻译编码器预训练流程的示意图。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter7/Figures/figure-encoder-fin}
 \caption{机器翻译编码器预训练流程}
-\label{fig:7-37}
+\label{fig:7-38}
 \end{figure}
 %-------------------------------------------

@@ -1604,11 +1621,11 @@ p_l=\frac{l}{2L}\cdot \varphi
 \centering
 \input{./Chapter7/Figures/figure-MASS}
 \caption{MASS 预训练方法}
-\label{fig:7-38}
+\label{fig:7-39}
 \end{figure}
 %-------------------------------------------

-\parinterval 以MASS方法为例\cite{song2019mass}，可以直接对整个编码器-解码器的结构进行预训练。训练中采用掩码的方式，将源语词序列中的片段替换成特殊词<mask>，然后在解码器端预测这个未知片段，如图\ref{fig:7-38}所示，\#号表示特殊词<mask>。这种做法可以使得编码器端捕捉上下文信息，同时迫使解码器依赖于编码器，学习编码器和解码器之间的注意力进行预训练。而解码器端片段的预测也使得解码器能够学习到向前依赖的上下文表示。
+\parinterval 以MASS方法为例\cite{song2019mass}，可以直接对整个编码器-解码器的结构进行预训练。训练中采用掩码的方式，将源语词序列中的片段替换成特殊词<mask>，然后在解码器端预测这个未知片段，如图\ref{fig:7-39}所示，\#号表示特殊词<mask>。这种做法可以使得编码器端捕捉上下文信息，同时迫使解码器依赖于编码器，学习编码器和解码器之间的注意力进行预训练。而解码器端片段的预测也使得解码器能够学习到向前依赖的上下文表示。

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -1618,14 +1635,14 @@ p_l=\frac{l}{2L}\cdot \varphi

 \parinterval {\small\bfnew{多任务学习}}\index{多任务学习}（Multitask Learning）\index{Multitask Learning}是机器学习的一个子领域，是指同时学习多个独立但是相关的任务\cite{DBLP:journals/corr/Ruder17a}。多任务学习通过模型共享的方式，对多个模型进行学习，而这些模型都对应不同的任务，这样不同模型可以互相``促进''。在神经机器翻译中，为了使用单语数据，可以将翻译任务作为主任务，同时设置一些仅使用单语数据的子任务，通过这些子任务来捕捉单语数据中的语言知识\cite{DBLP:conf/emnlp/DomhanH17}。

-\parinterval 语言模型是使用目标端单语数据最直接的方式，但是翻译模型作为一个受限的语言模型，还需要依赖于源语，并不能直接进行多任务学习。针对这个问题，对原有翻译模型结构进行了修改，在解码器中增加了一个语言模型子层，将这个子层用于语言模型任务（图\ref{fig:7-39}）。在训练过程中，分别将双语数据和单语数据送入翻译模型和语言模型进行计算，得到的损失相加用于整体模型参数的梯度计算和参数更新，其中语言模型的参数是翻译模型的一部分。
+\parinterval 语言模型是使用目标端单语数据最直接的方式，但是翻译模型作为一个受限的语言模型，还需要依赖于源语，并不能直接进行多任务学习。针对这个问题，对原有翻译模型结构进行了修改，在解码器中增加了一个语言模型子层，将这个子层用于语言模型任务（图\ref{fig:7-40}）。在训练过程中，分别将双语数据和单语数据送入翻译模型和语言模型进行计算，得到的损失相加用于整体模型参数的梯度计算和参数更新，其中语言模型的参数是翻译模型的一部分。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter7/Figures/figure-target-side-multi-task-learning}
 \caption{机器翻译中的单任务学习和多任务学习}
-\label{fig:7-39}
+\label{fig:7-40}
 \end{figure}
 %-------------------------------------------

@@ -1698,7 +1715,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
 \label{eq:7-30}
 \end{eqnarray}

-这样的损失函数带来最直接的好处是，知识精炼的流程会非常简单。因为只需要利用教师模型将训练数据（源语言）翻译一遍，之后把它的输出替换为训练数据的目标语言部分。之后，利用得到的新的双语数据训练学生模型即可，图\ref{fig:7-40}展示了简化后词级和序列级的不同，其中词级知识精炼的解码端输入为真实双语数据的目标语言，并以teacher模型输出的概率分布作为学习目标，而序列级则直接将teacher推断后得到的结果作为解码端的输入，并将解码结果的One-hot向量作为学习目标。
+这样的损失函数带来最直接的好处是，知识精炼的流程会非常简单。因为只需要利用教师模型将训练数据（源语言）翻译一遍，之后把它的输出替换为训练数据的目标语言部分。之后，利用得到的新的双语数据训练学生模型即可，图\ref{fig:7-41}展示了简化后词级和序列级的不同，其中词级知识精炼的解码端输入为真实双语数据的目标语言，并以teacher模型输出的概率分布作为学习目标，而序列级则直接将teacher推断后得到的结果作为解码端的输入，并将解码结果的One-hot向量作为学习目标。
 \vspace{0.5em}
 \end{itemize}

@@ -1707,7 +1724,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
 \centering
 \input{./Chapter7/Figures/figure-difference-between-word-level-and-sequence-level-in-knowledge-distillation}
 \caption{词级和序列级知识精炼的差异}
-\label{fig:7-40}
+\label{fig:7-41}
 \end{figure}
 %-------------------------------------------

@@ -1734,14 +1751,14 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
 \vspace{0.5em}
 \end{itemize}

-\parinterval 此外还可以采用迭代的知识精炼的方式。首先，通过模型集成得到较强的教师模型，再将知识迁移到不同的学生模型上，随后继续使用这些学生模型集成新的教师模型。不断的重复上述过程可以逐步提升集成模型的性能，如图\ref{fig:7-41}所示。值得注意的是，随着迭代次数的增加，集成所带来的收益也会随着子模型之间差异性的减小而减少。
+\parinterval 此外还可以采用迭代的知识精炼的方式。首先，通过模型集成得到较强的教师模型，再将知识迁移到不同的学生模型上，随后继续使用这些学生模型集成新的教师模型。不断的重复上述过程可以逐步提升集成模型的性能，如图\ref{fig:7-42}所示。值得注意的是，随着迭代次数的增加，集成所带来的收益也会随着子模型之间差异性的减小而减少。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter7/Figures/figure-ensemble-knowledge-distillation}
 \caption{迭代式知识精炼}
-\label{fig:7-41}
+\label{fig:7-42}
 \end{figure}
 %-------------------------------------------

@@ -1799,14 +1816,14 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
 \label{eq:7-34}
 \end{eqnarray}

-\noindent  公式\ref{eq:7-34}假设$\textrm{P}(\mathbf s|\mathbf t)=\textrm{P}(\mathbf s|\mathbf s,\mathbf t)$。这个假设显然是成立的，因为当知道一个句子的译文时，并不需要知道它的源文就可以把它翻译回去。如果直接优化（最大化）公式\ref{eq:7-34}右侧，相当于对这个等式$\textrm{P}(\mathbf s|\mathbf t)$和$\textrm{P}(\mathbf t|\mathbf s)$施加了{\small\bfnew{循环一致性}}\index{循环一致性}（Circle Consistency）\index{Circle Consistency}的约束\cite{DBLP:conf/iccv/ZhuPIE17}，也就是对于一个句子$\mathbf s$，通过$\textrm{P}(\mathbf t|\mathbf s)$把它翻译成$\mathbf t$后，根据$\textrm{P}(\mathbf s|\mathbf t)$应该能重新翻译出$\mathbf s$，如图\ref{fig:7-42}所示。公式\ref{eq:7-34}给出了同时优化$\textrm{P}(\mathbf s|\mathbf t)$和$\textrm{P}(\mathbf t|\mathbf s)$的一个目标函数形式。这个目标函数的一个额外的好处是它本质上是在学习一个由$\textrm{P}(\mathbf s|\mathbf t)$和$\textrm{P}(\mathbf t|\mathbf s)$组成的语言模型$\textrm{P}(\mathbf s)$，而$\textrm{P}(\mathbf s)$的学习依赖于单语数据，这意味着这个目标函数可以很自然地直接使用大量单语数据来同时训练两个翻译模型。相同的结论可以推广到$\textrm{P}(\mathbf t)$上\cite{DBLP:conf/nips/HeXQWYLM16}。
+\noindent  公式\ref{eq:7-34}假设$\textrm{P}(\mathbf s|\mathbf t)=\textrm{P}(\mathbf s|\mathbf s,\mathbf t)$。这个假设显然是成立的，因为当知道一个句子的译文时，并不需要知道它的源文就可以把它翻译回去。如果直接优化（最大化）公式\ref{eq:7-34}右侧，相当于对这个等式$\textrm{P}(\mathbf s|\mathbf t)$和$\textrm{P}(\mathbf t|\mathbf s)$施加了{\small\bfnew{循环一致性}}\index{循环一致性}（Circle Consistency）\index{Circle Consistency}的约束\cite{DBLP:conf/iccv/ZhuPIE17}，也就是对于一个句子$\mathbf s$，通过$\textrm{P}(\mathbf t|\mathbf s)$把它翻译成$\mathbf t$后，根据$\textrm{P}(\mathbf s|\mathbf t)$应该能重新翻译出$\mathbf s$，如图\ref{fig:7-43}所示。公式\ref{eq:7-34}给出了同时优化$\textrm{P}(\mathbf s|\mathbf t)$和$\textrm{P}(\mathbf t|\mathbf s)$的一个目标函数形式。这个目标函数的一个额外的好处是它本质上是在学习一个由$\textrm{P}(\mathbf s|\mathbf t)$和$\textrm{P}(\mathbf t|\mathbf s)$组成的语言模型$\textrm{P}(\mathbf s)$，而$\textrm{P}(\mathbf s)$的学习依赖于单语数据，这意味着这个目标函数可以很自然地直接使用大量单语数据来同时训练两个翻译模型。相同的结论可以推广到$\textrm{P}(\mathbf t)$上\cite{DBLP:conf/nips/HeXQWYLM16}。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter7/Figures/figure-cycle-consistency}
 \caption{循环一致性}
-\label{fig:7-42}
+\label{fig:7-43}
 \end{figure}
 %----------------------------------------------

@@ -1845,11 +1862,13 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
 \vspace{0.5em}
 \item 无指导机器翻译。无指导机器翻译由于其不需要双语语料即可训练翻译模型的特性，在稀缺资源机器翻译的场景中有非常大的潜力而得到广泛的关注。目前无指导机器翻译主要有两种范式：第一种先得到词典的翻译，然后得到短语表的翻译和相应的统计机器翻译系统，最后使用统计机器翻译系统生成伪双语平行语料训练神经机器翻译系统\cite{DBLP:conf/acl/ArtetxeLA19}；第二种是先预训练语言模型来初始化神经机器翻译系统的编码器和解码器，然后使用翻译中回译以及降噪自编码器来训练神经机器翻译系统\cite{lample2019cross}。尽管目前无指导机器翻译在富资源的语种上取得了很大进展，但是离实际应用还有很远距离。比如，目前无指导系统都依赖于大量单语数据，而实际上稀缺资源的语种不但双语语料少，单语语料也少；此外，这些系统还无法在远距离如中英这些字母表重合少，需要大范围调序的语种对上取得可接受的结果；使用大量单语训练无指导系统还面临数据来自于不同领域的问题\cite{DBLP:journals/corr/abs-2004-05516}。设计更鲁棒，使用单语数据更高效的无指导机器翻译方法乃至新范式会是未来的趋势。
 \vspace{0.5em}
-\item 更多上下文信息的建模。由于人类语言潜在的歧义性，传统的神经机器翻译在单句翻译中可能会出现歧义。为此，一些研究工作在翻译过程中尝试引入更多的上下文信息，比如多模态翻译、基于树的翻译或者篇章级翻译。多模态翻译的目标就是在给定一个图片和其源语描述的情况下，生成目标语言的描述。一般做法就是通过一个额外的编码器来提取图像特征\cite{DBLP:journals/corr/ElliottFH15,DBLP:conf/acl/HitschlerSR16}，然后通过权重门控机制、注意力网络等融合到系统中\cite{DBLP:conf/wmt/HuangLSOD16}。
+\item 图片翻译。由于人类语言潜在的歧义性，传统的神经机器翻译在单句翻译中可能会出现歧义。为此，一些研究工作在翻译过程中尝试引入更多的上下文信息，比如多模态翻译、基于树的翻译或者篇章级翻译。比如，图片翻译的目标就是在给定一个图片和其源语描述的情况下，生成目标语言的描述。一般做法就是通过一个额外的编码器来提取图像特征\cite{DBLP:journals/corr/ElliottFH15,DBLP:conf/acl/HitschlerSR16}，然后通过权重门控机制、注意力网络等融合到系统中\cite{DBLP:conf/wmt/HuangLSOD16}。

-\parinterval 基于树的翻译是指在翻译模型中引入句法结构树或依存树，从而引入更多的句法信息。一种常用的做法是将句法树进行序列化，从而保留序列到序列的模型结构\cite{DBLP:conf/emnlp/CurreyH18,DBLP:conf/acl/SaundersSGB18}。在此基础上，一些研究工作引入了更多的解析结果\cite{DBLP:conf/acl/SumitaUZTM18,DBLP:conf/coling/ZaremoodiH18}。同时，也有一些研究工作直接使用Tree-LSTMs等网络结构\cite{DBLP:conf/acl/TaiSM15,DBLP:conf/iclr/ShenTSC19}来直接表示树结构，并将其应用到神经机器翻译模型中\cite{DBLP:conf/acl/EriguchiHT16,Yang2017TowardsBH,DBLP:conf/acl/ChenHCC17}。
+\vspace{0.5em}
+\item 基于树的翻译。这类方法在翻译模型中引入句法结构树或依存树，从而引入更多的句法信息。一种常用的做法是将句法树进行序列化，从而保留序列到序列的模型结构\cite{DBLP:conf/emnlp/CurreyH18,DBLP:conf/acl/SaundersSGB18}。在此基础上，一些研究工作引入了更多的解析结果\cite{DBLP:conf/acl/SumitaUZTM18,DBLP:conf/coling/ZaremoodiH18}。同时，也有一些研究工作直接使用Tree-LSTMs等网络结构\cite{DBLP:conf/acl/TaiSM15,DBLP:conf/iclr/ShenTSC19}来直接表示树结构，并将其应用到神经机器翻译模型中\cite{DBLP:conf/acl/EriguchiHT16,Yang2017TowardsBH,DBLP:conf/acl/ChenHCC17}。

-\parinterval 篇章级翻译是为了引入篇章级上下文信息，来处理篇章翻译中译文不连贯，主谓不一致等歧义现象。为此，一些研究人员针对该问题进行了改进，主要可以分为两类方法：一种是将当前句子与上下文进行句子级的拼接，不改变模型的结构\cite{DBLP:conf/discomt/TiedemannS17}，另外一种是采用额外的编码器来捕获篇章信息\cite{DBLP:journals/corr/JeanLFC17,DBLP:journals/corr/abs-1805-10163,DBLP:conf/emnlp/ZhangLSZXZL18}。编码器的结构除了传统的RNN、自注意力网络，还有利用层级注意力来编码之前的多句上文\cite{Werlen2018DocumentLevelNM,tan-etal-2019-hierarchical}，使用可选择的稀疏注意力机制对整个文档进行篇章建模\cite{DBLP:conf/naacl/MarufMH19},使用记忆网络、缓存机制等对篇章中的关键词进行提取\cite{DBLP:conf/coling/KuangXLZ18,DBLP:journals/tacl/TuLSZ18}或者采用两阶段解码的方式\cite{DBLP:conf/aaai/XiongH0W19,DBLP:conf/acl/VoitaST19}。除了从建模角度引入上下文信息，也有一些工作使用篇章级修正模型\cite{DBLP:conf/emnlp/VoitaST19}或者语言模型\cite{DBLP:journals/corr/abs-1910-00553}对句子级翻译模型的译文进行修正，或者通过自学习在解码过程中保持翻译连贯性\cite{DBLP:journals/corr/abs-2003-05259}。
+\vspace{0.5em}
+\item 篇章级翻译。可以通过引入篇章级上下文信息，来处理篇章翻译中译文不连贯，主谓不一致等问题。为此，一些研究人员针对该问题进行了改进，主要可以分为两类方法：一种是将当前句子与上下文进行句子级的拼接，不改变模型的结构\cite{DBLP:conf/discomt/TiedemannS17}，另外一种是采用额外的编码器来捕获篇章信息\cite{DBLP:journals/corr/JeanLFC17,DBLP:journals/corr/abs-1805-10163,DBLP:conf/emnlp/ZhangLSZXZL18}。编码器的结构除了传统的RNN、自注意力网络，还有利用层级注意力来编码之前的多句上文\cite{Werlen2018DocumentLevelNM,tan-etal-2019-hierarchical}，使用可选择的稀疏注意力机制对整个文档进行篇章建模\cite{DBLP:conf/naacl/MarufMH19},使用记忆网络、缓存机制等对篇章中的关键词进行提取\cite{DBLP:conf/coling/KuangXLZ18,DBLP:journals/tacl/TuLSZ18}或者采用两阶段解码的方式\cite{DBLP:conf/aaai/XiongH0W19,DBLP:conf/acl/VoitaST19}。除了从建模角度引入上下文信息，也有一些工作使用篇章级修正模型\cite{DBLP:conf/emnlp/VoitaST19}或者语言模型\cite{DBLP:journals/corr/abs-1910-00553}对句子级翻译模型的译文进行修正，或者通过自学习在解码过程中保持翻译连贯性\cite{DBLP:journals/corr/abs-2003-05259}。
 \vspace{0.5em}
 \item 语音翻译。在日常生活中，语音翻译也是有很大的需求。针对语音到文本翻译的特点，最简单的做法是使用自动语音识别（ASR）将语音转换成文本，然后送入文本翻译模型进行翻译\cite{DBLP:conf/icassp/Ney99,DBLP:conf/interspeech/MatusovKN05}。然而为了避免流水线中的错误传播和高延迟问题，现在通常采用端到端的建模做法\cite{DBLP:conf/naacl/DuongACBC16,DBLP:journals/corr/BerardPSB16}。同时，针对语音翻译数据稀缺的问题，一些研究工作采用各种方法来进行缓解，包括预训练\cite{DBLP:conf/naacl/BansalKLLG19}、多任务学习\cite{Weiss2017SequencetoSequenceMC,DBLP:conf/icassp/BerardBKP18}、课程学习\cite{DBLP:conf/interspeech/KanoS017}、注意力传递\cite{DBLP:journals/tacl/SperberNNW19}和知识精炼\cite{DBLP:conf/interspeech/LiuXZHWWZ19,DBLP:conf/icassp/JiaJMWCCALW19}。
 \vspace{0.5em}

--- a/Book/Chapter7/Figures/figure-batch-generation-method.tex
+++ b/Book/Chapter7/Figures/figure-batch-generation-method.tex

 \begin{tikzpicture}
-	\tikzstyle{node} = [minimum height=1.0*1.2em,draw=teal,fill=teal!10]
+	\tikzstyle{node} = [minimum height=1.0*1.2em,draw,fill=green!20]
 	\tikzstyle{legend} = [minimum height=1.0*1.2em,minimum width=1.0*1.2em,draw]
-	\tikzstyle{node2} = [minimum width=1.0*1.2em,minimum height=4.1*1.2em,draw=blue,fill=blue!10]
+	\tikzstyle{node2} = [minimum width=1.0*1.2em,minimum height=4.1*1.2em,draw,fill=blue!20]
 	\node[node,minimum width=2.8*1.2em] (node1) at (0,0) {};
 	\node[node,minimum width=4.0*1.2em,anchor=north west] (node2) at (node1.south west) {};
 	\node[node,minimum width=3.2*1.2em,anchor=north west] (node3) at (node2.south west) {};
@@ -12,12 +12,12 @@
 	\node[node,minimum width=2.8*1.2em,anchor=north west] (node6) at (node5.south west) {};
 	\node[node,minimum width=3.2*1.2em,anchor=north west] (node7) at (node6.south west) {};
 	\node[node,minimum width=4.0*1.2em,anchor=north west] (node8) at (node7.south west) {};
-	\node[font=\footnotesize,anchor=east] (line1) at (node1.west) {gpu1};
-	\node[font=\footnotesize,anchor=east] (line2) at (node2.west) {gpu2};
-	\node[font=\footnotesize,anchor=east] (line3) at (node3.west) {gpu3};
-	\node[font=\footnotesize,anchor=east] (line4) at (node4.west) {gpu4};
+	\node[font=\footnotesize,anchor=east] (line1) at (node1.west) {GPU1};
+	\node[font=\footnotesize,anchor=east] (line2) at (node2.west) {GPU2};
+	\node[font=\footnotesize,anchor=east] (line3) at (node3.west) {GPU3};
+	\node[font=\footnotesize,anchor=east] (line4) at (node4.west) {GPU4};
 	\node[node2,anchor = north west] (grad2) at ([xshift=0.3em]node5.north east) {};
-	\draw[->] (-1.4em*1.2,-3.62*1.2em) -- (9em*1.2,-3.62*1.2em);
+	\draw[->,thick] (-1.4em*1.2,-3.62*1.2em) -- (9em*1.2,-3.62*1.2em);

 	\node[node,minimum width=2.8*1.2em] (node9) at (16em,0) {};
 	\node[node,minimum width=4.0*1.2em,anchor=north west] (node10) at (node9.south west) {};
@@ -29,11 +29,11 @@
 	\node[node,minimum width=3.2*1.2em,anchor=north west] (node15) at (node11.north east) {};
 	\node[node,minimum width=4.0*1.2em,anchor=north west] (node16) at (node12.north east) {};
 	\node[node2,anchor = north west] (grad3) at ([xshift=0.5em]node13.north east) {};
-	\node[font=\footnotesize,anchor=east] (line1) at (node9.west) {gpu1};
-	\node[font=\footnotesize,anchor=east] (line2) at (node10.west) {gpu2};
-	\node[font=\footnotesize,anchor=east] (line3) at (node11.west) {gpu3};
-	\node[font=\footnotesize,anchor=east] (line4) at (node12.west) {gpu4};
-	\draw[->] (13.6*1.2em,-3.62*1.2em) -- (20.5*1.2em,-3.62*1.2em);
+	\node[font=\footnotesize,anchor=east] (line1) at (node9.west) {GPU1};
+	\node[font=\footnotesize,anchor=east] (line2) at (node10.west) {GPU2};
+	\node[font=\footnotesize,anchor=east] (line3) at (node11.west) {GPU3};
+	\node[font=\footnotesize,anchor=east] (line4) at (node12.west) {GPU4};
+	\draw[->,thick] (node12.south west) -- ([xshift=3em]node16.south east);
 	\begin{pgfonlayer}{background}
 	\node [rectangle,inner sep=-0.0em,draw] [fit = (node1) (node2) (node3) (node4)] (box1) {};
 	\node [rectangle,inner sep=-0.0em,draw] [fit = (node5) (node6) (node7) (node8)] (box2) {};
@@ -46,9 +46,9 @@

 	\node[legend] (legend3) at (2em,2em) {};
 	\node[font=\footnotesize,anchor=west] (idle) at (legend3.east) {:空闲};
-	\node[legend,anchor=west,draw=teal,fill=teal!10] (legend4) at ([xshift = 2em]idle.east) {};
+	\node[legend,anchor=west,draw,fill=green!30] (legend4) at ([xshift = 2em]idle.east) {};
 	\node[font=\footnotesize,anchor=west] (FB) at (legend4.east) {:前向/反向};
-	\node[legend,anchor=west,draw=blue,fill=blue!10] (legend5) at ([xshift = 2em]FB.east) {};
+	\node[legend,anchor=west,draw,fill=blue!30] (legend5) at ([xshift = 2em]FB.east) {};
 	\node[font=\footnotesize,anchor=west] (grad_sync) at (legend5.east) {:梯度更新};

 \end{tikzpicture}
\ No newline at end of file
--- a/Book/Chapter7/Figures/figure-machine-translation-performance-curve.tex
+++ b/Book/Chapter7/Figures/figure-machine-translation-performance-curve.tex
@@ -12,7 +12,7 @@

 \draw [-,very thick,draw=ublue] ([xshift=0.7em,yshift=3em]n1.north) .. controls +(north:7em) and +(south:0em) .. ([xshift=17em,yshift=9em]n1.north);
 {\footnotesize
-\node [anchor=south] (n4) at ([xshift=7em,yshift=5em]n1.north) {性能快速爬升阶段};
+\node [anchor=south] (n4) at ([xshift=8em,yshift=5em]n1.north) {性能快速爬升阶段（红色）};
 \node [anchor=west] (n5) at ([xshift=0em,yshift=-2em]n4.west) {数据的作用会非常明显};

 \draw [-,very thick,draw=red] ([xshift=0.7em,yshift=3em]n1.north) .. controls +(north:5.9em) and +(south:0em) .. ([xshift=10em,yshift=9.6em]n1.north);

--- a/Book/Chapter7/Figures/figure-post-norm-vs-pre-norm.tex
+++ b/Book/Chapter7/Figures/figure-post-norm-vs-pre-norm.tex
@@ -6,16 +6,16 @@
 \begin{scope}[minimum height = 20pt]

 \node [anchor=east] (x1) at (-0.5em, 0) {$x_l$};
-\node [anchor=west,draw=green,fill=green!20,inner xsep=5pt] (F1) at ([xshift=2em]x1.east){$\mathcal{F}$};
+\node [anchor=west,draw,fill=red!20,inner xsep=5pt,rounded corners=2pt] (F1) at ([xshift=2em]x1.east){\small{$\mathcal{F}$}};
 \node [anchor=west,circle,draw,minimum size=1em] (n1) at ([xshift=2em]F1.east) {};
-\node [anchor=west,draw=green,fill=green!20,inner xsep=5pt] (ln1) at ([xshift=2em]n1.east){\textrm{LN}};
-\node [anchor=west] (x2) at ([xshift=2em]ln1.east) {$x_{l+l}$};
+\node [anchor=west,draw,fill=green!20,inner xsep=5pt,rounded corners=2pt] (ln1) at ([xshift=2em]n1.east){\small{\textrm{LN}}};
+\node [anchor=west] (x2) at ([xshift=2em]ln1.east) {$x_{l+1}$};

 \node [anchor=north] (x3) at ([yshift=-5em]x1.south) {$x_l$};
-\node [anchor=west,draw=green,fill=green!20,inner xsep=5pt] (F2) at ([xshift=2em]x3.east){$\mathcal{F}$};
-\node [anchor=west,draw=green,fill=green!20,inner xsep=5pt] (ln2) at ([xshift=2em]F2.east){\textrm{LN}};
+\node [anchor=west,draw,fill=green!20,inner xsep=5pt,rounded corners=2pt] (F2) at ([xshift=2em]x3.east){\small{\textrm{LN}}};
+\node [anchor=west,draw,fill=red!20,inner xsep=5pt,rounded corners=2pt] (ln2) at ([xshift=2em]F2.east){\small{$\mathcal{F}$}};
 \node [anchor=west,circle,draw,,minimum size=1em] (n2) at ([xshift=2em]ln2.east){};
-\node [anchor=west] (x4) at ([xshift=2em]n2.east) {$x_{l+l}$};
+\node [anchor=west] (x4) at ([xshift=2em]n2.east) {$x_{l+1}$};

 \draw[->, line width=1pt] ([xshift=-0.1em]x1.east)--(F1.west);
 \draw[->, line width=1pt] ([xshift=-0.1em]F1.east)--(n1.west);
@@ -25,8 +25,8 @@
 \draw[->, line width=1pt] ([xshift=-0.1em]F2.east)--(ln2.west);
 \draw[->, line width=1pt] ([xshift=0.1em]ln2.east)--node[above]{$y_l$}(n2.west);
 \draw[->, line width=1pt] (n2.east)--(x4.west);
-\draw[->, line width=1pt] (x1.north) -- ([yshift=1em]x1.north) -- ([yshift=1.4em]n1.north) -- (n1.north);
-\draw[->, line width=1pt] (x3.north) -- ([yshift=1em]x3.north) -- ([yshift=1.4em]n2.north) -- (n2.north);
+\draw[->,rounded corners,line width=1pt] ([yshift=-0.2em]x1.north) -- ([yshift=1em]x1.north) -- ([yshift=1.4em]n1.north) -- (n1.north);
+\draw[->,rounded corners,line width=1pt] ([yshift=-0.2em]x3.north) -- ([yshift=1em]x3.north) -- ([yshift=1.4em]n2.north) -- (n2.north);
 \draw[-] (n1.west)--(n1.east);
 \draw[-] (n1.north)--(n1.south);
 \draw[-] (n2.west)--(n2.east);
@@ -39,8 +39,8 @@
 \node [rectangle,inner sep=0.3em,fill=blue!10] [fit = (x3) (F2) (n2) (ln2) (x4) (k2)] (box1) {};
 \end{pgfonlayer}

-\node [anchor=north] (c1) at (box0.south){\small (a)后作方式的残差连接};
-\node [anchor=north] (c2) at (box1.south){\small (b)前作方式的残差连接};
+\node [anchor=north] (c1) at (box0.south){\footnotesize {(a)后作方式的残差连接}};
+\node [anchor=north] (c2) at (box1.south){\footnotesize {(b)前作方式的残差连接}};
 \end{scope}
 \end{tikzpicture}
 \end{center}
\ No newline at end of file
--- a/Book/Chapter7/Figures/figure-randomly-generation-vs-generate-by-sentence-length.tex
+++ b/Book/Chapter7/Figures/figure-randomly-generation-vs-generate-by-sentence-length.tex

 \begin{tikzpicture}
-	\tikzstyle{node} = [minimum height=1.0*1.2em,draw=teal,fill=teal!10]
+	\tikzstyle{node} = [minimum height=1.0*1.2em,draw,fill=green!20]
 	\node[node,minimum width=2.0*1.2em] (sent1) at (0,0) {};
 	\node[node,minimum width=5.0*1.2em,anchor=north west] (sent2) at (sent1.south west) {};
 	\node[node,minimum width=1.0*1.2em,anchor=north west] (sent3) at (sent2.south west) {};
@@ -11,15 +11,15 @@
 	\node[node,minimum width=4.5*1.2em,anchor=north west] (sent7) at (sent6.south west) {};
 	\node[node,minimum width=5*1.2em,anchor=north west] (sent8) at (sent7.south west) {};

-	\node[font=\footnotesize,anchor=east] (line1) at (sent1.west) {sent1};
-	\node[font=\footnotesize,anchor=east] (line2) at (sent2.west) {sent2};
-	\node[font=\footnotesize,anchor=east] (line3) at (sent3.west) {sent3};
-	\node[font=\footnotesize,anchor=east] (line4) at (sent4.west) {sent4};
+	\node[font=\footnotesize,anchor=east] (line1) at (sent1.west) {句子1};
+	\node[font=\footnotesize,anchor=east] (line2) at (sent2.west) {句子2};
+	\node[font=\footnotesize,anchor=east] (line3) at (sent3.west) {句子3};
+	\node[font=\footnotesize,anchor=east] (line4) at (sent4.west) {句子4};

-	\node[font=\footnotesize,anchor=east] (line5) at (sent5.west) {sent1};
-	\node[font=\footnotesize,anchor=east] (line6) at (sent6.west) {sent2};
-	\node[font=\footnotesize,anchor=east] (line7) at (sent7.west) {sent3};
-	\node[font=\footnotesize,anchor=east] (line8) at (sent8.west) {sent4};
+	\node[font=\footnotesize,anchor=east] (line5) at (sent5.west) {句子1};
+	\node[font=\footnotesize,anchor=east] (line6) at (sent6.west) {句子2};
+	\node[font=\footnotesize,anchor=east] (line7) at (sent7.west) {句子3};
+	\node[font=\footnotesize,anchor=east] (line8) at (sent8.west) {句子4};
 	\begin{pgfonlayer}{background}
 	\node [rectangle,inner sep=-0.0em,draw] [fit = (sent1) (sent2) (sent3) (sent4)] (box1) {};
 	\node [rectangle,inner sep=-0.0em,draw] [fit = (sent5) (sent6) (sent7) (sent8)] (box2) {};

--- a/Book/Chapter7/Figures/figure-sublayer-skip.tex
+++ b/Book/Chapter7/Figures/figure-sublayer-skip.tex
+%%%------------------------------------------------------------------------------------------------------------
+%%% 调序模型1：基于距离的调序
+\begin{center}
+\begin{tikzpicture}
+
+\begin{scope}[minimum height = 20pt]
+
+\node [anchor=east] (x1) at (-0.5em, 0) {$x_l$};
+\node [anchor=west,draw,fill=red!20,inner xsep=5pt,rounded corners=2pt] (ln1) at ([xshift=1em]x1.east){\small{\textrm{LN}}};
+\node [anchor=west,draw,fill=green!20,inner xsep=5pt,rounded corners=2pt] (f1) at ([xshift=0.6em]ln1.east){\small{$\mathcal{F}$}};
+\node [anchor=west,circle,draw,,minimum size=1em] (n1) at ([xshift=3em]f1.east){};
+\node [anchor=west] (x2) at ([xshift=1em]n1.east) {$x_{l+1}$};
+\node [anchor=west,draw,fill=red!20,inner xsep=5pt,rounded corners=2pt] (ln12) at ([xshift=1em]x2.east){\small{\textrm{LN}}};
+\node [anchor=west,draw,fill=green!20,inner xsep=5pt,rounded corners=2pt] (f12) at ([xshift=0.6em]ln12.east){\small{$\mathcal{F}$}};
+\node [anchor=west,circle,draw,,minimum size=1em] (n12) at ([xshift=3em]f12.east){};
+\node [anchor=west] (x22) at ([xshift=1em]n12.east) {$x_{l+2}$};
+
+\node [anchor=north] (x3) at ([yshift=-5em]x1.south) {$x_l$};
+\node [anchor=west,draw,fill=red!20,inner xsep=5pt,rounded corners=2pt] (ln2) at ([xshift=1em]x3.east){\small{\textrm{LN}}};
+\node [anchor=west,draw,fill=green!20,inner xsep=5pt,rounded corners=2pt] (f2) at ([xshift=0.6em]ln2.east){\small{$\mathcal{F}$}};
+\node [anchor=west,minimum size=1em] (p1) at ([xshift=1em]f2.east){};
+\node [anchor=north] (m1) at ([yshift=0.6em]p1.south){\tiny{\red{$M=1$}}};
+\node [anchor=west,circle,draw,,minimum size=1em] (n2) at ([xshift=3em]f2.east){};
+\node [anchor=west] (x4) at ([xshift=1em]n2.east) {$x_{l+1}$};
+\node [anchor=west,draw,fill=red!20,inner xsep=5pt,rounded corners=2pt] (ln22) at ([xshift=1em]x4.east){\small{\textrm{LN}}};
+\node [anchor=west,draw,fill=green!20,inner xsep=5pt,rounded corners=2pt] (f22) at ([xshift=0.6em]ln22.east){\small{$\mathcal{F}$}};
+\node [anchor=west,minimum size=1em] (p2) at ([xshift=1em]f22.east){};
+\node [anchor=north] (m2) at ([yshift=0.6em]p2.south){\tiny{\red{$M=0$}}};
+\node [anchor=west,circle,draw,,minimum size=1em] (n22) at ([xshift=3em]f22.east){};
+\node [anchor=west] (x42) at ([xshift=1em]n22.east) {$x_{l+2}$};
+
+\draw[->, line width=1pt] ([xshift=-0.1em]x1.east)--(ln1.west);
+\draw[->, line width=1pt] ([xshift=-0.1em]ln1.east)--(f1.west);
+\draw[->, line width=1pt] ([xshift=0.1em]f1.east)--(n1.west);
+\draw[->, line width=1pt] (n1.east)--(x2.west);
+\draw[->, line width=1pt] ([xshift=-0.1em]x3.east)--(ln2.west);
+\draw[->, line width=1pt] ([xshift=-0.1em]ln2.east)--(f2.west);
+\draw[-, line width=1pt] ([xshift=0.1em]f2.east)--(p1.west);
+\draw[*-,red,line width=0.6pt] (p1.west) -- (p1.east);
+\draw[->, line width=1pt] (p1.east)--(n2.west);
+\draw[->, line width=1pt] (n2.east)--(x4.west);
+\draw[->,rounded corners,line width=1pt] ([yshift=-0.2em]x1.north) -- ([yshift=1em]x1.north) -- ([yshift=1.4em]n1.north) -- (n1.north);
+\draw[->,rounded corners,line width=1pt] ([yshift=-0.2em]x3.north) -- ([yshift=1em]x3.north) -- ([yshift=1.4em]n2.north) -- (n2.north);
+\draw[-] (n1.west)--(n1.east);
+\draw[-] (n1.north)--(n1.south);
+\draw[-] (n2.west)--(n2.east);
+\draw[-] (n2.north)--(n2.south);
+
+\draw[->, line width=1pt] ([xshift=-0.1em]x2.east)--(ln12.west);
+\draw[->, line width=1pt] ([xshift=-0.1em]ln12.east)--(f12.west);
+\draw[->, line width=1pt] ([xshift=0.1em]f12.east)--(n12.west);
+\draw[->, line width=1pt] (n12.east)--(x22.west);
+\draw[->, line width=1pt] ([xshift=-0.1em]x4.east)--(ln22.west);
+\draw[->, line width=1pt] ([xshift=-0.1em]ln22.east)--(f22.west);
+\draw[-, line width=1pt] ([xshift=0.1em]f22.east)--(p2.west);
+\draw[*-,red,line width=0.6pt] ([yshift=-0.1em]p2.west) -- (p2.north east);
+\draw[->, line width=1pt] (p2.east)--(n22.west);
+\draw[->, line width=1pt] (n22.east)--(x42.west);
+\draw[->,rounded corners,line width=1pt] ([yshift=-0.2em]x2.north) -- ([yshift=1em]x2.north) -- ([yshift=1.4em]n12.north) -- (n12.north);
+\draw[->,rounded corners,line width=1pt] ([yshift=-0.2em]x4.north) -- ([yshift=1em]x4.north) -- ([yshift=1.4em]n22.north) -- (n22.north);
+\draw[-] (n12.west)--(n12.east);
+\draw[-] (n12.north)--(n12.south);
+\draw[-] (n22.west)--(n22.east);
+\draw[-] (n22.north)--(n22.south);
+
+\node [anchor=south] (k1) at ([yshift=-0.1em]x1.north){};
+\node [anchor=south] (k2) at ([yshift=-0.1em]x3.north){};
+\begin{pgfonlayer}{background}
+\node [rectangle,inner sep=0.3em,fill=orange!10] [fit = (x1) (f1) (n1) (ln1) (x2) (k1) (f12) (n12) (ln12) (x22)] (box0) {};
+\node [rectangle,inner sep=0.3em,fill=blue!10] [fit = (x3) (f2) (n2) (ln2) (x4) (k2) (f22) (n22) (ln22) (x42)] (box1) {};
+\end{pgfonlayer}
+
+\node [anchor=north] (c1) at (box0.south){\footnotesize {(a)标准的Pre-Norm}};
+\node [anchor=north] (c2) at (box1.south){\footnotesize {(b)基于随机子层跳跃的Pre-Norm}};
+\end{scope}
+\end{tikzpicture}
+\end{center}
\ No newline at end of file
--- a/Book/Chapter7/Figures/figure-word-root.tex
+++ b/Book/Chapter7/Figures/figure-word-root.tex
@@ -3,16 +3,16 @@
 \node[] (do) at (0,0) {{\red do}}; 
 \node[anchor = west] (does) at ([xshift = 1em]do.east) {{\red do}es};
 \node[anchor = west] (doing) at ([xshift = 0.7em]does.east) {{\red do}ing};
-\node[anchor = north] (do_root) at ([yshift = -1em]does.south) {do};
+\node[anchor = north] (do_root) at ([yshift = -1.5em]does.south) {do};

 \node[anchor = west] (new) at ([xshift = 2em]doing.east) {{\red new}}; 
 \node[anchor = west] (newer) at ([xshift = 1em]new.east) {{\red new}er};
 \node[anchor = west] (newest) at ([xshift = 0.7em]newer.east) {{\red new}est};
-\node[anchor = north] (new_root) at ([yshift = -1em]newer.south) {new};
-\draw [->] (do_root.north) .. controls +(north:0.4) and +(south:0.6) ..(do.south);
+\node[anchor = north] (new_root) at ([yshift = -1.5em]newer.south) {new};
+\draw [->] ([yshift=0.2em]do_root.north) .. controls +(north:0.4) and +(south:0.6) ..(do.south);
 \draw [->] (do_root.north) -- (does.south);
-\draw [->] (do_root.north) .. controls +(north:0.4) and +(south:0.6) ..(doing.south);
-\draw [->] (new_root.north) .. controls +(north:0.4) and +(south:0.6) ..(new.south);
+\draw [->] ([yshift=0.2em]do_root.north) .. controls +(north:0.4) and +(south:0.6) ..(doing.south);
+\draw [->] ([yshift=0.2em]new_root.north) .. controls +(north:0.4) and +(south:0.6) ..(new.south);
 \draw [->] (new_root.north) -- (newer.south);
-\draw [->] (new_root.north) .. controls +(north:0.4) and +(south:0.6) ..(newest.south);
+\draw [->] ([yshift=0.2em]new_root.north) .. controls +(north:0.4) and +(south:0.6) ..(newest.south);
 \end{tikzpicture}
\ No newline at end of file
--- a/Book/ChapterAppend/ChapterAppend.tex
+++ b/Book/ChapterAppend/ChapterAppend.tex
@@ -2,6 +2,14 @@
 % !TEX encoding = UTF-8 Unicode

 %----------------------------------------------------------------------------------------
+% 机器翻译：统计建模与深度学习方法
+% Machine Translation: Statistical Modeling and Deep Learning Methods
+%
+% Copyright 2020
+% 肖桐(xiaotong@mail.neu.edu.cn) 朱靖波 (zhujingbo@mail.neu.edu.cn)
+%----------------------------------------------------------------------------------------
+
+%----------------------------------------------------------------------------------------
 %    CONFIGURATIONS
 %----------------------------------------------------------------------------------------


--- a/Book/ChapterPreface/ChapterPreface.tex
+++ b/Book/ChapterPreface/ChapterPreface.tex
 % !Mode:: "TeX:UTF-8"
 % !TEX encoding = UTF-8 Unicode

+%----------------------------------------------------------------------------------------
+% 机器翻译：统计建模与深度学习方法
+% Machine Translation: Statistical Modeling and Deep Learning Methods
+%
+% Copyright 2020
+% 肖桐(xiaotong@mail.neu.edu.cn) 朱靖波 (zhujingbo@mail.neu.edu.cn)
+%----------------------------------------------------------------------------------------
+
 \renewcommand\figurename{图}

 %----------------------------------------------------------------------------------------

--- a/Book/mt-book-xelatex.idx
+++ b/Book/mt-book-xelatex.idx
-\indexentry{组合性翻译|hyperpage}{10}
-\indexentry{Compositional Translation|hyperpage}{10}
-\indexentry{短语|hyperpage}{10}
-\indexentry{短语切分|hyperpage}{15}
-\indexentry{Phrasal Segmentation|hyperpage}{15}
-\indexentry{短语对|hyperpage}{15}
-\indexentry{推导|hyperpage}{15}
-\indexentry{Derivation|hyperpage}{15}
-\indexentry{生成式模型|hyperpage}{18}
-\indexentry{Generative Model|hyperpage}{18}
-\indexentry{判别式模型|hyperpage}{18}
-\indexentry{Discriminative Model|hyperpage}{18}
-\indexentry{对数线性模型|hyperpage}{19}
-\indexentry{Log-linear Model|hyperpage}{19}
-\indexentry{短语抽取|hyperpage}{20}
-\indexentry{Phrase Extraction|hyperpage}{20}
-\indexentry{词汇化翻译概率|hyperpage}{23}
-\indexentry{Lexical Translation Probability|hyperpage}{23}
-\indexentry{短语表|hyperpage}{23}
-\indexentry{Phrase Table|hyperpage}{23}
-\indexentry{调序|hyperpage}{24}
-\indexentry{Reordering|hyperpage}{24}
-\indexentry{模型训练|hyperpage}{28}
-\indexentry{Model Training|hyperpage}{28}
-\indexentry{权重调优|hyperpage}{28}
-\indexentry{Weight Tuning|hyperpage}{28}
-\indexentry{最小错误率训练|hyperpage}{28}
-\indexentry{Minimum Error Rate Training|hyperpage}{28}
-\indexentry{调优集合|hyperpage}{28}
-\indexentry{Tuning Set|hyperpage}{28}
-\indexentry{线搜索|hyperpage}{29}
-\indexentry{Line Search|hyperpage}{29}
-\indexentry{格搜索|hyperpage}{30}
-\indexentry{Grid Search|hyperpage}{30}
-\indexentry{覆盖度模型|hyperpage}{32}
-\indexentry{Coverage Model|hyperpage}{32}
-\indexentry{翻译候选|hyperpage}{32}
-\indexentry{Translation Candidate|hyperpage}{32}
-\indexentry{翻译假设|hyperpage}{33}
-\indexentry{Translation Hypothesis|hyperpage}{33}
-\indexentry{剪枝|hyperpage}{34}
-\indexentry{Pruning|hyperpage}{34}
-\indexentry{束剪枝|hyperpage}{34}
-\indexentry{Beam Pruning|hyperpage}{34}
-\indexentry{直方图剪枝|hyperpage}{34}
-\indexentry{Histogram Pruning|hyperpage}{34}
-\indexentry{阈值剪枝|hyperpage}{34}
-\indexentry{Threshold Pruning|hyperpage}{34}
-\indexentry{假设重组|hyperpage}{34}
-\indexentry{Hypothesis Recombination|hyperpage}{34}
-\indexentry{基于层次短语的模型|hyperpage}{38}
-\indexentry{Hierarchical Phrase-based Model|hyperpage}{38}
-\indexentry{同步上下文无关文法|hyperpage}{39}
-\indexentry{Synchronous Context-free Grammar|hyperpage}{39}
-\indexentry{基于层次短语的文法|hyperpage}{40}
-\indexentry{Hierarchical Phrase-based Grammar|hyperpage}{40}
-\indexentry{推导|hyperpage}{41}
-\indexentry{Derivation|hyperpage}{41}
-\indexentry{胶水规则|hyperpage}{41}
-\indexentry{Glue Rule|hyperpage}{41}
-\indexentry{乔姆斯基范式|hyperpage}{45}
-\indexentry{Chomsky Normal Form|hyperpage}{45}
-\indexentry{跨度|hyperpage}{45}
-\indexentry{Span|hyperpage}{45}
-\indexentry{自下而上的分析|hyperpage}{46}
-\indexentry{Top-down Parsing|hyperpage}{46}
-\indexentry{束剪枝|hyperpage}{48}
-\indexentry{Beam Pruning|hyperpage}{48}
-\indexentry{立方剪枝|hyperpage}{50}
-\indexentry{Cube Pruning|hyperpage}{50}
-\indexentry{序列化|hyperpage}{53}
-\indexentry{线性化|hyperpage}{53}
-\indexentry{Linearization|hyperpage}{53}
-\indexentry{树到串翻译规则|hyperpage}{55}
-\indexentry{Tree-to-String Translation Rule|hyperpage}{55}
-\indexentry{树到树翻译规则|hyperpage}{55}
-\indexentry{Tree-to-Tree Translation Rule|hyperpage}{55}
-\indexentry{树片段|hyperpage}{56}
-\indexentry{Tree Fragment|hyperpage}{56}
-\indexentry{同步树替换文法规则|hyperpage}{57}
-\indexentry{Synchronous Tree Substitution Grammar Rule|hyperpage}{57}
-\indexentry{边缘集合|hyperpage}{63}
-\indexentry{Frontier Set|hyperpage}{63}
-\indexentry{最小规则|hyperpage}{64}
-\indexentry{Minimal Rules|hyperpage}{64}
-\indexentry{二叉化|hyperpage}{67}
-\indexentry{Binarization|hyperpage}{67}
-\indexentry{基于短语的特征|hyperpage}{72}
-\indexentry{基于句法的特征|hyperpage}{72}
-\indexentry{有向超图|hyperpage}{73}
-\indexentry{Directed Hyper-graph|hyperpage}{73}
-\indexentry{超边|hyperpage}{73}
-\indexentry{Hyper-edge|hyperpage}{73}
-\indexentry{半环分析|hyperpage}{73}
-\indexentry{Semi-ring Parsing|hyperpage}{73}
-\indexentry{组合|hyperpage}{75}
-\indexentry{Composition|hyperpage}{75}
-\indexentry{基于串的解码|hyperpage}{76}
-\indexentry{String-based Decoding|hyperpage}{76}
-\indexentry{基于树的解码|hyperpage}{76}
-\indexentry{Tree-based Decoding|hyperpage}{76}
-\indexentry{Lexicalized Norm Form|hyperpage}{79}
+\indexentry{源语言|hyperpage}{17}
+\indexentry{Source Language|hyperpage}{17}
+\indexentry{目标语言|hyperpage}{17}
+\indexentry{Target Language|hyperpage}{17}
+\indexentry{机器翻译|hyperpage}{18}
+\indexentry{Machine Translation|hyperpage}{18}
+\indexentry{数据驱动|hyperpage}{23}
+\indexentry{Data-Driven|hyperpage}{23}
+\indexentry{编码器-解码器|hyperpage}{30}
+\indexentry{encoder-decoder|hyperpage}{30}
+\indexentry{质量评价|hyperpage}{32}
+\indexentry{Quality Evaluation|hyperpage}{32}
+\indexentry{无参考答案的评价|hyperpage}{32}
+\indexentry{Quality Estimation|hyperpage}{32}
+\indexentry{$n$元语法单元|hyperpage}{33}
+\indexentry{$n$-gram准确率|hyperpage}{34}
+\indexentry{$n$-gram Precision|hyperpage}{34}
+\indexentry{短句惩罚因子|hyperpage}{34}
+\indexentry{Brevity Penalty|hyperpage}{34}
+\indexentry{分词|hyperpage}{50}
+\indexentry{Segmentation|hyperpage}{50}
+\indexentry{句法分析|hyperpage}{51}
+\indexentry{Parsing|hyperpage}{51}
+\indexentry{预处理|hyperpage}{51}
+\indexentry{Pre-processing|hyperpage}{51}
+\indexentry{后处理|hyperpage}{51}
+\indexentry{Post-processing|hyperpage}{51}
+\indexentry{事件|hyperpage}{52}
+\indexentry{Event|hyperpage}{52}
+\indexentry{随机事件|hyperpage}{52}
+\indexentry{随机变量|hyperpage}{52}
+\indexentry{Random Variable|hyperpage}{52}
+\indexentry{概率|hyperpage}{52}
+\indexentry{Probability|hyperpage}{52}
+\indexentry{估计|hyperpage}{52}
+\indexentry{估计值|hyperpage}{52}
+\indexentry{Estimate|hyperpage}{52}
+\indexentry{概率分布函数|hyperpage}{53}
+\indexentry{概率密度函数|hyperpage}{53}
+\indexentry{联合概率|hyperpage}{53}
+\indexentry{Joint Probability|hyperpage}{53}
+\indexentry{条件概率|hyperpage}{53}
+\indexentry{Conditional Probability|hyperpage}{53}
+\indexentry{边缘概率|hyperpage}{54}
+\indexentry{marginal probability|hyperpage}{54}
+\indexentry{全概率公式|hyperpage}{55}
+\indexentry{Law of Total Probability|hyperpage}{55}
+\indexentry{贝叶斯法则|hyperpage}{56}
+\indexentry{Bayes' rule|hyperpage}{56}
+\indexentry{熵|hyperpage}{57}
+\indexentry{Entropy|hyperpage}{57}
+\indexentry{自信息|hyperpage}{57}
+\indexentry{Self-information|hyperpage}{57}
+\indexentry{相对熵|hyperpage}{58}
+\indexentry{Relative Entropy|hyperpage}{58}
+\indexentry{交叉熵|hyperpage}{58}
+\indexentry{Cross-entropy|hyperpage}{58}
+\indexentry{分词|hyperpage}{59}
+\indexentry{Segmentation|hyperpage}{59}
+\indexentry{单词|hyperpage}{59}
+\indexentry{Word|hyperpage}{59}
+\indexentry{词|hyperpage}{59}
+\indexentry{词法分析|hyperpage}{59}
+\indexentry{Lexical Analysis|hyperpage}{59}
+\indexentry{标注数据|hyperpage}{61}
+\indexentry{Annotated Data|hyperpage}{61}
+\indexentry{训练|hyperpage}{61}
+\indexentry{Training|hyperpage}{61}
+\indexentry{推断|hyperpage}{61}
+\indexentry{Inference|hyperpage}{61}
+\indexentry{参数估计|hyperpage}{63}
+\indexentry{Parameter Estimation|hyperpage}{63}
+\indexentry{偏置|hyperpage}{63}
+\indexentry{Bias|hyperpage}{63}
+\indexentry{语言模型|hyperpage}{67}
+\indexentry{Language Model|hyperpage}{67}
+\indexentry{语言建模|hyperpage}{67}
+\indexentry{Language Modeling|hyperpage}{67}
+\indexentry{极大似然估计|hyperpage}{68}
+\indexentry{人工神经网络方法|hyperpage}{68}
+\indexentry{未登录词|hyperpage}{69}
+\indexentry{Out-of-Vocabulary Word，OOV Word|hyperpage}{69}
+\indexentry{加法平滑|hyperpage}{70}
+\indexentry{Additive Smoothing|hyperpage}{70}
+\indexentry{古德-图灵估计法|hyperpage}{71}
+\indexentry{Good-Turing Estimate|hyperpage}{71}
+\indexentry{句法|hyperpage}{74}
+\indexentry{Syntax|hyperpage}{74}
+\indexentry{短语结构分析|hyperpage}{74}
+\indexentry{Phrase Structure Parsing|hyperpage}{74}
+\indexentry{依存分析|hyperpage}{74}
+\indexentry{Dependency Parsing|hyperpage}{74}
+\indexentry{成分分析|hyperpage}{75}
+\indexentry{完全分析|hyperpage}{75}
+\indexentry{Full Parsing|hyperpage}{75}
+\indexentry{终结符|hyperpage}{75}
+\indexentry{Terminal|hyperpage}{75}
+\indexentry{预终结符|hyperpage}{75}
+\indexentry{Pre-terminal|hyperpage}{75}
+\indexentry{非终结符|hyperpage}{75}
+\indexentry{Non-terminal|hyperpage}{75}
+\indexentry{上下文无关文法|hyperpage}{76}
+\indexentry{Context-Free Grammar|hyperpage}{76}
+\indexentry{产生式规则|hyperpage}{77}
+\indexentry{Production Rule|hyperpage}{77}
+\indexentry{推导|hyperpage}{78}
+\indexentry{Derivation|hyperpage}{78}
+\indexentry{句子|hyperpage}{79}
+\indexentry{Sentence|hyperpage}{79}
+\indexentry{语言|hyperpage}{79}
+\indexentry{Language|hyperpage}{79}
+\indexentry{歧义|hyperpage}{79}
+\indexentry{Ambiguity|hyperpage}{79}
+\indexentry{消歧|hyperpage}{79}
+\indexentry{Disambiguation|hyperpage}{79}
+\indexentry{最左优先推导|hyperpage}{79}
+\indexentry{Left-most Derivation|hyperpage}{79}
+\indexentry{概率上下文无关文法|hyperpage}{81}
+\indexentry{Probabilistic Context-Free Grammar|hyperpage}{81}
+\indexentry{树库|hyperpage}{82}
+\indexentry{Treebank|hyperpage}{82}
+\indexentry{生成模型|hyperpage}{83}
+\indexentry{Generative Model|hyperpage}{83}
+\indexentry{判别模型|hyperpage}{83}
+\indexentry{Discriminative Model|hyperpage}{83}
+\indexentry{流畅度|hyperpage}{88}
+\indexentry{Fluency|hyperpage}{88}
+\indexentry{准确性|hyperpage}{88}
+\indexentry{Accuracy|hyperpage}{88}
+\indexentry{充分性|hyperpage}{88}
+\indexentry{Adequacy|hyperpage}{88}
+\indexentry{翻译候选|hyperpage}{89}
+\indexentry{Translation Candidate|hyperpage}{89}
+\indexentry{训练|hyperpage}{91}
+\indexentry{Training|hyperpage}{91}
+\indexentry{解码|hyperpage}{91}
+\indexentry{Decoding|hyperpage}{91}
+\indexentry{推断|hyperpage}{91}
+\indexentry{Inference|hyperpage}{91}
+\indexentry{词对齐|hyperpage}{96}
+\indexentry{Word Alignment|hyperpage}{96}
+\indexentry{词对齐连接|hyperpage}{96}
+\indexentry{解码|hyperpage}{99}
+\indexentry{Decoding|hyperpage}{99}
+\indexentry{噪声信道模型|hyperpage}{102}
+\indexentry{Noise Channel Model|hyperpage}{102}
+\indexentry{词对齐|hyperpage}{104}
+\indexentry{Word Alignment|hyperpage}{104}
+\indexentry{非对称的词对齐|hyperpage}{105}
+\indexentry{Asymmetric Word Alignment|hyperpage}{105}
+\indexentry{空对齐|hyperpage}{105}
+\indexentry{拉格朗日乘数法|hyperpage}{113}
+\indexentry{The Lagrange Multiplier Method|hyperpage}{113}
+\indexentry{期望最大化|hyperpage}{115}
+\indexentry{Expectation Maximization|hyperpage}{115}
+\indexentry{期望频次|hyperpage}{116}
+\indexentry{Expected Count|hyperpage}{116}
+\indexentry{产出率|hyperpage}{119}
+\indexentry{繁衍率|hyperpage}{119}
+\indexentry{Fertility|hyperpage}{119}
+\indexentry{扭曲度|hyperpage}{121}
+\indexentry{Distortion|hyperpage}{121}
+\indexentry{概念单元|hyperpage}{123}
+\indexentry{概念|hyperpage}{123}
+\indexentry{Concept|hyperpage}{123}
+\indexentry{缺陷|hyperpage}{125}
+\indexentry{Deficiency|hyperpage}{125}
+\indexentry{凸函数|hyperpage}{129}
+\indexentry{Convex function|hyperpage}{129}
+\indexentry{对称化|hyperpage}{130}
+\indexentry{Symmetrization|hyperpage}{130}
+\indexentry{系统偏置|hyperpage}{131}
+\indexentry{System Bias|hyperpage}{131}
+\indexentry{组合性翻译|hyperpage}{136}
+\indexentry{Compositional Translation|hyperpage}{136}
+\indexentry{短语|hyperpage}{136}
+\indexentry{短语切分|hyperpage}{141}
+\indexentry{Phrasal Segmentation|hyperpage}{141}
+\indexentry{短语对|hyperpage}{141}
+\indexentry{推导|hyperpage}{141}
+\indexentry{Derivation|hyperpage}{141}
+\indexentry{生成式模型|hyperpage}{144}
+\indexentry{Generative Model|hyperpage}{144}
+\indexentry{判别式模型|hyperpage}{144}
+\indexentry{Discriminative Model|hyperpage}{144}
+\indexentry{对数线性模型|hyperpage}{145}
+\indexentry{Log-linear Model|hyperpage}{145}
+\indexentry{短语抽取|hyperpage}{146}
+\indexentry{Phrase Extraction|hyperpage}{146}
+\indexentry{词汇化翻译概率|hyperpage}{149}
+\indexentry{Lexical Translation Probability|hyperpage}{149}
+\indexentry{短语表|hyperpage}{150}
+\indexentry{Phrase Table|hyperpage}{150}
+\indexentry{调序|hyperpage}{150}
+\indexentry{Reordering|hyperpage}{150}
+\indexentry{模型训练|hyperpage}{154}
+\indexentry{Model Training|hyperpage}{154}
+\indexentry{权重调优|hyperpage}{154}
+\indexentry{Weight Tuning|hyperpage}{154}
+\indexentry{最小错误率训练|hyperpage}{154}
+\indexentry{Minimum Error Rate Training|hyperpage}{154}
+\indexentry{调优集合|hyperpage}{154}
+\indexentry{Tuning Set|hyperpage}{154}
+\indexentry{线搜索|hyperpage}{155}
+\indexentry{Line Search|hyperpage}{155}
+\indexentry{格搜索|hyperpage}{156}
+\indexentry{Grid Search|hyperpage}{156}
+\indexentry{覆盖度模型|hyperpage}{158}
+\indexentry{Coverage Model|hyperpage}{158}
+\indexentry{翻译候选|hyperpage}{158}
+\indexentry{Translation Candidate|hyperpage}{158}
+\indexentry{翻译假设|hyperpage}{159}
+\indexentry{Translation Hypothesis|hyperpage}{159}
+\indexentry{剪枝|hyperpage}{160}
+\indexentry{Pruning|hyperpage}{160}
+\indexentry{束剪枝|hyperpage}{160}
+\indexentry{Beam Pruning|hyperpage}{160}
+\indexentry{直方图剪枝|hyperpage}{160}
+\indexentry{Histogram Pruning|hyperpage}{160}
+\indexentry{阈值剪枝|hyperpage}{160}
+\indexentry{Threshold Pruning|hyperpage}{160}
+\indexentry{假设重组|hyperpage}{160}
+\indexentry{Hypothesis Recombination|hyperpage}{160}
+\indexentry{基于层次短语的模型|hyperpage}{164}
+\indexentry{Hierarchical Phrase-based Model|hyperpage}{164}
+\indexentry{同步上下文无关文法|hyperpage}{165}
+\indexentry{Synchronous Context-free Grammar|hyperpage}{165}
+\indexentry{基于层次短语的文法|hyperpage}{166}
+\indexentry{Hierarchical Phrase-based Grammar|hyperpage}{166}
+\indexentry{推导|hyperpage}{167}
+\indexentry{Derivation|hyperpage}{167}
+\indexentry{胶水规则|hyperpage}{167}
+\indexentry{Glue Rule|hyperpage}{167}
+\indexentry{乔姆斯基范式|hyperpage}{171}
+\indexentry{Chomsky Normal Form|hyperpage}{171}
+\indexentry{跨度|hyperpage}{171}
+\indexentry{Span|hyperpage}{171}
+\indexentry{自下而上的分析|hyperpage}{172}
+\indexentry{Top-down Parsing|hyperpage}{172}
+\indexentry{束剪枝|hyperpage}{174}
+\indexentry{Beam Pruning|hyperpage}{174}
+\indexentry{立方剪枝|hyperpage}{176}
+\indexentry{Cube Pruning|hyperpage}{176}
+\indexentry{序列化|hyperpage}{179}
+\indexentry{线性化|hyperpage}{179}
+\indexentry{Linearization|hyperpage}{179}
+\indexentry{树到串翻译规则|hyperpage}{181}
+\indexentry{Tree-to-String Translation Rule|hyperpage}{181}
+\indexentry{树到树翻译规则|hyperpage}{181}
+\indexentry{Tree-to-Tree Translation Rule|hyperpage}{181}
+\indexentry{树片段|hyperpage}{182}
+\indexentry{Tree Fragment|hyperpage}{182}
+\indexentry{同步树替换文法规则|hyperpage}{183}
+\indexentry{Synchronous Tree Substitution Grammar Rule|hyperpage}{183}
+\indexentry{边缘集合|hyperpage}{189}
+\indexentry{Frontier Set|hyperpage}{189}
+\indexentry{最小规则|hyperpage}{190}
+\indexentry{Minimal Rules|hyperpage}{190}
+\indexentry{二叉化|hyperpage}{194}
+\indexentry{Binarization|hyperpage}{194}
+\indexentry{基于短语的特征|hyperpage}{198}
+\indexentry{基于句法的特征|hyperpage}{198}
+\indexentry{有向超图|hyperpage}{199}
+\indexentry{Directed Hyper-graph|hyperpage}{199}
+\indexentry{超边|hyperpage}{199}
+\indexentry{Hyper-edge|hyperpage}{199}
+\indexentry{半环分析|hyperpage}{200}
+\indexentry{Semi-ring Parsing|hyperpage}{200}
+\indexentry{组合|hyperpage}{201}
+\indexentry{Composition|hyperpage}{201}
+\indexentry{基于串的解码|hyperpage}{201}
+\indexentry{String-based Decoding|hyperpage}{201}
+\indexentry{基于树的解码|hyperpage}{201}
+\indexentry{Tree-based Decoding|hyperpage}{201}
+\indexentry{Lexicalized Norm Form|hyperpage}{205}
+\indexentry{人工神经网络|hyperpage}{211}
+\indexentry{Artificial Neural Networks|hyperpage}{211}
+\indexentry{神经网络|hyperpage}{211}
+\indexentry{Neural Networks|hyperpage}{211}
+\indexentry{深度学习|hyperpage}{212}
+\indexentry{Deep Learning|hyperpage}{212}
+\indexentry{连接主义|hyperpage}{213}
+\indexentry{Connectionism|hyperpage}{213}
+\indexentry{分布式表示|hyperpage}{213}
+\indexentry{Distributed representation|hyperpage}{213}
+\indexentry{符号主义|hyperpage}{213}
+\indexentry{Symbolicism|hyperpage}{213}
+\indexentry{端到端学习|hyperpage}{215}
+\indexentry{End-to-End Learning|hyperpage}{215}
+\indexentry{表示学习|hyperpage}{215}
+\indexentry{Representation Learning|hyperpage}{215}
+\indexentry{分布式表示|hyperpage}{216}
+\indexentry{Distributed Representation|hyperpage}{216}
+\indexentry{标量|hyperpage}{217}
+\indexentry{Scalar|hyperpage}{217}
+\indexentry{向量|hyperpage}{217}
+\indexentry{Vector|hyperpage}{217}
+\indexentry{矩阵|hyperpage}{217}
+\indexentry{Matrix|hyperpage}{217}
+\indexentry{转置|hyperpage}{218}
+\indexentry{Transpose|hyperpage}{218}
+\indexentry{按元素加法|hyperpage}{218}
+\indexentry{Element-wise Addition|hyperpage}{218}
+\indexentry{数乘|hyperpage}{219}
+\indexentry{Scalar Multiplication|hyperpage}{219}
+\indexentry{按元素乘积|hyperpage}{220}
+\indexentry{Element-wise Product|hyperpage}{220}
+\indexentry{线性映射|hyperpage}{220}
+\indexentry{Linear Mapping|hyperpage}{220}
+\indexentry{线性变换|hyperpage}{220}
+\indexentry{Linear Transformation|hyperpage}{220}
+\indexentry{范数|hyperpage}{221}
+\indexentry{Norm|hyperpage}{221}
+\indexentry{欧几里得范数|hyperpage}{222}
+\indexentry{Euclidean Norm|hyperpage}{222}
+\indexentry{Frobenius 范数|hyperpage}{222}
+\indexentry{Frobenius Norm|hyperpage}{222}
+\indexentry{权重|hyperpage}{223}
+\indexentry{weight|hyperpage}{223}
+\indexentry{张量|hyperpage}{233}
+\indexentry{Tensor|hyperpage}{233}
+\indexentry{阶|hyperpage}{233}
+\indexentry{Rank|hyperpage}{233}
+\indexentry{广播机制|hyperpage}{237}
+\indexentry{向量化|hyperpage}{237}
+\indexentry{Vectorization|hyperpage}{237}
+\indexentry{前向传播|hyperpage}{241}
+\indexentry{计算图|hyperpage}{242}
+\indexentry{Computation Graph|hyperpage}{242}
+\indexentry{模型参数|hyperpage}{243}
+\indexentry{Model Parameters|hyperpage}{243}
+\indexentry{训练|hyperpage}{243}
+\indexentry{Training|hyperpage}{243}
+\indexentry{有标注数据|hyperpage}{243}
+\indexentry{Annotated Data/Labeled Data|hyperpage}{243}
+\indexentry{有指导的训练|hyperpage}{243}
+\indexentry{有监督的训练|hyperpage}{243}
+\indexentry{Supervised Training|hyperpage}{243}
+\indexentry{训练数据集合|hyperpage}{244}
+\indexentry{Training Data Set|hyperpage}{244}
+\indexentry{损失函数|hyperpage}{244}
+\indexentry{Loss Function|hyperpage}{244}
+\indexentry{目标函数|hyperpage}{244}
+\indexentry{Objective Function|hyperpage}{244}
+\indexentry{代价函数|hyperpage}{246}
+\indexentry{Cost Function|hyperpage}{246}
+\indexentry{梯度下降方法|hyperpage}{246}
+\indexentry{Gradient Descent Method|hyperpage}{246}
+\indexentry{参数更新的规则|hyperpage}{246}
+\indexentry{Update Rule|hyperpage}{246}
+\indexentry{学习率|hyperpage}{246}
+\indexentry{Learning Rate|hyperpage}{246}
+\indexentry{基于梯度的方法|hyperpage}{246}
+\indexentry{Gradient-based Method|hyperpage}{246}
+\indexentry{批量梯度下降|hyperpage}{247}
+\indexentry{Batch Gradient Descent|hyperpage}{247}
+\indexentry{随机梯度下降|hyperpage}{247}
+\indexentry{Stochastic Gradient Descent|hyperpage}{247}
+\indexentry{小批量梯度下降|hyperpage}{247}
+\indexentry{Mini-Batch Gradient Descent|hyperpage}{247}
+\indexentry{数值微分|hyperpage}{248}
+\indexentry{Numerical Differentiation|hyperpage}{248}
+\indexentry{截断误差|hyperpage}{248}
+\indexentry{Truncation Error|hyperpage}{248}
+\indexentry{舍入误差|hyperpage}{248}
+\indexentry{Round-off Error|hyperpage}{248}
+\indexentry{符号微分|hyperpage}{249}
+\indexentry{Symbolic Differentiation|hyperpage}{249}
+\indexentry{表达式膨胀|hyperpage}{249}
+\indexentry{Expression Swell|hyperpage}{249}
+\indexentry{自动微分|hyperpage}{249}
+\indexentry{Automatic Differentiation|hyperpage}{249}
+\indexentry{反向模式|hyperpage}{250}
+\indexentry{Backward Mode|hyperpage}{250}
+\indexentry{学习率|hyperpage}{251}
+\indexentry{Learning Rate|hyperpage}{251}
+\indexentry{Momentum|hyperpage}{251}
+\indexentry{AdaGrad|hyperpage}{252}
+\indexentry{衰减|hyperpage}{252}
+\indexentry{Decay|hyperpage}{252}
+\indexentry{RMSprop|hyperpage}{252}
+\indexentry{Adam|hyperpage}{253}
+\indexentry{数据并行|hyperpage}{253}
+\indexentry{同步更新|hyperpage}{254}
+\indexentry{Synchronous Update|hyperpage}{254}
+\indexentry{异步更新|hyperpage}{254}
+\indexentry{Asynchronous Update|hyperpage}{254}
+\indexentry{参数服务器|hyperpage}{254}
+\indexentry{Parameter Server|hyperpage}{254}
+\indexentry{梯度消失|hyperpage}{255}
+\indexentry{Gradient Vanishing|hyperpage}{255}
+\indexentry{梯度爆炸|hyperpage}{255}
+\indexentry{Gradient Explosion|hyperpage}{255}
+\indexentry{梯度裁剪|hyperpage}{256}
+\indexentry{Gradient Clipping|hyperpage}{256}
+\indexentry{批量归一化|hyperpage}{257}
+\indexentry{Batch Normalization|hyperpage}{257}
+\indexentry{层归一化|hyperpage}{257}
+\indexentry{Layer Normalization|hyperpage}{257}
+\indexentry{残差网络|hyperpage}{257}
+\indexentry{Residual Networks|hyperpage}{257}
+\indexentry{跳接|hyperpage}{257}
+\indexentry{Shortcut Connection|hyperpage}{257}
+\indexentry{过拟合|hyperpage}{258}
+\indexentry{Overfitting|hyperpage}{258}
+\indexentry{正则化|hyperpage}{258}
+\indexentry{Regularization|hyperpage}{258}
+\indexentry{反向传播|hyperpage}{259}
+\indexentry{back propagation|hyperpage}{259}
+\indexentry{神经语言模型|hyperpage}{265}
+\indexentry{Neural Language Model|hyperpage}{265}
+\indexentry{前馈神经网络语言模型|hyperpage}{266}
+\indexentry{Feed-forward Neural Network Language Model|hyperpage}{266}
+\indexentry{循环神经网络|hyperpage}{268}
+\indexentry{Recurrent Neural Network|hyperpage}{268}
+\indexentry{循环神经网络语言模型|hyperpage}{268}
+\indexentry{RNNLM|hyperpage}{268}
+\indexentry{循环单元|hyperpage}{268}
+\indexentry{RNN Cell|hyperpage}{268}
+\indexentry{自注意力机制|hyperpage}{270}
+\indexentry{Self-Attention Mechanism|hyperpage}{270}
+\indexentry{注意力权重|hyperpage}{270}
+\indexentry{Attention Weight|hyperpage}{270}
+\indexentry{困惑度|hyperpage}{271}
+\indexentry{Perplexity|hyperpage}{271}
+\indexentry{One-hot编码|hyperpage}{271}
+\indexentry{独热编码|hyperpage}{271}
+\indexentry{分布式表示|hyperpage}{272}
+\indexentry{Distributed Representation|hyperpage}{272}
+\indexentry{词嵌入|hyperpage}{272}
+\indexentry{Word Embedding|hyperpage}{272}
+\indexentry{句子表示模型|hyperpage}{274}
+\indexentry{句子的表示|hyperpage}{274}
+\indexentry{表示学习|hyperpage}{274}
+\indexentry{Representation Learning|hyperpage}{274}
+\indexentry{可解释机器学习|hyperpage}{278}
+\indexentry{Explainable Machine Learning|hyperpage}{278}
+\indexentry{神经机器翻译|hyperpage}{281}
+\indexentry{Neural Machine Translation|hyperpage}{281}
+\indexentry{分布式表示|hyperpage}{283}
+\indexentry{Distributed Representation|hyperpage}{283}
+\indexentry{特征工程|hyperpage}{289}
+\indexentry{Feature Engineering|hyperpage}{289}
+\indexentry{编码器-解码器模型|hyperpage}{290}
+\indexentry{Encoder-Decoder Paradigm|hyperpage}{290}
+\indexentry{编码器-解码器框架|hyperpage}{290}
+\indexentry{循环神经网络|hyperpage}{295}
+\indexentry{Recurrent Neural Network, RNN|hyperpage}{295}
+\indexentry{词嵌入|hyperpage}{297}
+\indexentry{Word Embedding|hyperpage}{297}
+\indexentry{表示学习|hyperpage}{297}
+\indexentry{Representation Learning|hyperpage}{297}
+\indexentry{生成|hyperpage}{297}
+\indexentry{Generation|hyperpage}{297}
+\indexentry{长短时记忆|hyperpage}{302}
+\indexentry{Long Short-Term Memory|hyperpage}{302}
+\indexentry{遗忘|hyperpage}{302}
+\indexentry{记忆更新|hyperpage}{303}
+\indexentry{输出|hyperpage}{303}
+\indexentry{门循环单元|hyperpage}{304}
+\indexentry{Gated Recurrent Unit，GRU|hyperpage}{304}
+\indexentry{注意力权重|hyperpage}{309}
+\indexentry{Attention Weight|hyperpage}{309}
+\indexentry{一阶矩估计|hyperpage}{315}
+\indexentry{First Moment Estimation|hyperpage}{315}
+\indexentry{二阶矩估计|hyperpage}{315}
+\indexentry{Second Moment Estimation|hyperpage}{315}
+\indexentry{学习率|hyperpage}{316}
+\indexentry{Learning Rate|hyperpage}{316}
+\indexentry{逐渐预热|hyperpage}{316}
+\indexentry{Gradual Warmup|hyperpage}{316}
+\indexentry{分段常数衰减|hyperpage}{317}
+\indexentry{Piecewise Constant Decay|hyperpage}{317}
+\indexentry{数据并行|hyperpage}{318}
+\indexentry{模型并行|hyperpage}{318}
+\indexentry{全搜索|hyperpage}{320}
+\indexentry{Full Search|hyperpage}{320}
+\indexentry{贪婪搜索|hyperpage}{320}
+\indexentry{Greedy Search|hyperpage}{320}
+\indexentry{束搜索|hyperpage}{320}
+\indexentry{Beam Search|hyperpage}{320}
+\indexentry{自回归模型|hyperpage}{320}
+\indexentry{Autoregressive Model|hyperpage}{321}
+\indexentry{非自回归模型|hyperpage}{321}
+\indexentry{Non-autoregressive Model|hyperpage}{321}
+\indexentry{自注意力机制|hyperpage}{326}
+\indexentry{Self-Attention|hyperpage}{326}
+\indexentry{特征提取|hyperpage}{327}
+\indexentry{自注意力子层|hyperpage}{328}
+\indexentry{Self-attention Sub-layer|hyperpage}{328}
+\indexentry{前馈神经网络子层|hyperpage}{328}
+\indexentry{Feed-forward Sub-layer|hyperpage}{328}
+\indexentry{残差连接|hyperpage}{328}
+\indexentry{Residual Connection|hyperpage}{328}
+\indexentry{层正则化|hyperpage}{328}
+\indexentry{Layer Normalization|hyperpage}{328}
+\indexentry{编码-解码注意力子层|hyperpage}{329}
+\indexentry{Encoder-decoder Attention Sub-layer|hyperpage}{329}
+\indexentry{词嵌入|hyperpage}{329}
+\indexentry{Word Embedding|hyperpage}{329}
+\indexentry{位置编码|hyperpage}{329}
+\indexentry{Position Embedding|hyperpage}{329}
+\indexentry{点乘注意力|hyperpage}{333}
+\indexentry{Scaled Dot-Product Attention|hyperpage}{333}
+\indexentry{多头注意力|hyperpage}{335}
+\indexentry{Multi-head Attention|hyperpage}{335}
+\indexentry{残差连接|hyperpage}{336}
+\indexentry{短连接|hyperpage}{337}
+\indexentry{Short-cut Connection|hyperpage}{337}
+\indexentry{后正则化|hyperpage}{338}
+\indexentry{Post-norm|hyperpage}{338}
+\indexentry{前正则化|hyperpage}{338}
+\indexentry{Pre-norm|hyperpage}{338}
+\indexentry{交叉熵损失|hyperpage}{339}
+\indexentry{Cross Entropy Loss|hyperpage}{339}
+\indexentry{预热|hyperpage}{339}
+\indexentry{Warmup|hyperpage}{339}
+\indexentry{小批量训练|hyperpage}{340}
+\indexentry{Mini-batch Training|hyperpage}{340}
+\indexentry{Dropout|hyperpage}{340}
+\indexentry{过拟合|hyperpage}{340}
+\indexentry{Over fitting|hyperpage}{340}
+\indexentry{标签平滑|hyperpage}{340}
+\indexentry{Label Smoothing|hyperpage}{340}
+\indexentry{序列到序列的转换/生成问题|hyperpage}{342}
+\indexentry{Sequence-to-Sequence Problem|hyperpage}{342}
+\indexentry{未登录词|hyperpage}{353}
+\indexentry{Out of Vocabulary Word，OOV Word|hyperpage}{353}
+\indexentry{子词切分|hyperpage}{353}
+\indexentry{Sub-word Segmentation|hyperpage}{353}
+\indexentry{标准化|hyperpage}{353}
+\indexentry{Normalization|hyperpage}{353}
+\indexentry{数据清洗|hyperpage}{353}
+\indexentry{Dada Cleaning|hyperpage}{353}
+\indexentry{数据选择|hyperpage}{355}
+\indexentry{Data Selection|hyperpage}{355}
+\indexentry{数据过滤|hyperpage}{355}
+\indexentry{Data Filtering|hyperpage}{355}
+\indexentry{开放词表|hyperpage}{358}
+\indexentry{Open-Vocabulary|hyperpage}{358}
+\indexentry{子词|hyperpage}{359}
+\indexentry{Sub-word|hyperpage}{359}
+\indexentry{字节对编码|hyperpage}{359}
+\indexentry{双字节编码|hyperpage}{359}
+\indexentry{Byte Pair Encoding，BPE|hyperpage}{359}
+\indexentry{正则化|hyperpage}{362}
+\indexentry{Regularization|hyperpage}{362}
+\indexentry{过拟合问题|hyperpage}{362}
+\indexentry{Overfitting Problem|hyperpage}{362}
+\indexentry{反问题|hyperpage}{362}
+\indexentry{Inverse Problem|hyperpage}{362}
+\indexentry{适定的|hyperpage}{363}
+\indexentry{Well-posed|hyperpage}{363}
+\indexentry{不适定问题|hyperpage}{363}
+\indexentry{Ill-posed Problem|hyperpage}{363}
+\indexentry{降噪|hyperpage}{363}
+\indexentry{Denoising|hyperpage}{363}
+\indexentry{泛化|hyperpage}{364}
+\indexentry{Generalization|hyperpage}{364}
+\indexentry{标签平滑|hyperpage}{365}
+\indexentry{Label Smoothing|hyperpage}{365}
+\indexentry{相互适应|hyperpage}{366}
+\indexentry{Co-Adaptation|hyperpage}{366}
+\indexentry{集成学习|hyperpage}{368}
+\indexentry{Ensemble Learning|hyperpage}{368}
+\indexentry{容量|hyperpage}{369}
+\indexentry{Capacity|hyperpage}{369}
+\indexentry{宽残差网络|hyperpage}{369}
+\indexentry{Wide Residual Network|hyperpage}{369}
+\indexentry{探测任务|hyperpage}{371}
+\indexentry{Probing Task|hyperpage}{371}
+\indexentry{表面信息|hyperpage}{371}
+\indexentry{Surface Information|hyperpage}{371}
+\indexentry{语法信息|hyperpage}{371}
+\indexentry{Syntactic Information|hyperpage}{371}
+\indexentry{语义信息|hyperpage}{371}
+\indexentry{Semantic Information|hyperpage}{371}
+\indexentry{词嵌入|hyperpage}{371}
+\indexentry{Embedding|hyperpage}{371}
+\indexentry{数据并行|hyperpage}{372}
+\indexentry{Data Parallelism|hyperpage}{372}
+\indexentry{模型并行|hyperpage}{372}
+\indexentry{Model Parallelism|hyperpage}{372}
+\indexentry{小批量训练|hyperpage}{372}
+\indexentry{Mini-batch Training|hyperpage}{372}
+\indexentry{课程学习|hyperpage}{374}
+\indexentry{Curriculum Learning|hyperpage}{374}
+\indexentry{推断|hyperpage}{375}
+\indexentry{Inference|hyperpage}{375}
+\indexentry{解码|hyperpage}{375}
+\indexentry{Decoding|hyperpage}{375}
+\indexentry{准确性|hyperpage}{375}
+\indexentry{Accuracy|hyperpage}{375}
+\indexentry{时延|hyperpage}{375}
+\indexentry{Latency|hyperpage}{375}
+\indexentry{时延|hyperpage}{375}
+\indexentry{Memory|hyperpage}{375}
+\indexentry{搜索错误|hyperpage}{375}
+\indexentry{Search Error|hyperpage}{375}
+\indexentry{模型错误|hyperpage}{375}
+\indexentry{Modeling Error|hyperpage}{375}
+\indexentry{重排序|hyperpage}{377}
+\indexentry{Re-ranking|hyperpage}{377}
+\indexentry{双向推断|hyperpage}{377}
+\indexentry{Bidirectional Inference|hyperpage}{377}
+\indexentry{批量推断|hyperpage}{381}
+\indexentry{Batch Inference|hyperpage}{381}
+\indexentry{批量处理|hyperpage}{381}
+\indexentry{Batching|hyperpage}{381}
+\indexentry{二值网络|hyperpage}{383}
+\indexentry{Binarized Neural Networks|hyperpage}{383}
+\indexentry{自回归翻译|hyperpage}{383}
+\indexentry{Autoregressive Translation|hyperpage}{383}
+\indexentry{非自回归翻译|hyperpage}{383}
+\indexentry{Regressive Translation|hyperpage}{383}
+\indexentry{繁衍率|hyperpage}{383}
+\indexentry{Fertility|hyperpage}{383}
+\indexentry{偏置|hyperpage}{385}
+\indexentry{Bias|hyperpage}{385}
+\indexentry{退化|hyperpage}{385}
+\indexentry{Degenerate|hyperpage}{385}
+\indexentry{过翻译|hyperpage}{386}
+\indexentry{Over Translation|hyperpage}{386}
+\indexentry{欠翻译|hyperpage}{386}
+\indexentry{Under Translation|hyperpage}{386}
+\indexentry{充分性|hyperpage}{387}
+\indexentry{Adequacy|hyperpage}{387}
+\indexentry{系统融合|hyperpage}{388}
+\indexentry{System Combination|hyperpage}{388}
+\indexentry{假设选择|hyperpage}{388}
+\indexentry{Hypothesis Selection|hyperpage}{388}
+\indexentry{多样性|hyperpage}{388}
+\indexentry{Diversity|hyperpage}{388}
+\indexentry{重排序|hyperpage}{389}
+\indexentry{Re-ranking|hyperpage}{389}
+\indexentry{混淆网络|hyperpage}{390}
+\indexentry{Confusion Network|hyperpage}{390}
+\indexentry{动态线性层聚合方法|hyperpage}{394}
+\indexentry{Dynamic Linear Combination of Layers，DLCL|hyperpage}{394}
+\indexentry{相互适应|hyperpage}{398}
+\indexentry{Co-adaptation|hyperpage}{398}
+\indexentry{数据增强|hyperpage}{401}
+\indexentry{Data Augmentation|hyperpage}{401}
+\indexentry{回译|hyperpage}{401}
+\indexentry{Back Translation|hyperpage}{401}
+\indexentry{迭代式回译|hyperpage}{401}
+\indexentry{Iterative Back Translation|hyperpage}{401}
+\indexentry{前向翻译|hyperpage}{402}
+\indexentry{Forward Translation|hyperpage}{402}
+\indexentry{预训练|hyperpage}{402}
+\indexentry{Pre-training|hyperpage}{402}
+\indexentry{微调|hyperpage}{402}
+\indexentry{Fine-tuning|hyperpage}{402}
+\indexentry{多任务学习|hyperpage}{404}
+\indexentry{Multitask Learning|hyperpage}{404}
+\indexentry{模型压缩|hyperpage}{405}
+\indexentry{Model Compression|hyperpage}{405}
+\indexentry{学习难度|hyperpage}{405}
+\indexentry{Learning Difficulty|hyperpage}{406}
+\indexentry{教师模型|hyperpage}{406}
+\indexentry{Teacher Model|hyperpage}{406}
+\indexentry{学生模型|hyperpage}{406}
+\indexentry{Student Model|hyperpage}{406}
+\indexentry{基于单词的知识精炼|hyperpage}{406}
+\indexentry{Word-level Knowledge Distillation|hyperpage}{406}
+\indexentry{基于序列的知识精炼|hyperpage}{407}
+\indexentry{Sequence-level Knowledge Distillation|hyperpage}{407}
+\indexentry{中间层输出|hyperpage}{408}
+\indexentry{Hint-based Knowledge Transfer|hyperpage}{408}
+\indexentry{注意力分布|hyperpage}{408}
+\indexentry{Attention To Attention Transfer|hyperpage}{408}
+\indexentry{循环一致性|hyperpage}{410}
+\indexentry{Circle Consistency|hyperpage}{410}
+\indexentry{翻译中回译|hyperpage}{411}
+\indexentry{On-the-fly Back-translation|hyperpage}{411}
+\indexentry{网络结构搜索技术|hyperpage}{414}
+\indexentry{Neural Architecture Search；NAS|hyperpage}{414}
--- a/Book/mt-book-xelatex.ptc
+++ b/Book/mt-book-xelatex.ptc
 \boolfalse {citerequest}\boolfalse {citetracker}\boolfalse {pagetracker}\boolfalse {backtracker}\relax 
-\babel@toc {english}{}
 \defcounter {refsection}{0}\relax 
-\contentsline {part}{\@mypartnumtocformat {I}{统计机器翻译}}{9}{part.1}%
+\select@language {english}
+\defcounter {refsection}{0}\relax 
+\contentsline {part}{\@mypartnumtocformat {I}{机器翻译基础}}{15}{part.1}
 \ttl@starttoc {default@1}
 \defcounter {refsection}{0}\relax 
-\contentsline {chapter}{\numberline {1}基于词的机器翻译模型}{11}{chapter.1}%
+\contentsline {chapter}{\numberline {1}机器翻译简介}{17}{chapter.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {1.1}机器翻译的概念}{17}{section.1.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {1.2}机器翻译简史}{20}{section.1.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {1.2.1}人工翻译}{20}{subsection.1.2.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {1.2.2}机器翻译的萌芽}{21}{subsection.1.2.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {1.2.3}机器翻译的受挫}{22}{subsection.1.2.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {1.2.4}机器翻译的快速成长}{23}{subsection.1.2.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {1.2.5}机器翻译的爆发}{24}{subsection.1.2.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {1.3}机器翻译现状}{25}{section.1.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {1.4}机器翻译方法}{27}{section.1.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {1.4.1}基于规则的机器翻译}{27}{subsection.1.4.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {1.4.2}基于实例的机器翻译}{28}{subsection.1.4.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {1.4.3}统计机器翻译}{29}{subsection.1.4.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {1.4.4}神经机器翻译}{30}{subsection.1.4.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {1.4.5}对比分析}{31}{subsection.1.4.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {1.5}翻译质量评价}{32}{section.1.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {1.5.1}人工评价}{32}{subsection.1.5.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {1.5.2}自动评价}{33}{subsection.1.5.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{BLEU}{33}{section*.17}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{TER}{35}{section*.18}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于检测点的评价}{35}{section*.19}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {1.6}机器翻译应用}{36}{section.1.6}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {1.7}开源项目与评测}{38}{section.1.7}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {1.7.1}开源机器翻译系统}{38}{subsection.1.7.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{统计机器翻译开源系统}{39}{section*.21}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{神经机器翻译开源系统}{40}{section*.22}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {1.7.2}常用数据集及公开评测任务}{42}{subsection.1.7.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {1.8}推荐学习资源}{44}{section.1.8}
+\defcounter {refsection}{0}\relax 
+\contentsline {chapter}{\numberline {2}词法、语法及统计建模基础}{49}{chapter.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {2.1}问题概述 }{50}{section.2.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {2.2}概率论基础}{51}{section.2.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {2.2.1}随机变量和概率}{52}{subsection.2.2.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {2.2.2}联合概率、条件概率和边缘概率}{53}{subsection.2.2.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {2.2.3}链式法则}{54}{subsection.2.2.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {2.2.4}贝叶斯法则}{55}{subsection.2.2.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {2.2.5}KL距离和熵}{57}{subsection.2.2.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{信息熵}{57}{section*.29}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{KL距离}{58}{section*.31}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{交叉熵}{58}{section*.32}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {2.3}中文分词}{59}{section.2.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {2.3.1}基于词典的分词方法}{60}{subsection.2.3.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {2.3.2}基于统计的分词方法}{61}{subsection.2.3.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{统计模型的学习与推断}{61}{section*.36}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{掷骰子游戏}{62}{section*.38}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{全概率分词方法}{64}{section*.42}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {2.4}$n$-gram语言模型 }{66}{section.2.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {2.4.1}建模}{67}{subsection.2.4.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {2.4.2}未登录词和平滑算法}{69}{subsection.2.4.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{加法平滑方法}{70}{section*.48}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{古德-图灵估计法}{71}{section*.50}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{Kneser-Ney平滑方法}{72}{section*.52}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {2.5}句法分析（短语结构分析）}{74}{section.2.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {2.5.1}句子的句法树表示}{74}{subsection.2.5.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {2.5.2}上下文无关文法}{76}{subsection.2.5.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {2.5.3}规则和推导的概率}{81}{subsection.2.5.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {2.6}小结及深入阅读}{83}{section.2.6}
+\defcounter {refsection}{0}\relax 
+\contentsline {part}{\@mypartnumtocformat {II}{统计机器翻译}}{85}{part.2}
+\ttl@stoptoc {default@1}
+\ttl@starttoc {default@2}
+\defcounter {refsection}{0}\relax 
+\contentsline {chapter}{\numberline {3}基于词的机器翻译模型}{87}{chapter.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {3.1}什么是基于词的翻译模型}{87}{section.3.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {3.2}构建一个简单的机器翻译系统}{89}{section.3.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.2.1}如何进行翻译？}{89}{subsection.3.2.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{机器翻译流程}{90}{section*.65}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{人工翻译 vs. 机器翻译}{91}{section*.67}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.2.2}基本框架}{91}{subsection.3.2.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.2.3}单词翻译概率}{92}{subsection.3.2.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{什么是单词翻译概率？}{92}{section*.69}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{如何从一个双语平行数据中学习？}{93}{section*.71}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{如何从大量的双语平行数据中学习？}{94}{section*.72}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.2.4}句子级翻译模型}{95}{subsection.3.2.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基础模型}{95}{section*.74}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{生成流畅的译文}{97}{section*.76}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.2.5}解码}{99}{subsection.3.2.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {3.3}基于词的翻译建模}{101}{section.3.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.3.1}噪声信道模型}{101}{subsection.3.3.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.3.2}统计机器翻译的三个基本问题}{104}{subsection.3.3.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{词对齐}{104}{section*.86}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于词对齐的翻译模型}{105}{section*.89}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于词对齐的翻译实例}{107}{section*.91}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {3.4}IBM模型1-2}{107}{section.3.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.4.1}IBM模型1}{108}{subsection.3.4.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.4.2}IBM模型2}{109}{subsection.3.4.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.4.3}解码及计算优化}{110}{subsection.3.4.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.4.4}训练}{112}{subsection.3.4.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{目标函数}{112}{section*.96}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{优化}{113}{section*.98}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {3.5}IBM模型3-5及隐马尔可夫模型}{119}{section.3.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.5.1}基于产出率的翻译模型}{119}{subsection.3.5.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.5.2}IBM 模型3}{122}{subsection.3.5.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.5.3}IBM 模型4}{123}{subsection.3.5.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.5.4} IBM 模型5}{125}{subsection.3.5.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.5.5}隐马尔可夫模型}{126}{subsection.3.5.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{隐马尔可夫模型}{126}{section*.110}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{词对齐模型}{127}{section*.112}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.5.6}解码和训练}{128}{subsection.3.5.6}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {3.6}问题分析}{129}{section.3.6}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.6.1}词对齐及对称化}{129}{subsection.3.6.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.6.2}Deficiency}{130}{subsection.3.6.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.6.3}句子长度}{131}{subsection.3.6.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {3.6.4}其他问题}{131}{subsection.3.6.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {3.7}小结及深入阅读}{132}{section.3.7}
+\defcounter {refsection}{0}\relax 
+\contentsline {chapter}{\numberline {4}基于短语和句法的机器翻译模型}{135}{chapter.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {4.1}翻译中的结构信息}{135}{section.4.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.1.1}更大粒度的翻译单元}{136}{subsection.4.1.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.1.2}句子的结构信息}{138}{subsection.4.1.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {4.2}基于短语的翻译模型}{140}{section.4.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.2.1}机器翻译中的短语}{140}{subsection.4.2.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.2.2}数学建模及判别式模型}{143}{subsection.4.2.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于翻译推导的建模}{143}{section*.124}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{对数线性模型}{144}{section*.125}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{搭建模型的基本流程}{145}{section*.126}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.2.3}短语抽取}{146}{subsection.4.2.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{与词对齐一致的短语}{147}{section*.129}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{获取词对齐}{148}{section*.133}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{度量双语短语质量}{149}{section*.135}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.2.4}调序}{150}{subsection.4.2.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于距离的调序}{151}{section*.139}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于方向的调序}{151}{section*.141}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于分类的调序}{152}{section*.144}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.2.5}特征}{153}{subsection.4.2.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.2.6}最小错误率训练}{154}{subsection.4.2.6}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.2.7}栈解码}{157}{subsection.4.2.7}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{翻译候选匹配}{158}{section*.149}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{翻译假设扩展}{159}{section*.151}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{剪枝}{160}{section*.153}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{解码中的栈结构}{161}{section*.155}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {4.3}基于层次短语的模型}{162}{section.4.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.3.1}同步上下文无关文法}{164}{subsection.4.3.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{文法定义}{165}{section*.160}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{推导}{166}{section*.161}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{胶水规则}{167}{section*.162}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{处理流程}{168}{section*.163}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.3.2}层次短语规则抽取}{168}{subsection.4.3.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.3.3}翻译模型及特征}{170}{subsection.4.3.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.3.4}CKY解码}{171}{subsection.4.3.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.3.5}立方剪枝}{174}{subsection.4.3.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {4.4}基于语言学句法的模型}{177}{section.4.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.4.1}基于句法的翻译模型分类}{179}{subsection.4.4.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.4.2}基于树结构的文法}{179}{subsection.4.4.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{树到树翻译规则}{182}{section*.179}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于树结构的翻译推导}{183}{section*.181}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{树到串翻译规则}{185}{section*.184}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.4.3}树到串翻译规则抽取}{186}{subsection.4.4.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{树的切割与最小规则}{186}{section*.186}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{空对齐处理}{190}{section*.192}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{组合规则}{191}{section*.194}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{SPMT规则}{191}{section*.196}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{句法树二叉化}{192}{section*.198}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.4.4}树到树翻译规则抽取}{194}{subsection.4.4.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于节点对齐的规则抽取}{195}{section*.202}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于对齐矩阵的规则抽取}{195}{section*.205}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.4.5}句法翻译模型的特征}{196}{subsection.4.4.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.4.6}基于超图的推导空间表示}{199}{subsection.4.4.6}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {4.4.7}基于树的解码 vs 基于串的解码}{201}{subsection.4.4.7}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于树的解码}{202}{section*.213}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于串的解码}{204}{section*.216}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {4.5}小结及深入阅读}{206}{section.4.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {part}{\@mypartnumtocformat {III}{神经机器翻译}}{209}{part.3}
+\ttl@stoptoc {default@2}
+\ttl@starttoc {default@3}
+\defcounter {refsection}{0}\relax 
+\contentsline {chapter}{\numberline {5}人工神经网络和神经语言建模}{211}{chapter.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {5.1}深度学习与人工神经网络}{212}{section.5.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.1.1}发展简史}{212}{subsection.5.1.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{早期的人工神经网络和第一次寒冬}{212}{section*.218}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{神经网络的第二次高潮和第二次寒冬}{213}{section*.219}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{深度学习和神经网络方法的崛起}{214}{section*.220}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.1.2}为什么需要深度学习}{215}{subsection.5.1.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{端到端学习和表示学习}{215}{section*.222}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{深度学习的效果}{216}{section*.224}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {5.2}神经网络基础}{216}{section.5.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.2.1}线性代数基础}{216}{subsection.5.2.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{标量、向量和矩阵}{217}{section*.226}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{矩阵的转置}{218}{section*.227}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{矩阵加法和数乘}{218}{section*.228}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{矩阵乘法和矩阵点乘}{219}{section*.229}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{线性映射}{220}{section*.230}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{范数}{221}{section*.231}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.2.2}人工神经元和感知机}{222}{subsection.5.2.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{感知机\ \raisebox {0.5mm}{------}\ 最简单的人工神经元模型}{223}{section*.234}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{神经元内部权重}{224}{section*.237}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{神经元的输入\ \raisebox {0.5mm}{------}\ 离散 vs 连续}{225}{section*.239}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{神经元内部的参数学习}{225}{section*.241}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.2.3}多层神经网络}{226}{subsection.5.2.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{线性变换和激活函数}{226}{section*.243}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{单层神经网络$\rightarrow $多层神经网络}{229}{section*.250}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.2.4}函数拟合能力}{230}{subsection.5.2.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {5.3}神经网络的张量实现}{233}{section.5.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.3.1} 张量及其计算}{233}{subsection.5.3.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{\ 张量}{233}{section*.259}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{张量的矩阵乘法}{235}{section*.262}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{张量的单元操作}{236}{section*.264}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.3.2}张量的物理存储形式}{237}{subsection.5.3.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.3.3}使用开源框架实现张量计算}{238}{subsection.5.3.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.3.4}前向传播与计算图}{241}{subsection.5.3.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.3.5}神经网络实例}{242}{subsection.5.3.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {5.4}神经网络的参数训练}{243}{section.5.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.4.1}损失函数}{244}{subsection.5.4.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.4.2}基于梯度的参数优化}{245}{subsection.5.4.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{梯度下降}{246}{section*.278}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{梯度获取}{248}{section*.280}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于梯度的方法的变种和改进}{250}{section*.284}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.4.3}参数更新的并行化策略}{253}{subsection.5.4.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.4.4}梯度消失、梯度爆炸和稳定性训练}{255}{subsection.5.4.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{易于优化的激活函数}{255}{section*.287}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{梯度裁剪}{256}{section*.291}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{稳定性训练}{257}{section*.292}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.4.5}过拟合}{258}{subsection.5.4.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.4.6}反向传播}{259}{subsection.5.4.6}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{输出层的反向传播}{260}{section*.295}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{隐藏层的反向传播}{262}{section*.299}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{程序实现}{264}{section*.302}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {5.5}神经语言模型}{265}{section.5.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.5.1}基于神经网络的语言建模}{265}{subsection.5.5.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于前馈神经网络的语言模型}{266}{section*.305}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于循环神经网络的语言模型}{268}{section*.308}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{基于自注意力机制的语言模型}{269}{section*.310}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{语言模型的评价}{271}{section*.312}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.5.2}单词表示模型}{271}{subsection.5.5.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{One-hot编码}{271}{section*.313}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{分布式表示}{272}{section*.315}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {5.5.3}句子表示模型及预训练}{273}{subsection.5.5.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{简单的上下文表示模型}{274}{section*.319}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{ELMO模型}{275}{section*.322}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{GPT模型}{275}{section*.324}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{BERT模型}{276}{section*.326}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{为什么要预训练？}{277}{section*.328}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {5.6}小结及深入阅读}{278}{section.5.6}
+\defcounter {refsection}{0}\relax 
+\contentsline {chapter}{\numberline {6}神经机器翻译模型}{281}{chapter.6}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {6.1}神经机器翻译的发展简史}{281}{section.6.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.1.1}神经机器翻译的起源}{283}{subsection.6.1.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.1.2}神经机器翻译的品质 }{285}{subsection.6.1.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.1.3}神经机器翻译的优势 }{288}{subsection.6.1.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {6.2}编码器-解码器框架}{290}{section.6.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.2.1}框架结构}{290}{subsection.6.2.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.2.2}表示学习}{291}{subsection.6.2.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.2.3}简单的运行实例}{292}{subsection.6.2.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.2.4}机器翻译范式的对比}{293}{subsection.6.2.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {6.3}基于循环神经网络的翻译模型及注意力机制}{294}{section.6.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.3.1}建模}{295}{subsection.6.3.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.3.2}输入（词嵌入）及输出（Softmax）}{298}{subsection.6.3.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.3.3}循环神经网络结构}{301}{subsection.6.3.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{循环神经单元（RNN）}{301}{section*.351}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{长短时记忆网络（LSTM）}{302}{section*.352}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{门控循环单元（GRU）}{304}{section*.355}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{双向模型}{305}{section*.357}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{多层循环神经网络}{306}{section*.359}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.3.4}注意力机制}{306}{subsection.6.3.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{翻译中的注意力机制}{307}{section*.362}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{上下文向量的计算}{309}{section*.365}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{注意力机制的解读}{312}{section*.370}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.3.5}训练}{313}{subsection.6.3.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{损失函数}{314}{section*.373}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{参数初始化}{314}{section*.374}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{优化策略}{315}{section*.375}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{梯度裁剪}{315}{section*.377}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{学习率策略}{316}{section*.378}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{并行训练}{317}{section*.381}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.3.6}推断}{320}{subsection.6.3.6}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{贪婪搜索}{321}{section*.386}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{束搜索}{321}{section*.389}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{长度惩罚}{323}{section*.391}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.3.7}实例-GNMT}{324}{subsection.6.3.7}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {6.4}Transformer}{324}{section.6.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.4.1}自注意力模型}{326}{subsection.6.4.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.4.2}Transformer架构}{328}{subsection.6.4.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.4.3}位置编码}{330}{subsection.6.4.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.4.4}基于点乘的注意力机制}{332}{subsection.6.4.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.4.5}掩码操作}{334}{subsection.6.4.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.4.6}多头注意力}{335}{subsection.6.4.6}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.4.7}残差网络和层正则化}{336}{subsection.6.4.7}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.4.8}前馈全连接网络子层}{338}{subsection.6.4.8}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.4.9}训练}{339}{subsection.6.4.9}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.4.10}推断}{341}{subsection.6.4.10}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {6.5}序列到序列问题及应用}{342}{section.6.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.5.1}自动问答}{342}{subsection.6.5.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.5.2}自动文摘}{343}{subsection.6.5.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.5.3}文言文翻译}{343}{subsection.6.5.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.5.4}对联生成}{344}{subsection.6.5.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {6.5.5}古诗生成}{344}{subsection.6.5.5}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {6.6}小结及深入阅读}{346}{section.6.6}
+\defcounter {refsection}{0}\relax 
+\contentsline {chapter}{\numberline {7}神经机器翻译实战 \ \raisebox {0.5mm}{------}\ 参加一次比赛}{349}{chapter.7}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {7.1}神经机器翻译并不简单}{349}{section.7.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {7.1.1}影响神经机器翻译性能的因素}{350}{subsection.7.1.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {7.1.2}搭建神经机器翻译系统的步骤 }{351}{subsection.7.1.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {7.1.3}架构选择 }{352}{subsection.7.1.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {7.2}数据处理}{352}{section.7.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {7.2.1}分词}{353}{subsection.7.2.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {7.2.2}标准化}{354}{subsection.7.2.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {7.2.3}数据清洗}{355}{subsection.7.2.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {7.2.4}子词切分}{357}{subsection.7.2.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{大词表和OOV问题}{358}{section*.428}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{子词}{358}{section*.430}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{双字节编码（BPE）}{359}{section*.432}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{其他方法}{362}{section*.435}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {7.3}建模与训练}{362}{section.7.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {7.3.1}正则化}{362}{subsection.7.3.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{L1/L2正则化}{364}{section*.437}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{标签平滑}{365}{section*.438}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{Dropout}{366}{section*.440}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{Layer Dropout}{368}{section*.443}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {7.3.2}增大模型容量}{369}{subsection.7.3.2}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{宽网络}{369}{section*.445}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{深网络}{370}{section*.447}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{增大输入层和输出层表示能力}{371}{section*.449}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{大模型的分布式计算}{372}{section*.450}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {7.3.3}大批量训练}{372}{subsection.7.3.3}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{为什么需要大批量训练}{372}{section*.451}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{如何构建批次}{373}{section*.454}
+\defcounter {refsection}{0}\relax 
+\contentsline {section}{\numberline {7.4}推断}{375}{section.7.4}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsection}{\numberline {7.4.1}推断优化}{375}{subsection.7.4.1}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{推断系统的架构}{375}{section*.456}
+\defcounter {refsection}{0}\relax 
+\contentsline {subsubsection}{自左向右推断 vs 自右向左推断}{376}{section*.458}
 \defcounter {refsection}{0}\relax 
-\contentsline {section}{\numberline {1.1}什么是基于词的翻译模型}{11}{section.1.1}%
+\contentsline {subsubsection}{推断加速}{377}{section*.459}
 \defcounter {refsection}{0}\relax 
-\contentsline {section}{\numberline {1.2}构建一个简单的机器翻译系统}{13}{section.1.2}%
+\contentsline {subsection}{\numberline {7.4.2}译文长度控制}{384}{subsection.7.4.2}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.2.1}如何进行翻译？}{13}{subsection.1.2.1}%
+\contentsline {subsubsection}{长度惩罚因子}{385}{section*.465}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{机器翻译流程}{14}{section*.7}%
+\contentsline {subsubsection}{译文长度范围约束}{386}{section*.467}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{人工翻译 vs. 机器翻译}{15}{section*.9}%
+\contentsline {subsubsection}{覆盖度模型}{386}{section*.468}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.2.2}基本框架}{15}{subsection.1.2.2}%
+\contentsline {subsection}{\numberline {7.4.3}多模型集成}{387}{subsection.7.4.3}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.2.3}单词翻译概率}{16}{subsection.1.2.3}%
+\contentsline {subsubsection}{假设选择}{388}{section*.469}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{什么是单词翻译概率？}{16}{section*.11}%
+\contentsline {subsubsection}{局部预测融合}{389}{section*.471}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{如何从一个双语平行数据中学习？}{17}{section*.13}%
+\contentsline {subsubsection}{译文重组}{390}{section*.473}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{如何从大量的双语平行数据中学习？}{18}{section*.14}%
+\contentsline {section}{\numberline {7.5}进阶技术}{391}{section.7.5}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.2.4}句子级翻译模型}{19}{subsection.1.2.4}%
+\contentsline {subsection}{\numberline {7.5.1}深层模型}{391}{subsection.7.5.1}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{基础模型}{19}{section*.16}%
+\contentsline {subsubsection}{Post-Norm vs Pre-Norm}{392}{section*.476}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{生成流畅的译文}{21}{section*.18}%
+\contentsline {subsubsection}{层聚合}{394}{section*.479}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.2.5}解码}{23}{subsection.1.2.5}%
+\contentsline {subsubsection}{深层模型的训练加速}{395}{section*.481}
 \defcounter {refsection}{0}\relax 
-\contentsline {section}{\numberline {1.3}基于词的翻译建模}{26}{section.1.3}%
+\contentsline {subsubsection}{渐进式训练}{395}{section*.482}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.3.1}噪声信道模型}{26}{subsection.1.3.1}%
+\contentsline {subsubsection}{分组稠密连接}{396}{section*.484}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.3.2}统计机器翻译的三个基本问题}{28}{subsection.1.3.2}%
+\contentsline {subsubsection}{学习率重置策略}{397}{section*.486}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{词对齐}{29}{section*.27}%
+\contentsline {subsubsection}{深层模型的鲁棒性训练}{398}{section*.488}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{基于词对齐的翻译模型}{30}{section*.30}%
+\contentsline {subsection}{\numberline {7.5.2}单语数据的使用}{400}{subsection.7.5.2}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{基于词对齐的翻译实例}{31}{section*.32}%
+\contentsline {subsubsection}{伪数据}{401}{section*.492}
 \defcounter {refsection}{0}\relax 
-\contentsline {section}{\numberline {1.4}IBM模型1-2}{32}{section.1.4}%
+\contentsline {subsubsection}{预训练}{402}{section*.495}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.4.1}IBM模型1}{32}{subsection.1.4.1}%
+\contentsline {subsubsection}{联合训练}{404}{section*.498}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.4.2}IBM模型2}{34}{subsection.1.4.2}%
+\contentsline {subsection}{\numberline {7.5.3}知识精炼}{404}{subsection.7.5.3}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.4.3}解码及计算优化}{35}{subsection.1.4.3}%
+\contentsline {subsubsection}{什么是知识精炼}{405}{section*.500}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.4.4}训练}{36}{subsection.1.4.4}%
+\contentsline {subsubsection}{知识精炼的基本方法}{406}{section*.501}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{目标函数}{36}{section*.37}%
+\contentsline {subsubsection}{机器翻译中的知识精炼}{408}{section*.503}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{优化}{37}{section*.39}%
+\contentsline {subsection}{\numberline {7.5.4}双向训练}{408}{subsection.7.5.4}
 \defcounter {refsection}{0}\relax 
-\contentsline {section}{\numberline {1.5}IBM模型3-5及隐马尔可夫模型}{42}{section.1.5}%
+\contentsline {subsubsection}{有监督对偶学习}{410}{section*.505}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.5.1}基于产出率的翻译模型}{44}{subsection.1.5.1}%
+\contentsline {subsubsection}{无监督对偶学习}{410}{section*.506}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.5.2}IBM 模型3}{46}{subsection.1.5.2}%
+\contentsline {subsubsection}{翻译中回译}{411}{section*.508}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.5.3}IBM 模型4}{48}{subsection.1.5.3}%
+\contentsline {section}{\numberline {7.6}小结及深入阅读}{412}{section.7.6}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.5.4} IBM 模型5}{49}{subsection.1.5.4}%
+\contentsline {part}{\@mypartnumtocformat {IV}{附录}}{417}{part.4}
+\ttl@stoptoc {default@3}
+\ttl@starttoc {default@4}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.5.5}隐马尔可夫模型}{51}{subsection.1.5.5}%
+\contentsline {chapter}{\numberline {A}附录A}{419}{Appendix.1.A}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{隐马尔可夫模型}{51}{section*.51}%
+\contentsline {section}{\numberline {A.1}基准数据集}{419}{section.1.A.1}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{词对齐模型}{52}{section*.53}%
+\contentsline {section}{\numberline {A.2}平行语料}{420}{section.1.A.2}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.5.6}解码和训练}{53}{subsection.1.5.6}%
+\contentsline {section}{\numberline {A.3}相关工具}{421}{section.1.A.3}
 \defcounter {refsection}{0}\relax 
-\contentsline {section}{\numberline {1.6}问题分析}{54}{section.1.6}%
+\contentsline {subsection}{\numberline {A.3.1}数据预处理工具}{421}{subsection.1.A.3.1}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.6.1}词对齐及对称化}{54}{subsection.1.6.1}%
+\contentsline {subsection}{\numberline {A.3.2}评价工具}{422}{subsection.1.A.3.2}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.6.2}Deficiency}{55}{subsection.1.6.2}%
+\contentsline {chapter}{\numberline {B}附录B}{423}{Appendix.2.B}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.6.3}句子长度}{56}{subsection.1.6.3}%
+\contentsline {section}{\numberline {B.1}IBM模型3训练方法}{423}{section.2.B.1}
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.6.4}其他问题}{56}{subsection.1.6.4}%
+\contentsline {section}{\numberline {B.2}IBM模型4训练方法}{425}{section.2.B.2}
 \defcounter {refsection}{0}\relax 
-\contentsline {section}{\numberline {1.7}小结及深入阅读}{57}{section.1.7}%
+\contentsline {section}{\numberline {B.3}IBM模型5训练方法}{427}{section.2.B.3}
 \contentsfinish 
--- a/Book/mt-book-xelatex.tex
+++ b/Book/mt-book-xelatex.tex
 % !Mode:: "TeX:UTF-8"
 % !TEX encoding = UTF-8 Unicode

+%----------------------------------------------------------------------------------------
+% 机器翻译：统计建模与深度学习方法
+% Machine Translation: Statistical Modeling and Deep Learning Methods
+%
+% Copyright 2020
+% 肖桐(xiaotong@mail.neu.edu.cn) 朱靖波 (zhujingbo@mail.neu.edu.cn)
+%----------------------------------------------------------------------------------------

 %----------------------------------------------------------------------------------------
 %	BASIC CONFIGURATIONS
@@ -122,14 +129,14 @@
 %	CHAPTERS
 %----------------------------------------------------------------------------------------

-%\include{Chapter1/chapter1}
-%\include{Chapter2/chapter2}
-%\include{Chapter3/chapter3}
+\include{Chapter1/chapter1}
+\include{Chapter2/chapter2}
+\include{Chapter3/chapter3}
 \include{Chapter4/chapter4}
-%\include{Chapter5/chapter5}
-%\include{Chapter6/chapter6}
-%\include{Chapter7/chapter7}
-%\include{ChapterAppend/chapterappend}
+\include{Chapter5/chapter5}
+\include{Chapter6/chapter6}
+\include{Chapter7/chapter7}
+\include{ChapterAppend/chapterappend}


 %----------------------------------------------------------------------------------------