updates of section titles

890d3491 · xiaotong · d2c8f277 · 890d3491 · 890d3491 · 890d3491
Commit 890d3491 authored May 02, 2020 by xiaotong
--- a/Book/Chapter1/chapter1.tex
+++ b/Book/Chapter1/chapter1.tex
@@ -68,6 +68,7 @@
 \parinterval 显然，实现机器翻译并不简单，甚至有人把机器翻译看作是实现人工智能的终极目标。幸运的是，今天的机器翻译无论从技术方法上还是从应用上都有了巨大的飞跃，很多问题在不断被求解。如果你看到过十年前机器翻译的结果，再对比今天的结果，一定会感叹翻译质量的今非昔比，很多译文已经非常准确且流畅。从当今机器翻译的前沿技术看，近三十年机器翻译的进步更多的得益于基于数据驱动方法和统计建模方法的使用。特别是近些年深度学习等基于表示学习的端到端方法使得机器翻译的水平达到了新高度。因此，本书将会对基于统计建模和深度学习方法的机器翻译模型、方法和系统实现进行全面介绍和分析，希望这些内容可以对相关内容的学习和科研工作提供参考。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{机器翻译简史}

 \parinterval 虽然翻译这个概念在人类历史中已经存在了上千年，但机器翻译发展至今只有七十余年的历史。纵观机器翻译的发展，历程曲折又耐人寻味，可以说了解机器翻译的历史对我们深入理解相关技术方法会有很好的启发，甚至对我们了解整个自然语言处理领域的发展也有启示作用。
@@ -168,6 +169,7 @@
 \end{figure}

 %-------------------------------------------
+\sectionnewpage
 \section{机器翻译现状}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \parinterval 机器翻译技术发展到今天已经过无数次迭代，技术范式也经过若干次更替，近些年机器翻译的应用也如雨后春笋。但是大家都很好奇今天的机器翻译的质量究竟如何呢？乐观地说，在受限条件下，机器翻译的译文结果还是非常不错的，甚至可以接近人工翻译的结果。然而，在开放式翻译任务中，机器翻译的结果却并不理想。更严格来说，机器翻译的质量远没有达到人们所期望的完美的程度。对于有些人提到的``机器翻译代替人工翻译''也并不是事实。比如，在高精度同声传译任务中，机器翻译仍需要更多打磨；再比如，针对于小说的翻译，机器翻译还无法做到与人工翻译媲美；甚至有人尝试用机器翻译系统翻译中国古代诗词，这里更多的是娱乐的味道。但是毫无疑问的是，机器翻译可以帮助人类，甚至有朝一日可以代替一些低端的人工翻译工作。
@@ -208,6 +210,7 @@
 \end{figure}
 %-------------------------------------------

+\sectionnewpage
 \section{机器翻译方法}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \parinterval 为了对机器翻译技术有一个整体的认识，这里对一些主要的机器翻译框架进行简要介绍。
@@ -318,6 +321,7 @@
 \parinterval 从现在机器翻译的研究和应用情况来看，基于统计建模的方法（统计机器翻译和神经机器翻译）是主流。这主要是由于它们的系统研发周期短，通过搜集一定量的数据即可实现快速原型。是随着互联网等信息的不断开放，低成本的数据获取可以让系统更快得以实现。特别是最近神经机器翻译凭借其高质量的译文，受到研究人员和开发者的广泛青睐。当然，对不同方法进行融合也是有价值的研究方向，也有很多有趣的探索，比如无指导机器翻译中还是会同时使用统计机器翻译和神经机器翻译方法，这也是一种典型的融合多种方法的思路。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{翻译质量评价}

 \parinterval 机器翻译质量的评价对于机器翻译的发展具有至关重要的意义。首先，评价的结果可以用于指导研究人员不断改进机器翻译结果，并找到最具潜力的技术发展方向。同时，一个权威的翻译质量评价指标可以帮助用户更有效地使用机器翻译的结果。
@@ -461,6 +465,7 @@ His house is on the south bank of the river.
 \parinterval 基于检测点的评价方法的意义在于，它并不是简单给出一个分数，而是帮助系统研发人员定位问题。因此这类方法更多的使用在对机器翻译的结果进行分析上，是对BLEU等整体评价指标的一种很好的补充。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{机器翻译应用}

 \parinterval 机器翻译有着十分广泛的应用，下面看一下机器翻译生活中的具体应用形式：
@@ -515,6 +520,7 @@ His house is on the south bank of the river.

 \parinterval 翻译结果后编辑是指在机器翻译的结果之上，通过少量的人工编辑来进一步完善机器译文。在传统的人工翻译过程中，翻译人员完全依靠人工的方式进行翻译，这虽然保证了翻译质量，但是时间成本高。相对应的，机器翻译具有速度快和成本低的优势。在一些领域，目前的机器翻译质量已经可以很大程度上减小翻译人员的工作量，翻译人员可以在机器翻译的辅助下，花费相对较小的代价来完成翻译。

+\sectionnewpage
 \section{开源项目与评测}

 \parinterval 从实践的角度，机器翻译的发展主要可以归功于两方面的推动作用：开源系统和评测。开源系统通过代码共享的方式使得最新的研究成果可以快速传播，同时实验结果可以复现。而评测比赛，使得各个研究组织的成果可以进行科学的对比，共同推动机器翻译的发展与进步。此外，开源项目也促进了不同团队之间的协作，让研究人员在同一个平台上集中力量攻关。
@@ -614,6 +620,7 @@ His house is on the south bank of the river.

 \parinterval 从机器翻译发展的角度看，这些评测任务给相关研究提供了基准数据集，使得不同的系统都可以在同一个环境下进行比较和分析，进而建立了机器翻译研究所需的实验基础。此外，公开评测也使得研究者可以第一时间了解机器翻译研究的最新成果，比如，有多篇ACL会议最佳论文的灵感就来自当年参加机器翻译评测任务的系统。

+\sectionnewpage
 \section{推荐学习资源}

 \parinterval 首先，推荐一本书《Statistical Machine Translation》\cite{koehn2009statistical}，其作者是机器翻译领域著名学者Philipp Koehn教授。该书是机器翻译领域内的经典之作，介绍了统计机器翻译技术的进展。该书从语言学和概率学两个方面介绍了统计机器翻译的构成要素，然后介绍了统计机器翻译的主要模型：基于词、基于短语和基于树的模型，以及机器翻译评价、语言建模、判别式训练等方法。此外，作者在该书的最新版本中增加了神经机器翻译的章节，方便研究人员全面了解机器翻译的最新发展趋势（\cite{DBLP:journals/corr/abs-1709-07809}）。

--- a/Book/Chapter2/chapter2.tex
+++ b/Book/Chapter2/chapter2.tex
@@ -67,6 +67,7 @@
 \parinterval 本章将会对上述问题及求解问题的方法进行介绍。首先，会用一个例子给出统计建模的基本思路，之后会应用这种方法进行中文分词、语言建模和句法分析。
 \vspace{-1em}
 %--概率论基础-----------------------------------------
+\sectionnewpage
 \section{概率论基础}
 \parinterval 为了便于后续内容的介绍，首先对本书中使用的概率和统计学概念进行说明。
 %--随机变量和概率---------------------
@@ -334,6 +335,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \parinterval 结合相对熵公式可知，交叉熵是KL距离公式中的右半部分。因此，求关于Q的交叉熵的最小值等价于求KL距离的最小值。从实践的角度来说，交叉熵与KL距离的目的相同：都是用来描述两个分布的差异，由于交叉熵计算上更加直观方便，因此在机器翻译中被广泛应用。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{中文分词}

 \parinterval 对于机器翻译系统而言，输入的是已经切分好的单词序列，而不是原始的字符串（图\ref{fig:2.3-1}）。比如，对于一个中文句子，单词之间是没有间隔的，因此需要把一个个的单词切分出来，这样机器翻译系统可以区分不同的翻译单元。甚至，可以对语言学上的单词进行进一步切分，得到词片段序列（比如：中国人$\to$中国/人）。可以把上述过程看作是一种{\small\sffamily\bfseries{分词}}\index{分词}（Segmentation）\index{Segmentation}过程，即：将一个输入的自然语言字符串切割成单元序列（token序列），每个单元都对应可以处理的最小单位。
@@ -610,6 +612,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \parinterval 当然，真正的分词系统还需要解决很多其他问题，比如使用动态规划等方法高效搜索最优解以及如何处理未见过的词等等，由于本节的重点是介绍中文分词的基础方法和统计建模思想，因此无法覆盖所有中文分词的技术内容，有兴趣的读者可以参考\ref{sec2:summary}节的相关文献做进一步深入研究。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{$n$-gram语言模型 }

 \parinterval 在基于统计的汉语分词模型中，我们通过``大题小做''的技巧，利用独立性假设把整个句子的单词切分概率转化为每个单个词出现概率的乘积。这里，每个单词也被称作1-gram（或uni-gram），而1-gram概率的乘积实际上也是在度量词序列出现的可能性（记为$\textrm{P}(w_1 w_2...w_m)$）。这种计算整个单词序列概率$\textrm{P}(w_1 w_2...w_m)$的方法被称为统计语言模型。1-gram语言模型是最简单的一种语言模型，它没有考虑任何的上下文。很自然的一个问题是：能否考虑上下文信息构建更强大的语言模型，进而得到更准确的分词结果。下面将进一步介绍更加通用的$n$-gram语言模型，它在机器翻译及其他自然语言处理任务中有更加广泛的应用。
@@ -887,6 +890,7 @@ c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}
 \parinterval Kneser-Ney平滑是很多语言模型工具的基础\cite{wang-etal-2018-niutrans}\cite{heafield-2011-kenlm}\cite{stolcke2002srilm}。还有很多以此为基础衍生出来的算法，感兴趣的读者可以通过参考文献自行了解\cite{parsing2009speech}\cite{ney1994structuring}\cite{chen1999empirical}。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{句法分析（短语结构分析）}
 \parinterval 通过前面两节的内容，已经了解什么叫做``词''、如何对分词问题进行统计建模。同时也了解了如何对词序列的生成进行概率描述。无论是分词还是语言模型都是句子浅层词串信息的一种表示。对于一个自然语言句子来说，它更深层次的结构信息可以通过句法信息来描述，而句法信息也是机器翻译和自然语言处理其他任务中常用的知识之一。

@@ -1167,6 +1171,7 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber

 %-------------------------------------------
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{小结及深入阅读} \label{sec2:summary}

 \parinterval 本章重点介绍了如何对自然语言处理问题进行统计建模，并从数据中自动学习统计模型的参数，最终使用学习到的模型对新的问题进行处理。之后，本章将这种思想应用到三个自然语言处理任务中，包括：中文分词、语言建模、句法分析，它们也和机器翻译有着紧密的联系。通过系统化的建模，可以发现：经过适当的假设和化简，统计模型可以很好的描述复杂的自然语言处理问题。相关概念和方法也会在后续章节的内容中被广泛使用。

--- a/Book/Chapter3/Chapter3.tex
+++ b/Book/Chapter3/Chapter3.tex
@@ -55,6 +55,7 @@
 %---------------------------
 \parinterval 对于今天的自然语言处理研究，``分析、转换和生成''依然是一个非常深刻的观点。包括机器翻译在内的很多自然语言处理问题都可以用这个过程来解释。比如，对于现在比较前沿的神经机器翻译方法，从大的框架来说，依然在做分析（编码器）、转换（编码-解码注意力）和生成（解码器），只不过这些过程隐含在神经网络的设计中。当然，这里并不会对``分析、转换和生成''的架构展开过多的讨论，随着后面技术内容讨论的深入，这个观念会有进一步体现。
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{构建一个简单的机器翻译系统}
 \label{sec:simple-mt-example}

@@ -420,6 +421,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \vspace{5.5em}%调整布局用
+\sectionnewpage
 \section{基于词的翻译建模}

 \parinterval 在\ref{sec:simple-mt-example}节中，我们实现了一个简单的基于词的统计机器翻译模型，内容涉及建模、训练和解码。但是，还有很多问题还没有进行深入讨论，比如，如何处理空翻译？如何对调序问题进行建模？如何用更严密的数学模型描述翻译过程？如何对更加复杂的统计模型进行训练？等等。针对以上问题，本节将系统的介绍IBM统计机器翻译模型。作为经典的机器翻译模型，对IBM模型的学习将帮助我们建立对自然语言处理问题的系统化建模思想，特别是对问题的数学描述方法将会成为理解本书后续内容的基础工具。
@@ -609,6 +611,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}
 \end{eqnarray}

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{IBM模型1-2}
 \parinterval 公式\ref{eqC3.18-new}和公式\ref{eqC3.19-new}把翻译问题定义为对译文和词对齐同时进行生成的问题。其中有两个问题：首先，公式\ref{eqC3.18-new}的右端（$ \sum_{\mathbf{a}}\textrm{P}(\mathbf{s},\mathbf{a}|\mathbf{t})$）要求对所有的词对齐概率进行求和，但是词对齐的数量随着句子长度是呈指数增长，如何遍历所有的对齐$\mathbf{a}$？其次，公式\ref{eqC3.19-new}虽然对词对齐的问题进行了描述，但是模型中的很多参数仍然很复杂，如何计算$\textrm{P}(m|\mathbf{t})$、$\textrm{P}(a_j|a_1^{j-1},s_1^{j-1},m,\mathbf{t})$和$\textrm{P}(s_j|a_1^{j},s_1^{j-1},m,\mathbf{t})$？针对这些问题，Brown等人总共提出了5种解决方案，这也就是被后人所熟知的5个IBM翻译模型。第一个问题可以通过一定的数学或者工程技巧进行求解；第二个问题可以通过一些假设进行化简，依据化简的层次和复杂度不同，可以分为IBM模型1、IBM模型2、IBM模型3、IBM模型4以及IBM模型5。本节首先介绍较为简单的IBM模型1-2。
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
@@ -973,6 +976,7 @@ a(i|j,m,l) &=\frac{\sum_{k=0}^{K}c_{\mathbb{E}}(i|j;\mathbf{s}^{[k]},\mathbf{t}^
 \end{eqnarray}

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{IBM模型3-5及隐马尔可夫模型}

 \parinterval 本节在IBM模型1-2的基础上继续介绍IBM模型3-5，这些模型采用了更细致的建模方式来描述翻译问题，包括引入产出率、单词的抽象等重要方法。此外，本节也会介绍隐马尔可夫模型，它和IBM模型有一定联系，但是从另一个视角看待翻译问题。
@@ -1238,6 +1242,7 @@ p_0+p_1                            & = & 1 \label{eqC3.62-new}
 \parinterval 类似的，IBM模型3-5和隐马尔可夫模型也都可以使用期望最大化（EM）方法进行模型训练。相关数学推导可参考附录\ref{appendix-B}的内容。通常，可以使用这些模型获得双语句子间的词对齐结果，比如著名的GIZA++工具。这时，往往会使用多个模型，把简单的模型训练后的参数作为初始值送给后面更加复杂的模型。比如，先用IBM模型1训练，之后把参数送给IBM模型2，再训练，之后把参数送给隐马尔可夫模型等。值得注意的是，并不是所有的模型使用EM算法都能找到全局最优解。特别是IBM模型3-5的训练中使用一些剪枝和近似的方法，优化的真实目标函数会更加复杂。不过，IBM模型1是一个{\small\bfnew{凸函数}}\index{凸函数}（Convex function）\index{Convex function}，因此理论上使用EM方法是能找到全局最优解的。更实际的好处是，IBM模型1训练的最终结果与参数的初始化过程无关。这也是为什么在使用IBM系列模型时，往往会使用IBM模型1作为起始模型的原因。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{问题分析}

 \parinterval IBM模型是一个时代的经典，但也留下了一些值得思考的问题。这一方面体现了科学技术发展需要一步步前行，而非简单的一蹴而就。另一方面也体现了机器翻译问题的困难程度。下面对IBM存在的问题进行分析，同时给出一些解决问题的思路，希望通过这些讨论可以使我们对机器翻译问题有更深层次的理解。
@@ -1284,7 +1289,7 @@ p_0+p_1                            & = & 1 \label{eqC3.62-new}

 \parinterval 概念（cept.）的意义是什么？经过前面的分析可知，IBM模型的词对齐模型使用了cept.这个概念。但是，在IBM模型中使用的cept.最多只能对应一个目标语言单词（模型并没有用到源语言cept. 的概念）。因此可以直接用单词代替cept.。这样，即使不引入cept.的概念，也并不影响IBM模型的建模。实际上，cept.的引入确实可以帮助我们从语法和语义的角度解释词对齐过程。不过，这个方法在IBM 模型中的效果究竟如何还没有定论。

-
+\sectionnewpage
 \section{小结及深入阅读}

 \parinterval 本章对IBM系列模型进行了全面的介绍和讨论，从一个简单的基于单词的翻译模型开始，本章以建模、解码、训练多个维度对统计机器翻译进行了描述，期间也涉及了词对齐、优化等多个重要概念。IBM 模型共分为5个模型，对翻译问题的建模依次由浅入深，同时模型复杂度也依次增加。IBM模型作为入门统计机器翻译的``必经之路''，其思想对今天的机器翻译仍然产生着影响。虽然单独使用IBM模型进行机器翻译现在已经不多见，甚至很多从事神经机器翻译等前沿研究的人对IBM模型已经逐渐淡忘，但是不能否认IBM模型标志着一个时代的开始。从某种意义上，当使用公式$\hat{\mathbf{t}} = \argmax_{\mathbf{t}} \textrm{P}(\mathbf{t}|\mathbf{s})$描述机器翻译问题的时候，或多或少都在与IBM模型使用相似的思想。

--- a/Book/Chapter4/chapter4.tex
+++ b/Book/Chapter4/chapter4.tex
@@ -134,6 +134,7 @@
 \parinterval 使用句法信息在机器翻译中不新鲜。在基于规则和模板的翻译模型中，就大量的使用了句法等结构信息。只是由于早期句法分析技术不成熟，系统的整体效果并不突出。在统计机器翻译时代，句法可以很好的融合在统计建模中。通过概率化的文法设计，可以对翻译过程进行很好的描述。在本章的\ref{section-4.3}节和\ref{section-4.4}节中将会详细讨论句法信息在统计机器翻译中的应用。

 %---------4.2基于短语的翻译模型
+\sectionnewpage
 \section{基于短语的翻译模型}\label{section-4.2}

 \parinterval 基于短语的翻译模型是统计机器翻译最具代表性的模型之一\cite{koehn2003statistical,chiang2007hierarchical}。这类模型易于实现，而且性能突出。统计机器翻译中很多经典的方法都出自基于短语的模型，比如：统计调序模型、最小错误率训练等等。下面就来了解一下基于短语的机器翻译是如何工作的。
@@ -865,6 +866,7 @@ dr = \textrm{start}_i-\textrm{end}_{i-1}-1
 %-------------------------------------------

 %---------4.3基于层次短语的模型
+\sectionnewpage
 \section{基于层次短语的模型}\label{section-4.3}

 \parinterval 在机器翻译中，如果翻译需要局部上下文的信息，把短语作为翻译单元是一种理想的方案。但是，单词之间的关系并不总是``局部''的，很多时候需要距离更远一些的搭配。比较典型的例子是含有从句的情况。比如：
@@ -1348,6 +1350,7 @@ span\textrm{[0,4]}&=&\textrm{``猫} \quad \textrm{喜欢} \quad \textrm{吃} \qu
 \parinterval 理论上，立方剪枝最多访问$n{m}^2$个点。但是在实践中发现，如果终止条件设计的合理，搜索的代价基本上与$m$或者$n$呈线性关系。因此，立方剪枝可以大大提高解码速度。立方剪枝实际上是一种启发性的搜索方法。它把搜索空间表示为一个三维空间。它假设：如果空间中某个点的模型得分较高，那么它``周围''的点的得分也很可能较高。这也是对模型得分沿着空间中不同维度具有连续性的一种假设。这种方法也大量的使用在句法分析中，并取得了很好的效果。

 %---------4.4基于语言学句法的模型
+\sectionnewpage
 \section{基于语言学句法的模型}\label{section-4.4}

 \parinterval 层次短语模型是一种典型的基于翻译文法的模型。它把翻译问题转化为语言分析问题。在翻译一个句子的时候，模型会生成一个树形结构，这样也就得到了句子结构的某种表示。图\ref{fig:derivation-of-hierarchical-phrase-and-tree-structure model}展示了一个使用层次短语系统进行翻译时所生成的翻译推导$d$，以及这个推导所对应的树形结构（源语言）。这棵树体现了机器翻译的视角下的句子结构，尽管这个结构并不是人类语言学中的句法树。
@@ -2264,6 +2267,7 @@ d_1 = {d'} \circ {r_5}
 \parinterval 总的来说，基于句法的解码器较为复杂。无论是算法的设计还是工程技巧的运用，对开发者的能力都有一定要求。因此开发一个优秀的基于句法的机器翻译系统是一项有挑战的工作。

 %---------4.5小结及深入阅读
+\sectionnewpage
 \section{小结及深入阅读}\label{section-4.5}

 \parinterval 统计机器翻译模型是近三十年内自然语言处理的重要里程碑之一。其统计建模的思想长期影响着自然语言处理的研究。无论是基于短语的模型，还是基于层次短语的模型，还是基于语言学句法的模型都在尝试回答：究竟应该用什么样的知识对机器翻译进行统计建模？不过，这个问题至今还没有确定的答案。但是，显而易见，统计机器翻译为机器翻译的研究提供了一种范式，即让计算机用概率化的``知识''描述翻译问题。这些`` 知识''就是统计模型的参数，模型可以从大量的双语和单语数据中自动学习参数。这种建模思想在今天的机器翻译研究中仍然随处可见。

--- a/Book/Chapter5/chapter5.tex
+++ b/Book/Chapter5/chapter5.tex
@@ -153,6 +153,7 @@
 %表1------------------------

 %--5.2神经网络基础-----------------------------------------
+\sectionnewpage
 \section{神经网络基础}

 \parinterval 神经网络是一种由大量的节点（或称神经元）之间相互连接构成的计算模型。那么什么是神经元？神经元之间又是如何连接的？神经网络的数学描述又是什么样的？这一节将围绕这些问题对神经网络的基础知识作进行系统的介绍。
@@ -833,6 +834,7 @@ x_0\cdot w_0+x_1\cdot w_1+x_2\cdot w_2 & = & 0\cdot 1+0\cdot 1+1\cdot 1 \nonumbe
 \parinterval 在本书后面的内容中还会看到，深层网络在机器翻译中可以带来明显的性能提升。

 %--5.3神经网络的张量实现-----------------------------------------
+\sectionnewpage
 \section{神经网络的张量实现}

 \parinterval 在神经网络内部，输入经过若干次变换，最终得到输出的结果。这个过程类似于一种逐层的数据``流动''。不禁会产生这样的疑问：在神经网络中，数据是以哪种形式``流动''的？如何去编程实现这种数据``流动''呢？
@@ -1201,6 +1203,7 @@ y&=&{\rm{Sigmoid}}({\rm{Tanh}}(\mathbf x\cdot \mathbf w^1+\mathbf b^1)\cdot \mat
 %-------------------------------------------

 %--5.4神经网络的参数训练-----------------------------------------
+\sectionnewpage
 \section{神经网络的参数训练}

 \parinterval 简单来说，神经网络可以被看作是由变量和函数组成的表达式，例如：$ \mathbf y=\mathbf x+\mathbf b $、$ \mathbf y={\rm{ReLU}}(\mathbf x\cdot \mathbf w+\mathbf b) $、$ \mathbf y={\rm{Sigmoid}}({\rm{ReLU}}(\mathbf x\cdot \mathbf w^1+\mathbf b^1)\cdot \mathbf w^2+\mathbf b^2) $等等，其中的$ \mathbf x $和$ \mathbf y $作为输入和输出变量， $ \mathbf w $、$ \mathbf b $等其他变量作为{\small\sffamily\bfseries{模型参数}}\index{模型参数}（Model Parameters）\index{Model Parameters}。确定了函数表达式和模型参数，也就确定了神经网络模型。通常，表达式的形式需要系统开发者设计，而模型参数的数量有时会非常巨大，因此需要自动学习，这个过程也被称为模型学习或{\small\bfnew{训练}}\index{训练}（Training）\index{Training}。为了实现这个目标，通常会准备一定量的带有标准答案的数据，称之为{\small\sffamily\bfseries{有标注数据}}\index{有标注数据}（Annotated Data/Labeled Data）\index{Annotated Data/Labeled Data}。这些数据会用于对模型参数的学习，这也对应了统计模型中的参数估计过程。在机器学习中，一般把这种使用有标注数据进行统计模型参数训练的过程称为{\small\sffamily\bfseries{有指导的训练}}\index{有指导的训练}或{\small\sffamily\bfseries{有监督的训练}}\index{有监督的训练}（Supervised Training）\index{Supervised Training}。在本章中，如果没有特殊说明，模型训练都是指有监督的训练。那么神经网络内部是怎样利用有标注数据对参数进行训练的呢？
@@ -1917,6 +1920,7 @@ w_{t+1}&=&w_t-\frac{\eta}{\sqrt{z_t+\epsilon}} v_t
 %-------------------------------------------

 %--5.5神经语言模型-----------------------------------------
+\sectionnewpage
 \section{神经语言模型}\label{sec5:nlm}

 \parinterval  神经网络给我们提供了一种工具，只要将问题的输入和输出定义好，就可以学习输入和输出之间的对应关系。显然，很多自然语言处理任务都可以用神经网络进行实现。比如，在机器翻译中，可以把输入的源语言句子和输出的目标语言句子用神经网络建模；在文本分类中，可以把输入的文本内容和输出的类别标签进行神经网络建模，等等。
@@ -2283,6 +2287,7 @@ Jobs was the CEO of {\red{\underline{apple}}}.
 %-------------------------------------------

 %--5.6小结及深入阅读-----------------------------------------
+\sectionnewpage
 \section{小结及深入阅读}

 \parinterval  神经网络为解决自然语言处理问题提供了全新的思路。而所谓深度学习也是建立在多层神经网络结构之上的一系列模型和方法。本章从神经网络的基本概念到其在语言建模中的应用进行了概述。由于篇幅所限，这里无法覆盖所有神经网络和深度学习的相关内容，感兴趣的读者可以进一步阅读《Neural Network Methods in Natural Language Processing》\cite{goldberg2017neural}和《Deep Learning》\cite{lecun2015deep}。此外，也有很多研究方向值得关注：

--- a/Book/Chapter6/Chapter6.tex
+++ b/Book/Chapter6/Chapter6.tex
@@ -215,6 +215,7 @@ NMT                     & $ 21.7^{\ast}$          & $18.7^{\ast}$           & -1
 \parinterval  当然，神经机器翻译也并不完美，很多问题有待解决。首先，神经机器翻译需要大规模浮点运算的支持，模型的推断速度较低。为了获得优质的翻译结果，往往需要大量GPU设备的支持，计算资源成本很高；其次，由于缺乏人类的先验知识对翻译过程的指导，神经机器翻译的运行过程缺乏可解释性，系统的可干预性也较差；此外，虽然脱离了繁重的特征工程，神经机器翻译仍然需要人工设计网络结构，包括模型的各种超参的设置、训练策略的选择等，仍然有大量人工参与。这也导致很多实验结果不容易重现。显然，完全不依赖人工进行机器翻译还很遥远。不过，随着研究者的不断攻关，很多问题也得到了缓解。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{编码器-解码器框架}%Index的作用，目前不清晰
 \parinterval 说到神经机器翻译就不得不提{\small\bfnew{编码器-解码器模型}}\index{编码器-解码器模型}（Encoder-Decoder Paradigm）\index{Encoder-Decoder Paradigm}，或{\small\bfnew{编码器-解码器框架}} \index{编码器-解码器框架}。本质上，编码器-解码器模型是描述输入-输出之间关系的一种方式。编码器-解码器这个概念在日常生活中并不少见。例如在电视系统上为了便于视频的传播，会使用各种编码器将视频编码成数字信号，在客户端，相应的解码器组件会把收到的数字信号解码为视频。另外一个更贴近生活的例子是电话。它通过对声波和电信号进行相互转换，达到传递声音的目的。这种``先编码，再解码''的思想被应用到密码学、信息论等多个领域。

@@ -326,6 +327,7 @@ NMT                     & $ 21.7^{\ast}$          & $18.7^{\ast}$           & -1

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %\vspace{5.5em}%调整布局用
+\sectionnewpage
 \section{基于循环神经网络的翻译模型及注意力机制}
 \label{sec:6.3}
 \parinterval 早期神经机器翻译的进展主要来自两个方面：1）使用循环神经网络对单词序列进行建模；2）注意力机制的使用。表\ref{tab:papers in 2013-2015}列出了2013-2015年间有代表性的部分研究工作。从这些工作的内容上看，当时的研究重点还是如何有效的使用循环神经网络进行翻译建模以及使用注意力机制捕捉双语单词序列间的对应关系。
@@ -1226,6 +1228,7 @@ L(\mathbf{Y},\widehat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\
 \end{table}
 %--------------------------------------
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{Transformer}

 \parinterval 编码器-解码器框架提供了一个非常灵活的机制，因为开发者只需要设计编码器和解码器的结构就能完成机器翻译。但是，架构的设计是深度学习中最具挑战的工作，优秀的架构往往需要长时间的探索和大量的实验验证，而且还需要一点点``灵感''。
@@ -1731,6 +1734,7 @@ Transformer Deep(48层) & 30.2            & 43.1            & 194$\times 10^{6}$
 \end{figure}
 %----------------------------------------------
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{序列到序列问题及应用}
 \parinterval 虽然翻译的目的是进行自然语言文字的转化，但是并不需要限制机器翻译只能进行两种语言之间的转换。从某种意义上讲，一个输入序列转化到一个输出序列的过程都可以被看作``翻译''。这类问题通常被称作{\small\sffamily\bfseries{序列到序列的转换/生成问题}}\index{序列到序列的转换/生成问题}（Sequence-to-Sequence Problem）\index{Sequence-to-Sequence Problem}。而机器翻译模型也是一种典型的序列到序列模型。

@@ -1799,6 +1803,7 @@ Transformer Deep(48层) & 30.2            & 43.1            & 194$\times 10^{6}$
 %-------------------------------------------

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\sectionnewpage
 \section{小结及深入阅读}%Index的作用，目前不清晰

 \parinterval 神经机器翻译是近几年的热门方向。无论是前沿性的技术探索，还是面向应用落地的系统研发，神经机器翻译已经成为当下最好的选择之一。研究人员对神经机器翻译的热情使得这个领域得到了快速的发展。本章作为神经机器翻译的入门章节，对神经机器翻译的建模思想和基础框架进行了描述。同时，对常用的神经机器翻译架构 - 循环神经网络和Transformer - 进行了讨论与分析。下一章会对神经机器翻译中的一些常用技术和前沿方法进行进一步介绍。

--- a/Book/Chapter7/Chapter7.tex
+++ b/Book/Chapter7/Chapter7.tex
--- a/Book/Chapter7/Figures/figure-bpe.tex
+++ b/Book/Chapter7/Figures/figure-bpe.tex
@@ -25,7 +25,7 @@
        & `wid' & `widest$<$e$>$' & `lowe' & `lower'& `lower$<$e$>$'
 		\end{tabular}};

-	\node[node,anchor=west] (line1) at ([xshift = 8em]node1.south east) {按字符拆分单词，并添加};
+	\node[node,anchor=west] (line1) at ([xshift = 8em]node1.south east) {按字符拆分，并添加};
 	\node[node,anchor=north west] (line2) at ([yshift=0.3em]line1.south west) {终结符$<$e$>$,统计词频。};

 	\node[node,anchor=north west] (line3) at ([yshift=-4em]line2.south west) {统计每一个连续字节对};

--- a/Book/Chapter7/Figures/figure-label-smoothing.tex
+++ b/Book/Chapter7/Figures/figure-label-smoothing.tex

 \begin{tikzpicture}
 	
-	\node[font=\scriptsize] (model) at (0,0) {Model out:};
-	\node[anchor=north west,font=\scriptsize] (label_smooth) at ([yshift=-1.8em]model.south west) {label smoothing:};
-	\node[anchor=south west,font=\scriptsize] (one-hot) at ([yshift=2em]model.north west) {one hot:};
+	\node[font=\scriptsize] (model) at (0,0) {Model Output:};
+	\node[anchor=north west,font=\scriptsize] (label_smooth) at ([yshift=-1.8em]model.south west) {Label Smoothing:};
+	\node[anchor=south west,font=\scriptsize] (one-hot) at ([yshift=2em]model.north west) {One-hot:};
 	
 	\node [anchor=west,minimum width=1em,minimum height=0.2em,fill=ublue!80,inner sep=0pt] (model_label1) at ([xshift=2em,yshift=-0.5em]model.east) {};
    \node [anchor=south,font=\scriptsize] (model_w1) at (model_label1.north) {$p_{1}$};

--- a/Book/Chapter7/Figures/figure-translation-example.tex
+++ b/Book/Chapter7/Figures/figure-translation-example.tex
@@ -4,7 +4,7 @@
 	\node [op] {
 	\begin{tabular}{l}
 	\rule{0pt}{13pt} 这里 \ \ 来举 \ \ 几个 \ \ 例子 。\\
-	\rule{0pt}{13pt} 她 \ \ 必需 \ \ 得 \ \ 装扮成 \ \ 男人 。 \\
+	\rule{0pt}{13pt} 她 \ \ 必需 \ \ 得 \ \ 装扮成 \ \ 男人 \ \ 。 \\
 	\rule{0pt}{13pt} 语言 \ \ 本身\ \ 不会 \ \ 发生 \ \ 那些 \ \ 我们 \ \ 跟不上 \ \ 的 \ \ 变化 。 \\
 	\rule{0pt}{13pt} 在 \ \ 他\ \  腰\ \  上 \ \ 缠 着 \ \ 一条 \ \ 运动衫 。 \\
 	\rule{0pt}{13pt} 你 \ \ 给 \ \ 他 \ \ 更 \ \ 多 \ \ 的 \ \ 钱 \ \ ； \ \ 他 \ \ 在 \ \ 一段时间 内 \ \ 偿还 \ \ 给 \ \ 你 \ \ 。 \\

--- a/Book/bibliography.bib
+++ b/Book/bibliography.bib
@@ -4162,7 +4162,7 @@ pages ={157-166},
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%% chapter 7------------------------------------------------------
-@article{姚树杰2011基于句对质量和覆盖度的统计机器翻译训练语料选取,
+@article{姚树杰2011,
  title={基于句对质量和覆盖度的统计机器翻译训练语料选取},
  author={姚树杰 and 肖桐 and 朱靖波},
  journal={中文信息学报},

--- a/Book/mt-book-xelatex.idx
+++ b/Book/mt-book-xelatex.idx
@@ -37,6 +37,8 @@
 \indexentry{Ensemble Learning|hyperpage}{25}
 \indexentry{容量|hyperpage}{26}
 \indexentry{Capacity|hyperpage}{26}
+\indexentry{宽残差网络|hyperpage}{26}
+\indexentry{Wide Residual Network|hyperpage}{26}
 \indexentry{探测任务|hyperpage}{28}
 \indexentry{Probing Task|hyperpage}{28}
 \indexentry{浅层网络表示|hyperpage}{28}

--- a/Book/mt-book-xelatex.ptc
+++ b/Book/mt-book-xelatex.ptc
--- a/Book/mt-book-xelatex.tex
+++ b/Book/mt-book-xelatex.tex
@@ -59,7 +59,7 @@

 \end{tikzpicture}
 \vfill
-\endgroup
+\endgroup·

 %----------------------------------------------------------------------------------------
 %	COPYRIGHT PAGE
@@ -75,7 +75,7 @@

 \noindent \textsc{\url{https://github.com/NiuTrans/MTBook}}\\ % URL

-\noindent {\red{Licensed under the Creative Commons Attribution-NonCommercial 4.0 Unported License (the ``License''). You may not use this file except in compliance with the License. You may obtain a copy of the License at \url{http://creativecommons.org/licenses/by-nc/3.0}. Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an \textsc{``as is'' basis, without warranties or conditions of any kind}, either express or implied. See the License for the specific language governing permissions and limitations under the License.}}\\ % License information, replace this with your own license (if any)
+\noindent {\red{Licensed under the Creative Commons Attribution-NonCommercial 4.0 Unported License (the ``License''). You may not use this file except in compliance with the License. You may obtain a copy of the License at \url{http://creativecommons.org/licenses/by-nc/4.0}. Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an \textsc{``as is'' basis, without warranties or conditions of any kind}, either express or implied. See the License for the specific language governing permissions and limitations under the License.}}\\ % License information, replace this with your own license (if any)

 \noindent \textit{First Edition, April 2020}


--- a/Book/mt-book.tex
+++ b/Book/mt-book.tex
@@ -77,7 +77,7 @@

 \noindent \textsc{\url{https://github.com/NiuTrans/MTBook}}\\ % URL

-\noindent {\red{Licensed under the Creative Commons Attribution-NonCommercial 4.0 Unported License (the ``License''). You may not use this file except in compliance with the License. You may obtain a copy of the License at \url{http://creativecommons.org/licenses/by-nc/3.0}. Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an \textsc{``as is'' basis, without warranties or conditions of any kind}, either express or implied. See the License for the specific language governing permissions and limitations under the License.}}\\ % License information, replace this with your own license (if any)
+\noindent {\red{Licensed under the Creative Commons Attribution-NonCommercial 4.0 Unported License (the ``License''). You may not use this file except in compliance with the License. You may obtain a copy of the License at \url{http://creativecommons.org/licenses/by-nc/4.0}. Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an \textsc{``as is'' basis, without warranties or conditions of any kind}, either express or implied. See the License for the specific language governing permissions and limitations under the License.}}\\ % License information, replace this with your own license (if any)

 \noindent \textit{First Edition, April 2020}


--- a/Book/structure.tex
+++ b/Book/structure.tex
@@ -114,7 +114,7 @@
 	{\addvspace{3pt}\sffamily\bfseries} % Spacing and font options for sections
 	{\contentslabel[\thecontentslabel]{1.25cm}} % Formatting of numbered sections of this type
 	{} % Formatting of numberless sections of this type
-	{ \titlerule*[.5pc]{.}\;\thecontentspage}%
+	{\titlerule*[.5pc]{.}\;\thecontentspage}%
 	%{\hfill\color{black}\thecontentspage} % Formatting of the filler to the right of the heading and the page number
 % Subsection text styling
 \titlecontents{subsection}
@@ -372,15 +372,15 @@ innerbottommargin=5pt]{cBox}
 \renewcommand{\section}{\@startsection{section}{1}{\z@}
 {-4ex \@plus -1ex \@minus -.4ex}
 {1ex \@plus.2ex }
-{\normalfont\large\sffamily\bfseries}}
+{\color{ublue}\normalfont\Large\sffamily\bfseries}}
 \renewcommand{\subsection}{\@startsection {subsection}{2}{\z@}
 {-3ex \@plus -0.1ex \@minus -.4ex}
 {0.5ex \@plus.2ex }
-{\normalfont\sffamily\bfseries}}
+{\normalfont\large\sffamily\bfseries}}
 \renewcommand{\subsubsection}{\@startsection {subsubsection}{3}{\z@}
 {-3ex \@plus -0.1ex \@minus -.4ex}
 {.4ex \@plus.2ex }
-{\normalfont\small\sffamily\bfseries}}
+{\normalfont\normalsize\sffamily\bfseries}}
 \renewcommand\paragraph{\@startsection{paragraph}{4}{\z@}
 {-2ex \@plus-.2ex \@minus .2ex}
 {.1ex}
@@ -537,6 +537,13 @@ addtohook={%
 \fi
 }
 }
+
+%----------------------------------------------------------------------------------------
+%	NEW PAGE FOR SUBSECTION
+%----------------------------------------------------------------------------------------
+%\newcommand{\sectionnewpage}{\newpage}
+\newcommand{\sectionnewpage}{}
+
 %----------------------------------------------------------------------------------------
 %	Chapter 3
 %----------------------------------------------------------------------------------------