其它 => 其他

0290875b · xiaotong · a4ddb2af · 0290875b · 0290875b · 0290875b
Commit 0290875b authored Apr 13, 2020 by xiaotong
--- a/Book/Chapter1/chapter1.tex
+++ b/Book/Chapter1/chapter1.tex
@@ -29,7 +29,7 @@

 \parinterval 一直以来，自然语言文字的翻译往往是由人工完成。让计算机像人一样进行翻译似乎还是电影中的桥段，因为很难想象人类语言的多样性和复杂性可以用计算机语言进行描述。但是时至今日，人工智能技术的发展已经大大超越了人类传统的认知，用计算机进行自动翻译也不再是一种想象，它已经深入到人们生活的很多方面，并发挥着重要作用。而这种由计算机进行自动翻译的过程也被称作{\small\bfnew{机器翻译}}（Machine Translation）。类似的，自动翻译、智能翻译、多语言自动转换等概念也是指同样的事情。如果将今天的机器翻译和人工翻译进行对比，可以发现机器翻译系统所生成的译文还并不完美，甚至有时翻译质量非常差。但是其优点在于速度快并且成本低，更为重要的是机器翻译系统可以从大量数据中不断学习和进化。人工翻译尽管精度很高，但是费时费力。当需要翻译大量的文本且精度要求不那么高时，比如海量数据的浏览型任务，机器翻译的优势就体现了出来。对于人工作业无法完成的事情，使用机器翻译可能只需花几个小时甚至几分钟就能完成。这就类似于拿着锄头耕地种庄稼和使用现代化机器作业之间的区别。

-\parinterval 实现机器翻译往往需要多个学科知识的融合，如数学、语言学、计算机科学、心理学等等。而最终呈现给我们的是一套软件系统\ ——\ 即机器翻译系统。通俗来讲，机器翻译系统就是一个可以在计算机上运行的软件工具，与我们使用的其它软件一样。只不过机器翻译系统是由``不可见的程序''组成，虽然这个系统非常复杂，但是呈现出来的展示形式却很简单，比如输入是待翻译的句子或文本，输出是译文句子或文本。
+\parinterval 实现机器翻译往往需要多个学科知识的融合，如数学、语言学、计算机科学、心理学等等。而最终呈现给我们的是一套软件系统\ ——\ 即机器翻译系统。通俗来讲，机器翻译系统就是一个可以在计算机上运行的软件工具，与我们使用的其他软件一样。只不过机器翻译系统是由``不可见的程序''组成，虽然这个系统非常复杂，但是呈现出来的展示形式却很简单，比如输入是待翻译的句子或文本，输出是译文句子或文本。

 %----------------------------------------------
 % 图1.2
@@ -453,7 +453,7 @@ His house is on the south bank of the river.

 \parinterval （三）科技文献翻译

-\parinterval 在专利等科技文献翻译中，往往需要将文献翻译为英语或者其它语言，比如摘要翻译。以往这种翻译工作通常由人工来完成。由于翻译质量要求较高，因此要求翻译人员具有相关背景知识，这导致译员资源稀缺。特别是，近几年国内专利申请数不断增加，这给人工翻译带来了很大的负担。相比于人工翻译，机器翻译可以在短时间内完成大量的专利翻译，同时结合术语词典和人工校对等方式，可以保证专利的翻译质量。同时，以专利为代表的科技文献往往具有很强的领域性，针对各类领域文本进行单独优化，机器翻译的品质可以大大提高。因此，机器翻译在专利翻译等行业有十分广泛的应用前景。
+\parinterval 在专利等科技文献翻译中，往往需要将文献翻译为英语或者其他语言，比如摘要翻译。以往这种翻译工作通常由人工来完成。由于翻译质量要求较高，因此要求翻译人员具有相关背景知识，这导致译员资源稀缺。特别是，近几年国内专利申请数不断增加，这给人工翻译带来了很大的负担。相比于人工翻译，机器翻译可以在短时间内完成大量的专利翻译，同时结合术语词典和人工校对等方式，可以保证专利的翻译质量。同时，以专利为代表的科技文献往往具有很强的领域性，针对各类领域文本进行单独优化，机器翻译的品质可以大大提高。因此，机器翻译在专利翻译等行业有十分广泛的应用前景。

 \parinterval （四）全球化

@@ -506,7 +506,7 @@ His house is on the south bank of the river.
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \vspace{0.5em}
 \begin{itemize}
-\item NiuTrans.SMT：NiuTrans\cite{Tong2012NiuTrans}是由东北大学自然语言处理实验室自主研发的统计机器翻译系统，该系统可支持基于短语的模型、基于层次短语的模型以及基于句法的模型。由于使用C++ 语言开发，所以该系统运行时间快，所占存储空间少。系统中内嵌有$n$-gram语言模型，故无需使用其它的系统即可对完成语言建模。网址：\url{http://opensource.niutrans.com/smt/index.html}
+\item NiuTrans.SMT：NiuTrans\cite{Tong2012NiuTrans}是由东北大学自然语言处理实验室自主研发的统计机器翻译系统，该系统可支持基于短语的模型、基于层次短语的模型以及基于句法的模型。由于使用C++ 语言开发，所以该系统运行时间快，所占存储空间少。系统中内嵌有$n$-gram语言模型，故无需使用其他的系统即可对完成语言建模。网址：\url{http://opensource.niutrans.com/smt/index.html}
 \vspace{0.5em}
 \item Moses：Moses\cite{Koehn2007Moses}统计机器翻译时代最著名的系统之一，（主要）由爱丁堡大学的机器翻译团队开发。最新的Moses系统支持很多的功能，例如，它既支持基于短语的模型，也支持基于句法的模型。Moses 提供因子化翻译模型（Factored Translation Model），因此该模型可以很容易的对不同层次的信息进行建模。此外，它允许将混淆网络和字格作为输入，可缓解系统的1-best输出中的错误。Moses还提供了很多有用的脚本和工具，被机器翻译研究者广泛使用。网址：\url{http://www.statmt.org/moses/}
 \vspace{0.5em}
@@ -572,11 +572,11 @@ His house is on the south bank of the river.
 \begin{itemize}
 \item CCMT（全国机器翻译大会），前身为CWMT（全国机器翻译研讨会）是国内机器翻译领域的旗舰会议，自2005年起已经组织多次机器翻译评测，对国内机器翻译相关技术的发展产生了深远影响。该评测主要针对汉语、英语以及国内的少数民族语言（蒙古语、藏语、维吾尔语等）进行评测，领域包括新闻、口语、政府文件等，不同语言方向对应的领域也有所不同。评价方式不同届略有不同，主要采用自动评价的方式，自CWMT 2013起则针对某些领域增设人工评价。自动评价的指标一般包括BLEU-SBP、BLEU-NIST、TER、METEOR、NIST、GTM、mWER、mPER 以及ICT 等，其中以BLEU-SBP 为主，汉语为目标语的翻译采用基于字符的评价方式，面向英语的翻译基于词进行评价。每年该评测吸引国内外近数十家企业及科研机构参赛，业内认可度极高。关于CCMT的更多信息可参考官网：\url{http://www.ai-ia.ac.cn/cwmt2015/evaluation.html} （链接为CWMT 2015）。
 \vspace{0.5em}
-\item WMT由Special Interest Group for Machine Translation（SIGMT）主办，会议自2006年起每年召开一次，是一个涉及机器翻译多种任务的综合性会议，包括多领域翻译评测任务、质量评价任务以及其它与机器翻译的相关任务（如文档对齐评测等）。现在WMT已经成为机器翻译领域的旗舰评测任务，很多研究工作都以WMT任务作为基准。WMT评测涉及的语言范围较广，包括英语、德语、芬兰语、捷克语、罗马尼亚语等十多种语言，翻译方向一般以英语为核心，探索英语与其它语言之间的翻译性能，领域包括新闻、信息技术、生物医学。最近，也增加了无指导机器翻译等热门问题。WMT在评价方面类似于CCMT，也采用人工评价与自动评价相结合的方式，自动评价的指标一般为BLEU、TER 等。此外，WMT公开了所有评测数据，因此也经常被机器翻译相关人员所使用。更多WMT的机器翻译评测相关信息可参考官网：\url{http://www.sigmt.org/}。
+\item WMT由Special Interest Group for Machine Translation（SIGMT）主办，会议自2006年起每年召开一次，是一个涉及机器翻译多种任务的综合性会议，包括多领域翻译评测任务、质量评价任务以及其他与机器翻译的相关任务（如文档对齐评测等）。现在WMT已经成为机器翻译领域的旗舰评测任务，很多研究工作都以WMT任务作为基准。WMT评测涉及的语言范围较广，包括英语、德语、芬兰语、捷克语、罗马尼亚语等十多种语言，翻译方向一般以英语为核心，探索英语与其他语言之间的翻译性能，领域包括新闻、信息技术、生物医学。最近，也增加了无指导机器翻译等热门问题。WMT在评价方面类似于CCMT，也采用人工评价与自动评价相结合的方式，自动评价的指标一般为BLEU、TER 等。此外，WMT公开了所有评测数据，因此也经常被机器翻译相关人员所使用。更多WMT的机器翻译评测相关信息可参考官网：\url{http://www.sigmt.org/}。
 \vspace{0.5em}
 \item NIST机器翻译评测开始于2001年，是早期机器翻译公开评测中颇具代表性的任务，现在WMT和CCMT很多任务的设置也大量参考了当年NIST评测的内容。NIST评测由美国国家标准技术研究所主办，作为美国国防高级计划署（DARPA）中TIDES计划的重要组成部分。早期，NIST评测主要评价阿拉伯语和汉语等语言到英语的翻译效果，评价方法一般采用人工评价与自动评价相结合的方式。人工评价采用5分制评价。自动评价使用多种方式，包括BLEU，METEOR，TER以及HyTER。此外NIST从2016 年起开始对稀缺语言资源技术进行评估，其中机器翻译作为其重要组成部分共同参与评测，评测指标主要为BLEU。除对机器翻译系统进行评测之外，NIST在2008 和2010年对于机器翻译的自动评价方法（MetricsMaTr）也进行了评估，以鼓励更多研究人员对现有评价方法进行改进或提出更加贴合人工评价的方法。同时NIST评测所提供的数据集由于数据质量较高受到众多科研人员喜爱，如MT04，MT06等（汉英）平行语料经常被科研人员在实验中使用。不过，近几年NIST评测已经停止。更多NIST的机器翻译评测相关信息可参考官网：\url{https://www.nist.gov/programs-projects/machine-translation}。
 \vspace{0.5em}
-\item 从2004年开始举办的IWSLT也是颇具特色的机器翻译评测，它主要关注口语相关的机器翻译任务，测试数据包括TED talks的多语言字幕以及QED 教育讲座影片字幕等，语言涉及英语、法语、德语、捷克语、汉语、阿拉伯语等众多语言。此外在IWSLT 2016 中还加入了对于日常对话的翻译评测，尝试将微软Skype中一种语言的对话翻译成其它语言。评价方式采用自动评价的模式，评价标准和WMT类似，一般为BLEU 等指标。另外，IWSLT除了对文本到文本的翻译评测外，还有自动语音识别以及语音转另一种语言的文本的评测。更多IWSLT的机器翻译评测相关信息可参考官网：\url{https://workshop2016.iwslt.org/} （链接为IWSLT2016）
+\item 从2004年开始举办的IWSLT也是颇具特色的机器翻译评测，它主要关注口语相关的机器翻译任务，测试数据包括TED talks的多语言字幕以及QED 教育讲座影片字幕等，语言涉及英语、法语、德语、捷克语、汉语、阿拉伯语等众多语言。此外在IWSLT 2016 中还加入了对于日常对话的翻译评测，尝试将微软Skype中一种语言的对话翻译成其他语言。评价方式采用自动评价的模式，评价标准和WMT类似，一般为BLEU 等指标。另外，IWSLT除了对文本到文本的翻译评测外，还有自动语音识别以及语音转另一种语言的文本的评测。更多IWSLT的机器翻译评测相关信息可参考官网：\url{https://workshop2016.iwslt.org/} （链接为IWSLT2016）
 \vspace{0.5em}
 \item 日本举办的机器翻译评测WAT是亚洲范围内的重要评测之一，由日本科学振兴机构（JST）、情报通信研究机构（NICT）等多家机构共同组织，旨在为亚洲各国之间交流融合提供便宜之处。语言方向主要包括亚洲主流语言（汉语、韩语、印地语等）以及英语对日语的翻译，领域丰富多样，包括学术论文、专利、新闻、食谱等。评价方式包括自动评价（BLEU、RIBES以及AMFM 等）以及人工评价，其特点在于对于测试语料以段落为单位进行评价，考察其上下文关联的翻译效果。更多WAT的机器翻译评测相关信息可参考官网：\url{http://lotus.kuee.kyoto-u.ac.jp/WAT/}。
 \vspace{0.5em}

--- a/Book/Chapter2/chapter2.tex
+++ b/Book/Chapter2/chapter2.tex
@@ -23,7 +23,7 @@
 %--问题概述-----------------------------------------
 \section{问题概述 }\index{Chapter2.1}

-\parinterval 很多时候机器翻译系统被看作是孤立的``黑盒''系统（图 \ref {fig:2.1-1} (a)）。我们将一段文本作为输入送入机器翻译系统，之后得到翻译好的译文输出。但是真实的机器翻译系统要复杂的多。因为系统看到的输入和输出的实际上只是一些符号串，这些符号并没有任何其它意义，因此需要进一步对这些符号串进行处理才能更好的使用它们，比如，需要定义翻译中最基本的单元是什么？符号串是否还有结构信息？如何用数学工具刻画这些基本单元和结构？
+\parinterval 很多时候机器翻译系统被看作是孤立的``黑盒''系统（图 \ref {fig:2.1-1} (a)）。我们将一段文本作为输入送入机器翻译系统，之后得到翻译好的译文输出。但是真实的机器翻译系统要复杂的多。因为系统看到的输入和输出的实际上只是一些符号串，这些符号并没有任何其他意义，因此需要进一步对这些符号串进行处理才能更好的使用它们，比如，需要定义翻译中最基本的单元是什么？符号串是否还有结构信息？如何用数学工具刻画这些基本单元和结构？

 %----------------------------------------------
 % 图2.1
@@ -205,7 +205,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{eq:2.2-6}
 \end{eqnarray}

-\parinterval 根据图\ref {fig:2.2-3} 易知$E$只和$C$有关，所以$\textrm{P}(E \mid A,B,C,D)=\textrm{P}(E \mid C)$；$D$不依赖于其它事件，所以$\textrm{P}(D \mid A,B,C)=\textrm{P}(D)$；$C$只和$B$、$D$有关，所以$\textrm{P}(C \mid A,B)=\textrm{P}(C \mid B)$；$B$不依赖于其他事件，所以$\textrm{P}(B \mid  A)=\textrm{P}(B)$。最终化简可得：
+\parinterval 根据图\ref {fig:2.2-3} 易知$E$只和$C$有关，所以$\textrm{P}(E \mid A,B,C,D)=\textrm{P}(E \mid C)$；$D$不依赖于其他事件，所以$\textrm{P}(D \mid A,B,C)=\textrm{P}(D)$；$C$只和$B$、$D$有关，所以$\textrm{P}(C \mid A,B)=\textrm{P}(C \mid B)$；$B$不依赖于其他事件，所以$\textrm{P}(B \mid  A)=\textrm{P}(B)$。最终化简可得：
 %---------------------------------------------
 \begin{eqnarray}
 \textrm{P}(A,B,C,D,E)=\textrm{P}(E \mid C) \cdot \textrm{P}(D) \cdot \textrm{P}(C \mid B) \cdot \textrm{P}(B)
@@ -302,7 +302,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{eq:2.2-18}
 \end{eqnarray}

-\parinterval 一个分布的信息熵也就是从该分布中得到的一个事件的期望信息量。比如，$a$、$b$、$c$、$d$四支球队，四支队伍夺冠的概率分别是$P_1$、$P_2$、$P_3$、$P_4$，某个人对比赛不感兴趣但是又想知道哪只球队夺冠，通过使用二分法2次就确定哪支球队夺冠了。但其实，我们知道这四只球队中$c$的实力可以碾压其它球队，那么猜1次就可以确定。所以对于前面这种情况，哪只球队夺冠的信息量较高，信息熵也相对较高；对于后面这种情况，因为结果是容易猜到的，信息量和信息熵也就相对较低。因此可以得知：分布越尖锐熵越低；分布越均匀熵越高。
+\parinterval 一个分布的信息熵也就是从该分布中得到的一个事件的期望信息量。比如，$a$、$b$、$c$、$d$四支球队，四支队伍夺冠的概率分别是$P_1$、$P_2$、$P_3$、$P_4$，某个人对比赛不感兴趣但是又想知道哪只球队夺冠，通过使用二分法2次就确定哪支球队夺冠了。但其实，我们知道这四只球队中$c$的实力可以碾压其他球队，那么猜1次就可以确定。所以对于前面这种情况，哪只球队夺冠的信息量较高，信息熵也相对较高；对于后面这种情况，因为结果是容易猜到的，信息量和信息熵也就相对较低。因此可以得知：分布越尖锐熵越低；分布越均匀熵越高。

 \subsubsection{KL距离}\index{Chapter2.2.5.2}

@@ -349,7 +349,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{figure}
 %-------------------------------------------
 %\vspace{-0.5em}
-\parinterval 分词得到的单元序列可以是语言学上的词序列，也可以是根据其它方式定义的基本处理单元。在本章中，我们把分词得到的一个个单元称为{\small\bfnew{单词}}（Word），或{\small\bfnew{词}}，尽管这些单元可以不是语言学上的完整单词。而这个过程也被称作{\small\bfnew{词法分析}}（Lexical Analysis）。除了汉语，词法分析在日语、泰语等单词之间无明确分割符的语言中有着广泛的应用，芬兰语、维吾尔语等一些形态学十分丰富的语言，也需要使用词法分析来解决复杂的词尾、词缀变化等形态学变化。
+\parinterval 分词得到的单元序列可以是语言学上的词序列，也可以是根据其他方式定义的基本处理单元。在本章中，我们把分词得到的一个个单元称为{\small\bfnew{单词}}（Word），或{\small\bfnew{词}}，尽管这些单元可以不是语言学上的完整单词。而这个过程也被称作{\small\bfnew{词法分析}}（Lexical Analysis）。除了汉语，词法分析在日语、泰语等单词之间无明确分割符的语言中有着广泛的应用，芬兰语、维吾尔语等一些形态学十分丰富的语言，也需要使用词法分析来解决复杂的词尾、词缀变化等形态学变化。

 \parinterval 在机器翻译中，分词系统的好坏往往会决定译文的质量。分词的目的是定义系统处理的基本单元，那么什么叫做``词''呢？关于词的定义有很多，比如：\\

@@ -388,7 +388,7 @@ F(X)=\int_{-\infty}^x f(x)dx

 \subsection{基于词典的分词方法}\index{Chapter2.3.1}

-\parinterval 然而，计算机并不能像人类一样在概念上理解``词''，因此需要使用其它方式让计算机可以进行分词。一个最简单的方法就是给定一个词典，在这个词典中出现的汉字组合就是我们定义的``词''。也就是，我们通过一个词典定义一个标准，符合这个标准定义的字符串都是合法的``词''。
+\parinterval 然而，计算机并不能像人类一样在概念上理解``词''，因此需要使用其他方式让计算机可以进行分词。一个最简单的方法就是给定一个词典，在这个词典中出现的汉字组合就是我们定义的``词''。也就是，我们通过一个词典定义一个标准，符合这个标准定义的字符串都是合法的``词''。

 \parinterval 在使用基于词典的分词方法时，只需预先加载词典到计算机中，扫描输入句子，查询每个词串是否出现在词典中。如图\ref{fig:2.3-2} 所示，比如，我们有一个包含六个词的词典，给定输入句子``确实现在物价很高''后，我们自左至右遍历输入句子的每个字，发现词串``确实''在词典中出现，说明``确实''是一个``词''，进行分词操作并在切分该``词''之后重复这个过程。
 %----------------------------------------------
@@ -610,12 +610,12 @@ F(X)=\int_{-\infty}^x f(x)dx

 \parinterval 这种分词方法也被称作基于1-gram语言模型的分词，或全概率分词，使用标注好的分词数据进行学习，获得分词模型。这种方法最大的优点是整个学习过程（模型训练过程）和推导过程（处理新句子进行切分的过程）都是全自动进行的。虽然这种方法十分简单，但是其效率很高，因此被广泛使用在工业界系统里。

-\parinterval 当然，真正的分词系统还需要解决很多其它问题，比如使用动态规划等方法高效搜索最优解以及如何处理未见过的词等等，由于本节的重点是介绍中文分词的基础方法和统计建模思想，因此无法覆盖所有中文分词的技术内容，有兴趣的读者可以参考\ref{sec2:summary}节的相关文献做进一步深入研究。
+\parinterval 当然，真正的分词系统还需要解决很多其他问题，比如使用动态规划等方法高效搜索最优解以及如何处理未见过的词等等，由于本节的重点是介绍中文分词的基础方法和统计建模思想，因此无法覆盖所有中文分词的技术内容，有兴趣的读者可以参考\ref{sec2:summary}节的相关文献做进一步深入研究。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{$n$-gram语言模型 }\index{Chapter2.4}

-\parinterval 在基于统计的汉语分词模型中，我们通过``大题小做''的技巧，利用独立性假设把整个句子的单词切分概率转化为每个单个词出现概率的乘积。这里，每个单词也被称作1-gram（或uni-gram），而1-gram概率的乘积实际上也是在度量词序列出现的可能性（记为$\textrm{P}(w_1 w_2...w_m)$）。这种计算整个单词序列概率$\textrm{P}(w_1 w_2...w_m)$的方法被称为统计语言模型。1-gram语言模型是最简单的一种语言模型，它没有考虑任何的上下文。很自然的一个问题是：能否考虑上下文信息构建更强大的语言模型，进而得到更准确的分词结果。下面我们将进一步介绍更加通用的$n$-gram语言模型，它在机器翻译及其它自然语言处理任务中有更加广泛的应用。
+\parinterval 在基于统计的汉语分词模型中，我们通过``大题小做''的技巧，利用独立性假设把整个句子的单词切分概率转化为每个单个词出现概率的乘积。这里，每个单词也被称作1-gram（或uni-gram），而1-gram概率的乘积实际上也是在度量词序列出现的可能性（记为$\textrm{P}(w_1 w_2...w_m)$）。这种计算整个单词序列概率$\textrm{P}(w_1 w_2...w_m)$的方法被称为统计语言模型。1-gram语言模型是最简单的一种语言模型，它没有考虑任何的上下文。很自然的一个问题是：能否考虑上下文信息构建更强大的语言模型，进而得到更准确的分词结果。下面我们将进一步介绍更加通用的$n$-gram语言模型，它在机器翻译及其他自然语言处理任务中有更加广泛的应用。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsection{建模}\index{Chapter2.4.1}
@@ -719,7 +719,7 @@ F(X)=\int_{-\infty}^x f(x)dx

 \parinterval 为了解决未登录词引起的零概率问题，常用的做法是对模型进行平滑处理，也就是给可能出现的情况一个非零的概率，使得模型不会对整个序列给出零概率。平滑可以用``劫富济贫''这一思想理解，在保证所有情况的概率和为1的前提下，使极低概率的部分可以从高概率的部分分配到一部分概率，从而达到平滑的目的。

-\parinterval 语言模型使用的平滑算法有很多。在本节中，主要介绍三种平滑方法：加法平滑法、古德-图灵估计法和Kneser-Ney平滑。这些方法也可以被应用到其它任务的概率平滑操作中。
+\parinterval 语言模型使用的平滑算法有很多。在本节中，主要介绍三种平滑方法：加法平滑法、古德-图灵估计法和Kneser-Ney平滑。这些方法也可以被应用到其他任务的概率平滑操作中。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsubsection{加法平滑方法}\index{Chapter2.4.2.1}
@@ -812,7 +812,7 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\
 %------------------------------------------------------

 \vspace{-1.5em}
-\parinterval 当$r$很大的时候经常会出现$n_{r+1}=0$的情况，而且这时$n_r$也会有噪音存在。通常，简单的古德-图灵方法可能无法很好的处理这种复杂的情况，不过古德-图灵方法仍然是其它一些平滑方法的基础。
+\parinterval 当$r$很大的时候经常会出现$n_{r+1}=0$的情况，而且这时$n_r$也会有噪音存在。通常，简单的古德-图灵方法可能无法很好的处理这种复杂的情况，不过古德-图灵方法仍然是其他一些平滑方法的基础。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsubsection{Kneser-Ney平滑方法}\index{Chapter2.4.2.3}
@@ -887,7 +887,7 @@ c_{\textrm{KN}}(\cdot) & = & \begin{cases} \textrm{count}(\cdot)\quad\quad \text
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{句法分析（短语结构分析）}\index{Chapter2.5}

-\parinterval 通过前面两节的内容，我们已经了解什么叫做``词''、如何对分词问题进行统计建模。同时也了解了如何对词序列的生成进行概率描述。无论是分词还是语言模型都是句子浅层词串信息的一种表示。对于一个自然语言句子来说，它更深层次的结构信息可以通过句法信息来描述，而句法信息也是机器翻译和自然语言处理其它任务中常用的知识之一。
+\parinterval 通过前面两节的内容，我们已经了解什么叫做``词''、如何对分词问题进行统计建模。同时也了解了如何对词序列的生成进行概率描述。无论是分词还是语言模型都是句子浅层词串信息的一种表示。对于一个自然语言句子来说，它更深层次的结构信息可以通过句法信息来描述，而句法信息也是机器翻译和自然语言处理其他任务中常用的知识之一。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsection{句子的句法树表示}\index{Chapter2.5.1}
@@ -906,7 +906,7 @@ c_{\textrm{KN}}(\cdot) & = & \begin{cases} \textrm{count}(\cdot)\quad\quad \text

 \parinterval 图\ref{fig:2.5-1}右侧展示的是另一种句法结构，被称作依存句法树。依存句法树表示了句子中单词和单词之间的依存关系。比如，从这个例子可以了解，``猫''依赖``喜欢''，``吃''依赖``喜欢''，``鱼''依赖``吃''。

-\parinterval 短语结构树和依存句法树的结构和功能有很大不同。短语结构树的叶子节点是单词，中间节点是词性或者短语句法标记。在短语结构分析中，通常把单词称作{\small\bfnew{终结符}}（Terminal），把词性称为{\small\bfnew{预终结符}}（Pre-terminal），而把其它句法标记称为{\small\bfnew{非终结符}}（Non-terminal）。依存句法树没有预终结符和非终结符，所有的节点都是句子里的单词，通过不同节点间的连线表示句子中各个单词之间的依存关系。每个依存关系实际上都是有方向的，头和尾分别指向``接受''和``发出''依存关系的词。依存关系也可以进行分类，图\ref{fig:2.5-1}中我们对每个依存关系的类型都进行了标记，这也被称作是有标记的依存分析。如果不生成这些标记，这样的句法分析被称作无标记的依存分析。
+\parinterval 短语结构树和依存句法树的结构和功能有很大不同。短语结构树的叶子节点是单词，中间节点是词性或者短语句法标记。在短语结构分析中，通常把单词称作{\small\bfnew{终结符}}（Terminal），把词性称为{\small\bfnew{预终结符}}（Pre-terminal），而把其他句法标记称为{\small\bfnew{非终结符}}（Non-terminal）。依存句法树没有预终结符和非终结符，所有的节点都是句子里的单词，通过不同节点间的连线表示句子中各个单词之间的依存关系。每个依存关系实际上都是有方向的，头和尾分别指向``接受''和``发出''依存关系的词。依存关系也可以进行分类，图\ref{fig:2.5-1}中我们对每个依存关系的类型都进行了标记，这也被称作是有标记的依存分析。如果不生成这些标记，这样的句法分析被称作无标记的依存分析。

 \parinterval 虽然短语结构树和依存树的句法表现形式有很大不同，但是它们在某些条件下能相互转化。比如，可以使用启发性规则将短语结构树自动转化为依存树。从应用的角度，依存分析由于形式更加简单，而且直接建模词语之间的依赖，因此在自然语言处理领域中受到很多关注。在机器翻译中，不过无论是哪种句法树结构，都已经被证明会对机器翻译系统产生帮助。特别是短语结构树，在机器翻译中的应用历史更长，研究更为深入，因此本节将会以短语结构分析为例介绍句法分析的相关概念。


--- a/Book/Chapter4/chapter4.tex
+++ b/Book/Chapter4/chapter4.tex
@@ -10,7 +10,7 @@

 \chapter{基于短语和句法的机器翻译模型}

-\parinterval 机器翻译的一个问题是要定义翻译的基本单元是什么。比如，我们可以像第三章介绍的那样，以单词为单位进行翻译，即把句子的翻译看作是单词之间对应关系的一种组合。基于单词的模型是符合人类对翻译问题的认知的，因为单词本身就是人类加工语言的一种基本单元。另一方面，我们在进行翻译时也会使用一些更``复杂''的知识。比如，很多词语间的搭配需要根据语境的变化进行调整，而且对于句子结构的翻译往往需要更上层的知识，如句法知识。因此，在对单词翻译进行建模的基础上，我们需要探索其它类型的翻译知识，使得搭配和结构翻译等问题可以更好的被建模。
+\parinterval 机器翻译的一个问题是要定义翻译的基本单元是什么。比如，我们可以像第三章介绍的那样，以单词为单位进行翻译，即把句子的翻译看作是单词之间对应关系的一种组合。基于单词的模型是符合人类对翻译问题的认知的，因为单词本身就是人类加工语言的一种基本单元。另一方面，我们在进行翻译时也会使用一些更``复杂''的知识。比如，很多词语间的搭配需要根据语境的变化进行调整，而且对于句子结构的翻译往往需要更上层的知识，如句法知识。因此，在对单词翻译进行建模的基础上，我们需要探索其他类型的翻译知识，使得搭配和结构翻译等问题可以更好的被建模。

 \parinterval 本章，我们会介绍基于短语和基于句法的翻译模型。在过去二十年中，它们一直是机器翻译的主流方法。相比于基于单词的翻译模型，基于短语和基于句法的模型可以更好的对单词之间的依赖关系进行描述，同时可以对句子的上层结构进行有效的表示。这些方法也在相当长的一段时期内占据着机器翻译的统治地位。虽然，近些年随着神经机器翻译的崛起，基于短语和基于句法的统计翻译模型有些``降温''，但是它仍然是机器翻译的主要框架之一，其中的思想和很多技术手段对今天的机器翻译研究仍然有很好的借鉴意义。

@@ -453,7 +453,7 @@ d = {(\bar{s}_{\bar{a}_1},\bar{t}_1)} \circ {(\bar{s}_{\bar{a}_2},\bar{t}_2)} \c
 \end{figure}
 %-------------------------------------------

-\parinterval 除此之外，一些外部工具也可以用来获取词对齐，如Fastalign\cite{dyer2013a}、Berkeley Word Aligner\cite{taskar2005a}等。词对齐的质量通常使用词对齐错误率（AER）来评价\cite{OchA}。但是词对齐并不是一个独立的系统，它一般会服务于其它任务。因此，我们也可以使用下游任务来评价词对齐的好坏。比如，改进词对齐后观察机器翻译系统性能的变化。
+\parinterval 除此之外，一些外部工具也可以用来获取词对齐，如Fastalign\cite{dyer2013a}、Berkeley Word Aligner\cite{taskar2005a}等。词对齐的质量通常使用词对齐错误率（AER）来评价\cite{OchA}。但是词对齐并不是一个独立的系统，它一般会服务于其他任务。因此，我们也可以使用下游任务来评价词对齐的好坏。比如，改进词对齐后观察机器翻译系统性能的变化。

 %%%%%%%%%%%%%%%%%%
 \subsubsection{度量双语短语质量}\index{Chapter4.2.3.3}
@@ -488,7 +488,7 @@ d = {(\bar{s}_{\bar{a}_1},\bar{t}_1)} \circ {(\bar{s}_{\bar{a}_2},\bar{t}_2)} \c
 \end{figure}
 %-------------------------------------------

-\parinterval 经过上面的介绍，可以从双语平行语料中把双语短语抽取出来，同时得到相应的翻译概率（即特征），组成{\small\sffamily\bfseries{短语表}}（Phrase Table）。图\ref{fig:example-of-phrase-table}展示了一个真实短语表的片段。其中包括源语言短语和目标语言短语，用|||进行分割。每个双语对应的得分，包括正向和反向的词汇翻译概率以及短语翻译概率，还包括词对齐信息（0-0、1-1）等其它信息。
+\parinterval 经过上面的介绍，可以从双语平行语料中把双语短语抽取出来，同时得到相应的翻译概率（即特征），组成{\small\sffamily\bfseries{短语表}}（Phrase Table）。图\ref{fig:example-of-phrase-table}展示了一个真实短语表的片段。其中包括源语言短语和目标语言短语，用|||进行分割。每个双语对应的得分，包括正向和反向的词汇翻译概率以及短语翻译概率，还包括词对齐信息（0-0、1-1）等其他信息。

 %----------------------------------------------
 % 图4.18
@@ -545,7 +545,7 @@ dr = \textrm{start}_i-\textrm{end}_{i-1}-1
 %%%%%%%%%%%%%%%%%%
 \subsubsection{基于方向的调序}\index{Chapter4.2.4.2}

-\parinterval 基于方向的调序模型是另一种常用的调序模型。该模型是一种典型的词汇化调序模型，因此调序的结果会根据不同短语有所不同。简单来说，在给定双语短语的情况下，该模型会判断它在目标语短端的调序情况，包含三种调序类型：顺序的单调翻译（M）、与前一个短语交换位置（S）、非连续翻译（D）。因此，这个模型也被称作MSD调序模型\cite{Gros2008MSD}。图\ref{fig:three-types-of-reorder-method-in-msd}展示了这三种调序类型，当两个短语对在源语言和目标语言中都是按顺序排列时，它们就是单调的（如：从左边数前两个短语）；如果对应的短语顺序在目标语中是反过来的，属于交换调序（如：从左边数第三和第四个短语）；如果两个短语之间还有其它的短语，就是非连续翻译（如：从右边数的前两个短语）。
+\parinterval 基于方向的调序模型是另一种常用的调序模型。该模型是一种典型的词汇化调序模型，因此调序的结果会根据不同短语有所不同。简单来说，在给定双语短语的情况下，该模型会判断它在目标语短端的调序情况，包含三种调序类型：顺序的单调翻译（M）、与前一个短语交换位置（S）、非连续翻译（D）。因此，这个模型也被称作MSD调序模型\cite{Gros2008MSD}。图\ref{fig:three-types-of-reorder-method-in-msd}展示了这三种调序类型，当两个短语对在源语言和目标语言中都是按顺序排列时，它们就是单调的（如：从左边数前两个短语）；如果对应的短语顺序在目标语中是反过来的，属于交换调序（如：从左边数第三和第四个短语）；如果两个短语之间还有其他的短语，就是非连续翻译（如：从右边数的前两个短语）。

 %----------------------------------------------
 % 图4.21
@@ -594,7 +594,7 @@ dr = \textrm{start}_i-\textrm{end}_{i-1}-1
 %--4.2.5 特征---------------------
 \subsection{特征}\index{Chapter4.2.5}

-\parinterval 基于短语的模型使用判别式模型对翻译推导进行建模，给定双语句对$(\textbf{s},\textbf{t})$，每个翻译推导$d$都有一个模型得分，由$M$个特征线性加权得到，记为$\textrm{score}(d,\textbf{t},\textbf{s}) = \sum_{i=1}^{M} \lambda_i \cdot h_i (d,\textbf{t},\textbf{s})$，其中$\lambda_i$表示特征权重，$h_i (d,\textbf{t},\textbf{s})$表示特征函数（简记为$h_i (d)$）。这些特征包含我们刚刚介绍过的短语翻译概率、调序模型得分等，除此之外，还包含语言模型等其它特征，它们共同组成了特征集合。这里列出了基于短语的模型中常用的特征：
+\parinterval 基于短语的模型使用判别式模型对翻译推导进行建模，给定双语句对$(\textbf{s},\textbf{t})$，每个翻译推导$d$都有一个模型得分，由$M$个特征线性加权得到，记为$\textrm{score}(d,\textbf{t},\textbf{s}) = \sum_{i=1}^{M} \lambda_i \cdot h_i (d,\textbf{t},\textbf{s})$，其中$\lambda_i$表示特征权重，$h_i (d,\textbf{t},\textbf{s})$表示特征函数（简记为$h_i (d)$）。这些特征包含我们刚刚介绍过的短语翻译概率、调序模型得分等，除此之外，还包含语言模型等其他特征，它们共同组成了特征集合。这里列出了基于短语的模型中常用的特征：

 \begin{itemize}
 \item 短语翻译概率（取对数），包含正向翻译概率$\textrm{log}(\textrm{P}(\bar{t}|\bar{s}))$和反向翻译概率$\textrm{log}(\textrm{P}(\bar{s}|\bar{t}))$，它们是基于短语的模型中最主要的特征；
@@ -670,7 +670,7 @@ dr = \textrm{start}_i-\textrm{end}_{i-1}-1
 \end{figure}
 %-------------------------------------------

-\parinterval 能否避开这些无效的权重取值点呢？再重新看一下优化的目标BLEU。实际上，当一个特征权重发生变化时，BLEU的变化只会产生在系统1-best译文发生变化的时候。那么，我们可以只关注使1-best译文发生变化的取值点，而其它的取值点都不会对优化的目标函数产生变化。这也就构成了线搜索的思想。
+\parinterval 能否避开这些无效的权重取值点呢？再重新看一下优化的目标BLEU。实际上，当一个特征权重发生变化时，BLEU的变化只会产生在系统1-best译文发生变化的时候。那么，我们可以只关注使1-best译文发生变化的取值点，而其他的取值点都不会对优化的目标函数产生变化。这也就构成了线搜索的思想。

 \parinterval 假设对于每个输入的句子，翻译模型生成了两个推导$\textbf{d} = \{d_1,d_2\}$，每个推导$d$的得分score($d$)可以表示成关于某个第$i$个特征的权重$\lambda_i$的线性函数：
 %公式--------------------------------------------------------------------
@@ -880,7 +880,7 @@ dr = \textrm{start}_i-\textrm{end}_{i-1}-1
 \textrm{have}\ \ \text{[什么事]}\ \ \textrm{with}\ \ \text{[什么东西]} \nonumber
 \end{eqnarray}

-\parinterval 这里[什么东西]和[什么事]表示模板中的变量，可以被其它词序列替换。通常，可以把这个模板形式化描述为：
+\parinterval 这里[什么东西]和[什么事]表示模板中的变量，可以被其他词序列替换。通常，可以把这个模板形式化描述为：
 \begin{eqnarray}
 \langle \ \text{与}\ \textrm{X}_1\ \text{有}\ \textrm{X}_2,\quad \textrm{have}\ \textrm{X}_2\ \textrm{with}\ \textrm{X}_1\ \rangle \nonumber
 \end{eqnarray}
@@ -901,14 +901,14 @@ dr = \textrm{start}_i-\textrm{end}_{i-1}-1
 \quad\langle \ \text{与}\ \text{北韩}\ \text{有}\ \text{[邦交]},\quad \textrm{have}\ \textrm{[diplomatic relations]}\ \textrm{with}\ \textrm{North Korea} \ \rangle \nonumber
 \end{eqnarray}

-\parinterval 至此，我们就得到了一个完整词串的译文。类似的，我们还可以写出其它的翻译模板，如下：
+\parinterval 至此，我们就得到了一个完整词串的译文。类似的，我们还可以写出其他的翻译模板，如下：
 \begin{eqnarray}
 \langle \ \textrm{X}_1\ \text{是}\ \textrm{X}_2,\quad \textrm{X}_1\ \textrm{is}\ \textrm{X}_2 \ \rangle \qquad\qquad\ \nonumber \\
 \langle \ \textrm{X}_1\ \text{之一},\quad \textrm{one}\ \textrm{of}\ \textrm{X}_1 \ \rangle \qquad\qquad\ \nonumber \\
 \langle \ \textrm{X}_1\ \text{的}\ \textrm{X}_2,\quad \textrm{X}_2\ \textrm{that}\ \textrm{have}\ \textrm{X}_1\ \rangle\quad\ \nonumber
 \end{eqnarray}

-\parinterval 使用上面这种变量替换的方式，就可以得到一个完整句子的翻译。这个过程如图\ref{fig:translation-rule-describe-two-sentence-generation}所示。其中，左右相连接的方框表示翻译模版的源语言和目标语言部分。可以看到，模版中两种语言中的变量会被同步替换，替换的内容可以是其它模版生成的结果。这也就对应了一种层次结构，或者说互译的句对可以被双语的层次结构同步生成出来。
+\parinterval 使用上面这种变量替换的方式，就可以得到一个完整句子的翻译。这个过程如图\ref{fig:translation-rule-describe-two-sentence-generation}所示。其中，左右相连接的方框表示翻译模版的源语言和目标语言部分。可以看到，模版中两种语言中的变量会被同步替换，替换的内容可以是其他模版生成的结果。这也就对应了一种层次结构，或者说互译的句对可以被双语的层次结构同步生成出来。

 %----------------------------------------------
 % 图4.32
@@ -982,7 +982,7 @@ r_3:\quad \textrm{X}\ &\to\ &\langle \ \text{大幅度},\quad \textrm{drasticall
 r_4:\quad \textrm{X}\ &\to\ &\langle \ \text{了},\quad \textrm{have}\ \rangle \nonumber
 \end{eqnarray}

-\parinterval 其中，规则$r_1$和$r_2$是含有变量的规则，这些变量可以被其它规则的右部替换；规则$r_2$是调序规则；规则$r_3$和$r_4$是纯词汇化规则，表示单词或者短语的翻译。
+\parinterval 其中，规则$r_1$和$r_2$是含有变量的规则，这些变量可以被其他规则的右部替换；规则$r_2$是调序规则；规则$r_3$和$r_4$是纯词汇化规则，表示单词或者短语的翻译。

 \parinterval 对于一个双语句对：
 \begin{eqnarray}
@@ -1094,7 +1094,7 @@ y&=&\beta_0 y_{\pi_1} \beta_1 y_{\pi_2} ... \beta_{m-1} y_{\pi_m} \beta_m
 \item 规则的（源语言端）变量个数不能超过2；
 \item 规则的（源语言端）变量不能连续出现。
 \end{itemize}
-\parinterval 在具体实现时还会考虑其它的限制，比如，限定规则的源语言端终结符数量的上限等。
+\parinterval 在具体实现时还会考虑其他的限制，比如，限定规则的源语言端终结符数量的上限等。

 %--4.3.3 翻译模型及特征---------------------
 \subsection{翻译模型及特征}\index{Chapter4.3.3}
@@ -1228,7 +1228,7 @@ h_i (d,\textbf{t},\textbf{s})=\sum_{r \in d}h_i (r)
 \item 对CYK方法进行改造。在解码中，我们的核心任务要知道每个跨度是否能匹配规则的源语言部分。实际上，层次短语模型的文法是一种特殊的文法。这种文法规则的源语言部分最多包含两个变量，而且变量不能连续。这样的规则会对应一种特定类型的模版，比如，对于包含两个变量的规则，它的源语言部分形如$\alpha_0 \textrm{X}_1 \alpha_1 \textrm{X}_2 \alpha_2$。其中，$\alpha_0$、$\alpha_1$和$\alpha_2$表示终结符串，$\textrm{X}_1$和$\textrm{X}_2$是变量。显然，如果$\alpha_0$、$\alpha_1$和$\alpha_2$确定下来那么$\textrm{X}_1$和$\textrm{X}_2$的位置也就确定了下来。因此，对于每一个词串，我们都可以很容易的生成这种模版，进而完成匹配。而$\textrm{X}_1$和$\textrm{X}_2$和原始CYK中匹配二叉规则本质上是一样的。由于这种方法并不需要对CYK方法进行过多的调整，因此层次短语系统中广泛使用这种改造的CYK方法进行解码。
 \end{itemize}

-\parinterval 对于语言模型在解码中的集成问题，一种简单的办法是：在CYK分析的过程中，用语言模型对每个局部的翻译结果进行评价，并计算局部翻译（推导）的模型得分。注意，局部的语言模型得分可能是不准确的，比如，局部翻译片段最左边单词的概率计算需要依赖前面的单词。但是由于每个跨度下生成的翻译是局部的，当前跨度下看不到前面的译文。这时会用1-gram语言模型的得分代替真实的高阶语言模型得分。等这个局部翻译片段和其它片段组合之后，可以知道前文的内容，才会得出最终的语言模型得分。另一种解决问题的思路是，先不加入语言模型，这样可以直接使用CYK方法进行分析。在得到最终的结果后，对最好的多个推导用含有语言模型的完整模型进行打分，选出最终的最优推导。不过，在实践中发现，由于语言模型在机器翻译中起到至关重要的作用，因此对最终结果进行重排序会带来一定的性能损失。不过这种方法的优势在于速度快，而且容易实现。
+\parinterval 对于语言模型在解码中的集成问题，一种简单的办法是：在CYK分析的过程中，用语言模型对每个局部的翻译结果进行评价，并计算局部翻译（推导）的模型得分。注意，局部的语言模型得分可能是不准确的，比如，局部翻译片段最左边单词的概率计算需要依赖前面的单词。但是由于每个跨度下生成的翻译是局部的，当前跨度下看不到前面的译文。这时会用1-gram语言模型的得分代替真实的高阶语言模型得分。等这个局部翻译片段和其他片段组合之后，可以知道前文的内容，才会得出最终的语言模型得分。另一种解决问题的思路是，先不加入语言模型，这样可以直接使用CYK方法进行分析。在得到最终的结果后，对最好的多个推导用含有语言模型的完整模型进行打分，选出最终的最优推导。不过，在实践中发现，由于语言模型在机器翻译中起到至关重要的作用，因此对最终结果进行重排序会带来一定的性能损失。不过这种方法的优势在于速度快，而且容易实现。

 \parinterval 另外，在实践时，还需要考虑两方面问题：

@@ -1493,7 +1493,7 @@ h_i (d,\textbf{t},\textbf{s})=\sum_{r \in d}h_i (r)
 %%%%%%%%%%%%%%%%%%
 \subsubsection{基于树结构的翻译推导}\index{Chapter4.4.2.2}

-\parinterval 规则中的变量预示着一种替换操作，即变量可以被其它树结构替换。实际上，上面的树到树规则就是一种{\small\sffamily\bfseries{同步树替换文法规则}}（Synchronous Tree Substitution Grammar Rule）。不论是源语言端还是目标语言端，都可以通过这种替换操作不断生成更大的树结构，也就是通过树片段的组合得到更大的树片段。图\ref{fig:operation-of-tree-replace}就展示了树替换操作的一个实例。
+\parinterval 规则中的变量预示着一种替换操作，即变量可以被其他树结构替换。实际上，上面的树到树规则就是一种{\small\sffamily\bfseries{同步树替换文法规则}}（Synchronous Tree Substitution Grammar Rule）。不论是源语言端还是目标语言端，都可以通过这种替换操作不断生成更大的树结构，也就是通过树片段的组合得到更大的树片段。图\ref{fig:operation-of-tree-replace}就展示了树替换操作的一个实例。

 %----------------------------------------------
 % 图
@@ -1661,7 +1661,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
 \end{definition}
 %-------------------------------------------

-\parinterval 可信节点表示这个树节点$n$和树中的其它部分（不包括$n$的祖先和孩子）没有任何词对齐上的歧义。也就是说，这个节点可以完整的对应到目标语的一个连续范围，不会出现在这个目标语范围中的词对应到其它节点的情况。如果节点不是可信节点，则表示它会引起词对齐的歧义，因此不能作为树到串规则中源语言树片段的根节点或者变量部分。图\ref{fig:syntax-tree-with-admissible-node}给出了一个可信节点的实例。
+\parinterval 可信节点表示这个树节点$n$和树中的其他部分（不包括$n$的祖先和孩子）没有任何词对齐上的歧义。也就是说，这个节点可以完整的对应到目标语的一个连续范围，不会出现在这个目标语范围中的词对应到其他节点的情况。如果节点不是可信节点，则表示它会引起词对齐的歧义，因此不能作为树到串规则中源语言树片段的根节点或者变量部分。图\ref{fig:syntax-tree-with-admissible-node}给出了一个可信节点的实例。

 %----------------------------------------------
 % 图
@@ -1951,7 +1951,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
 \item (h7)基于目标语言端的规则生成概率，即$\textrm{P(}r|\beta_r))$，给定目标语言端生成整个规则的概率。
 \end{itemize}

-\parinterval {\small\sffamily\bfseries{其它特征}}（对应于整个推导$d$）
+\parinterval {\small\sffamily\bfseries{其他特征}}（对应于整个推导$d$）

 \begin{itemize}
 \item (h8)语言模型，即$\textrm{P}_{\textrm{lm}}(\textbf{t})$，用于度量译文的流畅度；

--- a/Book/Chapter5/chapter5.tex
+++ b/Book/Chapter5/chapter5.tex
@@ -116,7 +116,7 @@
 \vspace{0.5em}
 \item 最终的系统性能强弱非常依赖特征的选择。有一句话在业界广泛流传：``数据和特征决定了机器学习的上限''，但是人的智力和认知是有限的，因此人工设计的特征的准确性和覆盖度会受到限制；
 \vspace{0.5em}
-\item 通用性差。针对不同的任务，传统机器学习的特征工程方法需要选择出不同的特征，在这个任务上表现很好的特征在其它任务上可能没有效果。
+\item 通用性差。针对不同的任务，传统机器学习的特征工程方法需要选择出不同的特征，在这个任务上表现很好的特征在其他任务上可能没有效果。
 \end{itemize}
 \vspace{0.5em}

@@ -158,7 +158,7 @@
 %--5.2.1.1标量、向量和矩阵---------------------
 \subsubsection{标量、向量和矩阵}\index{Chapter5.2.1.1}

-\parinterval {\small\sffamily\bfseries{标量}}（Scalar）：标量亦称``无向量''，是一种只具有数值大小而没有方向的量，通俗地说，一个标量就是一个单独的数，这里我们特指实数\footnote{严格意义上，标量可以是复数等其它形式，这里为了方便讨论，我们仅以实数为对象。}。我们一般用小写斜体表示标量。比如，对于$ a=5 $，$ a $就是一个标量。
+\parinterval {\small\sffamily\bfseries{标量}}（Scalar）：标量亦称``无向量''，是一种只具有数值大小而没有方向的量，通俗地说，一个标量就是一个单独的数，这里我们特指实数\footnote{严格意义上，标量可以是复数等其他形式，这里为了方便讨论，我们仅以实数为对象。}。我们一般用小写斜体表示标量。比如，对于$ a=5 $，$ a $就是一个标量。

 \parinterval {\small\sffamily\bfseries{向量}}（Vector）：向量是由一组实数组成的有序数组。与标量不同，向量既有大小也有方向。我们可以把向量看作空间中的点，每个元素是不同坐标轴上的坐标。公式\ref{eqa1.1}和公式\ref{eqa1.2}展示了一个行向量和一个列向量。本章默认使用行向量，如$ \mathbf a=(a_1, a_2, a_3) $，$ \mathbf a $对应的列向量记为$ \mathbf a^{\rm T} $。
 %公式--------------------------------------------------------------------
@@ -531,7 +531,7 @@ x_0\cdot w_0+x_1\cdot w_1+x_2\cdot w_2 & = & 0\cdot 1+0\cdot 1+1\cdot 1 \nonumbe
 %--5.2.2.4神经元内部的参数学习---------------------
 \subsubsection{（四）神经元内部的参数学习}\index{Chapter5.2.2.4}

-\parinterval 一次成功的音乐会之后，你似乎掌握了一个真理：其它什么都不重要，女友的喜好最重要，所以你又将决策模型的权重做出了调整：最简单的方式就是$ w_0=w_1=0 $，同时令$ w_2>0 $，相当于只考虑$ x_2 $的影响而忽略其它因素，于是你得到了如图\ref {fig:perceptron-to-predict-3}所示的决策模型：
+\parinterval 一次成功的音乐会之后，你似乎掌握了一个真理：其他什么都不重要，女友的喜好最重要，所以你又将决策模型的权重做出了调整：最简单的方式就是$ w_0=w_1=0 $，同时令$ w_2>0 $，相当于只考虑$ x_2 $的影响而忽略其他因素，于是你得到了如图\ref {fig:perceptron-to-predict-3}所示的决策模型：
 %----------------------------------------------
 % 图
 \begin{figure}[htp]
@@ -912,7 +912,7 @@ x_0\cdot w_0+x_1\cdot w_1+x_2\cdot w_2 & = & 0\cdot 1+0\cdot 1+1\cdot 1 \nonumbe
 %--5.3.1.3张量的单元操作---------------------
 \subsubsection{张量的单元操作}\index{Chapter5.3.1.3}

-\parinterval 对于神经网络中的某层神经元$ \mathbf y=f(\mathbf x\cdot \mathbf w+\mathbf b) $，也包含有其它张量单元操作：1）加法：$ \mathbf s+\mathbf b $，其中张量$ \mathbf s=\mathbf x\cdot \mathbf w $；2）激活函数：$ f(\cdot) $。具体来说：
+\parinterval 对于神经网络中的某层神经元$ \mathbf y=f(\mathbf x\cdot \mathbf w+\mathbf b) $，也包含有其他张量单元操作：1）加法：$ \mathbf s+\mathbf b $，其中张量$ \mathbf s=\mathbf x\cdot \mathbf w $；2）激活函数：$ f(\cdot) $。具体来说：

 \vspace{0.5em}
 \begin{itemize}
@@ -967,7 +967,7 @@ f(x)=\begin{cases} 0 & x\leqslant0 \\x & x>0\end{cases}

 \parinterval 实现神经网络的开源系统有很多，比如，一个简单好用的Python工具包\ \dash \ Numpy（\url{https://numpy.org/}）。Numpy提供了张量表示和使用的范式，可以很方便地定义、使用多维数组。

-\parinterval 此外，如今深度学习框架已经非常成熟。比如， Tensorflow和Pytorch就是非常受欢迎的深度学习工具包，除此之外还有很多其它优秀的框架：CNTK、MXNet、\\PaddlePaddle、Keras、Chainer、dl4j、NiuTensor等。开发者可以根据自身的喜好和开发项目的要求选择所采用的框架。
+\parinterval 此外，如今深度学习框架已经非常成熟。比如， Tensorflow和Pytorch就是非常受欢迎的深度学习工具包，除此之外还有很多其他优秀的框架：CNTK、MXNet、\\PaddlePaddle、Keras、Chainer、dl4j、NiuTensor等。开发者可以根据自身的喜好和开发项目的要求选择所采用的框架。

 \parinterval 在本节中，我们将使用NiuTensor来描述张量计算。NiuTensor是由国内东北大学小牛团队开发，面向自然语言处理相关任务优化设计，支持丰富的张量计算接口。此外，该NiuTensor内核基于C++语言编写，代码高度优化。该工具包获取网址为http://www.niutrans.com/opensource/niutensor/index.html。

@@ -1171,7 +1171,7 @@ y&=&{\rm{Sigmoid}}({\rm{Tanh}}(\mathbf x\cdot \mathbf w^1+\mathbf b^1)\cdot \mat
 %--5.4神经网络的参数训练-----------------------------------------
 \section{神经网络的参数训练}\index{Chapter5.4}

-\parinterval 简单来说，神经网络可以被看作是由变量和函数组成的表达式，例如：$ \mathbf y=\mathbf x+\mathbf b $、$ \mathbf y={\rm{Relu}}(\mathbf x\cdot \mathbf w+\mathbf b) $、$ \mathbf y={\rm{Sigmoid}}({\rm{Relu}}(\mathbf x\cdot \mathbf w^1+\mathbf b^1)\cdot \mathbf w^2+\mathbf b^2) $等等，其中的$ \mathbf x $和$ \mathbf y $作为输入和输出变量， $ \mathbf w $、$ \mathbf b $等其它变量作为{\small\sffamily\bfseries{模型参数}}（Model Parameters）。确定了函数表达式和模型参数，也就确定了神经网络模型。通常，表达式的形式需要系统开发者设计，而模型参数的数量非常巨大，因此需要自动学习，这个过程也称为模型学习或训练。为了实现这个目标，通常我们会准备一定量的带有标准答案的数据，称之为{\small\sffamily\bfseries{有标注数据}}（Annotated Data/Labeled Data）。这些数据会用于对模型参数的学习，这也对应了统计模型中的参数估计过程。在机器学习中，一般把这种使用有标注数据进行统计模型参数训练的过程称为{\small\sffamily\bfseries{有指导的训练}}或{\small\sffamily\bfseries{有监督的训练}}（Supervised Training）。在本章中，如果没有特殊说明，模型训练都是指有监督的训练。那么神经网络内部是怎样利用有标注数据对参数进行训练的呢？
+\parinterval 简单来说，神经网络可以被看作是由变量和函数组成的表达式，例如：$ \mathbf y=\mathbf x+\mathbf b $、$ \mathbf y={\rm{Relu}}(\mathbf x\cdot \mathbf w+\mathbf b) $、$ \mathbf y={\rm{Sigmoid}}({\rm{Relu}}(\mathbf x\cdot \mathbf w^1+\mathbf b^1)\cdot \mathbf w^2+\mathbf b^2) $等等，其中的$ \mathbf x $和$ \mathbf y $作为输入和输出变量， $ \mathbf w $、$ \mathbf b $等其他变量作为{\small\sffamily\bfseries{模型参数}}（Model Parameters）。确定了函数表达式和模型参数，也就确定了神经网络模型。通常，表达式的形式需要系统开发者设计，而模型参数的数量非常巨大，因此需要自动学习，这个过程也称为模型学习或训练。为了实现这个目标，通常我们会准备一定量的带有标准答案的数据，称之为{\small\sffamily\bfseries{有标注数据}}（Annotated Data/Labeled Data）。这些数据会用于对模型参数的学习，这也对应了统计模型中的参数估计过程。在机器学习中，一般把这种使用有标注数据进行统计模型参数训练的过程称为{\small\sffamily\bfseries{有指导的训练}}或{\small\sffamily\bfseries{有监督的训练}}（Supervised Training）。在本章中，如果没有特殊说明，模型训练都是指有监督的训练。那么神经网络内部是怎样利用有标注数据对参数进行训练的呢？

 \parinterval 为了回答这个问题，我们可以把模型参数的学习过程看作是一个优化问题，即找到一组参数，使得模型达到某种最优的状态。这个问题又可以被转化为两个新的问题：

@@ -1260,7 +1260,7 @@ y&=&{\rm{Sigmoid}}({\rm{Tanh}}(\mathbf x\cdot \mathbf w^1+\mathbf b^1)\cdot \mat
 %公式--------------------------------------------------------------------
 \noindent 其中$t $表示更新的步数，$ \alpha $是一个参数，被称作{\small\sffamily\bfseries{学习率}}（Learning Rate），表示更新步幅的大小。$ \alpha $的设置需要根据任务进行调整。

-\parinterval 从优化的角度看，梯度下降是一种典型的基于梯度的方法（Gradient-based Method），属于基于一阶导数的方法。其它类似的方法还有牛顿法、共轭方向法、拟牛顿法等。在5.4.2.3节中我们会进一步介绍梯度下降的几种变形。
+\parinterval 从优化的角度看，梯度下降是一种典型的基于梯度的方法（Gradient-based Method），属于基于一阶导数的方法。其他类似的方法还有牛顿法、共轭方向法、拟牛顿法等。在5.4.2.3节中我们会进一步介绍梯度下降的几种变形。

 \parinterval 在具体实现时，公式\ref{eqa1.29}可以有以下不同的形式。

@@ -1334,7 +1334,7 @@ J(\mathbf w)&=&\frac{1}{m}\sum_{j=i}^{j+m-1}{L(\mathbf x_i,\mathbf {\widetilde y

 \parinterval 数值微分中的截断误差和舍入误差是如何造成的呢？数值微分方法求梯度时，需用极限或无穷过程来求得。然而计算机需要将求解过程化为一系列有限的算术运算和逻辑运算。这样就要对某种无穷过程进行``截断''，即仅保留无穷过程的前段有限序列而舍弃它的后段。这就带来截断误差；舍入误差，是指运算得到的近似值和精确值之间的差异。由于数值微分方法计算复杂函数的梯度问题时，经过无数次的近似，每一次近似都产生了舍入误差，在这样的情况下，误差会随着运算次数增加而积累得很大，最终得出没有意义的运算结果。实际上，截断误差和舍入误差在训练复杂神经网络中也会出现，因此是实际系统研发中需要注意的问题。

-\parinterval 尽管数值微分不适用于大模型中的梯度求解，但是由于数值微分方法非常简单，因此在很多时候，我们利用它来检验其它梯度计算方法的正确性。比如在实现反向传播的时候（5.4.6节），可以检验求导是否正确（Gradient Check），这个过程就是利用数值微分法实现的。
+\parinterval 尽管数值微分不适用于大模型中的梯度求解，但是由于数值微分方法非常简单，因此在很多时候，我们利用它来检验其他梯度计算方法的正确性。比如在实现反向传播的时候（5.4.6节），可以检验求导是否正确（Gradient Check），这个过程就是利用数值微分法实现的。

 %--符号微分---------------------
 \vspace{0.5em}
@@ -1560,7 +1560,7 @@ w_{t+1}&=&w_t-\frac{\eta}{\sqrt{z_t+\epsilon}} v_t
 \end {figure}
 %-------------------------------------------

-\parinterval  当然，梯度消失并不是仅仅可以通过改变激活函数就可以完全消除掉。随着网络层数的增加，很多因素都可能会造成梯度消失。后面也会进一步介绍其它手段，我们可以综合运用这些方法达到很好的缓解梯度消失问题的目的。
+\parinterval  当然，梯度消失并不是仅仅可以通过改变激活函数就可以完全消除掉。随着网络层数的增加，很多因素都可能会造成梯度消失。后面也会进一步介绍其他手段，我们可以综合运用这些方法达到很好的缓解梯度消失问题的目的。
 %--5.4.4.2梯度消失现象及解决方法---------------------
 \subsubsection{（二）梯度爆炸现象及解决方法}\index{Chapter5.4.4.2}

@@ -1577,7 +1577,7 @@ w_{t+1}&=&w_t-\frac{\eta}{\sqrt{z_t+\epsilon}} v_t
 %--5.4.4.3稳定性训练---------------------
 \subsubsection{（三）稳定性训练}\index{Chapter5.4.4.3}

-\parinterval  为了使神经网络模型训练更加稳定，通常还会考虑其它策略。
+\parinterval  为了使神经网络模型训练更加稳定，通常还会考虑其他策略。

 \parinterval  （1）批量归一化（Batch Normalization）

@@ -2013,7 +2013,7 @@ w_{t+1}&=&w_t-\frac{\eta}{\sqrt{z_t+\epsilon}} v_t
 \end{figure}
 %-------------------------------------------

-\parinterval  在传统的语言模型中，给定一个单词$ w_i $，其它单词对它的影响并没有显性的被建模。而在基于注意力机制的语言模型中，当前需要预测的单词会更加关注与该位置联系较大的单词。具体来说，注意力机制会计算位置$ i $与其它任意位置之间的相关度，称为{\small\sffamily\bfseries{注意力权重}}（Attention Weights），通过这个权重可以更多的使用与$ w_i $关联紧密的位置的信息。举个简单的例子，在``我 喜欢 学习 数学''这个句子中，我们需要预测``数学''这个词，通过注意力机制我们很可能知道``数学''与``学习''的联系更紧密，所以在预测过程中``学习''所占的权重会更大，预测结果会更加精确。
+\parinterval  在传统的语言模型中，给定一个单词$ w_i $，其他单词对它的影响并没有显性的被建模。而在基于注意力机制的语言模型中，当前需要预测的单词会更加关注与该位置联系较大的单词。具体来说，注意力机制会计算位置$ i $与其他任意位置之间的相关度，称为{\small\sffamily\bfseries{注意力权重}}（Attention Weights），通过这个权重可以更多的使用与$ w_i $关联紧密的位置的信息。举个简单的例子，在``我 喜欢 学习 数学''这个句子中，我们需要预测``数学''这个词，通过注意力机制我们很可能知道``数学''与``学习''的联系更紧密，所以在预测过程中``学习''所占的权重会更大，预测结果会更加精确。
 %--5.5.1.4语言模型的评价---------------------
 \subsubsection{（四）语言模型的评价}\index{Chapter5.5.1.4}

@@ -2032,7 +2032,7 @@ w_{t+1}&=&w_t-\frac{\eta}{\sqrt{z_t+\epsilon}} v_t
 %--5.5.2.1One-hot编码---------------------
 \subsubsection{（一）One-hot编码}\index{Chapter5.5.2.1}

-\parinterval  {\small\sffamily\bfseries{One-hot编码}}（也称{\small\sffamily\bfseries{独热编码}}）是传统的单词表示方法。One-hot编码把单词表示为词汇表大小的0-1向量，其中只有该词所对应的那一项是1，而其余所有项都是零。举个简单的例子，假如我们有一个词典，里面包含10k个单词，并进行编号。那么每个单词都可以表示为一个10k维的One-hot向量，它仅在对应编号那个维度为1，其它维度都为0，如图\ref{fig:one-hot}所示。
+\parinterval  {\small\sffamily\bfseries{One-hot编码}}（也称{\small\sffamily\bfseries{独热编码}}）是传统的单词表示方法。One-hot编码把单词表示为词汇表大小的0-1向量，其中只有该词所对应的那一项是1，而其余所有项都是零。举个简单的例子，假如我们有一个词典，里面包含10k个单词，并进行编号。那么每个单词都可以表示为一个10k维的One-hot向量，它仅在对应编号那个维度为1，其他维度都为0，如图\ref{fig:one-hot}所示。
 %----------------------------------------------
 % 图
 \begin{figure}[htp]
@@ -2122,7 +2122,7 @@ Jobs was the CEO of {\red{\underline{apple}}}.

 \parinterval  在自然语言处理中，{\small\sffamily\bfseries{句子表示模型}}是指把输入的句子进行分布式表示。不过表示的形式不一定是一个单独的向量。现在广泛使用的句子表示模型可以被描述为：给定一个输入的句子$ \{ w_1,\dots ,w_m\} $，得到一个表示序列$ \{ \mathbf h_1,\dots ,\mathbf h_m\} $，其中$ h_i $是句子在第$ i $个位置的表示结果。$ \{ \mathbf h_1,\dots ,\mathbf h_m\} $就被看作是{\small\sffamily\bfseries{句子的表示}}，它可以被送入下游模块。比如，在机器翻译任务中，可以用这种模型表示源语言句子，然后通过这种表示结果进行目标语译文的生成；在序列标注（如词性标注）任务中，可以对输入的句子进行表示，然后在这个表示之上构建标签预测模块。很多自然语言处理任务都可以用句子表示模型进行建模，因此句子的表示模型也是应用最广泛的深度学习模型之一。而学习这种表示的过程也被称作{\small\sffamily\bfseries{表示学习}}（Representation Learning）。

-\parinterval  句子表示模型有两种训练方法。最简单的方法是把它作为目标系统中的一个模块进行训练，比如把句子表示模型作为机器翻译系统的一部分。也就是，我们并不单独训练句子表示模型，而是把它作为一个内部模块放到其它系统中。另一种方法是把句子表示作为独立的模块，用外部系统进行训练，之后把训练好的表示模型放入目标系统中，再进行微调。这种方法构成了一种新的范式：预训练+微调（pre-training + fine-tuning）。图\ref{fig:model-training}对比了这两种不同的方法。
+\parinterval  句子表示模型有两种训练方法。最简单的方法是把它作为目标系统中的一个模块进行训练，比如把句子表示模型作为机器翻译系统的一部分。也就是，我们并不单独训练句子表示模型，而是把它作为一个内部模块放到其他系统中。另一种方法是把句子表示作为独立的模块，用外部系统进行训练，之后把训练好的表示模型放入目标系统中，再进行微调。这种方法构成了一种新的范式：预训练+微调（pre-training + fine-tuning）。图\ref{fig:model-training}对比了这两种不同的方法。
 %----------------------------------------------
 % 图
 \begin{figure}[htp]

--- a/Book/Chapter6/Chapter6.tex
+++ b/Book/Chapter6/Chapter6.tex
@@ -113,7 +113,7 @@
 \end{figure}
 %----------------------------------------------

-\parinterval  除了上面例子中展示的流畅度和准确度外，神经机器翻译在其它评价指标上的表现也全面超越统计机器翻译\cite{Bentivogli2016NeuralVP}。比如，在IWSLT 2015英语-德语任务中，与三个最先进的统计机器翻译系统（PBSY、HPB、SPB）相比，神经机器翻译系统的mTER得分在不同长度句子上都得到了明显的下降，如图\ref{fig:6-3}\footnote{mTER是一种错误率度量，值越低表明译文越好。}。其次，神经机器翻译的单词形态错误率和单词词义错误率都远低于统计机器翻译系统（表\ref{tab:HTER} ）。
+\parinterval  除了上面例子中展示的流畅度和准确度外，神经机器翻译在其他评价指标上的表现也全面超越统计机器翻译\cite{Bentivogli2016NeuralVP}。比如，在IWSLT 2015英语-德语任务中，与三个最先进的统计机器翻译系统（PBSY、HPB、SPB）相比，神经机器翻译系统的mTER得分在不同长度句子上都得到了明显的下降，如图\ref{fig:6-3}\footnote{mTER是一种错误率度量，值越低表明译文越好。}。其次，神经机器翻译的单词形态错误率和单词词义错误率都远低于统计机器翻译系统（表\ref{tab:HTER} ）。

 %----------------------------------------------
 % 表
@@ -361,12 +361,12 @@ NMT                     & $ 21.7^{\ast}$          & $18.7^{\ast}$           & -1
 \end{figure}
 %----------------------------------------------

-\parinterval 本章将会从基于循环神经网络的翻译模型和注意力机制入手，介绍神经机器翻译的基本方法。同时也会以GNMT系统为例，对神经机器翻译的其它相关技术进行讨论。
+\parinterval 本章将会从基于循环神经网络的翻译模型和注意力机制入手，介绍神经机器翻译的基本方法。同时也会以GNMT系统为例，对神经机器翻译的其他相关技术进行讨论。
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsection{建模}\index{Chapter6.3.1}
 \label{sec:6.3.1}

-\parinterval 同大多数自然语言处理任务一样，神经机器翻译要解决的一个基本问题是如何描述文字序列，称为序列表示问题。例如，处理语音数据、文本数据都可以被看作是典型的序列表示问题。如果把一个序列看作一个时序上的一系列变量，不同时刻的变量之间往往是存在相关性的。也就是说，一个时序中某个时刻变量的状态会依赖其它时刻变量的状态，即上下文的语境信息。下面是一个简单的例子，假设有一个句子，但是最后两个单词被擦掉了，我们如何猜测被擦掉的单词是什么？
+\parinterval 同大多数自然语言处理任务一样，神经机器翻译要解决的一个基本问题是如何描述文字序列，称为序列表示问题。例如，处理语音数据、文本数据都可以被看作是典型的序列表示问题。如果把一个序列看作一个时序上的一系列变量，不同时刻的变量之间往往是存在相关性的。也就是说，一个时序中某个时刻变量的状态会依赖其他时刻变量的状态，即上下文的语境信息。下面是一个简单的例子，假设有一个句子，但是最后两个单词被擦掉了，我们如何猜测被擦掉的单词是什么？

 \begin{example}
 \quad
@@ -438,7 +438,7 @@ NMT                     & $ 21.7^{\ast}$          & $18.7^{\ast}$           & -1
 \label{eqC6.4}
 \end{eqnarray}

-$\textrm{P}({y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}})$由Softmax实现，Softmax的输入是循环神经网络$j$时刻的输出。在具体实现时，$\mathbf{C}$可以被简单的作为第一个时刻循环单元的输入，即，当$j=1$ 时，解码器的循环神经网络会读入编码器最后一个隐层状态$ \mathbf{h}_m$（也就是$\mathbf{C}$），而其它时刻的隐层状态不直与$\mathbf{C}$相关。最终，$\textrm{P} (y_j | \mathbf{y}_{<j},\mathbf{x})$ 被表示为：
+$\textrm{P}({y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}})$由Softmax实现，Softmax的输入是循环神经网络$j$时刻的输出。在具体实现时，$\mathbf{C}$可以被简单的作为第一个时刻循环单元的输入，即，当$j=1$ 时，解码器的循环神经网络会读入编码器最后一个隐层状态$ \mathbf{h}_m$（也就是$\mathbf{C}$），而其他时刻的隐层状态不直与$\mathbf{C}$相关。最终，$\textrm{P} (y_j | \mathbf{y}_{<j},\mathbf{x})$ 被表示为：
 \begin{eqnarray}
 \textrm{P} (y_j | \mathbf{y}_{<j},\mathbf{x}) \equiv
 \left \{ \begin{array}{ll}
@@ -465,7 +465,7 @@ $\textrm{P}({y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}})$由Softmax实现，Sof
 \subsection{输入（词嵌入）及输出（Softmax）}\index{Chapter6.3.2}
 \label{sec:6.3.2}

-\parinterval 由公式\ref{eqC6.2}可知，神经机器翻译系统在运行时需要两个输入，一个是源语言单词序列$\mathbf{x}$，和目标语单词序列$\mathbf{y}_{<j}$（到$j$时刻为止）。因此，第一步我们需要把单词的离散化表示转化为神经网络容易处理的分布式连续表示，即词嵌入。而我们也会把词嵌入的结果作为循环神经网络的输入层。词嵌入的概念已经在第五章神经语言模型的部分进行过详细介绍。以解码端为例，传统方法中每个目标语言单词都对应目标语言词表中的一个索引项，可以用one-hot向量表示。one-hot向量的维度和词表大小相同，但是只有单词所对应的那一维的值为1，其它为均为0。例如，词表中包含三个单词，则它们的one-hot表示分别为[0,0,1]，[0,1,0]，[1,0,0]。词嵌入的目的是把这种one-hot表示转化为一个实数向量，向量的每一维都对应这个单词的某种``属性''。由于是实数向量，这些属性是可以直接进行代数运算的。相比one-hot表示中所有向量都是正交的，词嵌入表示可以更容易描述不同单词间的关系，而不是简单的进行非零0即1的判断。比如，词嵌入表示中的著名例子``queen''=``woman''-``man''+``king''就能在一定程度上说明这个问题。
+\parinterval 由公式\ref{eqC6.2}可知，神经机器翻译系统在运行时需要两个输入，一个是源语言单词序列$\mathbf{x}$，和目标语单词序列$\mathbf{y}_{<j}$（到$j$时刻为止）。因此，第一步我们需要把单词的离散化表示转化为神经网络容易处理的分布式连续表示，即词嵌入。而我们也会把词嵌入的结果作为循环神经网络的输入层。词嵌入的概念已经在第五章神经语言模型的部分进行过详细介绍。以解码端为例，传统方法中每个目标语言单词都对应目标语言词表中的一个索引项，可以用one-hot向量表示。one-hot向量的维度和词表大小相同，但是只有单词所对应的那一维的值为1，其他为均为0。例如，词表中包含三个单词，则它们的one-hot表示分别为[0,0,1]，[0,1,0]，[1,0,0]。词嵌入的目的是把这种one-hot表示转化为一个实数向量，向量的每一维都对应这个单词的某种``属性''。由于是实数向量，这些属性是可以直接进行代数运算的。相比one-hot表示中所有向量都是正交的，词嵌入表示可以更容易描述不同单词间的关系，而不是简单的进行非零0即1的判断。比如，词嵌入表示中的著名例子``queen''=``woman''-``man''+``king''就能在一定程度上说明这个问题。

 \parinterval 那么怎么在神经机器翻译系统中获得单词的词嵌入表示呢？这里我们引入一个词嵌入层对输入的单词进行词嵌入表示，即图\ref{fig:6-11}中的绿色方框部分。假设输入的单词$y_j$已经被表示为one-hot形式（行向量）。词嵌入层的工作就是把one-hot向量右乘一个实数矩阵$\mathbf{E}$，得到的结果（行向量）就是这个单词所对应的词嵌入结果。
 \begin{eqnarray}
@@ -473,7 +473,7 @@ $\textrm{P}({y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}})$由Softmax实现，Sof
 \label{eqC6.6}
 \end{eqnarray}

-\noindent 这里，$\mathbf{E}$也被称作词嵌入矩阵，它可以作为模型的一部分参数共同参与机器翻译系统的训练，也可以由外部其它模块训练得到（如预训练模型）。$\mathbf{E}$的大小为$|V| \times d$，这里$|V|$表示词表$V$的大小，$d$表示循环神经网络输入和输出向量的维度。
+\noindent 这里，$\mathbf{E}$也被称作词嵌入矩阵，它可以作为模型的一部分参数共同参与机器翻译系统的训练，也可以由外部其他模块训练得到（如预训练模型）。$\mathbf{E}$的大小为$|V| \times d$，这里$|V|$表示词表$V$的大小，$d$表示循环神经网络输入和输出向量的维度。

 \parinterval 图\ref{fig:6-11}以单词``you''为例，展示了词嵌入的生成过程。词嵌入层首先将输入的单词``you''转化成one-hot表示，对应虚线框中的0-1向量，即除了you在词表中的索引位置为1，其余位置均为0。然后词嵌入层将这个0-1向量乘以$\mathbf{E}$就得到了词嵌入的结果（绿色圆角框框起来部分），这个过程我们用$\textrm{e}_y (\cdot)$表示，即you的词嵌入表示$\textrm{e}_y (``\textrm{you}'')$。最后，将单词的词嵌入表示作为当前时间步循环单元（蓝色方框）的输入。

@@ -715,7 +715,7 @@ $\textrm{P}({y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}})$由Softmax实现，Sof
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsection{注意力机制}\index{Chapter6.3.4}
 \label{sec:6.3.4}
-\parinterval 在第二章中我们提到过``上帝是不公平的''，这个观点主要是表达了：世界上事物之间的联系不是均匀的，有些事物之间的联系会很强，而其它的联系可能很弱。自然语言也完美的契合了这个观点。比如，再重新看一下前面提到的根据上下文补缺失单词的例子，
+\parinterval 在第二章中我们提到过``上帝是不公平的''，这个观点主要是表达了：世界上事物之间的联系不是均匀的，有些事物之间的联系会很强，而其他的联系可能很弱。自然语言也完美的契合了这个观点。比如，再重新看一下前面提到的根据上下文补缺失单词的例子，

 \begin{example}
 \quad
@@ -728,7 +728,7 @@ $\textrm{P}({y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}})$由Softmax实现，Sof

 \noindent 我们之所以能想到在横线处填``吃饭''、``吃东西''很有可能是因为看到了``没吃饭''、 ``很饿''等关键信息。也就是这些关键的片段对我们预测缺失的单词起着关键性作用。而预测``吃饭''与前文中的``中午''、``又''之间的联系似乎不那么紧密。也就是说，在我们在形成 ``吃饭''的逻辑时，在潜意识里会更注意``没吃饭''、``很饿''等关键信息。也就是我们的关注度并不是均匀的分布在整个句子上的。

-\parinterval 这个现象可以用注意力机制进行解释。注意力机制的概念来源于生物学的一些现象：当待接收的信息过多时，人类会选择性地关注部分信息而忽略其他信息。它在人类的视觉、听觉、嗅觉等方面均有体现，当我们在感受事物时，我们的大脑会自动过滤或衰减部分信息，仅关注其中少数几个部分。例如，当我们在看到图\ref{fig:6-19}时，往往不是``均匀地''看图像中的所有区域，我们可能最先注意到的是大狗头上带的的帽子，然后才会关注图片中其它部分。
+\parinterval 这个现象可以用注意力机制进行解释。注意力机制的概念来源于生物学的一些现象：当待接收的信息过多时，人类会选择性地关注部分信息而忽略其他信息。它在人类的视觉、听觉、嗅觉等方面均有体现，当我们在感受事物时，我们的大脑会自动过滤或衰减部分信息，仅关注其中少数几个部分。例如，当我们在看到图\ref{fig:6-19}时，往往不是``均匀地''看图像中的所有区域，我们可能最先注意到的是大狗头上带的的帽子，然后才会关注图片中其他部分。

 \parinterval 那么注意力机制和神经机器翻译又有什么关系呢？它可以帮助我们解决哪些神经机器翻译的缺陷呢？下面就一起来看一看。

@@ -751,7 +751,7 @@ $\textrm{P}({y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}})$由Softmax实现，Sof
 \item 此外，当生成某一个目标语单词时，我们并不是均匀的使用源语言句子中的单词信息。更普遍的情况是，我们会参考与这个目标语单词相对应的源语言单词进行翻译。这有些类似于词对齐的作用，即翻译是基于单词之间的某种对应关系。但是，使用单一的源语言表示根本无法区分源语言句子的不同部分，更不用说对源语言单词和目标语言单词之间的联系进行建模了。
 \end{itemize}

-\parinterval 看一个实际的翻译实例，如图\ref{fig:6-20}，目标语中的``very long''仅依赖于源文中的``很长''。这时如果将所有源语编码成一个固定的实数向量，``很长''的信息就很可能被其它词的信息淹没掉，而翻译``very long''时也无法区分不同源语单词的贡献。
+\parinterval 看一个实际的翻译实例，如图\ref{fig:6-20}，目标语中的``very long''仅依赖于源文中的``很长''。这时如果将所有源语编码成一个固定的实数向量，``很长''的信息就很可能被其他词的信息淹没掉，而翻译``very long''时也无法区分不同源语单词的贡献。

 %----------------------------------------------
 % 图3.10
@@ -763,7 +763,7 @@ $\textrm{P}({y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}})$由Softmax实现，Sof
 \end{figure}
 %----------------------------------------------

-\parinterval 显然，以上的问题的根本原因在于所使用的表示模型还比较``弱''。因此我们需要一个更强大的表示模型，在生成目标语单词时能够有选择的获取源语言句子中的更有用的部分。更准确的说，对于要生成的目标语单词，相关性更高的源语言片段应该在源语言句子的表示中体现出来，而不是将所有的源语言单词一视同仁。在神经机器翻译中引入注意力机制正是为了达到这个目的\cite{bahdanau2014neural}\cite{DBLP:journals/corr/LuongPM15}。实际上，除了机器翻译，注意力机制也被成功的应用于图像处理、语音识别、自然语言处理的其它任务。而正是注意力机制的引入，使得包括机器翻译在内很多自然语言处理系统得到了新的飞跃。
+\parinterval 显然，以上的问题的根本原因在于所使用的表示模型还比较``弱''。因此我们需要一个更强大的表示模型，在生成目标语单词时能够有选择的获取源语言句子中的更有用的部分。更准确的说，对于要生成的目标语单词，相关性更高的源语言片段应该在源语言句子的表示中体现出来，而不是将所有的源语言单词一视同仁。在神经机器翻译中引入注意力机制正是为了达到这个目的\cite{bahdanau2014neural}\cite{DBLP:journals/corr/LuongPM15}。实际上，除了机器翻译，注意力机制也被成功的应用于图像处理、语音识别、自然语言处理的其他任务。而正是注意力机制的引入，使得包括机器翻译在内很多自然语言处理系统得到了新的飞跃。

 \parinterval 神经机器翻译中的注意力机制并不复杂。对于每个目标语单词$y_j$，我们都生成一个源语言表示向量$\mathbf{C}_j$与之对应，$\mathbf{C}_j$会包含生成$y_j$所需的源语言的信息，或者说$\mathbf{C}_j$是一种包含目标语言单词与源语言单词对应关系的源语言表示。相比用一个静态的表示$\mathbf{C}$，注意机制使用的是动态的表示$\mathbf{C}_j$。$\mathbf{C}_j$也被称作对于目标语位置$i$的上下文向量。图\ref{fig:6-21}对比了未引入注意力机制和引入了注意力机制的编码器-解码器结构。可以看出，在注意力模型中，对于每一个目标单词的生成，都会额外引入一个单独的上下文向量参与运算。

@@ -944,7 +944,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{
 \label{eqC6.30}
 \end{eqnarray}

-\parinterval 公式\ref{eqC6.30}是一种非常通用的损失函数形式，除了交叉熵，我们也可以使用其它的损失函数，这时只需要替换$L_{ce} (\cdot)$即可。这里使用交叉熵损失函数的好处在于，它非常容易优化，特别是与Softmax组合，其反向传播的实现非常高效。此外，交叉熵损失（在一定条件下）也对应了极大似然的思想，这种方法在自然语言处理中已经被证明是非常有效的。
+\parinterval 公式\ref{eqC6.30}是一种非常通用的损失函数形式，除了交叉熵，我们也可以使用其他的损失函数，这时只需要替换$L_{ce} (\cdot)$即可。这里使用交叉熵损失函数的好处在于，它非常容易优化，特别是与Softmax组合，其反向传播的实现非常高效。此外，交叉熵损失（在一定条件下）也对应了极大似然的思想，这种方法在自然语言处理中已经被证明是非常有效的。

 \parinterval 除了交叉熵，很多系统也使用了面向评价的损失函数，比如，直接利用评价指标BLEU定义损失函数。不过这类损失函数往往不可微分，因此无法直接获取梯度。这时可以引入强化学习技术，通过策略梯度等方法进行优化。不过这类方法需要采样等手段，这里不做重点讨论，相关内容会在后面前言技术部分进行介绍。
 %%%%%%%%%%%%%%%%%%
@@ -1110,7 +1110,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{

 \noindent 这里，$\{ \hat{y}_{j1},...,\hat{y}_{jk} \}$表示对于位置$j$翻译概率最大的$K$的单词，$\{ \hat{\mathbf{y}}_{<j^{\ast}} \}$表示前$j-1$步top-K单词组成的所有历史。${\hat{\mathbf{y}}_{<j^{\ast}}}$可以被看作是一个集合，里面每一个元素都是一个目标语单词序列，这个序列是前面生成的一系列top-K单词的某种组成。$\textrm{P}(y_j | \{ \hat{\mathbf{y}}_{<{j^{\textrm{*}}}} \},\mathbf{x})$表示基于\{$ \hat{\mathbf{y}}_{<j^{\ast}} $\}的某一条路径生成$y_j$的概率\footnote{严格来说，P$(y_j | {\hat{\mathbf{y}}_{<j^{\ast}} })$不是一个准确的数学表达，这里我们通过这种写法强调$y_j$是由\{$ \hat{\mathbf{y}}_{<j^{\ast}} $\}中的某个译文单词序列作为条件生成的。} 。这种方法也被称为束搜索（beam search），意思是搜索时始终考虑一个集束内的候选。

-\parinterval 不论是贪婪搜索还是束搜索都是一个自左向右的过程，也就是每个位置的处理需要等前面位置处理完才能执行。这是一种典型的自回归模型（autoregressive model），它通常用来描述时序上的随机过程，其中每一个时刻的结果对时序上其它部分的结果有依赖\cite{NIPS2017_7181}。相对应的，也有非自回归模型（non-autoregressive model），它消除了不同时刻结果之间的直接依赖\cite{Gu2017NonAutoregressiveNM}。由于自回归模型是当今神经机器翻译主流的推断方法，这里我们仍以自回归的贪婪搜索和束搜索为基础进行讨论。
+\parinterval 不论是贪婪搜索还是束搜索都是一个自左向右的过程，也就是每个位置的处理需要等前面位置处理完才能执行。这是一种典型的自回归模型（autoregressive model），它通常用来描述时序上的随机过程，其中每一个时刻的结果对时序上其他部分的结果有依赖\cite{NIPS2017_7181}。相对应的，也有非自回归模型（non-autoregressive model），它消除了不同时刻结果之间的直接依赖\cite{Gu2017NonAutoregressiveNM}。由于自回归模型是当今神经机器翻译主流的推断方法，这里我们仍以自回归的贪婪搜索和束搜索为基础进行讨论。
 %%%%%%%%%%%%%%%%%%
 \subsubsection{贪婪搜索}\index{Chapter6.3.6.1}
 \parinterval 图\ref{fig:6-31}展示了一个基于贪婪方法的神经机器翻译解码过程。每一个时间步的单词预测都依赖于其前一步单词的生成。在解码第一个单词时，由于没有之前的单词信息，会用<eos>进行填充，作为起始的单词，且会用一个零向量（可以理解为没有之前时间步的信息）表示第0步的中间层状态。
@@ -1148,7 +1148,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{
 \label{eqC6.36}
 \end{eqnarray}

-\noindent 类似的，对``has''和``it''进行同样的操作,分别计算得到$ \textrm{P} (y_2, \textrm{``have''} | \mathbf{x})$ ，$ \textrm{P} (y_2, \textrm{``has''} | \mathbf{x})$，\\ $ \textrm{P} (y_2, \textrm{``it''} | \mathbf{x})$，因为$y_2$对应$|V|$种可能，总共可以得到$3 \times |V|$种结果。然后从中选取使序列概率$\textrm{P}(y_2,y_1| \mathbf{x})$最大的前三个$y_2$作为新的输出结果，这样我们便得到了前两个位置的top-3译文。在预测其它位置时也是如此，不断重复此过程直到推断结束。可以看到，束搜索的搜索空间大小与束宽度有关，也就是：束宽度越大，搜索空间越大，更有可能搜索到质量更高的译文，但是搜索会更慢。束宽度等于3，意味着我们每次考虑三个最有可能的结果，贪婪搜索实际上便是集束宽度为1的情况。在神经机器翻译系统实现中，一般束宽度设置在4～8之间。
+\noindent 类似的，对``has''和``it''进行同样的操作,分别计算得到$ \textrm{P} (y_2, \textrm{``have''} | \mathbf{x})$ ，$ \textrm{P} (y_2, \textrm{``has''} | \mathbf{x})$，\\ $ \textrm{P} (y_2, \textrm{``it''} | \mathbf{x})$，因为$y_2$对应$|V|$种可能，总共可以得到$3 \times |V|$种结果。然后从中选取使序列概率$\textrm{P}(y_2,y_1| \mathbf{x})$最大的前三个$y_2$作为新的输出结果，这样我们便得到了前两个位置的top-3译文。在预测其他位置时也是如此，不断重复此过程直到推断结束。可以看到，束搜索的搜索空间大小与束宽度有关，也就是：束宽度越大，搜索空间越大，更有可能搜索到质量更高的译文，但是搜索会更慢。束宽度等于3，意味着我们每次考虑三个最有可能的结果，贪婪搜索实际上便是集束宽度为1的情况。在神经机器翻译系统实现中，一般束宽度设置在4～8之间。

 %----------------------------------------------
 % 图3.10
@@ -1173,7 +1173,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{
 \end{itemize}


-\parinterval 为了解决上面提到的问题，我们可以使用其它特征与$\textrm{log P}(\mathbf{y} | \mathbf{x})$一起组成新的模型得分$\textrm{score} ( \mathbf{y} , \mathbf{x})$。针对模型倾向于生成短句子的问题，常用的做法是引入惩罚机制。比如，可以定义一个惩罚因子，形式如下：
+\parinterval 为了解决上面提到的问题，我们可以使用其他特征与$\textrm{log P}(\mathbf{y} | \mathbf{x})$一起组成新的模型得分$\textrm{score} ( \mathbf{y} , \mathbf{x})$。针对模型倾向于生成短句子的问题，常用的做法是引入惩罚机制。比如，可以定义一个惩罚因子，形式如下：

 \begin{eqnarray}
 \textrm{lp}(\mathbf{y}) = \frac {(5+ |\mathbf{y}|)^{\alpha}} {(5+1)^{\alpha}}
@@ -1220,7 +1220,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{
 % 表
 \begin{table}[htp]
 \centering
-\caption{GNMT与其它翻译模型对比\cite{Wu2016GooglesNM}}
+\caption{GNMT与其他翻译模型对比\cite{Wu2016GooglesNM}}
 \label{tab:gnmt vs state-of-the-art models}
 \begin{tabular}{l l l l}
 \multicolumn{1}{l|}{\multirow{2}{*}{\#}} & \multicolumn{2}{c}{BLEU} & \multirow{2}{*}{CPU decoding time} \\
@@ -1259,7 +1259,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{
 \end{table}
 %--------------------------------------

-\parinterval 在Transformer被推出之后，这个模型很快就席卷了整个自然语言处理领域。实际上，Transformer也可以当作一种表示模型，因此也被大量的使用在自然语言处理的其它领域，甚至图像处理和语音处理中也能看到它的影子。比如，目前非常流行的预训练模型BERT就是基于Transformer。表\ref{tab:performence form different models}展示了Transformer在机器翻译上的性能。它能用更少的计算量（FLOPS）达到比其它模型更好的翻译品质\footnote{FLOPS = floating-point operations per second，即每秒浮点运算次数。它是度量计算机运算规模的常用单位} 。
+\parinterval 在Transformer被推出之后，这个模型很快就席卷了整个自然语言处理领域。实际上，Transformer也可以当作一种表示模型，因此也被大量的使用在自然语言处理的其他领域，甚至图像处理和语音处理中也能看到它的影子。比如，目前非常流行的预训练模型BERT就是基于Transformer。表\ref{tab:performence form different models}展示了Transformer在机器翻译上的性能。它能用更少的计算量（FLOPS）达到比其他模型更好的翻译品质\footnote{FLOPS = floating-point operations per second，即每秒浮点运算次数。它是度量计算机运算规模的常用单位} 。

 %----------------------------------------------
 % 表
@@ -1296,7 +1296,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{
 \end{figure}
 %----------------------------------------------

-\parinterval 那么能否摆脱这种顺序传递信息的方式，直接对不同位置单词之间的关系进行建模，即将信息传递的距离拉近为1？{\small\sffamily\bfseries{自注意力机制}}（Self-Attention）的提出便有效解决了这个问题\cite{DBLP:journals/corr/LinFSYXZB17}。图\ref{fig:6-35}给出了自注意力机制对序列进行建模的示例。对于单词$w_m$，自注意力机制直接建立它与前$m-1$个单词之间的关系。也就是说，$w_m$与序列中所有其它单词的距离都是1。这种方式很好的解决了长距离依赖问题，同时由于单词之间的联系都是相互独立的，因此也大大提高了模型的并行度。
+\parinterval 那么能否摆脱这种顺序传递信息的方式，直接对不同位置单词之间的关系进行建模，即将信息传递的距离拉近为1？{\small\sffamily\bfseries{自注意力机制}}（Self-Attention）的提出便有效解决了这个问题\cite{DBLP:journals/corr/LinFSYXZB17}。图\ref{fig:6-35}给出了自注意力机制对序列进行建模的示例。对于单词$w_m$，自注意力机制直接建立它与前$m-1$个单词之间的关系。也就是说，$w_m$与序列中所有其他单词的距离都是1。这种方式很好的解决了长距离依赖问题，同时由于单词之间的联系都是相互独立的，因此也大大提高了模型的并行度。

 %----------------------------------------------
 % 图3.10
@@ -1330,7 +1330,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{
 \label{eqC6.40}
 \end{eqnarray}

-\parinterval 同理，也可以用同样的方法处理这个句子中的其它单词。可以看出，在注意力机制中，我们并不是使用类似于循环神经网络的记忆能力去访问历史信息。序列中所有单词之间的信息都是通过同一种操作（$\mathrm{query}$和$\mathrm{key}$的相关度）进行处理。这样，表示结果$\tilde{\mathbf{h}} (\textrm{``你''})$在包含``你''这个单词的信息的同时，也包含了序列中其它词的信息。也就是，序列中每一个位置的表示结果中，都包含了其它位置的信息。从这个角度说，$\tilde{\mathbf{h}} (\textrm{``你''})$已经不再是单词''你''自身的表示结果，而是一种在单词``你''的位置上的全局信息的表示。
+\parinterval 同理，也可以用同样的方法处理这个句子中的其他单词。可以看出，在注意力机制中，我们并不是使用类似于循环神经网络的记忆能力去访问历史信息。序列中所有单词之间的信息都是通过同一种操作（$\mathrm{query}$和$\mathrm{key}$的相关度）进行处理。这样，表示结果$\tilde{\mathbf{h}} (\textrm{``你''})$在包含``你''这个单词的信息的同时，也包含了序列中其他词的信息。也就是，序列中每一个位置的表示结果中，都包含了其他位置的信息。从这个角度说，$\tilde{\mathbf{h}} (\textrm{``你''})$已经不再是单词''你''自身的表示结果，而是一种在单词``你''的位置上的全局信息的表示。

 \parinterval 通常，也把生成\{ $\tilde{\mathbf{h}}(\mathbf{w}_i)$ \}的过程称为{\small\sffamily\bfseries{特征提取}}，而实现这个过程的模型被称为特征提取器。循环神经网络、自注意力模型都是典型的特征提取器。特征提取是神经机器翻译系统的关键步骤，在随后的内容中可以看到自注意力模型是一个非常适合机器翻译任务的特征提取器。

@@ -1684,7 +1684,7 @@ lrate = d_{model}^{-0.5} \cdot \textrm{min} (step^{-0.5} , step \cdot warmup\_st

 \item Dropout：由于Transformer模型网络结构过于复杂，参数过多，具有很强的学习能力，导致过度拟合训练数据，从而对未见数据的预测结果变差。这种现象也被称作{\small\sffamily\bfseries{过拟合}}（over fitting）。为了避免这种现象，Transformer加入了Dropout操作\cite{JMLR:v15:srivastava14a}。Transformer中这四个地方用到了Dropout：词嵌入和位置编码、残差连接、注意力操作和前馈神经网络。Dropout比例通常设置为0.1。

-\item 标签平滑（Label Smoothing）：在计算损失的过程中，需要用预测概率去拟合真实概率。在分类任务中，往往使用one-hot向量代表真实概率，即真实答案位置那一维对应的概率为1，其余维为0，而拟合这种概率分布会造成两个问题：1)无法保证模型的泛化能力，容易造成过拟合；2) 1和0概率鼓励所属类别和其它类别之间的差距尽可能加大，会造成模型过于相信预测的类别。因此Transformer里引入标签平滑\cite{Szegedy_2016_CVPR}来缓解这种现象，简单的说就是给正确答案以外的类别分配一定的概率，而不是采用非0即1的概率。这样，可以学习一个比较平滑的概率分布，从而提升泛化能力，防止过拟合。\\
+\item 标签平滑（Label Smoothing）：在计算损失的过程中，需要用预测概率去拟合真实概率。在分类任务中，往往使用one-hot向量代表真实概率，即真实答案位置那一维对应的概率为1，其余维为0，而拟合这种概率分布会造成两个问题：1)无法保证模型的泛化能力，容易造成过拟合；2) 1和0概率鼓励所属类别和其他类别之间的差距尽可能加大，会造成模型过于相信预测的类别。因此Transformer里引入标签平滑\cite{Szegedy_2016_CVPR}来缓解这种现象，简单的说就是给正确答案以外的类别分配一定的概率，而不是采用非0即1的概率。这样，可以学习一个比较平滑的概率分布，从而提升泛化能力，防止过拟合。\\
 \end{itemize}

 \parinterval 不同的Transformer可以适应不同的任务，常见的Transformer模型有Transformer Base、Transformer Big和Transformer Deep\cite{NIPS2017_7181}\cite{WangLearning}，具体设置如下：
@@ -1809,7 +1809,7 @@ Transformer Deep(48层) & 30.2            & 43.1            & 194$\times 10^{6}$
 \parinterval 经过几年的积累，神经机器翻译的细分方向已经十分多样，由于篇幅所限，这里也无法覆盖所有内容（虽然笔者尽所能全面介绍相关的基础知识，但是难免会有疏漏）。很多神经机器翻译的模型和方法值得进一步学习和探讨：

 \begin{itemize}
-\item 无论是循环神经网络还是Transformer都有很多变种结构。比如，除了RNN、\\LSTM、GRU，还有其它改进的循环单元结构，如LRN\cite{DBLP:journals/corr/abs-1905-13324}、SRU\cite{Lei2017TrainingRA}、ATR\cite{Zhang2018SimplifyingNM}\\。Transformer是近些年的热门，它也衍生出很多的改进版本，如相对位置编码\cite{Shaw2018SelfAttentionWR}、局部注意力机制\cite{DBLP:journals/corr/abs-1904-03107}、多层信息交互\cite{wang-etal-2018-multi-layer}、深层网络\cite{WangLearning}。此外，其它神经网络架构，如卷积神经网络，也是研发神经机器翻译系统很好的选择\cite{DBLP:journals/corr/GehringAGYD17}\cite{Wu2019PayLA}。最近，也有一些研究者探索异构系统，使用不同的神经网络结构搭建编码器和解码器\cite{Chen2018TheBO}，比如，编码端使用性能更强的Transformer，而解码端使用速度更快的循环神经网络。
+\item 无论是循环神经网络还是Transformer都有很多变种结构。比如，除了RNN、\\LSTM、GRU，还有其他改进的循环单元结构，如LRN\cite{DBLP:journals/corr/abs-1905-13324}、SRU\cite{Lei2017TrainingRA}、ATR\cite{Zhang2018SimplifyingNM}\\。Transformer是近些年的热门，它也衍生出很多的改进版本，如相对位置编码\cite{Shaw2018SelfAttentionWR}、局部注意力机制\cite{DBLP:journals/corr/abs-1904-03107}、多层信息交互\cite{wang-etal-2018-multi-layer}、深层网络\cite{WangLearning}。此外，其他神经网络架构，如卷积神经网络，也是研发神经机器翻译系统很好的选择\cite{DBLP:journals/corr/GehringAGYD17}\cite{Wu2019PayLA}。最近，也有一些研究者探索异构系统，使用不同的神经网络结构搭建编码器和解码器\cite{Chen2018TheBO}，比如，编码端使用性能更强的Transformer，而解码端使用速度更快的循环神经网络。

 \item 注意力机制的使用是机器翻译乃至整个自然语言处理近几年获得成功的重要因素之一\cite{Liu_2019_CVPR}\cite{DBLP:journals/corr/abs-1811-00498}\cite{MoradiInterrogating}。早期，有研究者尝试将注意力机制和统计机器翻译的词对齐进行统一\cite{WangNeural}。近两年，也有研究已经发现注意力模型可以捕捉一些语言现象\cite{DBLP:journals/corr/abs-1905-09418}，比如，在Transformer的多头注意力中，不同头往往会捕捉到不同的信息，比如，有些头对低频词更加敏感，有些头更适合词意消歧，甚至有些头可以捕捉句法信息。此外，由于注意力机制增加了模型的复杂性，而且随着网络层数的增多，神经机器翻译中也存在大量的冗余，因此研发轻量的注意力模型也是具有实践意义的方向\cite{Xiao2019SharingAW}。


--- a/Book/ChapterAppend/ChapterAppend.tex
+++ b/Book/ChapterAppend/ChapterAppend.tex
@@ -198,7 +198,7 @@ d_{>1}(\Delta_i|cb,v;\mathbf{s},\mathbf{t}) = \mu_{>1cb}^{-1} \times \sum_{s=1}^

 \parinterval 这里$X_{\{p-1\}}$表示在位置小于$p$的非空对的目标语单词对应的源语单词的平均置位。

-\parinterval 从式(\ref{eq:1.24})中可以看出因子$\delta(v_{\pi_{p1}},v_{\pi_{p1-1}})$保证了，即使对齐$\mathbf{a}$不合理（一个源语位置对应多个目标语位置）也可以避免在这个不合理的对齐上计算结果。需要注意的是因子$\delta(v_{\pi_{p1}},v_{\pi_{p1-1}})$，只能保证$\mathbf{a}$中不合理的部分不产生坏的影响，而$\mathbf{a}$中其它正确的部分仍会参与迭代。
+\parinterval 从式(\ref{eq:1.24})中可以看出因子$\delta(v_{\pi_{p1}},v_{\pi_{p1-1}})$保证了，即使对齐$\mathbf{a}$不合理（一个源语位置对应多个目标语位置）也可以避免在这个不合理的对齐上计算结果。需要注意的是因子$\delta(v_{\pi_{p1}},v_{\pi_{p1-1}})$，只能保证$\mathbf{a}$中不合理的部分不产生坏的影响，而$\mathbf{a}$中其他正确的部分仍会参与迭代。

 \parinterval 不过上面的参数估计过程与前面4个模型中参数估计过程并不完全一样。前面四个模型在每次迭代中，可以在给定$\mathbf{s}$、$\mathbf{t}$和一个对齐$\mathbf{a}$的情况下直接计算并更新参数。但是在模型5的参数估计过程中，如公式(\ref{eq:1.24})中，需要模拟出由$\mathbf{t}$生成$\mathbf{s}$的过程才能得到正确的结果，因为从$\mathbf{t}$、$\mathbf{s}$和$\mathbf{a}$中是不能直接得到 的正确结果的。具体说，就是要从目标语句子的第一个单词开始到最后一个单词结束，依次生成每个目标语单词对应的源语单词，每处理完一个目标语单词就要暂停，然后才能计算式(\ref{eq:1.24})中求和符号里面的内容。这也就是说即使给定了$\mathbf{s}$、$\mathbf{t}$和一个对齐$\mathbf{a}$，也不能直接在它们上计算，必须重新模拟$\mathbf{t}$到$\mathbf{s}$的生成过程。