合并分支 'caorunzhe' 到 'master'

Caorunzhe 查看合并请求 !81

合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求 !81
4f2e83bb · 曹润柘 · 95ac2c21 · acfe38ad · 4f2e83bb · 4f2e83bb
Commit 4f2e83bb authored May 07, 2020 by 曹润柘
--- a/Book/Chapter1/chapter1.tex
+++ b/Book/Chapter1/chapter1.tex
@@ -30,32 +30,32 @@
    \centering
 \includegraphics[scale=0.2]{./Chapter1/Figures/figure-zh_en-example.png}
    \caption{通过计算机将中文翻译为英文}
-    \label{fig:zh_en-example}
+    \label{fig:1-1}
 \end{figure}
 %----------------------------------------------

-\parinterval 这里更加关注人类语言之间的翻译问题，即自然语言的翻译。如图\ref{fig:zh_en-example}所示，通过计算机可以将一段中文文字自动转化为英文文字，中文被称为{\small\bfnew{源语言}}\index{源语言}（Source Language）\index{Source Language}，英文被称为{\small\bfnew{目标语言}}\index{目标语言}（Target Language）\index{Target Language}。
+\parinterval 这里更加关注人类语言之间的翻译问题，即自然语言的翻译。如图\ref{fig:1-1}所示，通过计算机可以将一段中文文字自动转化为英文文字，中文被称为{\small\bfnew{源语言}}\index{源语言}（Source Language）\index{Source Language}，英文被称为{\small\bfnew{目标语言}}\index{目标语言}（Target Language）\index{Target Language}。

 \parinterval 一直以来，文字的翻译往往是由人工完成。让计算机像人一样进行翻译似乎还是电影中的桥段，因为人们很难想象语言的多样性和复杂性可以用计算机语言进行描述。但是时至今日，人工智能技术的发展已经大大超越了人类传统的认知，用计算机进行自动翻译也不再是一种梦想，它已经深入到人们生活的很多方面，并发挥着重要作用。而这种由计算机进行自动翻译的过程也被称作{\small\bfnew{机器翻译}}\index{机器翻译}（Machine Translation）\index{Machine Translation}。类似地，自动翻译、智能翻译、多语言自动转换等概念也是指同样的事情。如果将今天的机器翻译和人工翻译进行对比，可以发现机器翻译系统所生成的译文还并不完美，甚至有时翻译质量非常差，但是它的生成速度快且成本低廉，更为重要的是机器翻译系统可以从大量数据中不断学习和进化。

 \parinterval 人工翻译尽管精度很高，但是费时费力。当需要翻译大量的文本且精度要求不那么高时，比如海量数据的浏览型任务，机器翻译的优势就体现出来。对于人工作业无法完成的事情，使用机器翻译可能只需花费几个小时甚至几分钟就能完成。这就类似于拿着锄头耕地种庄稼和使用现代化机器作业之间的区别。

-\parinterval 实现机器翻译往往需要多个学科知识的融合，如数学、语言学、计算机科学、心理学等等。而最终呈现给使用者的是一套软件系统\ \dash\ 机器翻译系统。通俗来讲，机器翻译系统就是一个可以在计算机上运行的软件工具，与人们使用的其他软件一样，只不过机器翻译系统是由``不可见的程序''组成，虽然这个系统非常复杂。但是呈现出来的展示形式却很简单，比如输入是待翻译的句子或文本，输出是译文句子或文本。
+\parinterval 实现机器翻译往往需要多个学科知识的融合，如数学、语言学、计算机科学、心理学等等。而最终呈现给使用者的是一套软件系统\ \dash\ 机器翻译系统。通俗来讲，机器翻译系统就是一个可以在计算机上运行的软件工具，与人们使用的其他软件一样，只不过机器翻译系统是由``不可见的程序''组成。虽然这个系统非常复杂，但是呈现出来的展示形式却很简单，比如输入是待翻译的句子或文本，输出是译文句子或文本。

 %----------------------------------------------
 \begin{figure}[htp]
    \centering
 \input{./Chapter1/Figures/figure-Required-parts-of-MT}
    \caption{机器翻译系统的组成}
-    \label{fig:Required-parts-of-MT}
+    \label{fig:1-2}
 \end{figure}
 %-------------------------------------------

-\parinterval 用机器进行翻译的想法可以追溯到电子计算机产生之前，发展过程中也经历了多个范式的变迁，现代机器翻译系统大多是基于数据驱动的方法\ \dash\ 从数据中自动学习翻译知识，并运用这些知识对新的文本进行翻译。如图\ref{fig:Required-parts-of-MT}所示，机器翻译系统通常由两部分组成：
+\parinterval 用机器进行翻译的想法可以追溯到电子计算机产生之前，发展过程中也经历了多个范式的变迁，现代机器翻译系统大多是基于数据驱动的方法\ \dash\ 从数据中自动学习翻译知识，并运用这些知识对新的文本进行翻译。如图\ref{fig:1-2}所示，机器翻译系统通常由两部分组成：

 \begin{itemize}
 \vspace{0.5em}
-\item {\small\bfnew{资源}}：如果把机器翻译系统比作一辆汽车，资源就好比是可以使汽车运行的``汽油''，它包括很多内容，如翻译规则、双（单）语数据、知识库等等翻译知识，且这些``知识''都是计算机可读的。值得一提的是,如果没有翻译资源的支持，任何的机器翻译系统都无法运行起来。
+\item {\small\bfnew{资源}}：如果把机器翻译系统比作一辆汽车，资源就好比是可以使汽车运行的``汽油''，它包括很多内容，如翻译规则、双（单）语数据、知识库等翻译知识，且这些``知识''都是计算机可读的。值得一提的是,如果没有翻译资源的支持，任何机器翻译系统都无法运行起来。
 \vspace{0.5em}
 \item {\small\bfnew{系统}}：机器翻译算法的程序实现被称作系统，也就是机器翻译研究人员开发的软件。无论是翻译规则、翻译模板还是统计模型中的参数都需要通过机器翻译系统进行读取和使用。
 \vspace{0.5em}
@@ -67,7 +67,7 @@
 \vspace{0.5em}
 \item {\small\bfnew{自然语言翻译问题的复杂性极高}}。语言是人类进化的最高成就之一，自然语言具有高度的概括性、灵活性、多样性，这些都很难用几个简单的模型和算法进行描述。因此，翻译问题的数学建模和计算机程序实现难度很大。虽然近几年Alpha Go等人工智能系统在围棋等领域取得了令人瞩目的成绩，但是，相比翻译来说，围棋等棋类任务仍然``简单''，比如，对于一个句子，其潜在的译文几乎是不可穷尽的，即使同一句话不同人的理解也不尽相同，甚至在翻译一个句子、一个单词的时候，要考虑整个篇章的上下文语境，这些问题都不是传统棋类任务所具备的。
 \vspace{0.5em}
-\item {\small\bfnew{计算机的``理解''与人类的``理解''存在鸿沟}}。人类一直希望把自己翻译时所使用的知识描述出来，并用计算机程序进行实现，例如早期基于规则的机器翻译方法就源自这个思想。但是，经过实践发现，人和计算机在``理解''自然语言上存在着明显差异。首先，人类的语言能力是经过长时间多种外部环境因素共同作用形成的，这种能力很难直接准确表达。人类的语言知识本身就很难描述，更不用说让计算机来理解；其次，人和机器翻译系统理解语言的目的不一样。人理解和使用语言是为了进行生活和工作，而机器翻译系统更多的是为了对某些数学上定义的目标函数进行优化。也就是说，机器翻译系统关注的是翻译这个单一目标，而并不是像人一样进行复杂的活动；此外，人和计算机的运行方式有着本质区别。人类语言能力的生物学机理与机器翻译系统所使用的计算模型本质上是不同的，机器翻译系统使用的是其自身能够理解的``知识''，比如，统计学上的词语表示。这种``知识''并不需要人来理解，当然从系统开发的角度，计算机也并不需要理解人是如何思考的。
+\item {\small\bfnew{计算机的``理解''与人类的``理解''存在鸿沟}}。人类一直希望把自己翻译时所使用的知识描述出来，并用计算机程序进行实现，例如早期基于规则的机器翻译方法就源自这个思想。但是，经过实践发现，人和计算机在``理解''自然语言上存在着明显差异。首先，人类的语言能力是经过长时间多种外部环境因素共同作用形成的，这种能力很难直接准确地表达。人类的语言知识本身就很难描述，更不用说让计算机来理解；其次，人和机器翻译系统理解语言的目的不一样。人理解和使用语言是为了进行生活和工作，而机器翻译系统更多的是为了对某些数学上定义的目标函数进行优化。也就是说，机器翻译系统关注的是翻译这个单一目标，而并不是像人一样进行复杂的活动；此外，人和计算机的运行方式有着本质区别。人类语言能力的生物学机理与机器翻译系统所使用的计算模型本质上是不同的，机器翻译系统使用的是其自身能够理解的``知识''，比如，统计学上的词语表示。这种``知识''并不需要人来理解，当然从系统开发的角度，计算机也并不需要理解人是如何思考的。
 \vspace{0.5em}
 \item {\small\bfnew{单一的方法无法解决多样的翻译问题}}。首先，语种的多样性会导致任意两种语言之间的翻译实际上都是不同的翻译任务。比如，世界上存在的语言多达几千种，如果选择任意两种语言进行互译就产生上百万种翻译方向。虽然已经有研究者尝试用同一个框架甚至同一个翻译系统进行全语种的翻译，但是这类系统离真正可用还有很远的距离；其次，不同的领域，不同的应用场景对翻译也有不同的需求。比如，文学作品的翻译和新闻的翻译就有不同、口译和笔译也有不同，类似的情况不胜枚举。机器翻译要适用于多样的需求，这些又进一步增加了计算机建模的难度；再次，对于机器翻译来说，充足的高质量数据是必要的，但是不同语种、不同领域、不同应用场景所拥有的数据量有明显差异，甚至很多语种几乎没有可用的数据，这时开发机器翻译系统的难度可想而知。值得注意的是，现在的机器翻译还无法像人类一样在学习少量样例的情况下进行举一反三，因此数据稀缺情况下的机器翻译也给研究者带来了很大的挑战。
 \vspace{0.5em}
@@ -91,14 +91,14 @@

 \subsection{人工翻译}

-\parinterval 人类形成语言文字的过程中逐渐形成了翻译的概念。一个著名的标志性证据是罗塞塔石碑（Rosetta Stone），如图\ref{fig:rosetta-stone}所示。这个石碑制作于公元前196年，据说是可供考证的最久远的记载平行文字的历史遗迹。石碑由上至下刻有同一段埃及国王诏书的三种语言版本，最上面是古埃及象形文，中间是埃及草书，最下面是古希腊文。可以明显看出石碑上中下雕刻的文字的纹理是不同的。尽管用不同的语言文字描述同一件事在今天看来很常见，但是这在生产力低下的两千年前是很罕见的。很多人认为罗塞塔石碑是标志翻译或人工翻译的一个起点。目前罗塞塔石碑保存于大英博物馆，并成为该馆最具代表性的镇馆之宝之一。
+\parinterval 人类形成语言文字的过程中逐渐形成了翻译的概念。一个著名的标志性证据是罗塞塔石碑（Rosetta Stone），如图\ref{fig:1-3}所示。这个石碑制作于公元前196年，据说是可供考证的最久远的记载平行文字的历史遗迹。石碑由上至下刻有同一段埃及国王诏书的三种语言版本，最上面是古埃及象形文，中间是埃及草书，最下面是古希腊文。可以明显看出石碑上中下雕刻的文字的纹理是不同的。尽管用不同的语言文字描述同一件事在今天看来很常见，但是这在生产力低下的两千年前是很罕见的。很多人认为罗塞塔石碑是标志翻译或人工翻译的一个起点。目前罗塞塔石碑保存于大英博物馆，并成为该馆最具代表性的镇馆之宝之一。

 %----------------------------------------------
 \begin{figure}[htp]
    \centering
 \includegraphics[scale=0.20]{./Chapter1/Figures/figure-rosetta-stone.jpg}
    \caption{罗塞塔石碑}
-    \label{fig:rosetta-stone}
+    \label{fig:1-3}
 \end{figure}
 %------------------------------------------

@@ -119,13 +119,13 @@
    \centering
 \includegraphics[scale=0.25]{./Chapter1/Figures/figure-eniac.jpg}
    \caption{世界上第一台通用电子数字计算机``埃尼阿克''（ENIAC）}%\\【图片来源：百度百科】
-    \label{fig:eniac}
+    \label{fig:1-4}
 \end{figure}
 %-------------------------------------------

-\parinterval 世界上第一台通用电子数字计算机在1946年研制成功（图\ref{fig:eniac}）。但在上世纪30年代使用计算模型进行自动翻译的思想就开始萌芽，当时法国科学家G.B. Artsouni提出了用机器来进行翻译的想法。
+\parinterval 世界上第一台通用电子数字计算机在1946年研制成功（图\ref{fig:1-4}）。但在上世纪30年代使用计算模型进行自动翻译的思想就开始萌芽，当时法国科学家G.B. Artsouni提出了用机器来进行翻译的想法。

-\parinterval 第二次世界大战使得数学和密码学相当发达，由于战争的需要，在那个时代消息传递变的更为隐秘，对文字进行加密和解密成为重要的军事需求。因此，有人提出是否能用密码学的技术或方法解决人类语言的翻译，比如把汉语看成英语的一个加密文本，汉语翻译成英语就类似于解密的过程。当然这只是最初的想法。第一次提出机器翻译这个概念是在1949年，当时W. Weaver撰写了一篇名为《翻译》的备忘录，正式开创了机器翻译（MachineTranslation）的概念，这个概念一直沿用至今。当然，在那个年代进行机器翻译研究还有很多条件不具备，包括使用加密解密技术进行自动翻译的很多尝试很快也被验证是不可行的。不过，这些早期的探索为后来机器翻译的发展提供了思想的火种。
+\parinterval 第二次世界大战使得数学和密码学相当发达，由于战争的需要，在那个时代消息传递变的更为隐秘，对文字进行加密和解密成为重要的军事需求。因此，有人提出是否能用密码学的技术或方法解决人类语言的翻译，比如把汉语看成英语的一个加密文本，汉语翻译成英语就类似于解密的过程。当然这只是最初的想法。第一次提出机器翻译这个概念是在1949年，当时W. Weaver撰写了一篇名为《翻译》的备忘录，正式开创了机器翻译（Machine Translation）的概念，这个概念一直沿用至今。当然，在那个年代进行机器翻译研究还有很多条件不具备，包括使用加密解密技术进行自动翻译的很多尝试很快也被验证是不可行的。不过，这些早期的探索为后来机器翻译的发展提供了思想的火种。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -135,7 +135,7 @@

 \parinterval 随着电子计算机的发展，研究者开始尝试使用计算机来进行自动的翻译。但是事情并不总是一帆风顺，怀疑论者对机器翻译一直存有质疑，并很容易找出一些机器翻译无法解决的问题。自然地，人们也期望能够客观地评估一下机器翻译的可行性。当时美国基金资助组织委任自动语言处理咨询会承担了这项任务。

-\parinterval 经过近两年的调查与分析，该委员会于1966年11月公布了一个题为《语言与机器》的报告（图\ref{fig:report}），简称ALPAC报告。该报告全面否定了机器翻译的可行性，为机器翻译的研究泼了一盆冷水。
+\parinterval 经过近两年的调查与分析，该委员会于1966年11月公布了一个题为《语言与机器》的报告（图\ref{fig:1-5}），简称ALPAC报告。该报告全面否定了机器翻译的可行性，为机器翻译的研究泼了一盆冷水。

 \parinterval 随后美国政府终止了对机器翻译研究的支持，这导致整个产业界和学术界对机器翻译都开始回避。大家觉得机器翻译像伪科学，无论是发表论文还是申请项目都很难得到支持。没有了政府的支持，企业也无法进行大规模投入，机器翻译的研究就此受挫。

@@ -146,7 +146,7 @@
    \centering
 \includegraphics[scale=0.65]{./Chapter1/Figures/figure-report.jpg}
    \caption{ALPAC报告}
-    \label{fig:report}
+    \label{fig:1-5}
 \end{figure}
 %-------------------------------------------

@@ -166,7 +166,7 @@

 \subsection{机器翻译的爆发}

-\parinterval 2005年以后迎来了统计机器翻译发展的十年黄金时期，各种基于统计机器翻译模型层出不穷，经典的基于短语的模型和基于句法的模型也先后被提出。但是在2013年以后，机器学习的进步带来了机器翻译技术进一步提升。特别是基于神经网络的深度学习方法在机器视觉、语音识别中被成功应用，带来性能的飞跃式提升。很快，相关模型和方法也被用于机器翻译。对于机器翻译来说，深度学习的成功也是一种必然，原因如下：
+\parinterval 2005年以后迎来了统计机器翻译发展的十年黄金时期，各种基于统计机器翻译模型层出不穷，经典的基于短语的模型和基于句法的模型也先后被提出。但是在2013年以后，机器学习的进步带来了机器翻译技术的进一步提升。特别是基于神经网络的深度学习方法在机器视觉、语音识别中被成功应用，带来性能的飞跃式提升。很快，相关模型和方法也被用于机器翻译。对于机器翻译来说，深度学习的成功也是一种必然，原因如下：

 \begin{itemize}
 \vspace{0.5em}
@@ -178,7 +178,7 @@
 \vspace{0.5em}
 \end{itemize}

-\parinterval 今天，神经机器翻译已经成为新的范式，大有全面替代统计机器翻译之势。比如，从世界上著名的机器翻译比赛WMT和CCMT中就可以看出这个趋势。如图\ref{fig:wmt}所示，其中左图是WMT19全球机器翻译比赛的参赛队伍的截图，这些参赛队伍基本上都在使用深度学习完成机器翻译的建模。而在WMT19各个项目夺冠系统中（\ref{fig:wmt}右图），神经机器翻译也几乎一统天下。
+\parinterval 今天，神经机器翻译已经成为新的范式，大有全面替代统计机器翻译之势。比如，从世界上著名的机器翻译比赛WMT和CCMT中就可以看出这个趋势。如图\ref{fig:1-6}所示，其中左图是WMT19全球机器翻译比赛的参赛队伍的截图，这些参赛队伍基本上都在使用深度学习完成机器翻译的建模。而在WMT19各个项目夺冠系统中（\ref{fig:1-6}右图），神经机器翻译也几乎一统天下。

 \parinterval 值得一提的是，近些年神经机器翻译的快速发展也得益于产业界的关注。各大互联网企业和机器翻译技术研发机构都对神经机器翻译的模型和实践方法给予了很大贡献。比如，谷歌，微软、百度、搜狗、腾讯、阿里、有道、小牛翻译等企业凭借自身人才和基础设施方面的优势，先后推出了以神经机器翻译为内核的产品及服务，相关技术方法已经在大规模应用中得到验证，大大推动了机器翻译的产业化进程，而且这种趋势在不断加强，机器翻译的前景也更加宽广。

@@ -189,7 +189,7 @@
 \includegraphics[scale=0.3]{./Chapter1/Figures/figure-wmt-bestresults.jpg}
 \setlength{\belowcaptionskip}{-1.5em}
    \caption{国际机器翻译大赛(左：WMT19参赛队伍；右：WMT19最终个项目最好分数结果)}
-    \label{fig:wmt}
+    \label{fig:1-6}
 \end{figure}
 %-------------------------------------------

@@ -202,7 +202,7 @@
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \parinterval 机器翻译技术发展到今天已经过无数次迭代，技术范式也经过若干次更替，近些年机器翻译的应用也如雨后春笋。但是大家都很好奇今天的机器翻译的质量究竟如何呢？乐观地说，在受限条件下，机器翻译的译文结果还是非常不错的，甚至可以接近人工翻译的结果。然而，在开放式翻译任务中，机器翻译的结果却并不理想。更严格来说，机器翻译的质量远没有达到人们所期望的完美的程度。对于有些人提到的``机器翻译代替人工翻译''也并不是事实。比如，在高精度同声传译任务中，机器翻译仍需要更多打磨；再比如，针对于小说的翻译，机器翻译还无法做到与人工翻译媲美；甚至有人尝试用机器翻译系统翻译中国古代诗词，这里更多的是娱乐的味道。但是毫无疑问的是，机器翻译可以帮助人类，甚至有朝一日可以代替一些低端的人工翻译工作。

-\parinterval 图\ref{fig:results-zh-to-en news-field-translation}展示了机器翻译和人工翻译质量的一个对比结果。在汉语到英语的新闻翻译任务中，如果对译文进行人工评价，五分制机器翻译的译文得3.9 分，人工译文得4.7分（人的翻译也不是完美的）。可见，在这个任务中机器翻译表现不错，但是与人还有一定差距。如果换一种方式评价，把人的译文作为参考答案，用机器翻译的译文与其进行比对，会发现机器翻译的得分只有47分（百分制）。当然，这个结果并不是说机器翻译的译文质量很差，它更多的是表明机器翻译系统可以生成一些与人工翻译不同的译文，机器翻译也具有一定的创造性。这也类似于，很多围棋选手都想向AlphaGo学习，因为智能围棋系统也可以走出一些人类从未走过的妙招。
+\parinterval 图\ref{fig:1-7}展示了机器翻译和人工翻译质量的一个对比结果。在汉语到英语的新闻翻译任务中，如果对译文进行人工评价，五分制机器翻译的译文得3.9 分，人工译文得4.7分（人的翻译也不是完美的）。可见，在这个任务中机器翻译表现不错，但是与人还有一定差距。如果换一种方式评价，把人的译文作为参考答案，用机器翻译的译文与其进行比对，会发现机器翻译的得分只有47分（百分制）。当然，这个结果并不是说机器翻译的译文质量很差，它更多的是表明机器翻译系统可以生成一些与人工翻译不同的译文，机器翻译也具有一定的创造性。这也类似于，很多围棋选手都想向AlphaGo学习，因为智能围棋系统也可以走出一些人类从未走过的妙招。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -210,11 +210,11 @@
 \input{./Chapter1/Figures/figure-results-zh-to-en-news-field-translation}
 \setlength{\belowcaptionskip}{-0.5em}
    \caption{机器翻译与人工翻译性能对比（汉英新闻领域翻译）}
-    \label{fig:results-zh-to-en news-field-translation}
+    \label{fig:1-7}
 \end{figure}
 %-------------------------------------------

-\parinterval 图\ref{fig:comparison-mt-ht}展示了一个真实的汉语到英语翻译实例。对比发现，机器翻译与人工翻译还是存在差距的，特别是在翻译一些具有感情色彩的词语时，机器翻译的译文缺一些味道。那么，机器翻译一点用都没有吗？显然不是。实际上，如果考虑翻译速度与翻译代价，机器翻译的价值是无可比拟的。还是同一个例子，翻译一篇短文如果人工翻译需要30分钟甚至更长时间，那么机器翻译仅仅需要两秒，换种情况思考，如果有100万篇这样的文档，其人工翻译的成本根本无法想象，消耗的时间更是难以计算，而计算机集群仅仅需要一天，而且只有电力的消耗。
+\parinterval 图\ref{fig:1-9}展示了一个真实的汉语到英语翻译实例。对比发现，机器翻译与人工翻译还是存在差距的，特别是在翻译一些具有感情色彩的词语时，机器翻译的译文缺一些味道。那么，机器翻译一点用都没有吗？显然不是。实际上，如果考虑翻译速度与翻译代价，机器翻译的价值是无可比拟的。还是同一个例子，翻译一篇短文如果人工翻译需要30分钟甚至更长时间，那么机器翻译仅仅需要两秒，换种情况思考，如果有100万篇这样的文档，其人工翻译的成本根本无法想象，消耗的时间更是难以计算，而计算机集群仅仅需要一天，而且只有电力的消耗。
 %\\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\

 %----------------------------------------------
@@ -223,7 +223,7 @@
 \input{./Chapter1/Figures/figure-Example-RBMT}
 \setlength{\belowcaptionskip}{-1.5em}
    \caption{基于规则的机器翻译的示例图（左：规则库；右：规则匹配结果）}
-    \label{fig:Example-RBMT}
+    \label{fig:1-8}
 \end{figure}
 %-------------------------------------------

@@ -233,7 +233,7 @@
 \input{./Chapter1/Figures/figure-comparison-mt-ht}
 \setlength{\belowcaptionskip}{7.0em}
    \caption{机器翻译与人工翻译实例结果对比}
-    \label{fig:comparison-mt-ht}
+    \label{fig:1-9}
 \end{figure}
 %-------------------------------------------

@@ -254,7 +254,7 @@

 \parinterval 早期的机器翻译研究都是以基于规则的方法为主，特别是在上世纪70年代，以基于规则方法为代表的专家系统是人工智能中最具代表性的研究领域。它的主要思想是以词典和人工书写的规则库作为翻译知识，用一系列规则的组合完成翻译。

-\parinterval 图\ref{fig:Example-RBMT}展示了一个使用规则进行翻译的实例。这里，利用一个简单的汉译英规则库完成对句子``我对你感到满意''的翻译。当翻译``我''时，从规则库中找到规则1，该规则表示遇到单词``我''就翻译为``I''；类似地，也可以从规则库中找到规则4，该规则表示翻译调序，即将单词``you''放到``be satisfied with''后面。可以看到，这些规则的使用和进行翻译时所使用的思想非常类似，可以说基于规则方法实际上在试图描述人类进行翻译的思维过程。
+\parinterval 图\ref{fig:1-8}展示了一个使用规则进行翻译的实例。这里，利用一个简单的汉译英规则库完成对句子``我对你感到满意''的翻译。当翻译``我''时，从规则库中找到规则1，该规则表示遇到单词``我''就翻译为``I''；类似地，也可以从规则库中找到规则4，该规则表示翻译调序，即将单词``you''放到``be satisfied with''后面。可以看到，这些规则的使用和进行翻译时所使用的思想非常类似，可以说基于规则方法实际上在试图描述人类进行翻译的思维过程。

 \parinterval 但是，基于规则的机器翻译也存在问题。首先，书写规则需要消耗大量人力，规则库的维护代价极高；其次，规则很难涵盖所有的语言现象；再有，自然语言存在大量的歧义现象，规则之间也会存在冲突，这也导致规则数量不可能无限制增长。

@@ -271,11 +271,11 @@
    \centering
 \input{./Chapter1/Figures/figure-zh-sentences-into-en-sentences}
    \caption{基于实例的机器翻译的示例图（左：实例库；右：翻译结果）}
-    \label{fig:zh-sentences-into-en-sentences}
+    \label{fig:1-10}
 \end{figure}
 %-------------------------------------------

-\parinterval 图\ref{fig:zh-sentences-into-en-sentences}展示了一个基于实例的机器翻译过程。它利用简单的翻译实例库与翻译词典完成对句子``我对你感到满意''的翻译。首先，使用待翻译句子的源语言端在翻译实例库中进行比较，根据相似度大小找到相似的实例``我对他感到高兴''。然后，标记实例中不匹配的部分，即``你''和``他''，``满意''和``高兴''。再查询翻译词典得到词``你''和``满意''所对应的翻译结果``you''和``satisfied''，用这两个词分别替换实例中的``him''和``happy''，从而得到最终译文。
+\parinterval 图\ref{fig:1-10}展示了一个基于实例的机器翻译过程。它利用简单的翻译实例库与翻译词典完成对句子``我对你感到满意''的翻译。首先，使用待翻译句子的源语言端在翻译实例库中进行比较，根据相似度大小找到相似的实例``我对他感到高兴''。然后，标记实例中不匹配的部分，即``你''和``他''，``满意''和``高兴''。再查询翻译词典得到词``你''和``满意''所对应的翻译结果``you''和``satisfied''，用这两个词分别替换实例中的``him''和``happy''，从而得到最终译文。

 \parinterval 当然，基于实例的机器翻译也并不完美。首先，这种方法对翻译实例的精确度要求非常高，一个实例的错误可能会导致一个句型都无法翻译正确；其次，实例维护较为困难，实例库的构建通常需要单词级对齐的标注，而保证词对齐的质量是非常困难的工作，这也大大增加了实例库维护的难度；再次，尽管可以通过实例或者模板进行翻译，但是其覆盖度仍然有限。在实际应用中，很多句子无法找到可以匹配的实例或者模板。

@@ -292,11 +292,11 @@
    \centering
 \input{./Chapter1/Figures/figure-Example-SMT}
    \caption{统计机器翻译的示例图（左：语料资源；中：翻译模型与语言模型；右：翻译假设与翻译引擎）}
-    \label{fig:Example-SMT}
+    \label{fig:1-11}
 \end{figure}
 %-------------------------------------------

-\parinterval 图\ref{fig:Example-SMT}展示了一个统计机器翻译系统运行的简单实例。整个系统需要两个模型：翻译模型和语言模型。其中，翻译模型从双语平行语料中学习翻译知识，得到短语表，其中包含各种词汇的翻译及其概率，这样可以度量源语言和目标语言片段之间互为翻译的可能性大小；语言模型从单语语料中学习目标语的词序列生成规律，来衡量目标语言译文的流畅性。最后，将这两种模型联合使用，翻译引擎来搜索尽可能多的翻译结果，并计算不同翻译结果的可能性大小，最后将概率最大的译文作为最终结果输出。这个过程并没有显性使用人工翻译规则和模板，译文的生成仅仅依赖翻译模型和语言模型中的统计参数。
+\parinterval 图\ref{fig:1-11}展示了一个统计机器翻译系统运行的简单实例。整个系统需要两个模型：翻译模型和语言模型。其中，翻译模型从双语平行语料中学习翻译知识，得到短语表，其中包含各种词汇的翻译及其概率，这样可以度量源语言和目标语言片段之间互为翻译的可能性大小；语言模型从单语语料中学习目标语的词序列生成规律，来衡量目标语言译文的流畅性。最后，将这两种模型联合使用，翻译引擎来搜索尽可能多的翻译结果，并计算不同翻译结果的可能性大小，最后将概率最大的译文作为最终结果输出。这个过程并没有显性使用人工翻译规则和模板，译文的生成仅仅依赖翻译模型和语言模型中的统计参数。

 \parinterval 由于没有对翻译过程进行过多的限制，统计机器翻译有很灵活的译文生成方式，因此系统可以处理更加多样的句子。但是这种方法也带来了一些问题：首先，虽然并不需要人工定义翻译规则或模板，统计机器翻译系统仍然需要人工定义翻译特征。提升翻译品质往往需要大量的特征工程，导致人工特征设计的好坏会对系统产生决定性影响；其次，统计机器翻译的模块较多，系统研发比较复杂；再次，随着训练数据增多，统计机器翻译的模型（比如短语翻译表）会明显增大，在系统存储资源受限的情况下，妨碍系统的正常使用。

@@ -313,11 +313,11 @@
    \centering
 \input{./Chapter1/Figures/figure-Example-NMT}
    \caption{神经机器翻译的示例图（左：编码器-解码器网络；右：编码器示例网络）}
-    \label{fig:Example-NMT}
+    \label{fig:1-12}
 \end{figure}
 %-------------------------------------------

-\parinterval 图\ref{fig:Example-NMT}展示了一个神经机器翻译的实例。首先，通过编码器，源语言序列``我对你感到满意''经过多层神经网络编码生成一个向量表示，即图中的向量（0.2，-1，6，5，0.7，-2）。再将该向量作为输入送到解码器中，解码器把这个向量解码成目标语言序列。注意，目标语言序列的生成是逐词进行的（虽然图中展示的是解码器生成整个序列，但是在具体实现时是逐个单词生成目标语译文），产生某个词的时候依赖之前生成的目标语言的历史信息，直到产生句子结束符为止。
+\parinterval 图\ref{fig:1-12}展示了一个神经机器翻译的实例。首先，通过编码器，源语言序列``我对你感到满意''经过多层神经网络编码生成一个向量表示，即图中的向量（0.2，-1，6，5，0.7，-2）。再将该向量作为输入送到解码器中，解码器把这个向量解码成目标语言序列。注意，目标语言序列的生成是逐词进行的（虽然图中展示的是解码器生成整个序列，但是在具体实现时是逐个单词生成目标语译文），产生某个词的时候依赖之前生成的目标语言的历史信息，直到产生句子结束符为止。

 \parinterval 相比统计机器翻译，神经机器翻译的优势体现在其不需要特征工程，所有信息由神经网络自动从原始输入中提取。而且，相比离散化的表示，词和句子的分布式连续空间表示可以为建模提供更为丰富的信息，同时可以使用相对成熟的基于梯度的方法优化模型。此外，神经网络的存储需求较小，天然适合小设备上的应用。但是，神经机器翻译也存在问题。首先，虽然脱离了特征工程，神经网络的结构需要人工设计，即使设计好结构，系统的调优、超参数的设置等仍然依赖大量的实验；其次，神经机器翻译现在缺乏可解释性，其过程和人的认知差异很大，通过人的先验知识干预的程度差；再次，神经机器翻译对数据的依赖很大，数据规模、质量对性能都有很大影响，特别是在数据稀缺的情况下，充分训练神经网络具有挑战。

@@ -360,6 +360,7 @@
 翻译精度 & 高 & 较高 & 不确定 & 不确定 \\
 \end{tabular}
 \end{center}
+\label{tab:1-1}
 }\end{table}
 %-------------------------------------------

@@ -420,10 +421,10 @@

 \parinterval 目前使用最广泛的自动评价指标是BLEU。BLEU是Bilingual Evaluation understudy的缩写，最早由IBM在2002年提出\cite{papineni2002bleu}。通过采用$n$-gram匹配的方式评定机器翻译结果和参考译文之间的相似度，即机器翻译的结果越接近人工参考译文就认定它的质量越高。$n$-gram是指$n$个连续单词组成的单元，称为{\small\bfnew{$n$元语法单元}}\index{$n$元语法单元}。$n$越大表示评价时考虑的匹配片段越大。

-\parinterval  BLEU的计算首先考虑待评价译文中$n$-gram在参考答案中的匹配率，称为{\small\bfnew{$n$-gram准确率}}\index{$n$-gram准确率}（$n$-gram Precision）\index{$n$-gram Precision}。其计算方法如下：
+\parinterval  BLEU的计算首先考虑待评价译文中$n$-gram在参考答案中的匹配率，称为{\small\bfnew{$\bm n$-gram准确率}}\index{$n$-gram准确率}（$n$-gram Precision）\index{$n$-gram Precision}。其计算方法如下：
 \begin{eqnarray}
 \textrm{P}_n=\frac{\textrm{Count}_\textrm{hit}}{\textrm{Count}_{\textrm{output}}}
-\label{eq:matching-rate}
+\label{eq:1-1}
 \end{eqnarray}

 \parinterval  其中$\textrm{Count}_{\textrm{hit}}$表示系统输出的译文中$n$-gram在参考答案中命中的次数，$\textrm{Count}_{\textrm{output}}$\\表示系统输出的译文中总共有多少$n$-gram。为了避免同一个词被重复计算，BLEU的定义中使用了截断的方式定义$\textrm{Count}_{\textrm{hit}}$和$\textrm{Count}_{\textrm{output}}$。例如：
@@ -432,6 +433,7 @@
 Candidate：the the the the

 \qquad \qquad \ \  Reference：The cat is standing on the ground
+\label{eg:1-1}
 \end{example}

 \parinterval 在引入截断方式之前，该译文的1-gram准确率为$4/4=1$，这显然是不合理的。在引入截断的方式之后，``the''在译文中出现4次，在参考译文中出现2次，截断操作则是取二者的最小值，即$\textrm{Count}_{\textrm{hit}}= 2$，$\textrm{Count}_{\textrm{output}}= 4$，该译文的1-gram准确率为$2/4$。
@@ -439,7 +441,7 @@ Candidate：the the the the
 \parinterval 译文整体的准确率等于各$n$-gram的加权平均：
 \begin{eqnarray}
 \textrm{P}_{\textrm{avg}}=\exp(\sum_{n=1}^Nw_n\cdot \log{\textrm{P}_n})
-\label{eq:weighted-average}
+\label{eq:1-2}
 \end{eqnarray}

 \parinterval 但是，该方法更倾向于对短句子打出更高的分数。一个极端的例子是译文只有很少的几个词，但是都命中答案，准确率很高可显然不是好的译文。因此，BLEU引入{\small\bfnew{短句惩罚因子}}\index{短句惩罚因子}（Brevity Penalty\index{Brevity Penalty}, BP）的概念，对短句进行惩罚，
@@ -450,14 +452,14 @@ Candidate：the the the the
 1& c>r\\
 e^{(1-\frac{r}{c})}& c \le r
 \end{cases}
-\label{eq:brevity-penalty}
+\label{eq:1-3}
 \end{eqnarray}

 \noindent 其中$c$表示译文的句子长度，$r$表示参考译文的句子长度。最终BLEU的计算公式为：

 \begin{eqnarray}
 \textrm{BLEU}=\textrm{BP} \cdot \exp(\sum_{i=1}^{N}w_n \cdot \log{\textrm{P}_n})
-\label{eq:BLUE}
+\label{eq:1-4}
 \end{eqnarray}

 \parinterval 从机器翻译的发展来看，BLEU的意义在于它给系统研发人员提供了一种简单、高效、可重复的自动评价手段，在研发机器翻译系统时可以不需要依赖人工评价。同时，BLEU也有很多创新之处，包括引入$n$-gram的匹配，截断计数和短句惩罚等等，包括NIST等很多评价指标都是受到BLEU的启发。当然， BLEU也并不完美，甚至经常被人诟病。比如，它需要依赖参考译文，而且评价结果有时与人工评价不一致，同时BLEU评价只是单纯的从匹配度的角度思考翻译质量的好坏，并没有真正考虑句子的语义是否翻译正确。但是，毫无疑问，BLEU仍然是机器翻译中最常用的评价方法。在没有找到更好的替代方案之前，BLEU还是机器翻译研究所使用的标准评价指标。
@@ -471,7 +473,7 @@ e^{(1-\frac{r}{c})}& c \le r
 \parinterval  TER是Translation Edit Rate的缩写，是一种基于距离的评价方法，用来评定机器翻译结果的译后编辑的工作量\cite{snover2006study}。这里，距离被定义为将一个序列转换成另一个序列所需要的最少编辑操作次数。操作次数越多，距离越大，序列之间的相似性越低；相反距离越小，表示一个句子越容易改写成另一个句子，序列之间的相似性越高。TER使用的编辑操作包括：增加，删除，替换和移位，其中增加，删除，替换操作计算得到的距离被称为编辑距离，并根据错误率的形式给出评分：
 \begin{eqnarray}
 \textrm{score}=\frac{\textrm{edit}(c,r)}{l}
-\label{eq:score-based-on-error-rate}
+\label{eq:1-5}
 \end{eqnarray}

 \noindent 其中$\textrm{edit}(c,r)$是指机器翻译生成的候选译文$c$和参考译文$r$之间的距离，$l$是归一化因子，通常为参考译文的长度。在距离计算中所有的操作的代价都为1。在计算距离时，优先考虑移位操作，再计算编辑距离，也就是增加、删除和替换操作的次数。直到增加、移位操作无法减少编辑距离时，将编辑距离和移位操作的次数累加得到TER计算的距离。例如:
@@ -480,11 +482,12 @@ e^{(1-\frac{r}{c})}& c \le r
 Candidate：cat is standing in the ground

 \qquad \qquad \ \  Reference：The cat is standing on the ground
+\label{eg:1-2}
 \end{example}

 \parinterval 将Candidate转换为Reference，需要进行一次增加操作，在句首增加``The''；一次替换操作，将``in''替换为``on''。所以$\textrm{edit}(c,r) = 2$，归一化因子$l$为Reference的长度7，所以该参考译文的TER 错误率为$2/7$。

-\parinterval 与BLEU不同，基于距离的评价方法是一种典型的``错误率''的度量，类似的思想也广泛应用于语音识别等领域。在机器翻译中，除了TER外，还有WER， PER等十分相似的方法，只是在``错误''的定义上略有不同。需要注意的是，很多时候，研究者并不会单独使用BLEU或者TER，而是将两种方法融合，比如，使用BLEU与TER相减后的值作为评价指标（BLEU和TER之间是减号）。
+\parinterval 与BLEU不同，基于距离的评价方法是一种典型的``错误率''的度量，类似的思想也广泛应用于语音识别等领域。在机器翻译中，除了TER外，还有WER， PER等十分相似的方法，只是在``错误''的定义上略有不同。需要注意的是，很多时候，研究者并不会单独使用BLEU或者TER，而是将两种方法融合，比如，使用BLEU与TER相减后的值作为评价指标。

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -502,6 +505,7 @@ They got up at six this morning.
 \qquad \qquad \ \  他们今天早晨六点钟起床。

 \qquad \qquad \ \  检测点：时间词的顺序。
+\label{eg:1-3}
 \end{example}

 \begin{example}
@@ -510,6 +514,7 @@ There are nine cows on the farm.
 \qquad \qquad \ \  农场里有九头牛。

 \qquad \qquad \ \  检测点：量词``头''
+\label{eg:1-4}
 \end{example}

 \begin{example}
@@ -522,6 +527,7 @@ His house is on the south bank of the river.
 \qquad \qquad \ \  我们在一家银行存钱。

 \qquad \qquad \ \  检测点：bank的多义翻译
+\label{eg:1-5}
 \end{example}

 \parinterval 基于检测点的评价方法的意义在于，它并不是简单给出一个分数，而是帮助系统研发人员定位问题。因此这类方法更多的使用在对机器翻译的结果进行分析上，是对BLEU等整体评价指标的一种很好的补充。
@@ -537,7 +543,7 @@ His house is on the south bank of the river.

 \parinterval （一）网页翻译

-\parinterval 进入信息爆炸的时代之后，互联网上海量的数据随处可得，然而由于国家和地区语言的不同，网络上的数据也呈现出多语言的特性。当人们在遇到包含不熟悉语言的网页时，无法及时有效地获取其中的信息。因此，对不同语言的网页进行翻译是必不可少的一步。由于网络上网页的数量数不胜数，依靠人工对网页进行翻译是不确切实际的，相反，机器翻译十分适合这个任务。目前，市场上有很多浏览器提供网页翻译的服务，极大地简化了人们从网络上获获取不同语言信息的方式。
+\parinterval 进入信息爆炸的时代之后，互联网上海量的数据随处可得，然而由于国家和地区语言的不同，网络上的数据也呈现出多语言的特性。当人们在遇到包含不熟悉语言的网页时，无法及时有效地获取其中的信息。因此，对不同语言的网页进行翻译是必不可少的一步。由于网络上网页的数量数不胜数，依靠人工对网页进行翻译是不切实际的，相反，机器翻译十分适合这个任务。目前，市场上有很多浏览器提供网页翻译的服务，极大地简化了人们从网络上获获取不同语言信息的方式。

 \parinterval （二）科技文献翻译

@@ -546,14 +552,14 @@ His house is on the south bank of the river.
 \parinterval （三）视频字幕翻译

 \parinterval 随着互联网的普及，人们可以通过互联网接触到大量境外影视作品。由于人们可能没有相应的外语能力，通常需要专业人员对字幕进行翻译（如图
-\ref{fig:film-subtitles}）。因此，这些境外视频的传播受限于字幕翻译的速度和准确度。现在的一些视频网站在使用语音识别为视频生成源语字幕的同时，通过机器翻译技术为各种语言的受众提供质量尚可的目标语言字幕，这种方式为人们提供了极大的便利。
+\ref{fig:1-13}）。因此，这些境外视频的传播受限于字幕翻译的速度和准确度。现在的一些视频网站在使用语音识别为视频生成源语字幕的同时，通过机器翻译技术为各种语言的受众提供质量尚可的目标语言字幕，这种方式为人们提供了极大的便利。

 %----------------------------------------------
 \begin{figure}[htp]
    \centering
 \includegraphics[scale=1.2]{./Chapter1/Figures/figure-film-subtitles.jpg}
    \caption{电影字幕}
-    \label{fig:film-subtitles}
+    \label{fig:1-13}
 \end{figure}
 %-------------------------------------------

@@ -709,7 +715,7 @@ His house is on the south bank of the river.
 \sectionnewpage
 \section{推荐学习资源}

-\parinterval 首先，推荐一本书《Statistical Machine Translation》\cite{koehn2009statistical}，其作者是机器翻译领域著名学者Philipp Koehn教授。该书是机器翻译领域内的经典之作，介绍了统计机器翻译技术的进展。该书从语言学和概率学两个方面介绍了统计机器翻译的构成要素，然后介绍了统计机器翻译的主要模型：基于词、基于短语和基于树的模型，以及机器翻译评价、语言建模、判别式训练等方法。此外，作者在该书的最新版本中增加了神经机器翻译的章节，方便研究人员全面了解机器翻译的最新发展趋势（\cite{DBLP:journals/corr/abs-1709-07809}）。
+\parinterval 首先，推荐一本书《Statistical Machine Translation》\cite{koehn2009statistical}，其作者是机器翻译领域著名学者Philipp Koehn教授。该书是机器翻译领域内的经典之作，介绍了统计机器翻译技术的进展。该书从语言学和概率学两个方面介绍了统计机器翻译的构成要素，然后介绍了统计机器翻译的主要模型：基于词、基于短语和基于树的模型，以及机器翻译评价、语言建模、判别式训练等方法。此外，作者在该书的最新版本中增加了神经机器翻译的章节，方便研究人员全面了解机器翻译的最新发展趋势\cite{DBLP:journals/corr/abs-1709-07809}。

 \parinterval 《Foundations of Statistical Natural Language Processing》\cite{manning1999foundations}中文译名《统计自然语言处理基础》，作者是自然语言处理领域的权威Chris Manning教授和Hinrich Sch$\ddot{\textrm{u}}$tze教授。该书对统计自然语言处理方法进行了全面介绍。书中讲解了统计自然语言处理所需的语言学和概率论基础知识，介绍了机器翻译评价、语言建模、判别式训练以及整合语言学信息等基础方法。其中也包含了构建自然语言处理工具所需的基本理论和算法，提供了对数学和语言学基础内容广泛而严格的覆盖，以及统计方法的详细讨论。

@@ -731,7 +737,7 @@ His house is on the south bank of the river.
 \vspace{0.5em}
 \item ACL，全称Annual Meeting of the Association for Computational Linguistics，是自然语言处理领域最高级别的会议。每年举办一次，主题涵盖计算语言学的所有方向。
 \vspace{0.5em}
-\item NAACL，全称Annual Meeting of the Association for Computational Linguistics，为ACL北美分会，在自然语言处理领域也属于顶级会议，每年会选择一个北美城市召开会议。
+\item NAACL，全称The North American Chapter of the Association for Computational Linguistics，为ACL北美分会，在自然语言处理领域也属于顶级会议，每年会选择一个北美城市召开会议。
 \vspace{0.5em}
 \item EMNLP，全称Conference on Empirical Methods in Natural Language Processing ，自然语言处理另一个顶级会议之一，由ACL当中对语言数据和经验方法有特殊兴趣的团体主办，始于1996年。会议比较偏重于方法和经验性结果。
 \vspace{0.5em}
@@ -741,7 +747,7 @@ His house is on the south bank of the river.
 \vspace{0.5em}
 \item AACL，全称Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics，为ACL亚太地区分会。2020年会议首次召开，是亚洲地区自然语言处理领域最具影响力的会议之一。
 \vspace{0.5em}
-\item WMT，全称Conference on Machine Translation。机器翻译领域一年一度研讨会，是国际公认的顶级机器翻译赛事之一。
+\item WMT，全称Workshop on Machine Translation。机器翻译领域一年一度研讨会，是国际公认的顶级机器翻译赛事之一。
 \vspace{0.5em}
 \item AMTA，全称Association for Machine Translation in the Americas。AMTA会议汇聚了学术界、产业界和政府的研究人员、开发人员和用户，让工业界和学术界进行交流。
 \vspace{0.5em}

--- a/Book/Chapter2/chapter2.tex
+++ b/Book/Chapter2/chapter2.tex
@@ -30,7 +30,7 @@

 \section{问题概述 }

-\parinterval 很多时候机器翻译系统被看作是孤立的``黑盒''系统（图 \ref {fig:2.1-1} (a)）。可以将一段文本作为输入送入机器翻译系统，之后得到翻译好的译文输出。但是真实的机器翻译系统要复杂的多。因为系统看到的输入和输出的实际上只是一些符号串，这些符号并没有任何其他意义，因此需要进一步对这些符号串进行处理才能更好的使用它们，比如，需要定义翻译中最基本的单元是什么？符号串是否还有结构信息？如何用数学工具刻画这些基本单元和结构？
+\parinterval 很多时候机器翻译系统被看作是孤立的``黑盒''系统（图 \ref {fig:2-1} (a)）。可以将一段文本作为输入送入机器翻译系统，之后得到翻译好的译文输出。但是真实的机器翻译系统要复杂的多。因为系统看到的输入和输出的实际上只是一些符号串，这些符号并没有任何其他意义，因此需要进一步对这些符号串进行处理才能更好的使用它们，比如，需要定义翻译中最基本的单元是什么？符号串是否还有结构信息？如何用数学工具刻画这些基本单元和结构？

 %----------------------------------------------
 \begin{figure}[htp]
@@ -38,7 +38,7 @@
 	\subfigure[机器翻译系统被看作一个黑盒] {\input{./Chapter2/Figures/figure-MT-system-as-a-black-box}  }
 	\subfigure[机器翻系统 = 前/后处理 + 翻译引擎] {\input{./Chapter2/Figures/figure-MT=language-analysis+translation-engine}}
 	\caption{机器翻译系统的结构}
-    \label{fig:2.1-1}
+    \label{fig:2-1}
 \end{figure}
 %-------------------------------------------

@@ -47,11 +47,11 @@
 \centering
 \input{./Chapter2/Figures/figure-analysis-of-sentence-participle&syntactic}
 \caption{中文句子``猫喜欢吃鱼''的分析结果（分词和句法分析）}
-\label{fig:2.1-2}
+\label{fig:2-2}
 \end{figure}
 %-------------------------------------------

-\parinterval 图\ref{fig:2.1-1} (b)展示了一个机器翻译系统的输入和输出形式。可以看到，输入的中文字串``猫喜欢吃鱼''被加工成一个新的结构（图\ref {fig:2.1-2}）。直觉上，这个结构有些奇怪，因为上面多了很多新的符号，而且还有一些线将不同符号进行连接。实际上这就是语言分析中对句子常用的结构表示 —— 短语结构树。从原始的词串转化为图\ref {fig:2.1-2} 的样子，有两个步骤：
+\parinterval 图\ref{fig:2-1} (b)展示了一个机器翻译系统的输入和输出形式。可以看到，输入的中文字串``猫喜欢吃鱼''被加工成一个新的结构（图\ref {fig:2-2}）。直觉上，这个结构有些奇怪，因为上面多了很多新的符号，而且还有一些线将不同符号进行连接。实际上这就是语言分析中对句子常用的结构表示 —— 短语结构树。从原始的词串转化为图\ref {fig:2-2} 的样子，有两个步骤：

 \begin{itemize}
 \vspace{0.5em}
@@ -108,7 +108,7 @@
               \hline
 \rule{0pt}{15pt}     $\textrm{P}_i$ & $\textrm{P}_1=\frac{4}{25}$  &  $\textrm{P}_2=\frac{3}{25}$ &  $\textrm{P}_3=\frac{4}{25}$ & $\textrm{P}_4=\frac{6}{25}$ & $\textrm{P}_5=\frac{3}{25}$ & $\textrm{P}_6=\frac{1}{25}$  \\
             \end{tabular}
-             \label{tab:2.2-1}
+             \label{tab:2-1}
 \end{table}
 %--------------------------------------------------------------------

@@ -119,6 +119,7 @@
 \parinterval 概率密度函数反映了变量在某个区间内的概率变化快慢，概率密度函数的值是概率的变化率，该连续变量的概率也就是对概率密度函数求积分得到的结果。设$f(x) \geq 0$是连续变量$X$的概率密度函数，$X$的分布函数就可以用如下公式定义：
 \begin{eqnarray}
 F(X)=\int_{-\infty}^x f(x)dx
+\label{eq:2-1}
 \end{eqnarray}

 %----------------------------------------------
@@ -126,7 +127,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \centering
 \input{./Chapter2/Figures/figure-Probability-density-function&Distribution-function}
 \caption{一个概率密度函数(左)与其对应的分布函数(右)}
-\label{fig:2.2-1}
+\label{fig:2-3}
 \end{figure}
 %-------------------------------------------

@@ -142,22 +143,22 @@ F(X)=\int_{-\infty}^x f(x)dx
 \textrm{P}{(B|A)} & = & \frac{\textrm{P}(A\cap{B})}{\textrm{P}(A)}  \nonumber \\
                           & = & \frac{\textrm{P}(A)\textrm{P}(B|A)}{\textrm{P}(A)}  \nonumber \\
                           & = & \frac{\textrm{P}(B)\textrm{P}(A|B)}{\textrm{P}(A)}
-\label{eq:2.1-1}
+\label{eq:2-2}
 \end{eqnarray}

 \parinterval {\small\sffamily\bfseries{边缘概率}}\index{边缘概率}（marginal probability）\index{marginal probability}是和联合概率对应的，它指的是$\textrm{P}(X=a)$或$\textrm{P}(Y=b)$，即仅与单个随机变量有关的概率称为边缘概率。对于离散随机变量$X$和$Y$，如果知道$\textrm{P}(X,Y)$，则边缘概率$\textrm{P}(X)$可以通过求和的方式得到。对于$\forall x \in X $，有
 \begin{eqnarray}
 \textrm{P}(X=x)=\sum_{y}  \textrm{P}(X=x,Y=y)
-\label{eq:2.2-2}
+\label{eq:2-3}
 \end{eqnarray}

 \parinterval 对于连续变量，边缘概率$\textrm{P}(X)$需要通过积分得到，如下式所示
 \begin{eqnarray}
 \textrm{P}(X)=\int \textrm{P}(x,y)dy
-\label{eq:2.3-3}
+\label{eq:2-4}
 \end{eqnarray}

-\parinterval 为了更好的区分条件概率、边缘概率和联合概率，这里用一个图形面积的计算来举例说明。如图\ref{fig:2.2-2}所示，矩形$A$代表事件$X$发生所对应的所有可能状态，矩形$B$代表事件$Y$发生所对应的所有可能状态，矩形$C$代表$A$和$B$的交集，则
+\parinterval 为了更好的区分条件概率、边缘概率和联合概率，这里用一个图形面积的计算来举例说明。如图\ref{fig:2-4}所示，矩形$A$代表事件$X$发生所对应的所有可能状态，矩形$B$代表事件$Y$发生所对应的所有可能状态，矩形$C$代表$A$和$B$的交集，则

 \begin{itemize}
 \vspace{0.5em}
@@ -174,7 +175,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \centering
 \input{./Chapter2/Figures/figure-schematic-edge-probability&joint-probability}
 \caption{$A$、$B$、$C$事件所对应概率的图形化表示}
-\label{fig:2.2-2}
+\label{fig:2-4}
 \end{figure}
 %-------------------------------------------

@@ -188,16 +189,16 @@ F(X)=\int_{-\infty}^x f(x)dx
 \begin{eqnarray}
 \textrm{P}(a,b,c) & = & \textrm{P}(a \mid b ,c)\textrm{P}(b,c) \nonumber \\
                           & = & \textrm{P}(a \mid b,c)\textrm{P}(b \mid c)\textrm{P}(c)
-\label{eq:2.2-4}
+\label{eq:2-5}
 \end{eqnarray}

 \parinterval 推广到$n$个事件，可以得到了链式法则的公式
 \begin{eqnarray}
 \textrm{P}(x_1,x_2,...,x_n)=\textrm{P}(x_1) \prod_{i=2}^n \textrm{P}(x_i \mid x_1,x_2,...,x_{i-1})
-\label{eq:2.2-5}
+\label{eq:2-6}
 \end{eqnarray}

-\parinterval 下面的例子有助于更好的理解链式法则，如图\ref{fig:2.2-3}所示，$A$、$B$、$C$、$D$、\\ $E$分别代表五个事件，其中，$A$只和$B$有关，$C$只和$B$、$D$有关，$E$只和$C$有关，$B$和$D$不依赖其他任何事件。则$\textrm{P}(A,B,C,D,E)$的表达式如下式：
+\parinterval 下面的例子有助于更好的理解链式法则，如图\ref{fig:2-5}所示，$A$、$B$、$C$、$D$、\\ $E$分别代表五个事件，其中，$A$只和$B$有关，$C$只和$B$、$D$有关，$E$只和$C$有关，$B$和$D$不依赖其他任何事件。则$\textrm{P}(A,B,C,D,E)$的表达式如下式：

 %----------------------------------------------
 \begin{figure}[htp]
@@ -205,7 +206,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \input{./Chapter2/Figures/figure-schematic-chain-rule}
 \setlength{\belowcaptionskip}{-1cm}
 \caption{事件$A$、$B$、$C$、$D$、$E$之间的关系图}
-\label{fig:2.2-3}
+\label{fig:2-5}
 \end{figure}
 %-------------------------------------------

@@ -215,13 +216,13 @@ F(X)=\int_{-\infty}^x f(x)dx
 &=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(D \mid A,B,C) \cdot \textrm{P}(A,B,C) \nonumber \\
 &=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(D \mid A,B,C) \cdot \textrm{P}(C \mid A,B) \cdot \textrm{P}(A,B) \nonumber \\
 &=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(D \mid A,B,C) \cdot \textrm{P}(C \mid A,B) \cdot \textrm{P}(B \mid A) \cdot \textrm{P}(A)
-\label{eq:2.2-6}
+\label{eq:2-7}
 \end{eqnarray}

-\parinterval 根据图\ref {fig:2.2-3} 易知$E$只和$C$有关，所以$\textrm{P}(E \mid A,B,C,D)=\textrm{P}(E \mid C)$；$D$不依赖于其他事件，所以$\textrm{P}(D \mid A,B,C)=\textrm{P}(D)$；$C$只和$B$、$D$有关，所以$\textrm{P}(C \mid A,B)=\textrm{P}(C \mid B)$；$B$不依赖于其他事件，所以$\textrm{P}(B \mid  A)=\textrm{P}(B)$。最终化简可得：
+\parinterval 根据图\ref {fig:2-5} 易知$E$只和$C$有关，所以$\textrm{P}(E \mid A,B,C,D)=\textrm{P}(E \mid C)$；$D$不依赖于其他事件，所以$\textrm{P}(D \mid A,B,C)=\textrm{P}(D)$；$C$只和$B$、$D$有关，所以$\textrm{P}(C \mid A,B)=\textrm{P}(C \mid B)$；$B$不依赖于其他事件，所以$\textrm{P}(B \mid  A)=\textrm{P}(B)$。最终化简可得：
 \begin{eqnarray}
 \textrm{P}(A,B,C,D,E)=\textrm{P}(E \mid C) \cdot \textrm{P}(D) \cdot \textrm{P}(C \mid B) \cdot \textrm{P}(B)
-\label{eq:2.2-7}
+\label{eq:2-8}
 \end{eqnarray}

 %----------------------------------------------------------------------------------------
@@ -234,7 +235,7 @@ F(X)=\int_{-\infty}^x f(x)dx

 \begin{eqnarray}
 \textrm{P}(A)=\sum_{k=1}^n \textrm{P}(A \mid B_k)\textrm{P}(B_k)
-\label{eq:2.2-9}
+\label{eq:2-9}
 \end{eqnarray}

 \parinterval 举个例子，小张从家到公司有三条路分别为$a$，$b$，$c$，选择每条路的概率分别为0.5，0.3，0.2。令：
@@ -256,20 +257,21 @@ F(X)=\int_{-\infty}^x f(x)dx
 {\textrm{P}(L)} &=& {\textrm{P}( L| S_a )\textrm{P}(S_a )+\textrm{P}( L| S_b )\textrm{P}(S_b )+\textrm{P}( L| S_c )\textrm{P}(S_c )}\nonumber \\
 & = &{\textrm{P}({S_{a}^{'}})\textrm{P}(S_a)+\textrm{P}({S_{b}^{'}})\textrm{P}(S_b)+\textrm{P}({S_{c}^{'}})\textrm{P}(S_c) }\nonumber \\
 & = &{0.36}
+\label{eq:2-10}
 \end{eqnarray}

 \parinterval {\small\sffamily\bfseries{贝叶斯法则}}\index{贝叶斯法则}（Bayes' rule）\index{Bayes' rule}是概率论中的一个经典公式，通常用于已知$\textrm{P}(A \mid B)$求$\textrm{P}(B \mid A)$。可以表述为：设$\{B_1,...,B_n\}$是$S$的一个划分，$A$为事件，则对于$i=1,...,n$，有如下公式
 \begin{eqnarray}
 \textrm{P}(B_i \mid A) & = & \frac {\textrm{P}(A  B_i)} { \textrm{P}(A) } \nonumber \\
                                   & = & \frac {\textrm{P}(A \mid B_i)\textrm{P}(B_i) } { \sum_{k=1}^n\textrm{P}(A \mid B_k)\textrm{P}(B_k) }
-\label{eq:2.2-10}
+\label{eq:2-11}
 \end{eqnarray}

 \noindent 其中，等式右端的分母部分使用了全概率公式。由上式，也可以得到贝叶斯公式的另外两种写法:
 \begin{eqnarray}
 \textrm{P}(A \mid B) & = & \frac { \textrm{P}(A \mid B)\textrm{P}(B) }  {\textrm{P}(A)} \nonumber \\
                     & = & \frac { \textrm{P}(A \mid B)\textrm{P}(B) }  {\textrm{P}(A \mid B)\textrm{P}(B)+\textrm{P}(A \mid \bar{B}) \textrm{P}(\bar{B})}
-\label{eq:2.2-16}
+\label{eq:2-12}
 \end{eqnarray}

 \parinterval 贝叶斯公式常用于根据已知的结果来推断使之发生的各因素的可能性。
@@ -294,23 +296,23 @@ F(X)=\int_{-\infty}^x f(x)dx
 \qquad\qquad\quad``太阳从东方升起''

 \qquad\qquad\quad``明天天气多云''
-\label{e.g:2.2-1}
+\label{eg:2-1}
 \end{example}

 \parinterval 在这两句话中，``太阳从东方升起''是一件确定性事件（在地球上），几乎不需要查阅更多信息就可以确认，因此这件事的信息熵相对较低；而``明天天气多云''这件事，需要关注天气预报，才能大概率确定这件事，它的不确定性很高，因而它的信息熵也就相对较高。因此，信息熵也是对事件不确定性的度量。进一步，定义{\small\bfnew{自信息}}\index{自信息}（Self-information）\index{Self-information}为一个事件$X$的自信息的表达式为：
 \begin{eqnarray}
 \textrm{I}(x)=-\log\textrm{P}(x)
-\label{eq:2.2-17}
+\label{eq:2-13}
 \end{eqnarray}

-\noindent 其中，$\textrm{P}(x)$表示$x$发生的概率。自信息用来衡量单一事件发生时所包含的信息多少，当底数为e时，单位为nats，其中1nats是通过观察概率为$\frac{1}{e}$的事件而获得的信息量；当底数为2 时，单位为bits或shannons。$\textrm{I}(x)$和$\textrm{P}(x)$的函数关系如图\ref{fig:2.2-4} 所示。
+\noindent 其中，$\textrm{P}(x)$表示$x$发生的概率。自信息用来衡量单一事件发生时所包含的信息多少，当底数为e时，单位为nats，其中1nats是通过观察概率为$\frac{1}{e}$的事件而获得的信息量；当底数为2 时，单位为bits或shannons。$\textrm{I}(x)$和$\textrm{P}(x)$的函数关系如图\ref{fig:2-6} 所示。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter2/Figures/figure-Self-information-function}
 \caption{自信息函数$\textrm{I}(x)$关于$\textrm{P}(x)$的曲线}
-\label{fig:2.2-4}
+\label{fig:2-6}
 \end{figure}
 %-------------------------------------------

@@ -318,7 +320,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \begin{eqnarray}
 \textrm{H}(x) & = & \sum_{x \in \textrm{X}}[ \textrm{P}(x) \textrm{I}(x)] \nonumber \\
              & = & - \sum_{x \in \textrm{X} } [\textrm{P}(x)\log(\textrm{P}(x)) ]
-\label{eq:2.2-18}
+\label{eq:2-14}
 \end{eqnarray}

 \parinterval 一个分布的信息熵也就是从该分布中得到的一个事件的期望信息量。比如，$a$、$b$、$c$、$d$四支球队，四支队伍夺冠的概率分别是$P_1$、$P_2$、$P_3$、$P_4$，某个人对比赛不感兴趣但是又想知道哪只球队夺冠，通过使用二分法2次就确定哪支球队夺冠了。但假设这四只球队中$c$的实力可以碾压其他球队，那么猜1次就可以确定。所以对于前面这种情况，哪只球队夺冠的信息量较高，信息熵也相对较高；对于后面这种情况，因为结果是容易猜到的，信息量和信息熵也就相对较低。因此可以得知：分布越尖锐熵越低；分布越均匀熵越高。
@@ -333,7 +335,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \begin{eqnarray}
 \textrm{D}_{\textrm{KL}}(\textrm{P}\parallel \textrm{Q}) & = & \sum_{x \in \textrm{X}} [ \textrm{P}(x)\log \frac{\textrm{P}(x) }{ \textrm{Q}(x) } ]  \nonumber \\
                                                                                       & = & \sum_{x \in \textrm{X} }[ \textrm{P}(x)(\log\textrm{P}(x)-\log \textrm{Q}(x))]
-\label{eq:2.2-19}
+\label{eq:2-15}
 \end{eqnarray}

 \parinterval 相对熵的意义在于：在一个事件空间里，概率分布$\textrm{P}(x)$对应的每个事件的可能性。若用概率分布Q$(x)$编码$\textrm{P}(x)$，平均每个事件的信息量增加了多少。它衡量的是同一个事件空间里两个概率分布的差异。KL距离有两条重要的性质：
@@ -355,7 +357,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \parinterval {\small\bfnew{交叉熵}}\index{交叉熵}（Cross-entropy）\index{Cross-entropy}是一个与KL距离密切相关的概念，它的公式是：
 \begin{eqnarray}
 \textrm{H}(\textrm{P},\textrm{Q})=-\sum_{x \in \textrm{X}} [\textrm{P}(x) \log \textrm{Q}(x) ]
-\label{eq:2.2-20}
+\label{eq:2-16}
 \end{eqnarray}

 \parinterval 结合相对熵公式可知，交叉熵是KL距离公式中的右半部分。因此，求关于Q的交叉熵的最小值等价于求KL距离的最小值。从实践的角度来说，交叉熵与KL距离的目的相同：都是用来描述两个分布的差异，由于交叉熵计算上更加直观方便，因此在机器翻译中被广泛应用。
@@ -367,14 +369,14 @@ F(X)=\int_{-\infty}^x f(x)dx
 \sectionnewpage
 \section{中文分词}

-\parinterval 对于机器翻译系统而言，输入的是已经切分好的单词序列，而不是原始的字符串（图\ref{fig:2.3-1}）。比如，对于一个中文句子，单词之间是没有间隔的，因此需要把一个个的单词切分出来，这样机器翻译系统可以区分不同的翻译单元。甚至，可以对语言学上的单词进行进一步切分，得到词片段序列（比如：中国人$\to$中国/人）。可以把上述过程看作是一种{\small\sffamily\bfseries{分词}}\index{分词}（Segmentation）\index{Segmentation}过程，即：将一个输入的自然语言字符串切割成单元序列（token序列），每个单元都对应可以处理的最小单位。
+\parinterval 对于机器翻译系统而言，输入的是已经切分好的单词序列，而不是原始的字符串（图\ref{fig:2-7}）。比如，对于一个中文句子，单词之间是没有间隔的，因此需要把一个个的单词切分出来，这样机器翻译系统可以区分不同的翻译单元。甚至，可以对语言学上的单词进行进一步切分，得到词片段序列（比如：中国人$\to$中国/人）。可以把上述过程看作是一种{\small\sffamily\bfseries{分词}}\index{分词}（Segmentation）\index{Segmentation}过程，即：将一个输入的自然语言字符串切割成单元序列（token序列），每个单元都对应可以处理的最小单位。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter2/Figures/figure-a-simple-pre-processing-process}
 \caption{一个简单的预处理流程}
-\label{fig:2.3-1}
+\label{fig:2-7}
 \end{figure}
 %-------------------------------------------

@@ -422,31 +424,31 @@ F(X)=\int_{-\infty}^x f(x)dx
 \subsection{基于词典的分词方法}
 \parinterval 然而，计算机并不能像人类一样在概念上理解``词''，因此需要使用其他方式让计算机可以进行分词。一个最简单的方法就是给定一个词典，在这个词典中出现的汉字组合就是所定义的``词''。也就是，通过一个词典定义一个标准，符合这个标准定义的字符串都是合法的``词''。

-\parinterval 在使用基于词典的分词方法时，只需预先加载词典到计算机中，扫描输入句子，查询每个词串是否出现在词典中。如图\ref{fig:2.3-2} 所示，有一个包含六个词的词典，给定输入句子`` 确实现在物价很高''后，分词系统自左至右遍历输入句子的每个字，发现词串``确实''在词典中出现，说明``确实''是一个``词''，进行分词操作并在切分该``词''之后重复这个过程。
+\parinterval 在使用基于词典的分词方法时，只需预先加载词典到计算机中，扫描输入句子，查询每个词串是否出现在词典中。如图\ref{fig:2-8} 所示，有一个包含六个词的词典，给定输入句子`` 确实现在物价很高''后，分词系统自左至右遍历输入句子的每个字，发现词串``确实''在词典中出现，说明``确实''是一个``词''，进行分词操作并在切分该``词''之后重复这个过程。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter2/Figures/figure-Example-of-word-segmentation-based-on-dictionary}
 \caption{基于词典进行分词的实例}
-\label{fig:2.3-2}
+\label{fig:2-8}
 \end{figure}
 %-------------------------------------------

-\parinterval 但是，基于词典的分词方法很``硬''。这是因为自然语言非常灵活，经常出现歧义，用词典定义的合法单词之间有重叠的交叉型歧义就很难解决。图\ref{fig:2.3-3} 就给出了上面例子中的交叉型歧义，从词典中查看，``实现''和``现在''都是合法的单词，但是在句子中二者有重叠，因此词典无法告诉我们哪个结果是正确的。
+\parinterval 但是，基于词典的分词方法很``硬''。这是因为自然语言非常灵活，经常出现歧义，用词典定义的合法单词之间有重叠的交叉型歧义就很难解决。图\ref{fig:2-9} 就给出了上面例子中的交叉型歧义，从词典中查看，``实现''和``现在''都是合法的单词，但是在句子中二者有重叠，因此词典无法告诉我们哪个结果是正确的。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter2/Figures/figure-cross-type-word-segmentation-ambiguity}
 \caption{交叉型分词歧义}
-\label{fig:2.3-3}
+\label{fig:2-9}
 \end{figure}
 %-------------------------------------------

 \parinterval 类似的例子在生活中也很常见。再比如``答辩结束的和尚未答辩的同学都请留在教室''一句中，正常的分词结果是``答辩/结束/的/和/尚未/答辩/的/同学/都/请/留在/教室''，但是由于``尚未''、`` 和尚''都是常见词汇，使用基于词典的分词方法在这时很容易出现切分错误。

-\parinterval 基于词典的分词方法是典型的基于规则的方法，完全依赖于人工给定的词典。在遇到歧义时，需要人工定义消除歧义的规则，比如，可以自左向右扫描每次匹配最长的单词，这是一种简单的启发式的消歧策略。图\ref{fig:2.3-2}中的例子实际上就是使用这种策略得到的分词结果。但是，启发式的消岐方法对人工的依赖程度很高，而且启发式规则也不能处理所有的情况。所以说简单的基于词典的方法还不能很好的解决分词问题。
+\parinterval 基于词典的分词方法是典型的基于规则的方法，完全依赖于人工给定的词典。在遇到歧义时，需要人工定义消除歧义的规则，比如，可以自左向右扫描每次匹配最长的单词，这是一种简单的启发式的消歧策略。图\ref{fig:2-8}中的例子实际上就是使用这种策略得到的分词结果。但是，启发式的消岐方法对人工的依赖程度很高，而且启发式规则也不能处理所有的情况。所以说简单的基于词典的方法还不能很好的解决分词问题。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -478,11 +480,11 @@ F(X)=\int_{-\infty}^x f(x)dx
 \input{./Chapter2/Figures/figure-word-segmentation-based-on-statistics}
 %\setlength{\belowcaptionskip}{-0.5cm}
 \caption{基于统计的自动分词流程}
-\label{fig:2.3-4}
+\label{fig:2-10}
 \end{figure}
 %-------------------------------------------

-\parinterval 图\ref{fig:2.3-4} 给出了一个基于统计建模的汉语分词实例。左侧是标注数据，其中每个句子是已经经过人工标注的分词结果（单词用斜杠分开）。之后，建立一个统计模型，记为$\textrm{P}(\cdot)$。模型通过在标注数据上的学习来对问题进行描述，即学习$\textrm{P}(\cdot)$。最后，对于新的未分词的句子，使用模型$\textrm{P}(\cdot)$对每个可能的切分方式进行概率估计，之后选择概率最高的切分结果输出。
+\parinterval 图\ref{fig:2-10} 给出了一个基于统计建模的汉语分词实例。左侧是标注数据，其中每个句子是已经经过人工标注的分词结果（单词用斜杠分开）。之后，建立一个统计模型，记为$\textrm{P}(\cdot)$。模型通过在标注数据上的学习来对问题进行描述，即学习$\textrm{P}(\cdot)$。最后，对于新的未分词的句子，使用模型$\textrm{P}(\cdot)$对每个可能的切分方式进行概率估计，之后选择概率最高的切分结果输出。
 \vspace{-0.5em}

 %----------------------------------------------------------------------------------------
@@ -500,7 +502,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \input{./Chapter2/Figures/figure-the-dice-game}
 %\setlength{\belowcaptionskip}{-0.5cm}
 \caption{骰子结果}
-\label{fig:2.3-5}
+\label{fig:2-11}
 \end{figure}
 %-------------------------------------------

@@ -508,7 +510,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \parinterval 似乎玩家的胜利只能来源于运气。不过，请注意，这里的假设``随便选一个数字''本身就是一个概率模型，它对骰子的六个面的出现做了均匀分布假设。
 \begin{eqnarray}
 \textrm{P(``1'')}=\textrm{P(``2'')}=...=\textrm{P(``5'')}=\textrm{P(``6'')}=1/6
-\label{eq:2.3-1}
+\label{eq:2-17}
 \end{eqnarray}

 \vspace{-0.5em}
@@ -520,34 +522,34 @@ F(X)=\int_{-\infty}^x f(x)dx
 \textrm{P(``4'')} &=&\theta_4 \nonumber \\
 \textrm{P(``5'')} &=&\theta_5 \nonumber \\
 \textrm{P(``6'')} &=&1-\sum_{1 \leq i \leq 5}\theta_i \qquad \lhd \textrm {归一性}
-\label{eq:2.3-2}
+\label{eq:2-18}
 \end{eqnarray}

 \noindent 这里，$\theta_1 \sim \theta_5$可以被看作是模型的参数，因此这个模型的自由度是5。对于这样的模型，参数确定了，模型也就确定了。但是，新的问题来了，在定义骰子每个面的概率后，如何求出具体的值呢？一种常用的方法是，从大量实例中学习模型参数，这个方法也是常说的{\small\bfnew{参数估计}}\index{参数估计}（Parameter Estimation）\index{Parameter Estimation}。可以将这个不均匀的骰子先实验性的掷很多次，这可以被看作是独立同分布的若干次采样，比如$X$ 次，发现``1'' 出现$X_1$ 次，``2'' 出现$X_2$ 次，以此类推，得到了各个面出现的次数。假设掷骰子中每个面出现的概率符合多项式分布，通过简单的概率论知识可以知道每个面出现概率的极大似然估计为：
 \begin{eqnarray}
 \textrm{P(``i'')}=\frac {X_i}{X}
-\label{eq:2.3-3}
+\label{eq:2-19}
 \end{eqnarray}

-\parinterval 当$X$足够大的时，$\frac{X_i}{X}$可以无限逼近P(``$i$'')的真实值，因此可以通过大量的实验推算出掷骰子各个面的概率的准确估计值。回归到原始的问题，如果在正式开始游戏前，预先掷骰子30次，得到如图\ref{fig:2.3-6}的结果。
+\parinterval 当$X$足够大的时，$\frac{X_i}{X}$可以无限逼近P(``$i$'')的真实值，因此可以通过大量的实验推算出掷骰子各个面的概率的准确估计值。回归到原始的问题，如果在正式开始游戏前，预先掷骰子30次，得到如图\ref{fig:2-12}的结果。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter2/Figures/figure-the-dice-game2}
 \caption{实验性投掷骰子的结果}
-\label{fig:2.3-6}
+\label{fig:2-12}
 \end{figure}
 %-------------------------------------------

-\parinterval 于是，我们看到了一个有倾向性的模型（图 \ref{fig:2.3-7}）：在这样的预先实验基础上，可以知道如果再次玩掷骰子游戏的话，选则数字``4''获胜的可能性是最大的。
+\parinterval 于是，我们看到了一个有倾向性的模型（图 \ref{fig:2-13}）：在这样的预先实验基础上，可以知道如果再次玩掷骰子游戏的话，选则数字``4''获胜的可能性是最大的。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter2/Figures/figure-the-dice-game-model}
 \caption{投骰子模型}
-\label{fig:2.3-7}
+\label{fig:2-13}
 \end{figure}
 %-------------------------------------------

@@ -569,14 +571,14 @@ F(X)=\int_{-\infty}^x f(x)dx
 \vspace{0.5em}
 \end{itemize}

-\parinterval 如果投掷这个新的骰子，可能会得到图\ref{fig:2.3-8}这样的结果，
+\parinterval 如果投掷这个新的骰子，可能会得到图\ref{fig:2-14}这样的结果，

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter2/Figures/figure-full-probability-word-segmentation-1}
 \caption{投掷一个很多面骰子的结果}
-\label{fig:2.3-8}
+\label{fig:2-14}
 \end{figure}
 %-------------------------------------------

@@ -590,7 +592,7 @@ F(X)=\int_{-\infty}^x f(x)dx

 \parinterval ...

-\parinterval 就可以得到图\ref{fig:2.3-9}所示的结果。
+\parinterval 就可以得到图\ref{fig:2-15}所示的结果。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -598,18 +600,18 @@ F(X)=\int_{-\infty}^x f(x)dx
 \input{./Chapter2/Figures/figure-full-probability-word-segmentation-2}
 \setlength{\belowcaptionskip}{-0.2cm}
 \caption{掷骰子游戏中把数字换成汉字后的结果}
-\label{fig:2.3-9}
+\label{fig:2-15}
 \end{figure}
 %-------------------------------------------

-\parinterval 于是，在中文分词问题中，可以假设有一个不均匀的多面骰子，每个面都对应一个单词。在获取人工分词标注数据后，可以统计每个单词出现的次数，进而利用极大似然估计推算出每个单词出现的概率的估计值。图\ref{fig:2.3-10}给出了一个实例。
+\parinterval 于是，在中文分词问题中，可以假设有一个不均匀的多面骰子，每个面都对应一个单词。在获取人工分词标注数据后，可以统计每个单词出现的次数，进而利用极大似然估计推算出每个单词出现的概率的估计值。图\ref{fig:2-16}给出了一个实例。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter2/Figures/figure-full-probability-word-segmentation-3}
 \caption{单词概率的估计结果}
-\label{fig:2.3-10}
+\label{fig:2-16}
 \end{figure}
 %-------------------------------------------

@@ -617,7 +619,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 {\setlength{\belowdisplayskip}{-9pt}
 \begin{eqnarray}
 \textrm{P}(w_1 w_2 w_3...w_m)=\textrm{P}(w_1) \cdot \textrm{P}(w_2) \cdot ... \cdot \textrm{P}(w_m)
-\label{eq:2.3-5}
+\label{eq:2-20}
 \end{eqnarray}
 }

@@ -628,7 +630,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 & = &\textrm{P}\textrm{(``确实'')} \cdot \textrm{P}\textrm{(``现在'')} \cdot \textrm{P}\textrm{(``数据'')} \cdot \textrm{P}\textrm{(``很'')} \cdot \textrm{P}\textrm{(``多'')} \nonumber \\
 & = &0.000001 \times 0.000022 \times 0.000009 \times 0.000010 \times 0.000078 \nonumber \\
 & = &1.5444 \times 10^{-25}
-\label{eq:2.3-6}
+\label{eq:2-21}
 \end{eqnarray}

 这个假设也是自然语言处理中1-gram语言模型假设，即当前词的生成与任何历史都无关。当然，独立性假设并不能完美描述客观世界的问题，但是它大大化简了问题的复杂度。
@@ -638,11 +640,11 @@ F(X)=\int_{-\infty}^x f(x)dx
 \centering
 \input{./Chapter2/Figures/figure-examples-of-Chinese-word-segmentation-based-on-1-gram-model}
 \caption{基于1-gram语言模型的中文分词实例}
-\label{fig:2.3-11}
+\label{fig:2-17}
 \end{figure}
 %-------------------------------------------

-\parinterval 最后再整体看一下分词系统的学习和使用过程。如图\ref {fig:2.3-8}所示，我们利用大量人工标注好的分词数据，通过统计学习方法获得一个统计模型$\textrm{P}(\cdot)$，给定任意分词结果$W=w_1 w_2...w_m$，都能通过$\textrm{P}(W)=\textrm{P}(w_1) \cdot \textrm{P}(w_2 ) \cdot ... \cdot \textrm{P}(w_m)$计算这种切分的概率值。
+\parinterval 最后再整体看一下分词系统的学习和使用过程。如图\ref {fig:2-14}所示，我们利用大量人工标注好的分词数据，通过统计学习方法获得一个统计模型$\textrm{P}(\cdot)$，给定任意分词结果$W=w_1 w_2...w_m$，都能通过$\textrm{P}(W)=\textrm{P}(w_1) \cdot \textrm{P}(w_2 ) \cdot ... \cdot \textrm{P}(w_m)$计算这种切分的概率值。

 \parinterval 经过充分训练的统计模型$\textrm{P}(\cdot)$就是得到的分词模型。对于输入的新句子$S$，通过这个模型找到最佳的分词结果$W^*$输出。假设输入句子$S$是``确实现在数据很多''，可以通过列举获得不同切分方式的概率，其中概率最高的切分方式，就是系统的目标输出。

@@ -678,7 +680,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \parinterval 直接求$\textrm{P}(w_1 w_2...w_m)$并不简单，因为如果把整个词串$w_1 w_2...w_m$作为一个变量，模型的参数量会非常大。$w_1 w_2...w_m$有$|V|^m$种可能性，这里$|V|$表示词汇表大小。显然，当$m$ 增大的时候会使模型复杂度会急剧增加，甚至都无法进行存储和计算。既然把$w_1 w_2...w_m$作为一个变量不好处理，就可以考虑对这个序列的生成过程进行分解。使用链式法则，很容易得到
 \begin{eqnarray}
 \textrm{P}(w_1 w_2...w_m)=\textrm{P}(w_1)\textrm{P}(w_2|w_1)\textrm{P}(w_3|w_1 w_2)...\textrm{P}(w_m|w_1 w_2...w_{m-1})
-\label{eq:2.4-1}
+\label{eq:2-22}
 \end{eqnarray}

 这样，$w_1 w_2...w_m$的生成可以被看作是逐个生成每个单词的过程，即首先生成$w_1$，然后根据$w_1$再生成$w_2$，然后根据$w_1 w_2$再生成$w_3$，以此类推，直到根据所有前$m-1$个词生成序列的最后一个单词$w_m$。这个模型把联合概率$\textrm{P}(w_1 w_2...w_m)$分解为多个条件概率的乘积，虽然对生成序列的过程进行了分解，但是模型的复杂度和以前是一样的，比如，$\textrm{P}(w_m|w_1 w_2...w_{m-1})$ 仍然不好计算。
@@ -686,7 +688,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \parinterval 换一个角度看，$\textrm{P}(w_m|w_1 w_2...w_{m-1})$体现了一种基于``历史''的单词生成模型，也就是把前面生成的所有单词作为``历史''，并参考这个``历史''生成当前单词。但是这个``历史''的长度和整个序列长度是相关的，也是一种长度变化的历史序列。为了化简问题，一种简单的想法是使用定长历史，比如，每次只考虑前面$n-1$个历史单词来生成当前单词，这就是$n$-gram语言模型。这个模型的数学描述如下：
 \begin{eqnarray}
 \textrm{P}(w_m|w_{m-n+1}...w_{m-1})=\textrm{P}(w_m|w_1 w_2...w_{m-1})
-\label{eq:2.4-2}
+\label{eq:2-23}
 \end{eqnarray}

 \parinterval 这样，整个序列$w_1 w_2...w_m$的生成概率可以被重新定义为：
@@ -716,7 +718,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \item {\small\bfnew{极大似然估计}}\index{极大似然估计}。直接利用词序列在训练数据中出现的频度计算出$\textrm{P}(w_m|w_{m-n+1}$\\$... w_{m-1})$
 \begin{eqnarray}
 \textrm{P}(w_m|w_{m-n+1}...w_{m-1})=\frac{\textrm{count}(w_{m-n+1}...w_m)}{\textrm{count}(w_{m-n+1}...w_{m-1})}
-\label{eq:2.4-3}
+\label{eq:2-24}
 \vspace{0.5em}
 \end{eqnarray}

@@ -734,7 +736,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 & &\textrm{P}_{2-gram}{(\textrm{``确实}/\textrm{现在}/\textrm{数据}/\textrm{很}/\textrm{多''})} \nonumber \\
 &= & \textrm{P}(\textrm{``确实''}) \times\textrm{P}(\textrm{``现在''}|\textrm{``确实''})\times\textrm{P}(\textrm{``数据''}|\textrm{``现在''}) \times \nonumber \\
 &  & \textrm{P}(\textrm{``很''}|\textrm{``数据''})\times\textrm{P}(\textrm{``多''}|\textrm{``很''})
-\label{eq:2.4-4}
+\label{eq:2-25}
 \end{eqnarray}

 \parinterval 以$n$-gram语言模型为代表的统计语言模型的应用非常广泛。除了分词，在文本生成、信息检索、摘要等自然语言处理任务中，语言模型都有举足轻重的地位。包括近些年非常受关注的预训练模型，本质上也是统计语言模型。这些技术都会在后续章节进行介绍。值得注意的是，统计语言模型为解决自然语言处理问题提供了一个非常好的建模思路，即：把整个序列生成的问题转化为逐个生成单词的问题。很快我们就会看到，这种建模方式会被广泛的用于机器翻译建模，在统计机器翻译和神经机器翻译中都会有明显的体现。
@@ -745,22 +747,22 @@ F(X)=\int_{-\infty}^x f(x)dx

 \subsection{未登录词和平滑算法}\label{sec2:smoothing}

-\parinterval 在式\ref{eq:2.4-4}所示的例子中，如果语料中从没有``确实''和``现在''两个词连续出现的情况，那么使用2-gram计算切分``确实/现在/数据/很/多''的概率时，会出现如下情况
+\parinterval 在式\ref{eq:2-25}所示的例子中，如果语料中从没有``确实''和``现在''两个词连续出现的情况，那么使用2-gram计算切分``确实/现在/数据/很/多''的概率时，会出现如下情况
 \begin{eqnarray}
 \textrm{P}(\textrm{``现在''}|\textrm{``确实''}) & =  & \frac{\textrm{count}(\textrm{``确实}\,\textrm{现在''})}{\textrm{count}(\textrm{``确实''})} \nonumber \\
                                                                     & =  & \frac{0}{\textrm{count}(\textrm{``确实''})} \nonumber \\
                                                                     & =  & 0
-\label{eq:2.4-5}
+\label{eq:2-26}
 \end{eqnarray}

-\parinterval 显然，这个结果是不能接受的。因为即使语料中没有 ``确实''和``现在''两个词连续出现，但是这种搭配也是客观存在的。这时简单的用极大似然估计得到概率却是0，导致整个切分结果的概率为0。 更常见的问题是那些根本没有出现在词表中的词，称为{\small\sffamily\bfseries{未登录词}}\index{未登录词}（Out-of-Vocabulary Word，OOV Word）\index{Out-of-Vocabulary Word，OOV Word}，比如一些生僻词，可能模型训练阶段从来没有看到过，这时模型仍然会给出0 概率。图\ref{fig:2.4-1}展示了一个真实语料库中词语出现频度的分布，可以看到绝大多数词都是低频词。
+\parinterval 显然，这个结果是不能接受的。因为即使语料中没有 ``确实''和``现在''两个词连续出现，但是这种搭配也是客观存在的。这时简单的用极大似然估计得到概率却是0，导致整个切分结果的概率为0。 更常见的问题是那些根本没有出现在词表中的词，称为{\small\sffamily\bfseries{未登录词}}\index{未登录词}（Out-of-Vocabulary Word，OOV Word）\index{Out-of-Vocabulary Word，OOV Word}，比如一些生僻词，可能模型训练阶段从来没有看到过，这时模型仍然会给出0 概率。图\ref{fig:2-18}展示了一个真实语料库中词语出现频度的分布，可以看到绝大多数词都是低频词。

 %----------------------------------------------
 \begin{figure}[htp]
    \centering
 \input{./Chapter2/Figures/figure-word-frequency-distribution}
 	 \caption{词语频度的分布}
-    \label{fig:2.4-1}
+    \label{fig:2-18}
 \end{figure}
 %---------------------------

@@ -781,19 +783,19 @@ F(X)=\int_{-\infty}^x f(x)dx
 \begin{eqnarray}
 \textrm{P}(\textrm{现在}|\textrm{确实}) & =  & \frac{\theta + \textrm{count}(\textrm{确实/现在})}{\sum_{w}^{|V|}(\theta + \textrm{count}(\textrm{确实/}w))} \nonumber \\
                                                             & =  & \frac{\theta + \textrm{count}(\textrm{确实/现在})}{\theta{|V|} + \textrm{count}(\textrm{确实})}
-\label{eq:2.4-7}
+\label{eq:2-27}
 \end{eqnarray}

 \noindent 其中，$V$表示所有词汇的词表，$|V|$为词表中单词的个数，$w$为词典中的一个词。有时候，加法平滑方法会将$\theta$取1，这时称之为加一平滑或是拉普拉斯平滑。这种方法比较容易理解，也比较简单，因此也往往被用于对系统的快速原型中。

-\parinterval 举一个例子。假设在一个英文文档中随机采样一些单词（词表大小$|V|=20$），各个单词出现的次数为：``look'': 4，``people'': 3，``am'': 2，``what'': 1，``want'': 1，``do'': 1。图\ref{fig:2.4-2} 给出了在平滑之前和平滑之后的概率分布。
+\parinterval 举一个例子。假设在一个英文文档中随机采样一些单词（词表大小$|V|=20$），各个单词出现的次数为：``look'': 4，``people'': 3，``am'': 2，``what'': 1，``want'': 1，``do'': 1。图\ref{fig:2-19} 给出了在平滑之前和平滑之后的概率分布。

 %----------------------------------------------
 \begin{figure}[htp]
    \centering
 	\input{./Chapter2/Figures/figure-no-smoothing&smoothed-probability-distributions}
 	\caption{无平滑和有平滑的概率分布}
-    \label{fig:2.4-2}
+    \label{fig:2-19}
 \end{figure}
 %-------------------------------------------

@@ -808,18 +810,19 @@ F(X)=\int_{-\infty}^x f(x)dx
 \parinterval 假定在语料库中出现$r$次的$n$-gram有$n_r$个，特别的，出现0次的$n$-gram（即未登录词及词串）出现的次数为$n_0$个。语料库中全部词语的个数为$N$，显然
 \begin{eqnarray}
 N = \sum_{r=1}^{\infty}{r\,n_r}
-\label{eq:2.4-8}
+\label{eq:2-28}
 \end{eqnarray}

 \parinterval 这时，出现$r$次的$n$-gram的相对频率为$r/N$，也就是不做平滑处理时的概率估计。为了解决零概率问题，对于任何一个出现$r$次的$n$-gram，古德-图灵估计法利用出现$r+1$次的$n$-gram统计量重新假设它出现$r^*$次，这里
 \begin{eqnarray}
 r^* = (r + 1)\frac{n_{r + 1}}{n_r}
-\label{eq:2.4-9}
+\label{eq:2-29}
 \end{eqnarray}

 \parinterval 基于这个公式，就可以估计所有0次$n$-gram的频次$n_0 r^*=(r+1)n_1=n_1$。要把这个重新估计的统计数转化为概率，需要进行归一化处理：对于每个统计数为$r$的事件，其概率为
 \begin{eqnarray}
 \textrm{P}_r=\frac{r^*}{N}
+\label{eq:2-30}
 \end{eqnarray}

 其中
@@ -827,7 +830,7 @@ r^* = (r + 1)\frac{n_{r + 1}}{n_r}
 N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\
  & = & \sum_{r=0}^{\infty}{(r + 1)n_{r + 1}} \nonumber \\
  & = & \sum_{r=1}^{\infty}{r\,n_r}
-\label{eq:2.4-10}
+\label{eq:2-31}
 \end{eqnarray}

 也就是说，$N$仍然为这个整个样本分布最初的计数。样本中所有事件的概率之和为：
@@ -835,18 +838,17 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\
 \textrm{P}(r>0) & = & \sum_{r>0}{\textrm{P}_r} \nonumber \\
                & = & 1 - \frac{n_1}{N} \nonumber \\
                & < & 1
-\label{eq:2.4-11}
+\label{eq:2-32}
 \end{eqnarray}

 \noindent 其中$n_1/N$就是分配给所有出现为0次事件的概率。古德-图灵方法最终通过出现1次的$n$-gram估计了出现为0次的事件概率，达到了平滑的效果。

-\parinterval 这里使用一个例子来说明这个方法是如何对事件出现的可能性进行平滑的。仍然考虑在加法平滑法中统计单词的例子，根据古德-图灵方法进行修正如表\ref{tab::2.4-2}所示。
+\parinterval 这里使用一个例子来说明这个方法是如何对事件出现的可能性进行平滑的。仍然考虑在加法平滑法中统计单词的例子，根据古德-图灵方法进行修正如表\ref{tab:2-21}所示。

 %------------------------------------------------------
 \begin{table}[htp]{
 \begin{center}
 \caption{单词出现频次及古德-图灵平滑结果}
-\label{tab::2.4-2}
 {
 \begin{tabular}{l|lll}
 \rule{0pt}{10pt} $r$ & $n_r$ & $n^*$ & $\textrm{P}_r$\\ \hline
@@ -856,6 +858,7 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\
 \rule{0pt}{10pt} 3 & 1 & 4 & 0.333 \\
 \rule{0pt}{10pt} 4 & 1 & - & - \\
 \end{tabular}
+\label{tab:2-21}
 }
 \end{center}
 }\end{table}
@@ -875,7 +878,7 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\
 \parinterval 首先介绍一下absolute discounting平滑算法，公式如下所示：
 \begin{eqnarray}
 \textrm{P}_{\textrm{AbsDiscount}}(w_i | w_{i-1}) = \frac{c(w_{i-1},w_i )-d}{c(w_{i-1})} + \lambda(w_{i-1})\textrm{P}(w)
-\label{eq:2.4-12}
+\label{eq:2-33}
 \end{eqnarray}

 \noindent 其中$d$表示被裁剪的值，$\lambda$是一个正则化常数。可以看到第一项是经过减值调整过的2-gram的概率值，第二项则相当于一个带权重$\lambda$的1-gram的插值项。然而这种插值模型极易受到原始1-gram 模型的干扰。
@@ -895,31 +898,31 @@ I cannot see without my reading \underline{\ \ \ \ \ \ \ \ }
 \parinterval 为了评估$\textrm{P}_{\textrm{cont}}$，统计使用当前词作为第二个词所出现二元语法的种类，二元语法种类越多，这个词作为第二个词出现的可能性越高，呈正比：
 \begin{eqnarray}
 \textrm{P}_{\textrm{cont}}(w_i) \varpropto |w_{i-1}: c(w_{i-1} w_i )>0|
-\label{eq:2.4-13}
+\label{eq:2-34}
 \end{eqnarray}

 通过全部的二元语法的种类做归一化可得到评估的公式
 \begin{eqnarray}
 \textrm{P}_{\textrm{cont}}(w_i) = \frac{|\{ w_{i-1}:c(w_{i-1} w_i )>0 \}|}{|\{ (w_{j-1}, w_j):c(w_{j-1}w_j )>0 \}|}
-\label{eq:2.4-14}
+\label{eq:2-35}
 \end{eqnarray}

 \parinterval 基于分母的变化还有另一种形式
 \begin{eqnarray}
 \textrm{P}_{\textrm{cont}}(w_i) = \frac{|\{ w_{i-1}:c(w_{i-1} w_i )>0 \}|}{\sum_{w^{\prime}}|\{ w_{i-1}^{\prime}:c(w_{i-1}^{\prime} w_i^{\prime} )>0 \}|}
-\label{eq:2.4-15}
+\label{eq:2-36}
 \end{eqnarray}

 结合基础的absolute discounting计算公式，从而得到了Kneser-Ney平滑方法的公式
 \begin{eqnarray}
 \textrm{P}_{\textrm{KN}}(w_i|w_{i-1}) = \frac{\max(c(w_{i-1},w_i )-d,0)}{c(w_{i-1})}+ \lambda(w_{i-1})\textrm{P}_{\textrm{cont}}(w_i)
-\label{eq:2.4-16}
+\label{eq:2-37}
 \end{eqnarray}

 \noindent 其中
 \begin{eqnarray}
 \lambda(w_{i-1}) = \frac{d}{c(w_{i-1})}|\{w:c(w_{i-1},w)>0\}|
-\label{eq:2.4-17}
+\label{eq:2-38}
 \end{eqnarray}

 \noindent 这里$\max(\cdot)$保证了分子部分为不小0的数，原始1-gram更新成$\textrm{P}_{\textrm{cont}}$概率分布，$\lambda$是正则化项。
@@ -928,15 +931,18 @@ I cannot see without my reading \underline{\ \ \ \ \ \ \ \ }
 \begin{eqnarray}
 \textrm{P}_{\textrm{KN}}(w_i|w_{i-n+1} ...w_{i-1}) & = & \frac{\max(c_{\textrm{KN}}(w_{i-n+1}...w_{i-1})-d,0)}{c_{\textrm{KN}}(w_{i-n+1}...w_{i-1})} + \nonumber \\
                                                   &   &  \lambda(w_{i-n+1}...w_{i-1})\textrm{P}_{\textrm{KN}}(w_i|w_{i-n+2}...w_{i-1})
+\label{eq:2-39}
 \end{eqnarray}
 \begin{eqnarray}
 \lambda(w_{i-1}) =  \frac{d}{c_{\textrm{KN}}(w_{i-n+1}^{i-1})}|\{w:c_{\textrm{KN}}(w_{i-n+1}...w_{i-1}w)>0\}
-\end{eqnarray} \label{eq:2.4-18}
+\label{eq:2-40}
+\end{eqnarray}
 \begin{eqnarray}
 c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}
 \textrm{count}(\cdot) & \textrm{for\ highest\ order}  \\ 
 \textrm{catcount}(\cdot) & \textrm{for\ lower\ order} 
-\end{array}\right. \label{eq:2.4-19}
+\end{array}\right. 
+\label{eq:2-41}
 \end{eqnarray}
 \noindent 其中catcount$(\cdot)$表示的是基于某个单个词作为第$n$个词的$n$-gram的种类数目。

@@ -956,20 +962,20 @@ c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}

 \subsection{句子的句法树表示}

-\parinterval {\small\sffamily\bfseries{句法}}\index{句法}（Syntax）\index{Syntax}是研究句子的每个组成部分和它们之间的组合方式。一般来说，句法和语言是相关的，比如，英文是主谓宾结构，而日语是主宾谓结构。因此不同的语言也会有不同的句法描述方式。自然语言处理领域最常用的两种句法分析形式是{\small\sffamily\bfseries{短语结构分析}}\index{短语结构分析}（Phrase Structure Parsing）\index{Phrase Structure Parsing}和{\small\sffamily\bfseries{依存分析}}\index{依存分析}（Dependency Parsing）\index{Dependency Parsing}。图\ref{fig:2.5-1}展示了这两种的句法表示形式的实例。其中，左侧是短语结构树。它描述的是短语的结构功能，比如``吃''是动词（记为VV），``鱼''是名词（记为NN），``吃\ 鱼''组成动词短语，这个短语再与``喜欢''这一动词组成新的动词短语。短语结构树的每个子树都是一个句法功能单元，比如，子树VP(VV(吃) NN(鱼))就表示了``吃\ 鱼''这个动词短语的结构，其中子树根节点VP是句法功能标记。短语结构树利用嵌套的方式描述了语言学的功能。短语结构树中，每个词都有词性(或词类)，不同的词或者短语可以组成名动结构、动宾结构等语言学短语结构。短语结构分析一般也被称为{\small\bfnew{成分分析}}\index{成分分析}(Constituency Parsing)或{\small\bfnew{完全分析}}\index{完全分析}（Full Parsing）\index{Full Parsing}。
+\parinterval {\small\sffamily\bfseries{句法}}\index{句法}（Syntax）\index{Syntax}是研究句子的每个组成部分和它们之间的组合方式。一般来说，句法和语言是相关的，比如，英文是主谓宾结构，而日语是主宾谓结构。因此不同的语言也会有不同的句法描述方式。自然语言处理领域最常用的两种句法分析形式是{\small\sffamily\bfseries{短语结构分析}}\index{短语结构分析}（Phrase Structure Parsing）\index{Phrase Structure Parsing}和{\small\sffamily\bfseries{依存分析}}\index{依存分析}（Dependency Parsing）\index{Dependency Parsing}。图\ref{fig:2-20}展示了这两种的句法表示形式的实例。其中，左侧是短语结构树。它描述的是短语的结构功能，比如``吃''是动词（记为VV），``鱼''是名词（记为NN），``吃\ 鱼''组成动词短语，这个短语再与``喜欢''这一动词组成新的动词短语。短语结构树的每个子树都是一个句法功能单元，比如，子树VP(VV(吃) NN(鱼))就表示了``吃\ 鱼''这个动词短语的结构，其中子树根节点VP是句法功能标记。短语结构树利用嵌套的方式描述了语言学的功能。短语结构树中，每个词都有词性(或词类)，不同的词或者短语可以组成名动结构、动宾结构等语言学短语结构。短语结构分析一般也被称为{\small\bfnew{成分分析}}\index{成分分析}(Constituency Parsing)或{\small\bfnew{完全分析}}\index{完全分析}（Full Parsing）\index{Full Parsing}。

 %----------------------------------------------
 \begin{figure}[htp]
    \centering
 \input{./Chapter2/Figures/figure-phrase-structure-tree-and-dependency-tree}
    \caption{短语结构树(左)和依存树(右)}
-    \label{fig:2.5-1}
+    \label{fig:2-20}
 \end{figure}
 %---------------------------

-\parinterval 图\ref{fig:2.5-1}右侧展示的是另一种句法结构，被称作依存句法树。依存句法树表示了句子中单词和单词之间的依存关系。比如，从这个例子可以了解，``猫''依赖``喜欢''，``吃''依赖``喜欢''，``鱼''依赖``吃''。
+\parinterval 图\ref{fig:2-20}右侧展示的是另一种句法结构，被称作依存句法树。依存句法树表示了句子中单词和单词之间的依存关系。比如，从这个例子可以了解，``猫''依赖``喜欢''，``吃''依赖``喜欢''，``鱼''依赖``吃''。

-\parinterval 短语结构树和依存句法树的结构和功能有很大不同。短语结构树的叶子节点是单词，中间节点是词性或者短语句法标记。在短语结构分析中，通常把单词称作{\small\bfnew{终结符}}\index{终结符}（Terminal）\index{Terminal}，把词性称为{\small\bfnew{预终结符}}\index{预终结符}（Pre-terminal）\index{Pre-terminal}，而把其他句法标记称为{\small\bfnew{非终结符}}\index{非终结符}（Non-terminal）\index{Non-terminal}。依存句法树没有预终结符和非终结符，所有的节点都是句子里的单词，通过不同节点间的连线表示句子中各个单词之间的依存关系。每个依存关系实际上都是有方向的，头和尾分别指向``接受''和``发出''依存关系的词。依存关系也可以进行分类，图\ref{fig:2.5-1}中我们对每个依存关系的类型都进行了标记，这也被称作是有标记的依存分析。如果不生成这些标记，这样的句法分析被称作无标记的依存分析。
+\parinterval 短语结构树和依存句法树的结构和功能有很大不同。短语结构树的叶子节点是单词，中间节点是词性或者短语句法标记。在短语结构分析中，通常把单词称作{\small\bfnew{终结符}}\index{终结符}（Terminal）\index{Terminal}，把词性称为{\small\bfnew{预终结符}}\index{预终结符}（Pre-terminal）\index{Pre-terminal}，而把其他句法标记称为{\small\bfnew{非终结符}}\index{非终结符}（Non-terminal）\index{Non-terminal}。依存句法树没有预终结符和非终结符，所有的节点都是句子里的单词，通过不同节点间的连线表示句子中各个单词之间的依存关系。每个依存关系实际上都是有方向的，头和尾分别指向``接受''和``发出''依存关系的词。依存关系也可以进行分类，图\ref{fig:2-20}中我们对每个依存关系的类型都进行了标记，这也被称作是有标记的依存分析。如果不生成这些标记，这样的句法分析被称作无标记的依存分析。

 \parinterval 虽然短语结构树和依存树的句法表现形式有很大不同，但是它们在某些条件下能相互转化。比如，可以使用启发性规则将短语结构树自动转化为依存树。从应用的角度，依存分析由于形式更加简单，而且直接建模词语之间的依赖，因此在自然语言处理领域中受到很多关注。在机器翻译中，无论是哪种句法树结构，都已经被证明会对机器翻译系统产生帮助。特别是短语结构树，在机器翻译中的应用历史更长，研究更为深入，因此本节将会以短语结构分析为例介绍句法分析的相关概念。

@@ -1035,29 +1041,29 @@ c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}
 \parinterval 举例说明，假设有上下文无关文法$G=<N,\Sigma,R,S>$，可以用它描述一个简单中文句法结构。其中非终结符集合为不同的中文句法标记
 \begin{eqnarray}
 N=\{\textrm{NN},\textrm{VV},\textrm{NP},\textrm{VP},\textrm{IP}\} \nonumber
-\label{eq:2.5-1}
+\label{eq:2-42}
 \end{eqnarray}

 这里，\textrm{NN}代表名词，\textrm{VV}代表动词，\textrm{NP}代表名词短语，\textrm{VP}代表动词短语，\textrm{IP}代表单句。进一步，把终结符集合定义为
 \begin{eqnarray}
 \Sigma = \{\text{猫,喜欢,吃,鱼}\} \nonumber
-\label{eq:2.5-2}
+\label{eq:2-43}
 \end{eqnarray}

 再定义起始符集合为
 \begin{eqnarray}
 S=\{\textrm{IP}\} \nonumber
-\label{eq:2.5-3}
+\label{eq:2-44}
 \end{eqnarray}

-最后，文法的规则集定义图\ref{fig:2.5-2}所示（其中$r_i$为规则的编号）
+最后，文法的规则集定义图\ref{fig:2-21}所示（其中$r_i$为规则的编号）

 %----------------------------------------------
 \begin{figure}[htp]
    \centering
 \input{./Chapter2/Figures/figure-rules-of-grammar}
 \caption{一个示例文法的规则集}
-    \label{fig:2.5-2}
+    \label{fig:2-21}
 \end{figure}
 %---------------------------

@@ -1108,7 +1114,7 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{
 \end{definition}
 %-------------------------------------------

-\parinterval 比如，使用前面的示例文法，可以对``猫 喜欢 吃 鱼''进行分析，并形成句法分析树（图\ref{fig:2.5-4}）。从起始非终结符IP开始，使用唯一拥有IP作为左部的规则$r_8$推导出NP和VP，之后依次使用规则$r_5$、$r_1$、$r_7$、$r_2$、$r_6$、$r_3$、$r_4$，得到了完整的句法树。
+\parinterval 比如，使用前面的示例文法，可以对``猫 喜欢 吃 鱼''进行分析，并形成句法分析树（图\ref{fig:2-22}）。从起始非终结符IP开始，使用唯一拥有IP作为左部的规则$r_8$推导出NP和VP，之后依次使用规则$r_5$、$r_1$、$r_7$、$r_2$、$r_6$、$r_3$、$r_4$，得到了完整的句法树。

 %-------------------------------------------
 \begin{figure}[htp]
@@ -1116,13 +1122,13 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{
 \input{./Chapter2/Figures/figure-example-of-derivation}
 \setlength{\abovecaptionskip}{-0.0em}
 	\caption{上下文无关文法推导实例}
-    \label{fig:2.5-4}
+    \label{fig:2-22}
 \end{figure}
 %-------------------------------------------

 \parinterval 通常，可以把推导简记为$d=r_1 \circ r_2 \circ ... \circ r_n$，其中$ \circ $表示规则的组合。显然，$d$也对应了树形结构，也就是句法分析结果。从这个角度看，推导就是描述句法分析树的一种方式。此外，规则的推导也把规则的使用过程与生成的字符串对应起来。一个推导所生成的字符串，也被称作文法所产生的一个{\small\bfnew{句子}}\index{句子}（Sentence）\index{Sentence}。而一个文法所能生成的所有句子是这个文法所对应的{\small\bfnew{语言}}\index{语言}（Language）\index{Language}。

-\parinterval 但是，句子和规则的推导并不是一一对应的。同一个句子，往往有很多推导的方式，这种现象被称为{\small\bfnew{歧义}}\index{歧义}（Ambiguity）\index{Ambiguity}。甚至同一棵句法树，也可以对应不同的推导。图\ref{fig:2.5-5} 给出同一棵句法树所对应的两种不同的规则推导。
+\parinterval 但是，句子和规则的推导并不是一一对应的。同一个句子，往往有很多推导的方式，这种现象被称为{\small\bfnew{歧义}}\index{歧义}（Ambiguity）\index{Ambiguity}。甚至同一棵句法树，也可以对应不同的推导。图\ref{fig:2-23} 给出同一棵句法树所对应的两种不同的规则推导。

 %-------------------------------------------
 \begin{figure}[htp]
@@ -1130,11 +1136,11 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{
 \input{./Chapter2/Figures/figure-two-different-derivation-of-regulation}
 \setlength{\abovecaptionskip}{-0.5em}
 	\caption{同一棵句法树对应的不同规则推导}
-    \label{fig:2.5-5}
+    \label{fig:2-23}
 \end{figure}
 %-------------------------------------------

-\parinterval 显然，规则顺序的不同会导致句法树的推导这一确定的过程变得不确定。因此，需要进行{\small\bfnew{消歧}}\index{消歧}（Disambiguation）\index{Disambiguation}。这里，可以使用启发式方法：要求规则使用都服从最左优先原则，这样得到的推导被称为{\small\bfnew{最左优先推导}}\index{最左优先推导}（Left-most Derivation）\index{Left-most Derivation}。图\ref{fig:2.5-5}中的推导1 就是符合最左优先原则的推导。
+\parinterval 显然，规则顺序的不同会导致句法树的推导这一确定的过程变得不确定。因此，需要进行{\small\bfnew{消歧}}\index{消歧}（Disambiguation）\index{Disambiguation}。这里，可以使用启发式方法：要求规则使用都服从最左优先原则，这样得到的推导被称为{\small\bfnew{最左优先推导}}\index{最左优先推导}（Left-most Derivation）\index{Left-most Derivation}。图\ref{fig:2-23}中的推导1 就是符合最左优先原则的推导。

 \parinterval 这样，对于一个上下文无关文法，每一棵句法树都有唯一的最左推导与之对应。于是，句法分析可以被描述为：对于一个句子找到能够生成它的最佳推导，这个推导所对应的句法树就是这个句子的句法分析结果。

@@ -1145,18 +1151,18 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{
    \centering
 \input{./Chapter2/Figures/figure-perspectives-of-expert-ordinary-and-syntactic-parser}
 	\caption{如何选择最佳的句法分析结果 - 专家、普通人和句法分析器的视角}
-    \label{fig:2.5-6}
+    \label{fig:2-24}
 \end{figure}
 %-------------------------------------------

-\parinterval 在统计句法分析中，需要对每个推导进行统计建模，于是定义一个模型$\textrm{P}( \cdot )$，对于任意的推导$d$，都可以用$\textrm{P}(d)$计算出推导$d$的概率。这样，给定一个输入句子，我们可以对所有可能的推导用$\textrm{P}(d)$计算其概率值，并选择概率最大的结果作为句法分析的结果输出（图\ref{fig:2.5-7}）。
+\parinterval 在统计句法分析中，需要对每个推导进行统计建模，于是定义一个模型$\textrm{P}( \cdot )$，对于任意的推导$d$，都可以用$\textrm{P}(d)$计算出推导$d$的概率。这样，给定一个输入句子，我们可以对所有可能的推导用$\textrm{P}(d)$计算其概率值，并选择概率最大的结果作为句法分析的结果输出（图\ref{fig:2-25}）。

 %-------------------------------------------
 \begin{figure}[htp]
    \centering
 \input{./Chapter2/Figures/figure-probability-values-corresponding-to-different-derivations}
 	\caption{不同推导（句法树）对应的概率值}
-    \label{fig:2.5-7}
+    \label{fig:2-25}
 \end{figure}

 %-------------------------------------------
@@ -1191,14 +1197,14 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{
 \parinterval 概率上下文无关文法与传统上下文无关文法的区别在于，每条规则都会有一个概率，描述规则生成的可能性。具体来说，规则$\textrm{P}(\alpha \to \beta)$的概率可以被定义为：
 \begin{eqnarray}
 \textrm{P}(\alpha \to \beta)=\textrm{P}(\beta | \alpha)
-\label{eq:2.5-4}
+\label{eq:2-45}
 \end{eqnarray}

 \noindent 即，在给定规则左部的情况下生成规则右部的可能性。进一步，在上下文无关文法中，每条规则之间的使用都是相互独立的 \footnote[3]{如果是上下文有关文法，规则会形如 $a\alpha b\to a\beta b$，这时$\alpha \to \beta $的过程会依赖前后上下文$a$和$b$}。因此可以把$\textrm{P}(d)$分解为规则概率的乘积：
 \begin{eqnarray}
 \textrm{P}(d) & = & \textrm{P}(r_1 \cdot r_2 \cdot ... \cdot r_n) \nonumber \\
 & = & \textrm{P}(r_1) \cdot \textrm{P}(r_2) \cdots \textrm{P}(r_n)
-\label{eq:2.5-5}
+\label{eq:2-46}
 \end{eqnarray}

 \parinterval 这个模型可以很好的解释词串的生成过程。比如，对于规则集
@@ -1206,13 +1212,14 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{
 r_3: & &\textrm{VV} \to \text{吃}\nonumber \\
 r_4: & & \textrm{NN} \to \text{鱼}\nonumber \\
 r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
+\label{eq:2-47}
 \end{eqnarray}

 \parinterval 可以得到 $d_1=r_3 \cdot r_4 \cdot r_6$的概率为
 \begin{eqnarray}
 \textrm{P}(d_1) & = &\textrm{P}(r_3) \cdot \textrm{P}(r_4) \cdot \textrm{P}(r_6)\nonumber  \\
 & = & \textrm{P}(\textrm{``VV} \to \text{吃''}) \cdot \textrm{P}(\textrm{``NN} \to \text{鱼''}) \cdot \textrm{P}(\textrm{``VP} \to \textrm{VV NN''})
-\label{eq:2.5-6}
+\label{eq:2-48}
 \end{eqnarray}

 \parinterval 这也对应了词串``吃\ 鱼''的生成过程。首先，从起始非终结符VP开始，使用规则$r_6$生成两个非终结符VV和NN；进一步，分别使用规则$r_3$和$r_4$从VV和NN进一步生成单词``吃''和``鱼''。整个过程的概率等于三条规则概率的乘积。
@@ -1221,21 +1228,21 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber

 \begin{eqnarray}
 \textrm{P}(r)  = \frac{\text{规则$r$在树库中出现的次数}}{\alpha \text{在树库中出现的次数}}
-\label{eq:2.5-7}
+\label{eq:2-49}
 \end{eqnarray}

-\parinterval 图\ref{fig:2.5-8}展示了通过这种方法计算规则概率的过程。与词法分析类似，可以统计树库中规则左部和右部同时出现的次数，除以规则左部出现的全部次数，所得的结果就是所求规则的概率。这种方法也是典型的相对频度估计。但是如果规则左部和右部同时出现的次数为0时是否代表这个规则概率是0呢？遇到这种情况，可以使用平滑方法对概率进行平滑处理，具体思路可参考\ref{sec2:smoothing}节内容。
+\parinterval 图\ref{fig:2-26}展示了通过这种方法计算规则概率的过程。与词法分析类似，可以统计树库中规则左部和右部同时出现的次数，除以规则左部出现的全部次数，所得的结果就是所求规则的概率。这种方法也是典型的相对频度估计。但是如果规则左部和右部同时出现的次数为0时是否代表这个规则概率是0呢？遇到这种情况，可以使用平滑方法对概率进行平滑处理，具体思路可参考\ref{sec2:smoothing}节内容。

 %-------------------------------------------
 \begin{figure}[htp]
    \centering
 \input{./Chapter2/Figures/figure-evaluation-of-probability-for-grammar}
 	\caption{上下文无关文法规则概率估计}
-    \label{fig:2.5-8}
+    \label{fig:2-26}
 \end{figure}
 %-------------------------------------------

-\parinterval 图\ref{fig:2.5-9}展示了基于统计的句法分析的流程。首先，通过树库上的统计，获得各个规则的概率，这样就得到了一个上下文无关句法分析模型$\textrm{P}( \cdot )$。对于任意句法分析结果$d=r_1 \circ r_2 \circ ... \circ r_n$，都能通过如下公式计算其概率值：
+\parinterval 图\ref{fig:2-27}展示了基于统计的句法分析的流程。首先，通过树库上的统计，获得各个规则的概率，这样就得到了一个上下文无关句法分析模型$\textrm{P}( \cdot )$。对于任意句法分析结果$d=r_1 \circ r_2 \circ ... \circ r_n$，都能通过如下公式计算其概率值：

 \begin{equation}
 \textrm{P}(d)= \prod_{i=1}^{n}\textrm{P}(r_i)
@@ -1246,7 +1253,7 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
    \centering
 \input{./Chapter2/Figures/figure-process-of-statistical-syntax-analysis}
 	\caption{统计句法分析的流程}
-    \label{fig:2.5-9}
+    \label{fig:2-27}
 \end{figure}
 %-------------------------------------------


--- a/Book/Chapter4/chapter4.tex
+++ b/Book/Chapter4/chapter4.tex
@@ -14,7 +14,7 @@

 \chapter{基于短语和句法的机器翻译模型}

-\parinterval 机器翻译的一个问题是要定义翻译的基本单元是什么。比如，可以像第三章介绍的那样，以单词为单位进行翻译，即把句子的翻译看作是单词之间对应关系的一种组合。基于单词的模型是符合人类对翻译问题的认知的，因为单词本身就是人类加工语言的一种基本单元。另一方面，在进行翻译时也可以使用一些更``复杂''的知识。比如，很多词语间的搭配需要根据语境的变化进行调整，而且对于句子结构的翻译往往需要更上层的知识，如句法知识。因此，在对单词翻译进行建模的基础上，需要探索其他类型的翻译知识，使得搭配和结构翻译等问题可以更好的被建模。
+\parinterval 机器翻译的一个问题是要定义翻译的基本单元是什么。比如，可以像第三章介绍的那样，以单词为单位进行翻译，即把句子的翻译看作是单词之间对应关系的一种组合。基于单词的模型是符合人类对翻译问题的认知的，因为单词本身就是人类加工语言的一种基本单元。另一方面，在进行翻译时也可以使用一些更``复杂''的知识。比如，很多词语间的搭配需要根据语境的变化进行调整，而且对于句子结构的翻译往往需要更上层的知识，如句法知识。因此，在对单词翻译进行建模的基础上，需要探索其他类型的翻译知识，使得搭配和结构翻译等问题可以更好地被建模。

 \parinterval 本章会介绍基于短语和基于句法的翻译模型。在过去二十年中，它们一直是机器翻译的主流方法。相比于基于单词的翻译模型，基于短语和基于句法的模型可以更好的对单词之间的依赖关系进行描述，同时可以对句子的上层结构进行有效的表示。这些方法也在相当长的一段时期内占据着机器翻译的统治地位。虽然，近些年随着神经机器翻译的崛起，基于短语和基于句法的统计翻译模型有些``降温''，但是它仍然是机器翻译的主要框架之一，其中的思想和很多技术手段对今天的机器翻译研究仍然有很好的借鉴意义。

@@ -71,7 +71,7 @@
 \end{figure}
 %-------------------------------------------

-\parinterval 一般来说，统计机器翻译的建模对应着一个两阶段的过程：首先，得到每个翻译单元所有可能的译文；然后，通过对这些译文的组合得到可能的句子翻译结果，并选择最佳的目标语言句子输出。如果基本的翻译单元被定义下来，机器翻译系统可以学习这些单元翻译所对应的翻译知识（对应训练过程），之后运用这些知识完成对新的句子进行翻译（对应解码过程）。
+\parinterval 一般来说，统计机器翻译的建模对应着一个两阶段的过程：首先，得到每个翻译单元所有可能的译文；然后，通过对这些译文的组合得到可能的句子翻译结果，并选择最佳的目标语言句子输出。如果基本的翻译单元被定义下来，机器翻译系统可以学习这些单元翻译所对应的翻译知识（对应训练过程），之后运用这些知识对新的句子进行翻译（对应解码过程）。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -103,7 +103,7 @@

 \subsection{句子的结构信息}

-\parinterval 使用短语的优点在于可以捕捉具有完整意思的连续词串，因此能够对局部上下文信息进行建模。当单词之间的搭配和依赖关系出现在连续词串中时，短语可以很好的对其进行描述。但是，当单词之间距离很远时，使用短语的``效率''很低。同$n$-gram语言模型一样，当短语长度变长时，数据会变得非常稀疏。比如，很多实验已经证明，测试数据中超过5个的连续单词在训练数据中往往是很低频的现象，更长的短语甚至都很难在训练数据中找到。当然，可以使用平滑算法对长短语的概率进行估计，但是使用过长的短语在实际系统研发中仍然不现实。图\ref{fig:long-distance-dependence-in-zh2en-translation}展示了一个汉语到英语的翻译实例。源语言的两个短语（蓝色和红色高亮）在译文中产生了调序。但是，这两个短语在源语言句子中横跨11个单词。如果直接使用这个11个单词构成的短语进行翻译，显然会有非常严重的数据稀疏问题，因为很难期望在训练数据中见到一模一样的短语。
+\parinterval 使用短语的优点在于可以捕捉具有完整意思的连续词串，因此能够对局部上下文信息进行建模。当单词之间的搭配和依赖关系出现在连续词串中时，短语可以很好地对其进行描述。但是，当单词之间距离很远时，使用短语的``效率''很低。同$n$-gram语言模型一样，当短语长度变长时，数据会变得非常稀疏。比如，很多实验已经证明，测试数据中超过5个的连续单词在训练数据中往往是很低频的现象，更长的短语甚至都很难在训练数据中找到。当然，可以使用平滑算法对长短语的概率进行估计，但是使用过长的短语在实际系统研发中仍然不现实。图\ref{fig:long-distance-dependence-in-zh2en-translation}展示了一个汉语到英语的翻译实例。源语言的两个短语（蓝色和红色高亮）在译文中产生了调序。但是，这两个短语在源语言句子中横跨11个单词。如果直接使用这个11个单词构成的短语进行翻译，显然会有非常严重的数据稀疏问题，因为很难期望在训练数据中见到一模一样的短语。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -120,7 +120,7 @@
 \begin{figure}[htp]
 \centering
 \input{./Chapter4/Figures/chinese-syntax-tree}
-\caption{一个中文句法树（短语结构树）}
+\caption{一个英文句法树（短语结构树）}
 \label{fig:chinese-syntax-tree}
 \end{figure}
 %-------------------------------------------
@@ -136,7 +136,7 @@
 \end{figure}
 %-------------------------------------------

-\parinterval 使用句法信息在机器翻译中不新鲜。在基于规则和模板的翻译模型中，就大量的使用了句法等结构信息。只是由于早期句法分析技术不成熟，系统的整体效果并不突出。在统计机器翻译时代，句法可以很好的融合在统计建模中。通过概率化的文法设计，可以对翻译过程进行很好的描述。在本章的\ref{section-4.3}节和\ref{section-4.4}节中将会详细讨论句法信息在统计机器翻译中的应用。
+\parinterval 使用句法信息在机器翻译中不新鲜。在基于规则和模板的翻译模型中，就大量地使用了句法等结构信息。只是由于早期句法分析技术不成熟，系统的整体效果并不突出。在统计机器翻译时代，句法可以很好的融合在统计建模中。通过概率化的文法设计，可以对翻译过程进行很好的描述。在本章的\ref{section-4.3}节和\ref{section-4.4}节中将会详细讨论句法信息在统计机器翻译中的应用。

 %----------------------------------------------------------------------------------------
 %    NEW SECTION
@@ -164,7 +164,7 @@
 \end{figure}
 %-------------------------------------------

-\parinterval 不过，这里所说的短语并不是语言学上的短语，本身也没有任何语言学句法等结构约束。在基于短语的模型中，可以把短语简单的理解为一个词串。具体来说，有如下定义。
+\parinterval 不过，这里所说的短语并不是语言学上的短语，本身也没有任何语言学句法的结构约束。在基于短语的模型中，可以把短语简单地理解为一个词串。具体来说，有如下定义。

 %-------------------------------------------
 \vspace{0.5em}
@@ -285,7 +285,7 @@ d = {(\bar{s}_{\bar{a}_1},\bar{t}_1)} \circ {(\bar{s}_{\bar{a}_2},\bar{t}_2)} \c

 \subsubsection{基于翻译推导的建模}

-\parinterval 基于短语的翻译模型假设\textbf{s}到\textbf{t}的翻译可以用翻译推导进行描述，这些翻译推导都是由双语短语组成。于是，两个句子的之间映射就可以被看作是一个个短语的映射。显然短语翻译的建模要比整个句子翻译的建模简单得多。从模型上看，可以把翻译推导$d$当作是从\textbf{s}到\textbf{t}翻译的一种隐含结构。这种结构定义了对问题的一种描述，即翻译由一系列短语组成。根据这个假设，可以把句子的翻译概率定义为：
+\parinterval 基于短语的翻译模型假设\textbf{s}到\textbf{t}的翻译可以用翻译推导进行描述，这些翻译推导都是由双语短语组成。于是，两个句子之间的映射就可以被看作是一个个短语的映射。显然短语翻译的建模要比整个句子翻译的建模简单得多。从模型上看，可以把翻译推导$d$当作是从\textbf{s}到\textbf{t}翻译的一种隐含结构。这种结构定义了对问题的一种描述，即翻译由一系列短语组成。根据这个假设，可以把句子的翻译概率定义为：
 \begin{eqnarray}
 \textrm{P}(\textbf{t}|\textbf{s}) = \sum_{d} \textrm{P}(d,\textbf{t}|\textbf{s})
 \label{eqa4.3}
@@ -314,7 +314,7 @@ d = {(\bar{s}_{\bar{a}_1},\bar{t}_1)} \circ {(\bar{s}_{\bar{a}_2},\bar{t}_2)} \c

 \parinterval 于是，翻译的目标可以被重新定义：
 \begin{eqnarray}
-\hat{\textbf{t}} = \arg\max_{\textbf{t}} \max \textrm{P}(d,\textbf{t}|\textbf{s})
+\hat{\textbf{t}} = \arg\max_{\textbf{t}} (\max \textrm{P}(d,\textbf{t}|\textbf{s}))
 \label{eqa4.7}
 \end{eqnarray}

@@ -354,7 +354,7 @@ d = {(\bar{s}_{\bar{a}_1},\bar{t}_1)} \circ {(\bar{s}_{\bar{a}_2},\bar{t}_2)} \c

 \parinterval 公式\ref{eqa4.12}中，$\ \textrm{exp}(\textrm{score}(d,\textbf{t},\textbf{s}))$表示指数化的模型得分，记为$\textrm{mscore}(d,\textbf{t},\textbf{s}) = \textrm{exp}(\textrm{score}(d,\textbf{t},\textbf{s}))$。于是，翻译问题就可以被描述为找到使函数$\textrm{mscore}(d,\textbf{t},\textbf{s})$达到最大的$d$。由于，$\textrm{exp}(\textrm{score}(d,\textbf{t},\textbf{s}))$和$\textrm{score}(d,\textbf{t},\textbf{s})$是单调一致的，因此有时也直接把$\textrm{score}(d,\textbf{t},\textbf{s})$当做模型得分。

-\parinterval 判别式模型最大的好处在于它可以更灵活的引入特征。系统开发者可以设计任意的特征来描述翻译，特征的设计甚至都不需要统计上的解释，比如0-1特征、计数特征等。此外，判别式模型并不需要像生成式模型那样对问题进行具有统计学意义的``分解''，更不需要对每个步骤进行严格的数学推导。相反，它直接对问题的后验概率进行建模。由于不像生成式模型那样需要引入假设来对每个生成步骤进行化简，判别式模型对问题的刻画更加直接，因此也受到自然语言处理研究者的青睐。
+\parinterval 判别式模型最大的好处在于它可以更灵活地引入特征。系统开发者可以设计任意的特征来描述翻译，特征的设计甚至都不需要统计上的解释，比如0-1特征、计数特征等。此外，判别式模型并不需要像生成式模型那样对问题进行具有统计学意义的``分解''，更不需要对每个步骤进行严格的数学推导。相反，它直接对问题的后验概率进行建模。由于不像生成式模型那样需要引入假设来对每个生成步骤进行化简，判别式模型对问题的刻画更加直接，因此也受到自然语言处理研究者的青睐。

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -408,7 +408,7 @@ d = {(\bar{s}_{\bar{a}_1},\bar{t}_1)} \circ {(\bar{s}_{\bar{a}_2},\bar{t}_2)} \c

 \subsubsection{与词对齐一致的短语}

-\parinterval 图\ref{fig:phrase-extraction-consistent-with-word-alignment}中大蓝色方块代表词对齐。通过词对齐信息，可以很容易的获得双语短语``天气 $\leftrightarrow$ The weather''。这里称其为与词对齐一致（兼容）的双语短语。具体定义如下：
+\parinterval 图\ref{fig:phrase-extraction-consistent-with-word-alignment}中大蓝色方块代表词对齐。通过词对齐信息，可以很容易地获得双语短语``天气 $\leftrightarrow$ The weather''。这里称其为与词对齐一致（兼容）的双语短语。具体定义如下：

 %-------------------------------------------
 \vspace{0.5em}
@@ -429,7 +429,7 @@ d = {(\bar{s}_{\bar{a}_1},\bar{t}_1)} \circ {(\bar{s}_{\bar{a}_2},\bar{t}_2)} \c
 \end{figure}
 %-------------------------------------------

-\parinterval 如图\ref{fig:consistence-of-word-alignment}所示，左边的例子中的$t_1$和$t_2$严格的对应到$s_1$、$s_2$、$s_3$，所以短语是与词对齐相一致的；中间的例子中的$t_2$对应到短语$s_1$和$s_2$的外面，所以短语是与词对齐不一致的；类似的，右边的例子也是与词对齐相一致的短语。
+\parinterval 如图\ref{fig:consistence-of-word-alignment}所示，左边的例子中的$t_1$和$t_2$严格地对应到$s_1$、$s_2$、$s_3$，所以短语是与词对齐相一致的；中间的例子中的$t_2$对应到短语$s_1$和$s_2$的外面，所以短语是与词对齐不一致的；类似的，右边的例子也是与词对齐相一致的短语。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -476,7 +476,7 @@ d = {(\bar{s}_{\bar{a}_1},\bar{t}_1)} \circ {(\bar{s}_{\bar{a}_2},\bar{t}_2)} \c

 \subsubsection{度量双语短语质量}

-\parinterval 抽取双语短语之后，需要对每个双语短语的质量进行评价。这样，在使用这些双语短语时，可以更有效的估计整个句子翻译的好坏。在统计机器翻译中，一般用双语短语出现的可能性大小来度量双语短语的好坏。这里，使用相对频度估计对短语的翻译条件概率进行计算，公式如下：
+\parinterval 抽取双语短语之后，需要对每个双语短语的质量进行评价。这样，在使用这些双语短语时，可以更有效地估计整个句子翻译的好坏。在统计机器翻译中，一般用双语短语出现的可能性大小来度量双语短语的好坏。这里，使用相对频度估计对短语的翻译条件概率进行计算，公式如下：
 \begin{eqnarray}
 \textrm{P}(\bar{t}|\bar{s}) = \frac{\textrm{count}(\bar{s},\bar{t})}{\textrm{count}(\bar{s})}
 \label{eqa4.13}
@@ -484,7 +484,7 @@ d = {(\bar{s}_{\bar{a}_1},\bar{t}_1)} \circ {(\bar{s}_{\bar{a}_2},\bar{t}_2)} \c

 \parinterval 给定一个双语句对$(\textbf{s},\textbf{t})$，$\textrm{count}(\bar{s})$表示短语$\bar{s}$在\textbf{s}中出现的次数，$\textrm{count}(\bar{s},\bar{t})$表示双语短语$(\bar{s},\bar{t})$在$(\textbf{s},\textbf{t})$中被抽取出来的次数。对于一个包含多个句子的语料库，$\textrm{count}(\bar{s})$和$\textrm{count}(\bar{s},\bar{t})$可以按句子进行累加。类似的，也可以用同样的方法，计算$\bar{t}$到$\bar{s}$的翻译概率，即$\textrm{P}(\bar{s}|\bar{t})$。一般会同时使用$\textrm{P}(\bar{t}|\bar{s})$和$\textrm{P}(\bar{s}|\bar{t})$度量一个双语短语的好与坏。

-\parinterval 当遇到低频短语时，短语翻译概率的估计可能会不准确。例如，短语$\bar{s}$和$\bar{t}$在语料中只出现了一次，且在一个句子中共现，那么$\bar{s}$到$\bar{t}$的翻译概率为$\textrm{P}(\bar{t}|\bar{s})=1$，这显然是不合理的，因为$\bar{s}$和$\bar{t}$的出现完全可能是偶然事件。既然直接度量双语短语的好坏会面临数据稀疏问题，一个自然的想法就是把短语拆解成单词，利用双语短语中单词翻译的好坏间接度量双语短语的好还。为了达到这个目的，可以使用{\small\bfnew{词汇化翻译概率}}\index{词汇化翻译概率}（Lexical Translation Probability）\index{Lexical Translation Probability}。前面借助词对齐信息完成了双语短语的抽取，因此，词对齐信息本身就包含了短语内部单词之间的对应关系。因此同样可以借助词对齐来计算词汇翻译概率，公式如下：
+\parinterval 当遇到低频短语时，短语翻译概率的估计可能会不准确。例如，短语$\bar{s}$和$\bar{t}$在语料中只出现了一次，且在一个句子中共现，那么$\bar{s}$到$\bar{t}$的翻译概率为$\textrm{P}(\bar{t}|\bar{s})=1$，这显然是不合理的，因为$\bar{s}$和$\bar{t}$的出现完全可能是偶然事件。既然直接度量双语短语的好坏会面临数据稀疏问题，一个自然的想法就是把短语拆解成单词，利用双语短语中单词翻译的好坏间接度量双语短语的好坏。为了达到这个目的，可以使用{\small\bfnew{词汇化翻译概率}}\index{词汇化翻译概率}（Lexical Translation Probability）\index{Lexical Translation Probability}。前面借助词对齐信息完成了双语短语的抽取，因此，词对齐信息本身就包含了短语内部单词之间的对应关系。因此同样可以借助词对齐来计算词汇翻译概率，公式如下：
 \begin{eqnarray}
 \textrm{$\textrm{P}_{\textrm{lex}}$}(\bar{t}|\bar{s}) = \prod_{j=1}^{|\bar{s}|} \frac{1}{|\{j|a(j,i) = 1\}|} \sum_{\forall(j,i):a(j,i) = 1} w(t_i|s_j)
 \label{eqa4.14}
@@ -642,7 +642,7 @@ dr = \textrm{start}_i-\textrm{end}_{i-1}-1

 \subsection{最小错误率训练}\label{subsection-4.2.6}

-\parinterval 除了特征设计，统计机器翻译也需要需要找到每个特征所对应的最优权重$\lambda_i$。这也就是机器学习中所说的模型训练问题。不过，需要指出的是，统计机器翻译关于模型训练的定义与传统机器学习稍有不同。在统计机器翻译中，短语抽取和翻译概率的估计被看作是{\small\bfnew{模型训练}}\index{模型训练}（Model Training）\index{Model Training}，也就是说这里的模型训练是指特征函数的学习；而特征权重的训练，一般被称作{\small\bfnew{权重调优}}\index{权重调优}（Weight Tuning）\index{Weight Tuning}，而这个过程才真正对应了传统机器学习（如分类任务）中的模型训练过程。在本章中，如果没有特殊说明，权重调优就是指特征权重的学习，模型训练是指短语抽取和特征函数的学习。
+\parinterval 除了特征设计，统计机器翻译也需要找到每个特征所对应的最优权重$\lambda_i$。这也就是机器学习中所说的模型训练问题。不过，需要指出的是，统计机器翻译关于模型训练的定义与传统机器学习稍有不同。在统计机器翻译中，短语抽取和翻译概率的估计被看作是{\small\bfnew{模型训练}}\index{模型训练}（Model Training）\index{Model Training}，也就是说这里的模型训练是指特征函数的学习；而特征权重的训练，一般被称作{\small\bfnew{权重调优}}\index{权重调优}（Weight Tuning）\index{Weight Tuning}，而这个过程才真正对应了传统机器学习（如分类任务）中的模型训练过程。在本章中，如果没有特殊说明，权重调优就是指特征权重的学习，模型训练是指短语抽取和特征函数的学习。

 \parinterval 想要得到最优的特征权重，最简单的方法是枚举所有的特征权重可能的取值，然后评价每组权重所对应的翻译性能，最后选择最优的特征权重作为调优的结果。但是特征权重是一个实数值，因此可以考虑把实数权重进行量化，即把权重看作是在固定间隔上的取值，比如，每隔0.01取值。即使是这样，同时枚举多个特征的权重也是非常耗时的工作，当特征数量增多时这种方法的效率仍然很低。

@@ -668,9 +668,9 @@ dr = \textrm{start}_i-\textrm{end}_{i-1}-1
 \end{eqnarray}
 %公式--------------------------------------------------------------------

-\parinterval 需要注意的是， BLEU本身是一个不可微分函数。因此，无法使用梯度下降等方法对是式\ref{eqa4.19}进行求解。那么如何能快速得到最优解？这里会使用一种特殊的优化方法，称作{\small\bfnew{线搜索}}\index{线搜索}（Line Search）\index{Line Search}，它是Powell搜索的一种形式\cite{powell1964an}。这种方法也构成了最小错误率训练的核心。
+\parinterval 需要注意的是， BLEU本身是一个不可微分函数。因此，无法使用梯度下降等方法对式\ref{eqa4.19}进行求解。那么如何能快速得到最优解？这里会使用一种特殊的优化方法，称作{\small\bfnew{线搜索}}\index{线搜索}（Line Search）\index{Line Search}，它是Powell搜索的一种形式\cite{powell1964an}。这种方法也构成了最小错误率训练的核心。

-\parinterval 首先，重新看一下特征权重的搜索空间。按照前面的介绍，如果要进行暴力搜索，需要把特征权重的取值按小的间隔进行划分。这样，所有特征权重的取值可以用图\ref{fig:search-space-representation-of-feature-weight}的网格来表示。其中横坐标为所有的$M$个特征函数，纵坐标为权重可能的取值。假设每个特征都有$V$种取值，那么遍历所有特征权重取值的组合有$M^V$种。每组$\lambda = \{\lambda_i\}$的取值实际上就是一个贯穿所有特征权重的折线，如图\ref{fig:search-space-representation-of-feature-weight}中间红线所展示的路径。当然，可以通过枚举得到很多这样的折线（图\ref{fig:search-space-representation-of-feature-weight}右）。假设计算BLEU的时间开销为$B$，那么遍历所有的路径的时间复杂为$\textrm{O}(M^V \cdot B)$，由于$V$可能很大，而且$B$往往也无法忽略，因此这种计算方式的时间成本是极高的。
+\parinterval 首先，重新看一下特征权重的搜索空间。按照前面的介绍，如果要进行暴力搜索，需要把特征权重的取值按小的间隔进行划分。这样，所有特征权重的取值可以用图\ref{fig:search-space-representation-of-feature-weight}的网格来表示。其中横坐标为所有的$M$个特征函数，纵坐标为权重可能的取值。假设每个特征都有$V$种取值，那么遍历所有特征权重取值的组合有$M^V$种。每组$\lambda = \{\lambda_i\}$的取值实际上就是一个贯穿所有特征权重的折线，如图\ref{fig:search-space-representation-of-feature-weight}中间红线所展示的路径。当然，可以通过枚举得到很多这样的折线（图\ref{fig:search-space-representation-of-feature-weight}右）。假设计算BLEU的时间开销为$B$，那么遍历所有的路径的时间复杂度为$\textrm{O}(M^V \cdot B)$，由于$V$可能很大，而且$B$往往也无法忽略，因此这种计算方式的时间成本是极高的。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -828,7 +828,7 @@ dr = \textrm{start}_i-\textrm{end}_{i-1}-1

 \parinterval 对翻译假设进行重新组合又被称作{\small\bfnew{假设重组}}\index{假设重组}（Hypothesis Recombination）\index{Hypothesis Recombination}。其核心思想是，把代表同一个译文的不同翻译假设融合为一个翻译假设。如图29所示，对于给定的输入短语``一个\ \ 苹果''，系统可能将两个单词``一个''、``苹果''分别翻译成``an''和``apple''，也可能将这两个单词作为一个短语直接翻译成``an apple''。虽然这两个翻译假设得到的译文相同，并且覆盖了相同的源语言短语，但是却是两个不同的翻译假设，模型给它们的打分也是不一样的。这时，可以舍弃两个翻译假设中分数较低的那个，因为分数较低的翻译假设永远不可能成为最优路径的一部分。这也就相当于把两个翻译假设重组为一个假设。

-\parinterval 即使翻译假设对应的译文不同也可以进行假设重组。图\ref{fig:example-of-hypothesis-recombination}下半部分的给出了一个这样的实例。在两个翻译假设中，第一个单词分别被翻译成了``it''和``he''，紧接着它们后面的部分都被翻译成了``is not''。这两个翻译假设是非常相似的，因为它们译文的最后两个单词是相同的，而且翻译假设都覆盖了相同的源语言部分。这时，也可以对这两个翻译假设进行假设重组：如果得分较低的翻译假设和得分较高的翻译假设都使用相同的翻译候选进行扩展，且两个翻译假设都覆盖相同的源语言单词，分数低的翻译假设可以被剪枝掉。此外，还有两点需要注意：
+\parinterval 即使翻译假设对应的译文不同也可以进行假设重组。图\ref{fig:example-of-hypothesis-recombination}的下半部分给出了一个这样的实例。在两个翻译假设中，第一个单词分别被翻译成了``it''和``he''，紧接着它们后面的部分都被翻译成了``is not''。这两个翻译假设是非常相似的，因为它们译文的最后两个单词是相同的，而且翻译假设都覆盖了相同的源语言部分。这时，也可以对这两个翻译假设进行假设重组：如果得分较低的翻译假设和得分较高的翻译假设都使用相同的翻译候选进行扩展，且两个翻译假设都覆盖相同的源语言单词，分数低的翻译假设可以被剪枝掉。此外，还有两点需要注意：

 \begin{itemize}
 \vspace{0.5em}
@@ -857,7 +857,7 @@ dr = \textrm{start}_i-\textrm{end}_{i-1}-1

 \subsubsection{解码中的栈结构}

-\parinterval 当质量较差的翻译假设在扩展早期出现时，这些翻译假设需要被剪枝掉，这样可以忽略所有从它扩展出来的翻译假设，进而有效地减小搜索空间。但是这样做也存在着一定的问题，首先，删除的翻译假设可能会在后续的扩展过程中被重新搜索出来。其次，过早的删除某些翻译假设可能会导致无法搜索到最优的翻译假设。所以最好的情况是尽早删除质量差的翻译假设，同时又不会对整个搜索结果产生过大影响。但是这个``质量''从哪个方面来衡量，也是一个需要思考的问题。理想的情况就是从早期的翻译假设中，挑选一些可比的翻译假设进行筛选。
+\parinterval 当质量较差的翻译假设在扩展早期出现时，这些翻译假设需要被剪枝掉，这样可以忽略所有从它扩展出来的翻译假设，进而有效地减小搜索空间。但是这样做也存在着一定的问题，首先，删除的翻译假设可能会在后续的扩展过程中被重新搜索出来。其次，过早地删除某些翻译假设可能会导致无法搜索到最优的翻译假设。所以最好的情况是尽早删除质量差的翻译假设，同时又不会对整个搜索结果产生过大影响。但是这个``质量''从哪个方面来衡量，也是一个需要思考的问题。理想的情况就是从早期的翻译假设中，挑选一些可比的翻译假设进行筛选。

 \parinterval 目前比较通用的做法是将翻译假设进行整理，放进一种栈结构中。这里所说的``栈''是为了描述方便的一种说法。它实际上就是保存多个翻译假设的一种数据结构\footnote[4]{虽然被称作栈，实际上使用一个堆进行实现。这样可以根据模型得分对翻译假设进行排序。}。当放入栈的翻译假设超过一定阈值时（比如200），可以删除掉模型得分低的翻译假设。一般，会使用多个栈来保存翻译假设，每个栈代表覆盖源语言单词数量相同的翻译假设。比如，第一个堆栈包含了覆盖一个源语言单词的翻译假设，第二个堆栈包含了覆盖两个源语言单词的翻译假设，以此类推。利用覆盖源语言单词数进行栈的划分的原因在于：翻译相同数量的单词所对应的翻译假设一般是``可比的''，因此在同一个栈里对它们进行剪枝带来的风险较小。

@@ -908,7 +908,7 @@ dr = \textrm{start}_i-\textrm{end}_{i-1}-1

 \parinterval 显然，利用过长的短语来处理长距离的依赖并不是一种十分有效的方法。过于低频的长短语无法提供可靠的信息，而且使用长短语会导致模型体积急剧增加。

-\parinterval 再来看一个翻译实例\cite{Chiang2012Hope}。图\ref{fig:an-example-of-phrase-system}是一个基于短语的机器翻译系统的翻译结果。这个例子中的调序有一些复杂，比如，``少数\ 国家\ 之一''和``与\ 北韩\ 有\ 邦交''的英文翻译都需要进行调序，分别是``one of the few countries''和``have diplomatic relations with North Korea''。基于短语的系统可以很好的处理这些调序问题，因为它们仅仅使用了局部的信息。但是，系统却无法在这两个短语（1和2）之间进行正确的调序。
+\parinterval 再来看一个翻译实例\cite{Chiang2012Hope}。图\ref{fig:an-example-of-phrase-system}是一个基于短语的机器翻译系统的翻译结果。这个例子中的调序有一些复杂，比如，``少数\ 国家\ 之一''和``与\ 北韩\ 有\ 邦交''的英文翻译都需要进行调序，分别是``one of the few countries''和``have diplomatic relations with North Korea''。基于短语的系统可以很好地处理这些调序问题，因为它们仅仅使用了局部的信息。但是，系统却无法在这两个短语（1和2）之间进行正确的调序。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -919,7 +919,7 @@ dr = \textrm{start}_i-\textrm{end}_{i-1}-1
 \end{figure}
 %-------------------------------------------

-\parinterval 这个例子也在一定程度上说明了长距离的调序需要额外的机制才能得到更好的被处理。实际上，两个短语（1和2）之间的调序现象本身对应了一种结构，或者说模板。也就是汉语中的：
+\parinterval 这个例子也在一定程度上说明了长距离的调序需要额外的机制才能得到更好地被处理。实际上，两个短语（1和2）之间的调序现象本身对应了一种结构，或者说模板。也就是汉语中的：
 \begin{eqnarray}
 \text{与}\ \ \text{[什么东西]}\ \ \text{有}\ \ \text{[什么事]} \quad \nonumber
 \end{eqnarray}
@@ -976,7 +976,7 @@ dr = \textrm{start}_i-\textrm{end}_{i-1}-1

 \subsection{同步上下文无关文法}

-\parinterval {\small\bfnew{基于层次短语的模型}}\index{基于层次短语的模型}（Hierarchical Phrase-based Model）\index{Hierarchical Phrase-based Model}是David Chiang于2005提出的统计机器翻译模型\cite{chiang2005a,chiang2007hierarchical}。这个模型可以很好的解决短语系统对翻译中长距离调序建模不足的问题。基于层次短语的系统也在多项机器翻译比赛中取得了很好的成绩。这项工作也获得了自然处理领域顶级会议ACL2015的最佳论文奖。
+\parinterval {\small\bfnew{基于层次短语的模型}}\index{基于层次短语的模型}（Hierarchical Phrase-based Model）\index{Hierarchical Phrase-based Model}是David Chiang于2005提出的统计机器翻译模型\cite{chiang2005a,chiang2007hierarchical}。这个模型可以很好地解决短语系统对翻译中长距离调序建模不足的问题。基于层次短语的系统也在多项机器翻译比赛中取得了很好的成绩。这项工作也获得了自然处理领域顶级会议ACL2015的最佳论文奖。

 \parinterval 层次短语模型的核心是把翻译问题归结为两种语言词串的同步生成问题。实际上，词串的生成问题是自然语言处理中的经典问题，早期的研究更多的是关注单语句子的生成，比如，如何使用句法树描述一个句子的生成过程。层次短语模型的创新之处是把传统单语词串的生成推广到双语词串的同步生成上。这使得机器翻译可以使用类似句法分析的方法进行求解。

@@ -1008,7 +1008,7 @@ dr = \textrm{start}_i-\textrm{end}_{i-1}-1
 \end{definition}
 %-------------------------------------------

-\parinterval 根据这个定义，源语言和目标语言有不同的终结符集合（单词），但是它们会共享同一个非终结符集合（变量）。每个产生式包括源语言和目标语言两个部分，分别表示由规则左部生成的源语言和目标语言符号串。由于产生式会同时生成两种语言的符号串，因此这是一种``同步''生成，可以很好的描述翻译中两个词串之间的对应。
+\parinterval 根据这个定义，源语言和目标语言有不同的终结符集合（单词），但是它们会共享同一个非终结符集合（变量）。每个产生式包括源语言和目标语言两个部分，分别表示由规则左部生成的源语言和目标语言符号串。由于产生式会同时生成两种语言的符号串，因此这是一种``同步''生成，可以很好地描述翻译中两个词串之间的对应。

 \parinterval 下面是一个简单的SCFG实例：
 \begin{eqnarray}
@@ -1079,7 +1079,7 @@ d = {r_1} \circ {r_2} \circ {r_3} \circ {r_4}
 \textrm{S} & \to & \langle\ \textrm{X}_1,\ \textrm{X}_1\ \rangle \nonumber
 \end{eqnarray}

-\parinterval 胶水规则引入了一个新的非终结符S，S只能和X进行顺序拼接，或者S由X生成。如果把S看作文法的起始符，使用胶水规则后，相当于把句子划分为若干个部分，每个部分都被归纳为X。之后，顺序的把这些X拼接到一起，得到最终的译文。比如，最极端的情况，整个句子会生成一个X，之后再归纳为S，这时并不需要进行胶水规则的顺序拼接；另一种极端的情况，每个单词都是独立的被翻译，被归纳为X，之后先把最左边的X归纳为S，再依次把剩下的X顺序拼到一起。这样的推导形式如下：
+\parinterval 胶水规则引入了一个新的非终结符S，S只能和X进行顺序拼接，或者S由X生成。如果把S看作文法的起始符，使用胶水规则后，相当于把句子划分为若干个部分，每个部分都被归纳为X。之后，顺序地把这些X拼接到一起，得到最终的译文。比如，最极端的情况，整个句子会生成一个X，之后再归纳为S，这时并不需要进行胶水规则的顺序拼接；另一种极端的情况，每个单词都是独立的被翻译，被归纳为X，之后先把最左边的X归纳为S，再依次把剩下的X顺序拼到一起。这样的推导形式如下：
 \begin{eqnarray}
 \textrm{S} & \to & \langle\ \textrm{S}_1\ \textrm{X}_2,\ \textrm{S}_1\ \textrm{X}_2\ \rangle \nonumber \\
                & \to & \langle\ \textrm{S}_3\ \textrm{X}_4\ \textrm{X}_2,\ \textrm{S}_3\ \textrm{X}_4\ \textrm{X}_2\ \rangle \nonumber \\
@@ -1715,7 +1715,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex

 \subsubsection{树的切割与最小规则}

-\parinterval 获取树到串规则就是要找到在源语言树片段与目标语言词串的对应关系。一棵句法树会有很多个树片段，那么哪些树片段可以和目标语言词串产生对应关系呢？在GHKM方法中，源语言树片段和目标语言词串的对应是由词对齐决定的。GHKM假设：一个合法的树到串翻译规则，不应该违反词对齐。这个假设和双语短语抽取中的词对齐一致性约束是一样的（见\ref{subsection-4.2.3}节）。简单来说，规则中两种语言互相对应的部分不应包含对齐到外部的词对齐连接。为了说明这个问题，来看一个例子。图\ref{fig:example-of-tree-to-string-rule-and-word-alignment}包含了一棵句法树、一个词串和它们之间的词对齐结果。图中包含如下规则：
+\parinterval 获取树到串规则就是要找到源语言树片段与目标语言词串之间的对应关系。一棵句法树会有很多个树片段，那么哪些树片段可以和目标语言词串产生对应关系呢？在GHKM方法中，源语言树片段和目标语言词串的对应是由词对齐决定的。GHKM假设：一个合法的树到串翻译规则，不应该违反词对齐。这个假设和双语短语抽取中的词对齐一致性约束是一样的（见\ref{subsection-4.2.3}节）。简单来说，规则中两种语言互相对应的部分不应包含对齐到外部的词对齐连接。为了说明这个问题，来看一个例子。图\ref{fig:example-of-tree-to-string-rule-and-word-alignment}包含了一棵句法树、一个词串和它们之间的词对齐结果。图中包含如下规则：
 \begin{eqnarray}
 \textrm{PP(P(对)}\ \textrm{NP(NN(回答)))} \rightarrow \textrm{with}\ \textrm{the}\ \textrm{answer} \nonumber
 \end{eqnarray}
@@ -1926,7 +1926,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex

 \subsubsection{句法树二叉化}

-\parinterval 句法树是使用人类语言学知识归纳出来的一种解释句子结构的工具。比如， CTB、PTB等语料就是常用的训练句法分析器的数据\cite{xue2005building,DBLP:journals/coling/MarcusSM94}。但是，这些数据的标注中会含有大量的偏平结构，如图\ref{fig:syntax-tree-in-ctb}所示，多个分句可能会导致一个根节点下有很多个分支。
+\parinterval 句法树是使用人类语言学知识归纳出来的一种解释句子结构的工具。比如， CTB、PTB等语料就是常用的训练句法分析器的数据\cite{xue2005building,DBLP:journals/coling/MarcusSM94}。但是，这些数据的标注中会含有大量的扁平结构，如图\ref{fig:syntax-tree-in-ctb}所示，多个分句可能会导致一个根节点下有很多个分支。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -1974,7 +1974,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex

 \subsection{树到树翻译规则抽取}

-\parinterval 树到串/串到树模型只在一个语言端使用句法树，而树到树模型可以同时利用源语言和目标语言句法信息，因此可以更细致的刻画两种语言结构的对应关系，进而更好的完成句法结构的调序和生成。树到树翻译中，需要两端都有树结构的规则，比如：
+\parinterval 树到串/串到树模型只在一个语言端使用句法树，而树到树模型可以同时利用源语言和目标语言句法信息，因此可以更细致地刻画两种语言结构的对应关系，进而更好地完成句法结构的调序和生成。树到树翻译中，需要两端都有树结构的规则，比如：
 \begin{eqnarray}
 \langle\ \textrm{VP},\textrm{VP}\ \rangle \rightarrow \langle\ \textrm{VP(}\textrm{PP}_1\ \textrm{VP(VV(表示)}\ \textrm{NN}_2\textrm{))}, \nonumber \\
 \textrm{VP(VBZ(was)}\ \textrm{VP(}\textrm{VBN}_2\ \textrm{PP}_1\textrm{))}\ \rangle \nonumber
@@ -2139,7 +2139,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex

 \parinterval 不难发现，超图提供了一种非常紧凑的数据结构来表示多个推导，因为不同推导之间可以共享节点。如果把图\ref{fig:example-of-hyper-graph}中的蓝色和红色部分看作是两个推导，那么它们就共享了同一个节点NN[1,2]。能够想象，简单枚举一个句子所有的推导几乎是不可能的，但是用超图的方式却可以很有效的对指数级数量的推导进行表示。另一方面，超图上的运算常常被看作是一种基于半环的代数系统，而且人们发现许多句法分析和机器翻译问题本质上都是{\small\bfnew{半环分析}}\index{半环分析}（Semi-ring Parsing）\index{Semi-ring Parsing}。不过，由于篇幅有限，这里不会对半环等结构展开讨论。感兴趣的读者可以查阅相关文献\cite{goodman1999semiring,eisner2002parameter}。

-\parinterval 从句法分析的角度看，超图最大程度的复用了局部的分析结果，使得分析可以``结构化''。比如，有两个推导：
+\parinterval 从句法分析的角度看，超图最大程度地复用了局部的分析结果，使得分析可以``结构化''。比如，有两个推导：
 \begin{eqnarray}
 d_1 = {r_1} \circ {r_2} \circ {r_3} \circ {r_4} \label{eqa4.30}\\
 d_2 = {r_1} \circ {r_2} \circ {r_3} \circ {r_5}
@@ -2195,7 +2195,7 @@ d_1 = {d'} \circ {r_5}
 \label{eqa4.34}
 \end{eqnarray}

-\parinterval 这也是一种标准的{\small\bfnew{基于串的解码}}\index{基于串的解码}（String-based Decoding）\index{String-based Decoding}，即通过句法模型对输入的源语言句子进行翻译得到译文串。不过，搜索所有的推导会导致巨大的解码空间。对于树到串和树到树翻译来说来说，源语言句法树是可见的，因此可以使用另一种解码方法\ \dash \ {\small\bfnew{基于树的解码}}\index{基于树的解码}（Tree-based Decoding）\index{Tree-based Decoding}，即把输出入的源语句法树翻译为目标语串。
+\parinterval 这也是一种标准的{\small\bfnew{基于串的解码}}\index{基于串的解码}（String-based Decoding）\index{String-based Decoding}，即通过句法模型对输入的源语言句子进行翻译得到译文串。不过，搜索所有的推导会导致巨大的解码空间。对于树到串和树到树翻译来说，源语言句法树是可见的，因此可以使用另一种解码方法\ \dash \ {\small\bfnew{基于树的解码}}\index{基于树的解码}（Tree-based Decoding）\index{Tree-based Decoding}，即把输入的源语句法树翻译为目标语串。

 \parinterval 表\ref{tab:decode-base-string-vs-base-tree}对比了基于串和基于树的解码方法。可以看到，基于树的解码只考虑了与源语言句法树兼容的推导，因此搜索空间更小，解码速度会更快。

@@ -2322,7 +2322,7 @@ d_1 = {d'} \circ {r_5}

 \begin{itemize}
 \vspace{0.5em}
-\item 统计机器翻译的成功很大程度上来自判别式模型引入任意特征的能力。因此，在统计机器翻译时代，很多工作都集中在新特征的设计上。比如，可以基于不同的统计特征和先验知识设计翻译特征\cite{och2004smorgasbord,Chiang200911,gildea2003loosely}，也可以模仿分类任务设计大规模的稀疏特征\cite{chiang2008online}。另一方面，模型训练和特征权重调优也是统计机器翻译中的重要问题，除了最小错误率训练，还有很多方法。在过去十年，研究人员提出了许多有效的方法来学习现代SMT系统的特征值和权重，比如，最大似然估计\cite{koehn2003statistical,Peter1993The}、判别式方法\cite{Blunsom2008A}、贝叶斯方法\cite{Blunsom2009A,Cohn2009A}、最小风险训练\cite{smith2006minimum,li2009first-}、基于Margin的方法\cite{watanabe2007online,Chiang200911}以及基于排序模型的方法（PRO）\cite{Hopkins2011Tuning,dreyer2015apro}。实际上，统计机器翻译的训练和解码也存在不一致的问题，比如，特征值由双语数据上的极大似然估计得到（没有剪枝），而解码时却使用束剪枝，而且模型的目标是最大化机器翻译评价指标。对于这个问题也可以通过调整训练的目标函数进行缓解\cite{XiaoA，marcu2006practical}。
+\item 统计机器翻译的成功很大程度上来自判别式模型引入任意特征的能力。因此，在统计机器翻译时代，很多工作都集中在新特征的设计上。比如，可以基于不同的统计特征和先验知识设计翻译特征\cite{och2004smorgasbord,Chiang200911,gildea2003loosely}，也可以模仿分类任务设计大规模的稀疏特征\cite{chiang2008online}。另一方面，模型训练和特征权重调优也是统计机器翻译中的重要问题，除了最小错误率训练，还有很多方法。在过去十年，研究人员提出了许多有效的方法来学习现代SMT系统的特征值和权重，比如，最大似然估计\cite{koehn2003statistical,Peter1993The}、判别式方法\cite{Blunsom2008A}、贝叶斯方法\cite{Blunsom2009A,Cohn2009A}、最小风险训练\cite{smith2006minimum,li2009first-}、基于Margin的方法\cite{watanabe2007online,Chiang200911}以及基于排序模型的方法（PRO）\cite{Hopkins2011Tuning,dreyer2015apro}。实际上，统计机器翻译的训练和解码也存在不一致的问题，比如，特征值由双语数据上的极大似然估计得到（没有剪枝），而解码时却使用束剪枝，而且模型的目标是最大化机器翻译评价指标。对于这个问题也可以通过调整训练的目标函数进行缓解\cite{XiaoA,marcu2006practical}。
 \vspace{0.5em}
 \item 统计机器翻译的另一个基础问题是如何表示并获取翻译单元（如短语）。传统方法中，研究者大多使用词对齐或者句法树等结构化信息，通过启发性方法进行短语和翻译规则的获取。不过这类方法最大的问题是上游系统（比如，词对齐、句法分析等）中的错误会影响到下游系统。因此，很多研究者尝试使用更多样的对齐或者句法分析来指导翻译单元的获取。比如，可以绕过词对齐，直接进行短语对齐\cite{denero2010phrase}；也可以使用多个句法树或者句法森林来覆盖更多的句法现象，进而增加规则抽取的召回率\cite{mi2008forest,xiao2010empirical}。另一个有趣的方向是用更紧凑的方式表示更多样的翻译假设，比如，直接将翻译结果用有限状态自动机表示，进行更大搜索空间上的解码\cite{de2010hierarchical,Casacuberta2004Machine}。
 \vspace{0.5em}

--- a/Book/Chapter7/Chapter7.tex
+++ b/Book/Chapter7/Chapter7.tex
@@ -161,7 +161,6 @@
 \begin{table}[htp]
 \centering
 \caption{同一个字符的多种编码表示}
-\label{tab:Multiple-encoding-representations}
 \begin{tabular}{ c | c }
 \rule{0pt}{13pt}	字符	&Unicode编码16进制 \\ \hline
 \rule{0pt}{13pt} ％  & FF05 \\
@@ -172,10 +171,11 @@
 \rule{0pt}{13pt} 9 & 39 \\
 \rule{0pt}{13pt} ９ & FF19
 \end{tabular}
+\label{tab:7-1}
 \end{table}
 %--------------------------------------

-\parinterval 符号标准化，主要是指的全角或者半角符号的统一。如表\ref{tab:Multiple-encoding-representations}所示，虽然其中的百分号、字母‘A’和数字‘9’表示的含义没有变，但是在Unicode标准中存在不同的编码表示。因此，需要将不同的编码进行统一。在中英翻译中，通常会根据映射规则将符号全部统一成半角符号。
+\parinterval 符号标准化，主要是指的全角或者半角符号的统一。如表\ref{tab:7-1}所示，虽然其中的百分号、字母‘A’和数字‘9’表示的含义没有变，但是在Unicode标准中存在不同的编码表示。因此，需要将不同的编码进行统一。在中英翻译中，通常会根据映射规则将符号全部统一成半角符号。

 \parinterval 在英语等一些大小写敏感的语言中，一些专有名词和特殊用法，以及每个句子的首字母都需要进行大写。此外，训练数据中也会包括一些大小写错误的用法。这导致许多单词由于大小写的区分存在多种形式。一种简单的做法是将数据全部进行小写化，这样可以使所有的单词进行统一，大大提升模型预测的准确性。然而，用小写化数据训练的模型翻译结果也都是小写的，需要额外的还原模型对结果进行处理。

@@ -394,7 +394,7 @@
 \parinterval {\small\bfnew{正则化}}\index{正则化}（Regularization）\index{Regularization}是机器学习中的经典技术，通常用于缓解{\small\bfnew{过拟合问题}}\index{过拟合问题}（The Overfitting Problem）\index{Overfitting Problem}。正则化的概念源自线性代数和代数几何。在实践中，它更多的是指对{\small\bfnew{反问题}}\index{反问题}（The Inverse Problem）\index{Inverse Problem}的一种求解方式。假设输入$x$和输出$y$之间存在一种映射$f$
 \begin{eqnarray}
 y = f(x)
-\label{eqC7.1}
+\label{eq:7-1}
 \end{eqnarray}

 \noindent 反问题是指：当观测到$y$时，能否求出$x$。反问题对应了很多实际问题，比如，可以把$y$看作经过美化的图片，$x$看作原始的图片，反问题就对应了图片还原。机器翻译的训练也是一种反问题，因为可以把$y$看作是正确的译文，$x$看作是输入句子或者模型参数\footnote{在训练中，如果把源语言句子看作是不变的量，这时$f$的输入只有模型参数。}。
@@ -426,7 +426,7 @@ y = f(x)
 \parinterval 正则化的一种实现是在训练目标中引入一个正则项。在神经机器翻译中，引入正则项的训练目标为：
 \begin{eqnarray}
 \hat{\mathbf{w}}=\argmax_{\mathbf{w}}L(\mathbf{w}) + \lambda R(\mathbf{w})
-\label{eqC7.2}
+\label{eq:7-2}
 \end{eqnarray}

 \noindent 其中，$L(\mathbf{w})$是损失函数，$R(\mathbf{w})$是正则项；$\lambda$是正则项的系数，用于控制正则化对训练影响的程度。$R(\mathbf{w})$通常也可以被看作是一种先验，因为在数据不充分且存在噪声的情况下，可以根据一些先验知识让模型偏向正确的方向一些，而不是一味地根据受噪声影响的不准确的$L(\mathbf{w})$进行优化。相应的，引入正则化后的模型可以获得更好的{\small\bfnew{泛化}}\index{泛化}（Generalization）\index{Generalization}能力，即模型在新的未见数据上表现会更好。
@@ -440,14 +440,14 @@ y = f(x)
 \begin{eqnarray}
 R(\mathbf{w}) & = & \big| |\mathbf{w}| {\big|}_1 \\
 			     & =  &\sum_{w_i}|w_i| \nonumber
-\label{eqC7.3}
+\label{eq:7-3}
 \end{eqnarray}

 \parinterval L2正则化是指
 \begin{eqnarray}
 R(\mathbf{w}) & = & (\big| |\mathbf{w}| {\big|}_2)^2 \\
 			     & =  &\sum_{w_i}{w_i}^2 \nonumber
-\label{eqC7.4}
+\label{eq:7-4}
 \end{eqnarray}

 \parinterval 从几何的角度看，L1和L2正则项都是有物理意义的。二者都可以被看作是空间上的一个区域，比如，在二维平面上，L1范数表示一个以0点为中心的矩形，L2范数表示一个以0点为中心的圆。因此，优化问题可以被看作是在两个区域（$L(\mathbf{w})$和$R(\mathbf{w})$）叠加在一起所形成的区域进行优化。由于L1和L2正则项都是在0点（坐标原点）附近形成的区域，因此优化的过程可以确保参数不会偏离0点太多。也就是说，L1和L2正则项引入了一个先验：模型的解不应该离0点太远。而L1和L2正则项实际上是在度量这个距离。
@@ -464,7 +464,7 @@ R(\mathbf{w}) & = & (\big| |\mathbf{w}| {\big|}_2)^2 \\
 \parinterval {\small\bfnew{标签平滑}}\index{标签平滑}（Label Smoothing）\index{Label Smoothing}的思想很简单\cite{Szegedy_2016_CVPR}：答案所对应的单词不应该``独享''所有的概率，其它单词应该有机会作为答案。这个观点与第二章中语言模型的平滑非常类似。在复杂模型的参数估计中，往往需要给未见或者低频事件分配一些概率，以保证模型具有更好的泛化能力。具体实现时，标签平滑使用了一个额外的分布$q$，它是在词汇表$V$ 上的一个均匀分布，即$q(k)=\frac{1}{|V|}$，其中$q(k)$表示分布的第$k$维。然后，答案分布被重新定义为$\tilde{y}_j$和$q$的线性插值：
 \begin{eqnarray}
 y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
-\label{eqC7.5}
+\label{eq:7-5}
 \end{eqnarray}

 \noindent 这里$\alpha$表示一个系数，用于控制分布$q$的重要性。$y_{j}^{ls}$会被作为最终的答案分布用于模型的训练。
@@ -481,7 +481,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
 \end{figure}
 %----------------------------------------------

-\parinterval 标签平滑也可以被看作是对损失函数的一种调整，并引入了额外的先验知识（即与$q$相关的部分）。只不过这种先验知识并不是通过线性插值的方式与原始损失函数融合的（公式\ref{eqC7.2}）。
+\parinterval 标签平滑也可以被看作是对损失函数的一种调整，并引入了额外的先验知识（即与$q$相关的部分）。只不过这种先验知识并不是通过线性插值的方式与原始损失函数融合的（公式\ref{eq:7-2}）。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsubsection{Dropout}
@@ -562,14 +562,13 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q

 \parinterval 宽网络通常指隐藏层维度更大的网络，目前在图像处理领域和自然语言处理领域被广泛地使用。第五章已经验证了包含足够多神经元的多层前馈神经网络可以无限逼近任意复杂的连续函数\cite{Hornic1989Multilayer}，这也在一定程度上说明了神经网络建模中神经元数目的重要性。

-\parinterval 增大隐藏层神经元的数目是网络变宽的基本方式之一。例如，图像处理领域中提出的{\small\bfnew{宽残差网络}}\index{宽残差网络}（Wide Residual Network）\index{Wide Residual Network}使用更大的卷积核来提高每次卷积计算的精度\cite{DBLP:conf/bmvc/ZagoruykoK16}；神经机器翻译中，Transformer-Big模型广受研究人员的认可\cite{NIPS2017_7181}，它同样是一个典型的宽网络。对比基线模型Transformer-Base，Transformer-Big通过扩大隐藏层维度与滤波器（Filter）维度，取得了显著的翻译性能提升。表\ref{tab:Parameter-setting}是相应的参数设置。
+\parinterval 增大隐藏层神经元的数目是网络变宽的基本方式之一。例如，图像处理领域中提出的{\small\bfnew{宽残差网络}}\index{宽残差网络}（Wide Residual Network）\index{Wide Residual Network}使用更大的卷积核来提高每次卷积计算的精度\cite{DBLP:conf/bmvc/ZagoruykoK16}；神经机器翻译中，Transformer-Big模型广受研究人员的认可\cite{NIPS2017_7181}，它同样是一个典型的宽网络。对比基线模型Transformer-Base，Transformer-Big通过扩大隐藏层维度与滤波器（Filter）维度，取得了显著的翻译性能提升。表\ref{tab:7-2}是相应的参数设置。

 %----------------------------------------------
 % 表
 \begin{table}[htp]
 \centering
 \caption{基线网络与宽网络的参数设置}
-\label{tab:Parameter-setting}
 \begin{tabular}{ l | l l}
 & Transformer-Base &Transformer-Big \\ \hline
 \rule{0pt}{13pt} 词向量维度 & 512 &1024 \\
@@ -577,10 +576,11 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
 \rule{0pt}{13pt} 隐藏层维度 &512 &1024 \\
 \rule{0pt}{13pt}  FFN子层映射维度 &2048 &4096
 \end{tabular}
+\label{tab:7-2}
 \end{table}
 %--------------------------------------

-\parinterval 值得注意的是， Transformer模型中的前馈神经网络子层中将隐藏层表示映射到更高维度的空间（通过一个Filter），之后经过激活函数Relu后再映射回原来的维度大小。这个操作对翻译模型的性能有明显的正向作用。从表\ref{tab:Parameter-setting}中可以看出，Filter的维度是普通隐藏层维度的四倍。通过增大Filter大小可以有效地扩展网络的宽度，比如，有些情况下可以将Filter增大到8192甚至更大。
+\parinterval 值得注意的是， Transformer模型中的前馈神经网络子层中将隐藏层表示映射到更高维度的空间（通过一个Filter），之后经过激活函数Relu后再映射回原来的维度大小。这个操作对翻译模型的性能有明显的正向作用。从表\ref{tab:7-2}中可以看出，Filter的维度是普通隐藏层维度的四倍。通过增大Filter大小可以有效地扩展网络的宽度，比如，有些情况下可以将Filter增大到8192甚至更大。

 \parinterval 但伴随着模型变宽，网络的整体参数量会显著增长\footnote{在一个全连接神经网络中，参数的数量与各层宽度呈平方关系。}。同时，宽网络需要更长的训练时间才能达到稳定的收敛状态。此外，训练宽网络时通常需要对一些超参数进行相应的调整，例如Dropout的大小，学习率的峰值等。

@@ -657,20 +657,20 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
 \end{figure}
 %----------------------------------------------

-\parinterval 此外，前人工作表明，使用大批量训练复杂网络结构时要配合略大一些的学习率，加快模型在梯度方向上的更新速度，进而达到更优的翻译性能\cite{DBLP:conf/wmt/OttEGA18}。例如，深层网络也需要对学习率进行适当的调整才能发挥较好的性能。表\ref{tab:BLEU-under-different-batches-and-peak-learning-rate}展示了30层网络在不同批次大小和学习率峰值的条件下的BLEU值（WMT14 En-De）\footnote{学习率峰值是指Transformer模型训练的预热阶段，学习率所到达的最高值。}。可以发现，在固定学习率峰值的条件下增大批次大小并不能带来性能上的增益，必须同时调整条学习率的峰值。也有研究团队验证了，Transformer-Big模型在128张GPU上进行分布式训练时，适当的增大学习率会带来明显性的BLEU提升\cite{DBLP:conf/wmt/OttEGA18}。
+\parinterval 此外，前人工作表明，使用大批量训练复杂网络结构时要配合略大一些的学习率，加快模型在梯度方向上的更新速度，进而达到更优的翻译性能\cite{DBLP:conf/wmt/OttEGA18}。例如，深层网络也需要对学习率进行适当的调整才能发挥较好的性能。表\ref{tab:7-3}展示了30层网络在不同批次大小和学习率峰值的条件下的BLEU值（WMT14 En-De）\footnote{学习率峰值是指Transformer模型训练的预热阶段，学习率所到达的最高值。}。可以发现，在固定学习率峰值的条件下增大批次大小并不能带来性能上的增益，必须同时调整条学习率的峰值。也有研究团队验证了，Transformer-Big模型在128张GPU上进行分布式训练时，适当的增大学习率会带来明显性的BLEU提升\cite{DBLP:conf/wmt/OttEGA18}。

 %----------------------------------------------
 % 表
 \begin{table}[htp]
 \centering
 \caption{深层Transformer不同批次大学和学习率峰值设置下的BLEU值}
-\label{tab:BLEU-under-different-batches-and-peak-learning-rate}
 \begin{tabular}{ l | l  l }
 \rule{0pt}{13pt} batch & lr & BLEU \\ \hline
 \rule{0pt}{13pt} 4096 & 0.01 & 29.15 \\
 \rule{0pt}{13pt} 8192 & 0.01 & 29.06 \\
 \rule{0pt}{13pt} 8192 & 0.02 & 29.49
 \end{tabular}
+\label{tab:7-3}
 \end{table}
 %--------------------------------------

@@ -902,18 +902,18 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
 \item 整型运算。整数运算是一种比浮点运算``轻''很多的运算。无论是芯片占用面积、能耗还是处理单次运算的时钟周期数，整数运算相比浮点运算都有着明显的优势。因此，使用整数运算也是很有潜力的加速手段。不过，整数的表示和浮点数有着很大的不同。一个基本的问题是，整数是不连续的，因此无法准确的刻画浮点数中很小的小数。对于这个问题，一种解决方法是利用``量化+反量化+缩放''的策略让整数运算近似浮点运算的效果 \cite{DBLP:journals/corr/abs-1906-00532}\cite{DBLP:conf/cvpr/JacobKCZTHAK18}\cite{DBLP:journals/corr/abs-1910-10485}）。所谓``量化''就是把一个浮点数离散化为一个整数，``反量化''是这个过程的逆过程。由于浮点数可能超出整数的范围，因此会引入一个缩放因子。在量化前将浮点数缩放到整数可以表示的范围，反量化前再缩放回原始浮点数的表示范围。这种方法在理论上可以带来很好的加速效果。不过由于量化和反量化的操作本身也有时间消耗，而且在不同处理器上的表现差异较大。因此不同的实现方式带来的加速效果并不相同，需要通过实验测算。

 \vspace{0.3em}
-\item 低精度整型运算。使用更低精度的整型运算是进一步加速的手段之一。比如使用16位整数、8位整数，甚至4位整数在理论上都会带来速度的提升（表\ref{tab:Comparison-of-occupied-area-and-computing-speed}）。不过，并不是所有处理器都支持低精度整数的运算。开发这样的系统，一般需要硬件和特殊低精度整数计算库的支持。而且相关计算大多是在CPU上实现，应用会受到一定的限制。
+\item 低精度整型运算。使用更低精度的整型运算是进一步加速的手段之一。比如使用16位整数、8位整数，甚至4位整数在理论上都会带来速度的提升（表\ref{tab:7-4}）。不过，并不是所有处理器都支持低精度整数的运算。开发这样的系统，一般需要硬件和特殊低精度整数计算库的支持。而且相关计算大多是在CPU上实现，应用会受到一定的限制。

 %----------------------------------------------
 % 表
 \begin{table}[htp]
 \centering
 \caption{不同计算精度的芯片的运算速度对比\protect\footnotemark}
-\label{tab:Comparison-of-occupied-area-and-computing-speed}
 \begin{tabular}{ l | l  l l l l}
 \rule{0pt}{13pt} 指标 & FP32 &INT32 &INT16 &INT8 &INT4 \\ \hline
 \rule{0pt}{13pt} 速度 & 1$\times$ & 3$\sim$4$\times$ & $\approx$4$\times$ & 4$\sim$6$\times$ & $\approx$8$\times$
 \end{tabular}
+\label{tab:7-4}
 \end{table}
 \footnotetext{表中比较了几种通用数据类型的乘法运算速度，不同硬件和架构上不同类型的数据的计算速度略有不同。总体来看整型数据类型和浮点型数据相比具有显著的计算速度优势，INT4相比于FP32数据类型的计算最高能达到8倍的速度提升。}
 %--------------------------------------
@@ -931,7 +931,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
 \parinterval 神经机器翻译的推断是一种{\small\bfnew{自回归翻译}}\index{自回归翻译}（Autoregressive Translation）\index{Autoregressive Translation}过程。所谓自回归是一种描述时间序列生成的方式。对于序列$\{ x_1,...,x_m \}$，自回归模型假设$i$时刻状态$x_i$的生成依赖于之前的状态$\{ x_1,...,x_{i-1} \}$，而且$x_i$与$\{ x_1,...,x_{i-1} \}$构成线性关系。神经机器翻译借用了这个概念，但是并不要求线性模型。对于输入的源语言序列$\mathbf{x}=\{ x_1,...,x_m \}$，用自回归翻译模型生成译文序列$\mathbf{y}=\{ y_1,...,y_n \}$的概率可以被定义为：
 \begin{eqnarray}
 \textrm{P}(\mathbf{y}|\mathbf{x}) = \prod_{j=1}^{n} \textrm{P}(y_j|\mathbf{y}_{<j},\mathbf{x})
-\label{eqC7.6}
+\label{eq:7-6}
 \end{eqnarray}

 \noindent 即译文单词$y_j$依赖前面已经生成的单词$\mathbf{y}_{<j}=\{y_1,...,y_{j-1}\}$和源语言句子$\mathbf{x}$。显然，这个模型中，每一个目标语位置$j$都需要等待前面$j-1$个位置输出的结果。因此，自回归翻译会阻碍不同译文单词生成的并行化。特别是在GPU上，翻译的自回归性会大大降低计算的并行度，导致推断过程的效率不高。
@@ -939,7 +939,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
 \parinterval 对于这个问题，研究者也考虑移除翻译的自归回性\cite{Gu2017NonAutoregressiveNM}，进行{\small\bfnew{非自回归翻译}}\index{非自回归翻译}（Regressive Translation）\index{Regressive Translation}。非自回归翻译可以用如下公式描述：
 \begin{eqnarray}
 \textrm{P}(\mathbf{y}|\mathbf{x}) = \prod_{j=1}^{n} \textrm{P}(y_j| \mathbf{x})
-\label{eqC7.7}
+\label{eq:7-7}
 \end{eqnarray}

 \noindent 其中，位置$j$上的输出$y_j$只依赖于输入句子$\mathbf{x}$，与其它位置上的输出无关。于是，所有位置上$y_j$都可以并行生成，大大提高了GPU等并行运算设备的利用率。这种方式一般可以带来几倍的速度提升。
@@ -992,33 +992,33 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
 \parinterval 最常用的方法是直接对翻译概率进行正规化，也就是用译文长度来归一化翻译概率。令源语言句子为$\mathbf{x}=\{ x_1, ...,x_m \}$，译文为$\mathbf{y}=\{ y_1,...,y_n\}$,于是翻译模型得分$\textrm{score}(\mathbf{x},\mathbf{y})$可以被定义为：
 \begin{eqnarray}
 \textrm{score}(\mathbf{x},\mathbf{y}) = \textrm{log}(\textrm{P}(\mathbf{y} | \mathbf{x}))
-\label{eqC7.8}
+\label{eq:7-8}
 \end{eqnarray}

 \noindent 因为$\textrm{P}(\mathbf{y} | \mathbf{x}) = \prod_{j=1}^{n} \textrm{P}(y_j | \mathbf{y}_{<j},\mathbf{x}) $，$\textrm{score}(\mathbf{x},\mathbf{y})$的值会随着译文$\mathbf{y}$的变长而减小。于是可以直接对$\textrm{score}(\mathbf{x},\mathbf{y})$按$\mathbf{y}$的长度进行归一化。令$\textrm{lp}(\mathbf{y})$表示长度惩罚因子，归一化后的模型得分可以被定义为：
 \begin{eqnarray}
 \textrm{score}(\mathbf{x},\mathbf{y}) = \frac{ \textrm{log}(\textrm{P}(\mathbf{y} | \mathbf{x}))}{\textrm{lp}(\mathbf{y})}
-\label{eqC7.9}
+\label{eq:7-9}
 \end{eqnarray}

-\parinterval $\textrm{lp}(\mathbf{y})$的物理意义是要给短译文一些惩罚，反映到公式\ref{eqC7.9}上就是对$\textrm{log}(\textrm{P}(\mathbf{y} | \mathbf{x}))$进行正规化。$\textrm{lp}(\mathbf{y})$的定义方式很多，比如表\ref{tab:definition-of-lp}就列出了一些常用的形式。
+\parinterval $\textrm{lp}(\mathbf{y})$的物理意义是要给短译文一些惩罚，反映到公式\ref{eq:7-9}上就是对$\textrm{log}(\textrm{P}(\mathbf{y} | \mathbf{x}))$进行正规化。$\textrm{lp}(\mathbf{y})$的定义方式很多，比如表\ref{tab:7-5}就列出了一些常用的形式。

 %----------------------------------------------
 % 表
 \begin{table}[htp]
 \centering
 \caption{长度惩罚因子$\textrm{lp}(\mathbf{y})$的定义（$|\mathbf{y}|$表示译文长度）}
-\label{tab:definition-of-lp}
 \begin{tabular}{ l | l }
 \rule{0pt}{15pt}	名称			& $\textrm{lp}(\mathbf{y})$ \\ \hline
 \rule{0pt}{15pt}	句子长度 & $\textrm{lp}(\mathbf{y})=|\mathbf{y}|^{\alpha}$ \\
 \rule{0pt}{15pt}	GNMT惩罚因子 & $\textrm{lp}(\mathbf{y})=\frac{(5+|\mathbf{y}|)^{\alpha}}{(5+1)^{\alpha}}$ \\
 \rule{0pt}{15pt}	指数化长度惩罚因子 & $\textrm{lp}(\mathbf{y}) = \alpha \cdot \textrm{log}(|\mathbf{y}|) $
 \end{tabular}
+\label{tab:7-5}
 \end{table}
 %--------------------------------------

-\parinterval 在推断时，直接采用公式\ref{eqC7.9}定义的模型进行搜索即可。$\alpha$是一个超参数，需要经验性设置。有时候为了调节译文的长度，可以手工调整$\alpha$，比如，增大$\alpha$可以使译文更长一些。在有些场景下，调整$\alpha$也是一种快速响应问题的手段。
+\parinterval 在推断时，直接采用公式\ref{eq:7-9}定义的模型进行搜索即可。$\alpha$是一个超参数，需要经验性设置。有时候为了调节译文的长度，可以手工调整$\alpha$，比如，增大$\alpha$可以使译文更长一些。在有些场景下，调整$\alpha$也是一种快速响应问题的手段。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsubsection{译文长度范围约束}
@@ -1027,7 +1027,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
 \begin{eqnarray}
 a &=& \omega_{\textrm{low}}\cdot |\mathbf{x}| \\
 b &=& \omega_{\textrm{high}}\cdot |\mathbf{x}|
-\label{eqC7.11}
+\label{eq:7-10}
 \end{eqnarray}

 \noindent 其中，$\omega_{\textrm{low}}$和$\omega_{\textrm{high}}$是两个参数，用来表示译文长度的下限和上限。比如，很多系统中有$\omega_{\textrm{low}}=\frac{1}{2}$，$\omega_{\textrm{high}}=2$，表示译文至少有源语言句子一半长，最多有源语言句子两倍长。
@@ -1052,18 +1052,18 @@ b &=& \omega_{\textrm{high}}\cdot |\mathbf{x}|
 \begin{eqnarray}
 \textrm{score}(\mathbf{x},\mathbf{y}) &=& \frac{\textrm{logP}(\mathbf{y} | \mathbf{x})}{\textrm{lp}(\mathbf{y})} + \textrm{cp}(\mathbf{x},\mathbf{y}) \\
 \textrm{cp}(\mathbf{x},\mathbf{y}) &=& \beta \cdot \sum_{i=1}^{|\mathbf{x}|} \textrm{log}(\textrm{min} (\sum_{j}^{|\mathbf{y}|} a_{ij} , 1))
-\label{eqC7.13}
+\label{eq:7-12}
 \end{eqnarray}

-\noindent $\textrm{cp}(\mathbf{x},\mathbf{y}) $表示覆盖度模型，它度量了译文对源语言每个单词覆盖的好坏。$\textrm{cp}(\mathbf{x},\mathbf{y}) $的定义中，$a_{ij}$表示源语言第$i$个位置与目标语第$j$个位置的注意力权重，这样$\sum_{j}^{|\mathbf{y}|} a_{ij}$就可以被当作是源语言第$i$个单词被翻译了``多少''，如果它大于1，表明翻译多了；如果小于1，表明翻译少了。公式\ref{eqC7.13}会惩罚那些欠翻译的翻译假设。
+\noindent $\textrm{cp}(\mathbf{x},\mathbf{y}) $表示覆盖度模型，它度量了译文对源语言每个单词覆盖的好坏。$\textrm{cp}(\mathbf{x},\mathbf{y}) $的定义中，$a_{ij}$表示源语言第$i$个位置与目标语第$j$个位置的注意力权重，这样$\sum_{j}^{|\mathbf{y}|} a_{ij}$就可以被当作是源语言第$i$个单词被翻译了``多少''，如果它大于1，表明翻译多了；如果小于1，表明翻译少了。公式\ref{eq:7-12}会惩罚那些欠翻译的翻译假设。

 \parinterval 覆盖度模型的一种改进形式是\cite{li-etal-2018-simple}：
 \begin{eqnarray}
 \textrm{cp}(\mathbf{x},\mathbf{y}) = \sum_{i=1}^{|\mathbf{x}|} \textrm{log}( \textrm{max} ( \sum_{j}^{|\mathbf{y}|} a_{ij},\beta))
-\label{eqC7.14}
+\label{eq:7-14}
 \end{eqnarray}

-\noindent 公式\ref{eqC7.14}将公式\ref{eqC7.13}中的向下截断方式换为了向上截断。这样，模型可以对过翻译（或重复翻译）有更好的建模能力。不过，这个模型需要在开发集上细致的调整$\beta$，也带来了一定的额外工作量。
+\noindent 公式\ref{eq:7-14}将公式\ref{eq:7-12}中的向下截断方式换为了向上截断。这样，模型可以对过翻译（或重复翻译）有更好的建模能力。不过，这个模型需要在开发集上细致的调整$\beta$，也带来了一定的额外工作量。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsection{多模型集成}
@@ -1109,12 +1109,12 @@ b &=& \omega_{\textrm{high}}\cdot |\mathbf{x}|
 \parinterval 神经机器翻译模型对每个目标端位置$j$的单词分布进行预测，即对于目标语言词汇表中的每个单词$y_j$，需要计算$\textrm{P}(y_j | \mathbf{y}_{<j},\mathbf{x})$。假设有$K$个神经机器翻译系统，那么每个系统$k$都可以独立的计算这个概率，记为$\textrm{P}_{k} (y_j | \mathbf{y}_{<j},\mathbf{x})$。于是，可以用如下方式融合这$K$个系统的预测：
 \begin{eqnarray}
 \textrm{P}(y_{j} | \mathbf{y}_{<j} , \mathbf{x}) = \sum_{k=1}^K \gamma_{k} \cdot \textrm{P}_{k} (y_j | \mathbf{y}_{<j},\mathbf{x})
-\label{eqC7.15}
+\label{eq:7-15}
 \end{eqnarray}

-\noindent 其中$\gamma_{k}$表示第$k$个系统的权重，且满足$\sum_{k=1}^{K} \gamma_{k} = 1$。公式\ref{eqC7.15}是一种线性模型。权重$\{ \gamma_{k}\}$可以在开发集上自动调整，比如，使用最小错误率训练得到最优的权重（见第四章）。不过在实践中发现，如果这$K$个模型都是由一个基础模型衍生出来的，权重$\{ \gamma_{k}\}$对最终结果的影响并不大。因此，有时候也简单的将权重设置为$\gamma_{k} = \frac{1}{K}$。
+\noindent 其中$\gamma_{k}$表示第$k$个系统的权重，且满足$\sum_{k=1}^{K} \gamma_{k} = 1$。公式\ref{eq:7-15}是一种线性模型。权重$\{ \gamma_{k}\}$可以在开发集上自动调整，比如，使用最小错误率训练得到最优的权重（见第四章）。不过在实践中发现，如果这$K$个模型都是由一个基础模型衍生出来的，权重$\{ \gamma_{k}\}$对最终结果的影响并不大。因此，有时候也简单的将权重设置为$\gamma_{k} = \frac{1}{K}$。

-\parinterval 公式\ref{eqC7.15}是一种典型的线性插值模型，这类模型在语言建模等任务中已经得到成功应用。从统计学习的角度，对多个模型的插值可以有效的降低经验错误率。不过，多模型集成依赖一个假设：这些模型之间需要有一定的互补性。这种互补性有时也体现在多个模型预测的上限上，称为Oracle。比如，可以把这$K$个模型输出中BLEU最高的结果作为Oracle，也可以选择每个预测结果中使BLEU达到最高的译文单词，这样构成的句子作为Oracle。当然，并不是说Oracle提高，模型集成的结果一定会变好。因为Oracle是最理想情况下的结果，而实际预测的结果与Oracle往往有很大差异。如何使用Oracle进行模型优化也是很多研究者在探索的问题。
+\parinterval 公式\ref{eq:7-15}是一种典型的线性插值模型，这类模型在语言建模等任务中已经得到成功应用。从统计学习的角度，对多个模型的插值可以有效的降低经验错误率。不过，多模型集成依赖一个假设：这些模型之间需要有一定的互补性。这种互补性有时也体现在多个模型预测的上限上，称为Oracle。比如，可以把这$K$个模型输出中BLEU最高的结果作为Oracle，也可以选择每个预测结果中使BLEU达到最高的译文单词，这样构成的句子作为Oracle。当然，并不是说Oracle提高，模型集成的结果一定会变好。因为Oracle是最理想情况下的结果，而实际预测的结果与Oracle往往有很大差异。如何使用Oracle进行模型优化也是很多研究者在探索的问题。

 %----------------------------------------------
 % 图7.
@@ -1185,7 +1185,7 @@ b &=& \omega_{\textrm{high}}\cdot |\mathbf{x}|
 %%%%%%%%%%%%%%%%%%
 \subsubsection{Post-Norm vs Pre-Norm}

-\parinterval 为了探究为何深层的Transformer模型很难直接训练，首先对Transformer的模型结构进行简单的回顾。以Transformer的编码端为例，在多头自注意力网络和前馈神经网络中间，Transformer模型利用残差连接和层正则化操作来提高信息的传递效率。Transformer模型大致分为图\ref{fig:7.5-1}中两种结构\ \dash \ 后作方式的残差单元（Post-Norm）和前作方式的残差单元（Pre-Norm）。
+\parinterval 为了探究为何深层的Transformer模型很难直接训练，首先对Transformer的模型结构进行简单的回顾。以Transformer的编码端为例，在多头自注意力网络和前馈神经网络中间，Transformer模型利用残差连接和层正则化操作来提高信息的传递效率。Transformer模型大致分为图\ref{fig:7-28}中两种结构\ \dash \ 后作方式的残差单元（Post-Norm）和前作方式的残差单元（Pre-Norm）。

 %----------------------------------------------
 % 图7.5.1
@@ -1193,49 +1193,48 @@ b &=& \omega_{\textrm{high}}\cdot |\mathbf{x}|
 \centering
 \input{./Chapter7/Figures/Post-Norm-vs-Pre-Norm}
 \caption{Post-Norm Transformer vs Pre-Norm Transformer}
-\label{fig:7.5-1}
+\label{fig:7-28}
 \end{figure}
 %-------------------------------------------

 \parinterval 令$x_l$和$x_{l+1}$表示第$l$子层的输入和输出\footnote[13]{这里沿用Transformer中的定义，每一层（Layer）包含多个子层（Sub-layer）。比如，对于Transformer编码器，每一层包含一个自注意力子层和一个前馈神经网络子层。所有子层都需要进行层归一化和残差连接。}，$y_l$表示中间的临时输出；$\textrm{LN}(\cdot)$表示层归一化操作\cite{ba2016layer},帮助减少子层输出分布的方差。从而让训练变得更稳定；$\mathcal{F}(\cdot)$表示子层所对应的函数，比如前馈神经网络、自注意力网络等。下面分别对Post-Norm和Pre-Norm进行简单的描述。
 \begin{itemize}
 \vspace{0.5em}
-\item Post-Norm：早期的Transformer遵循的是Post-Norm结构\cite{vaswani2017attention}。也就是，层正则化作用于 每一子层的输入和输出的残差结果上，如图\ref{fig:7.5-1}(a)所示。可以表示如下：
+\item Post-Norm：早期的Transformer遵循的是Post-Norm结构\cite{vaswani2017attention}。也就是，层正则化作用于 每一子层的输入和输出的残差结果上，如图\ref{fig:7-28}(a)所示。可以表示如下：
 \begin{eqnarray}
 x_{l+1}=\textrm{LN}(x_l+\mathcal{F}(x_l;\theta_l))
-\label{eq:7.5-1}
+\label{eq:7-16}
 \end{eqnarray}
 其中，$\theta_l$是子层$l$的参数。
 \vspace{0.5em}
-\item Pre-Norm：通过调整层正则化的位置，将其放置于每一子层的输入之前，得到了Pre-Norm结构,如图\ref{fig:7.5-1}(b)所示。其思想与He等人的思想一致\cite{DBLP:conf/eccv/HeZRS16}，也被广泛应用于最新的Transformer开源系统中\cite{VaswaniTensor2Tensor}\cite{Ottfairseq}\cite{KleinOpenNMT}，公式如下：
+\item Pre-Norm：通过调整层正则化的位置，将其放置于每一子层的输入之前，得到了Pre-Norm结构,如图\ref{fig:7-28}(b)所示。其思想与He等人的思想一致\cite{DBLP:conf/eccv/HeZRS16}，也被广泛应用于最新的Transformer开源系统中\cite{VaswaniTensor2Tensor}\cite{Ottfairseq}\cite{KleinOpenNMT}，公式如下：
 \begin{eqnarray}
 x_{l+1}=x_l+\mathcal{F}(\textrm{LN}(x_l);\theta_l)
-\label{eq:7.5-2}
+\label{eq:7-17}
 \end{eqnarray}
 \end{itemize}

 \parinterval 从上述公式可以看到Pre-Norm结构可以通过残差路径将底层网络的输出直接暴露给上层网络；另一方面从反向传播的角度看，使用Pre-Norm结构，顶层的梯度可以更容易地反馈到底层网络。这里以一个含有$L$个子层的结构为例。令$Loss$表示整个神经网络输出上的损失，$x_L$为顶层的输出。对于Post-Norm结构，根据链式法则，损失$Loss$相对于$x_l$的梯度可以表示为：
 \begin{eqnarray}
 \frac{\partial Loss}{\partial x_l}=\frac{\partial Loss}{\partial x_L} \times \prod_{k=l}^{L-1}\frac{\partial \textrm{LN}(y_k)}{\partial y_k} \times \prod_{k=l}^{L-1}(1+\frac{\partial \mathcal{F}(x_k;\theta_k)}{\partial x_k})
-\label{eq:7.5-3}
+\label{eq:7-18}
 \end{eqnarray}
 其中$\prod_{k=l}^{L-1}\frac{\partial \textrm{LN}(y_k)}{\partial y_k}$表示在反向传播过程中经过层正则化得到的复合函数导数，$\prod_{k=l}^{L-1}(1+\frac{\partial \mathcal{F}(x_k;\theta_k)}{\partial x_k})$代表每个子层间残差连接的导数。

 \parinterval 类似的，也能得到Pre-Norm结构的梯度计算结果,如下式所示：
 \begin{eqnarray}
 \frac{\partial Loss}{\partial x_l}=\frac{\partial Loss}{\partial x_L} \times (1+\sum_{k=l}^{L-1}\frac{\partial \mathcal{F}(\textrm{LN}(x_k);\theta_k)}{\partial x_l})
-\label{eq:7.5-4}
+\label{eq:7-19}
 \end{eqnarray}

-\parinterval 对比公式\ref{eq:7.5-3}和公式\ref{eq:7.5-4}可以明显发现Pre-Norm结构直接把顶层的梯度$\frac{\partial Loss}{\partial x_L}$传递给下层，也就是$\frac{\partial Loss}{\partial x_l}$中直接含有$\frac{\partial Loss}{\partial x_L}$的部分。这个性质弱化了梯度计算对模型深度$L$的依赖；而Post-Norm结构会导致一个与$L$相关的多项导数的积（见公式\ref{eq:7.5-3}右侧），伴随着$L$的增大更容易发生梯度消失和梯度爆炸问题。因此，Pre-Norm结构更适于堆叠多层神经网络的情况。比如，使用Pre-Norm结构可以很轻松的训练一个30层（60个子层）的Transformer编码器网络，并带来可观的BLEU提升。这个结果相当于标准Transformer编码器深度的6倍\cite{WangLearning}。相对的，用Pre-Norm结构训练深网络的时候，训练结果很不稳定，甚至有时候无法完成有效训练。这里把使用Pre-Norm的深层Transformer称为Transformer-Deep。
+\parinterval 对比公式\ref{eq:7-18}和公式\ref{eq:7-19}可以明显发现Pre-Norm结构直接把顶层的梯度$\frac{\partial Loss}{\partial x_L}$传递给下层，也就是$\frac{\partial Loss}{\partial x_l}$中直接含有$\frac{\partial Loss}{\partial x_L}$的部分。这个性质弱化了梯度计算对模型深度$L$的依赖；而Post-Norm结构会导致一个与$L$相关的多项导数的积（见公式\ref{eq:7-18}右侧），伴随着$L$的增大更容易发生梯度消失和梯度爆炸问题。因此，Pre-Norm结构更适于堆叠多层神经网络的情况。比如，使用Pre-Norm结构可以很轻松的训练一个30层（60个子层）的Transformer编码器网络，并带来可观的BLEU提升。这个结果相当于标准Transformer编码器深度的6倍\cite{WangLearning}。相对的，用Pre-Norm结构训练深网络的时候，训练结果很不稳定，甚至有时候无法完成有效训练。这里把使用Pre-Norm的深层Transformer称为Transformer-Deep。

-\parinterval 另一个有趣的发现是，使用深层网络后,训练模型收敛的时间大大缩短。相比于Transformer-Big等宽网络，Transformer-Deep并不需要太大的隐藏层大小就可以取得相当甚至更优的翻译品质。也就是说，Transformer-Deep是一个更``窄''更``深''的网络。这种结构的参数量比Transformer-Big少，系统运行效率更高。表\ref{tab:7.5-1}对比了不同模型的参数量和训练/推断时间。
+\parinterval 另一个有趣的发现是，使用深层网络后,训练模型收敛的时间大大缩短。相比于Transformer-Big等宽网络，Transformer-Deep并不需要太大的隐藏层大小就可以取得相当甚至更优的翻译品质。也就是说，Transformer-Deep是一个更``窄''更``深''的网络。这种结构的参数量比Transformer-Big少，系统运行效率更高。表\ref{tab:7-6}对比了不同模型的参数量和训练/推断时间。

 %表1--------------------------------------------------------------------
 \begin{table}[htp]
 \centering
 \caption{不同Transformer结构的训练/推断时间对比（WMT14英德任务）}
-\label{tab:7.5-1}
 \begin{tabular}{l | r r r}
 \rule{0pt}{15pt}     系统 & 参数量 & 训练时间 & 推断时间  \\
 \hline
@@ -1243,6 +1242,7 @@ x_{l+1}=x_l+\mathcal{F}(\textrm{LN}(x_l);\theta_l)
 \rule{0pt}{15pt}     Big & 210M & 36.1h & 29.3s  \\
 \rule{0pt}{15pt}     DLCL-30 & 137M & 9.8h & 24.6s  \\
 \end{tabular}
+\label{tab:7-6}
 \end{table}
 %表1--------------------------------------------------------------------

@@ -1257,16 +1257,16 @@ x_{l+1}=x_l+\mathcal{F}(\textrm{LN}(x_l);\theta_l)
 \item 对于每一层的输出$x_{l+1}$，对其进行层正则化，得到每一层的信息的表示
 \begin{eqnarray}
 z_{l}=\textrm{LN}(x_{l+1})
-\label{eq:7.5-5}
+\label{eq:7-20}
 \end{eqnarray}
 注意，$z_0$表示词嵌入层的输出，$z_l(l>0)$表示Transformer网络中最终的各层输出。
 \vspace{0.5em}
 \item 	定义一个维度为$(L+1)\times(L+1)$的权值矩阵$\mathbf{W}$，矩阵中每一行表示之前各子层对当前层计算的贡献度，其中$L$是编码端（或解码端）的层数。令$\mathbf{W}_{l,i}$代表权值矩阵$\mathbf{W}$第$l$行第$i$列的权重，则层聚合的输出为$z_i$的线性加权和：
 \begin{eqnarray}
 g_l=\sum_{i=0}^{l}z_i\times \mathbf{W}_{l,i}
-\label{eq:7.5-6}
+\label{eq:7-21}
 \end{eqnarray}
-$g_l$会作为输入的一部分送入第$l+1$层。其网络的结构图\ref{fig:7.5-2}所示
+$g_l$会作为输入的一部分送入第$l+1$层。其网络的结构图\ref{fig:7-29}所示
 \end{itemize}

 %---------------------------------------------
@@ -1275,7 +1275,7 @@ $g_l$会作为输入的一部分送入第$l+1$层。其网络的结构图\ref{fi
 \centering
 \input{./Chapter7/Figures/dynamic-linear-aggregation-network-structure}
 \caption{动态线性层聚合网络结构图}
-\label{fig:7.5-2}
+\label{fig:7-29}
 \end{figure}
 %-------------------------------------------

@@ -1293,7 +1293,7 @@ $g_l$会作为输入的一部分送入第$l+1$层。其网络的结构图\ref{fi

 \parinterval 所谓渐进式训练是指从浅层网络开始，在训练过程中逐渐增加训练的深度。一种比较简单的方法是将网络分为浅层部分和深层部分，之后分别进行训练，最终达到提高模型翻译性能的目的\cite{DBLP:conf/acl/WuWXTGQLL19}。

-\parinterval 另一种方式是动态构建深层网络，并尽可能复用浅层网络的训练结果。假设开始的时候模型包含$h$层网络，然后训练这个模型至收敛。之后，直接拷贝这$h$层网络（包括参数），并堆叠出一个$2h$层的模型。之后继续训练，重复这个过程。进行$n$次之后就得到了$n\times h$层的模型。图\ref{fig:7.5-3}给出了在编码端使用渐进式训练的示意图。
+\parinterval 另一种方式是动态构建深层网络，并尽可能复用浅层网络的训练结果。假设开始的时候模型包含$h$层网络，然后训练这个模型至收敛。之后，直接拷贝这$h$层网络（包括参数），并堆叠出一个$2h$层的模型。之后继续训练，重复这个过程。进行$n$次之后就得到了$n\times h$层的模型。图\ref{fig:7-30}给出了在编码端使用渐进式训练的示意图。

 %----------------------------------------------
 % 图7.5.3
@@ -1301,7 +1301,7 @@ $g_l$会作为输入的一部分送入第$l+1$层。其网络的结构图\ref{fi
 \centering
 \input{./Chapter7/Figures/progressive-training}
 \caption{渐进式深层网络训练过程}
-\label{fig:7.5-3}
+\label{fig:7-30}
 \end{figure}
 %-------------------------------------------

@@ -1318,18 +1318,18 @@ $g_l$会作为输入的一部分送入第$l+1$层。其网络的结构图\ref{fi
 \centering
 \input{./Chapter7/Figures/sparse-connections-between-different-groups}
 \caption{不同组之间的稀疏连接}
-\label{fig:7.5-4}
+\label{fig:7-31}
 \end{figure}
 %-------------------------------------------

-\parinterval 缓解这个问题的一种方法是使用更稀疏的层间连接方式。其核心思想与动态线性层聚合是类似的，不同点在于可以通过调整层之间连接的稠密程度来降低训练代价。比如，可以将每$p$层分为一组，之后动态线性层聚合只在不同组之间进行。这样，通过调节$p$值的大小可以控制网络中连接的稠密程度，作为一种训练代价与翻译性能之间的权衡。显然，标准的Transformer模型\cite{vaswani2017attention}和DLCL模型\cite{WangLearning}都可以看作是该方法的一种特例。如图\ref{fig:7.5-4}所示：当$p=1$时，每一个单独的块被看作一个独立的组，这等价于基于动态层聚合的DLCL模型；当$p=\infty$时，这等价于正常的Transformer模型。值得注意的是，如果配合渐进式训练。在分组稠密连接中可以设置$p=h$。
+\parinterval 缓解这个问题的一种方法是使用更稀疏的层间连接方式。其核心思想与动态线性层聚合是类似的，不同点在于可以通过调整层之间连接的稠密程度来降低训练代价。比如，可以将每$p$层分为一组，之后动态线性层聚合只在不同组之间进行。这样，通过调节$p$值的大小可以控制网络中连接的稠密程度，作为一种训练代价与翻译性能之间的权衡。显然，标准的Transformer模型\cite{vaswani2017attention}和DLCL模型\cite{WangLearning}都可以看作是该方法的一种特例。如图\ref{fig:7-31}所示：当$p=1$时，每一个单独的块被看作一个独立的组，这等价于基于动态层聚合的DLCL模型；当$p=\infty$时，这等价于正常的Transformer模型。值得注意的是，如果配合渐进式训练。在分组稠密连接中可以设置$p=h$。

 %%%%%%%%%%%%%%%%%%
 \subsubsection{学习率重置策略}

 \parinterval 尽管渐进式训练策略与分组稠密连接结构可以加速深层网络的训练，但使用传统的学习率衰减策略会导致堆叠深层模型时的学习率较小，因此模型无法快速地达到收敛状态，同时也影响最终的模型性能。

-\parinterval  图\ref{fig:7.5-5}中的红色曲线描绘了标准的Transformer模型的学习率曲线（WMT英德任务），可以看到当模型训练到40k步时，网络的学习率值对比峰值有明显的差距，而此时刚开始训练最终的深层模型，过小的学习率并不利于后期深层网络的充分训练。
+\parinterval  图\ref{fig:7-32}中的红色曲线描绘了标准的Transformer模型的学习率曲线（WMT英德任务），可以看到当模型训练到40k步时，网络的学习率值对比峰值有明显的差距，而此时刚开始训练最终的深层模型，过小的学习率并不利于后期深层网络的充分训练。

 %----------------------------------------------
 % 图7.5.5
@@ -1337,7 +1337,7 @@ $g_l$会作为输入的一部分送入第$l+1$层。其网络的结构图\ref{fi
 \centering
 \input{./Chapter7/Figures/learning-rate}
 \caption{学习率重置vs从头训练的学习率曲线}
-\label{fig:7.5-5}
+\label{fig:7-32}
 \end{figure}
 %-------------------------------------------

@@ -1347,14 +1347,14 @@ $g_l$会作为输入的一部分送入第$l+1$层。其网络的结构图\ref{fi
 \item 在训练的初期，模型先经历一个学习率预热的过程：
 \begin{eqnarray}
 lr=d_{model}^{-0.5}\cdot step\_num \cdot warmup\_steps^{-0.5}
-\label{eq:7.5-7}
+\label{eq:7-22}
 \end{eqnarray}
 这里，$step\_num$表示参数更新的次数，$warmup\_step$表示预热的更次次数，$d_{model}^{-0.5}$表示Transformer模型隐层大小，$lr$是学习率。
 \vspace{0.5em}
 \item 	在之后的迭代训练过程中，每当进行新的迭代，学习率都会重置到峰值，之后进行相应的衰减:
 \begin{eqnarray}
 lr=d_{model}^{-0.5}\cdot step\_num^{-0.5}
-\label{eq:7.5-8}
+\label{eq:7-23}
 \end{eqnarray}
 这里$step\_num$代表学习率重置后更新的步数。
 \end{itemize}
@@ -1366,7 +1366,7 @@ lr=d_{model}^{-0.5}\cdot step\_num^{-0.5}

 \parinterval 伴随着网络的加深的同时，还会面临另外一个比较严峻的问题\ \dash \ 过拟合。由于参数量的增大，深层网络的输入与输出分布之间的差异也会越来越大，然而不同子层之间的{\small\bfnew{相互适应}}\index{相互适应}（Co-adaptation）\index{Co-adaptation}也会更加的明显，导致任意子层网络对其他子层的依赖过大。这对于训练阶段是有帮助的，因为不同子层可以协同工作从而更好地拟合训练数据。然而这种方式也降低了模型的泛化能力，即深层网络更容易陷入过拟合问题。

-\parinterval 通常，可以使用Dropout手段用来缓解过拟合问题（见\ref{subsection-7.3.1}节）。不幸的是,尽管目前Transformer模型使用了多种Dropout手段（如Residual Dropout、Attention Dropout、 ReLU Dropout等），过拟合问题在深层网络中仍然存在。从图\ref{fig:7.5-6}中可以看到，深层网络对比浅层网络在训练集和校验集的困惑度上都有显著的优势，然而网络在训练一段时间后出现校验集困惑度上涨的现象，说明模型已经过拟合于训练数据。
+\parinterval 通常，可以使用Dropout手段用来缓解过拟合问题（见\ref{subsection-7.3.1}节）。不幸的是,尽管目前Transformer模型使用了多种Dropout手段（如Residual Dropout、Attention Dropout、 ReLU Dropout等），过拟合问题在深层网络中仍然存在。从图\ref{fig:7-33}中可以看到，深层网络对比浅层网络在训练集和校验集的困惑度上都有显著的优势，然而网络在训练一段时间后出现校验集困惑度上涨的现象，说明模型已经过拟合于训练数据。

 %----------------------------------------------
 % 图7.5.6
@@ -1374,21 +1374,21 @@ lr=d_{model}^{-0.5}\cdot step\_num^{-0.5}
 \centering
 \input{./Chapter7/Figures/figure-wmt16}
 \caption{浅层网络(左)与深层网络（右）在WMT16英德的校验集与训练集的困惑度}
-\label{fig:7.5-6}
+\label{fig:7-33}
 \end{figure}
 %-------------------------------------------

 \parinterval 在\ref{subsection-7.3.1}节提到的Layer Dropout方法可以有效地缓解这个问题。以编码端为例， Layer Dropout的过程可以被描述为：在训练过程中，对自注意力子层或前馈神经网络子层进行随机丢弃，以减少不同子层之间的相互适应。这里选择Pre-Norm结构作为基础架构，它可以被描述为：
 \begin{eqnarray}
 x_{l+1}=\mathcal{F}(\textrm{LN}(x_l))+x_l
-\label{eq:7.5-9}
+\label{eq:7-24}
 \end{eqnarray}
 其中$\textrm{LN}( \cdot )$表示层正则化函数， $\mathcal{F}( \cdot )$表示自注意力机制或者前馈神经网络，$x_l$表示第$l$个子层的输出。之后，使用一个掩码$M$（值为0或1）来控制每一子层是正常计算还是丢弃。于是，该子层的计算公式可以被重写为：
 \begin{eqnarray}
 x_{l+1}=M \cdot \mathcal{F}(\textrm{LN}(x_l))+x_l
-\label{eq:7.5-10}
+\label{eq:7-25}
 \end{eqnarray}
-$M=0$代表该子层被丢弃，而$M=1$代表正常进行当前子层的计算。图ref{fig:7.5-7}展示了这个方法与标准Transformer之间的区别。
+$M=0$代表该子层被丢弃，而$M=1$代表正常进行当前子层的计算。图ref{fig:7-34}展示了这个方法与标准Transformer之间的区别。

 \parinterval 除此之外，有研究者已经发现残差网络中底层的子网络通过对输入进行抽象得到的表示对最终的输出有很大的影响，上层网络是通过对底层网络得到的表示不断修正来拟合训练目标\cite{journals/corr/GreffSS16}。该结论同样适用于Transformer模型，比如，在训练中，残差支路以及底层的梯度范数通常比较大，这也间接表明底层网络在整个优化的过程中需要更大的更新。考虑到这个因素，在设计每一个子层被丢弃的概率时可以采用自底向上线性增大的策略，保证底层的网络相比于顶层更容易保留下来。这里用$L$来代表编码端块的个数，$l$代表当前的子层的编号，那么$M$可以通过以下的方式得到：
 \begin{eqnarray}
@@ -1396,16 +1396,16 @@ M = \left\{\begin{array}{ll}
 0&P \leqslant p_l\\
 1&P > p_l
 \end{array}\right.
-\label{eq:7.5-11}
+\label{eq:7-26}
 \end{eqnarray}
 其中，$P$是服从伯努利分布的随机变量，$p_l$指每一个子层被丢弃的概率，具体计算方式如下：
 \begin{eqnarray}
 p_l=\frac{l}{2L}\cdot \varphi
-\label{eq:7.5-12}
+\label{eq:7-27}
 \end{eqnarray}
 这里，$1 \leqslant l \leqslant 2L$ ，且$\varphi$是预先设定的超参数。

-\parinterval 在Layer Dropout中，一个由$2L$个子层构成的残差网络，其顶层的输出相当于是$2^{2L}$个子网络的聚合结果。通过随机丢弃$n$个子层，则会屏蔽掉$2^n$个子网络的输出，将子网络的总体数量降低至$2^{2L-n}$。如图\ref{fig:7.5-7}所示的残差网络展开图，当有3个子层时，从输入到输出共存在8条路径，当删除子层sublayer2后，从输入到输出路径的路径则会减少到4条。
+\parinterval 在Layer Dropout中，一个由$2L$个子层构成的残差网络，其顶层的输出相当于是$2^{2L}$个子网络的聚合结果。通过随机丢弃$n$个子层，则会屏蔽掉$2^n$个子网络的输出，将子网络的总体数量降低至$2^{2L-n}$。如图\ref{fig:7-34}所示的残差网络展开图，当有3个子层时，从输入到输出共存在8条路径，当删除子层sublayer2后，从输入到输出路径的路径则会减少到4条。

 %----------------------------------------------
 % 图7.5.7
@@ -1413,7 +1413,7 @@ p_l=\frac{l}{2L}\cdot \varphi
 \centering
 \input{./Chapter7/Figures/expanded-residual-network}
 \caption{Layer Dropout中残差网络的展开图}
-\label{fig:7.5-7}
+\label{fig:7-34}
 \end{figure}
 %-------------------------------------------

@@ -1448,27 +1448,27 @@ p_l=\frac{l}{2L}\cdot \varphi
 \vspace{0.3em}
 \end{itemize}

-\parinterval 使用单语数据构建（双语）伪数据属于后者，它也是一种典型的{\small\bfnew{数据增强}}\index{数据增强}（Data Augmentation）\index{Data Augmentation}方法。一种常用做法是{\small\bfnew{回译}}\index{回译}（Back Translation）\index{Back Translation}\cite{DBLP:conf/acl/SennrichHB16}\cite{DBLP:conf/emnlp/EdunovOAG18}：训练一个从目标语翻译到源语的系统，也就是一个反向翻译系统；之后，用这个系统翻译目标语言单语数据；最后将单语数据（目标语言）和翻译的结果（源语言）作为训练数据，送入源语言到目标语言的翻译系统。这种做法不需要更改任何模型结构，就能很好的利用单语数据，因此也被广泛采用。图\ref{fig:application-process-of-back-translation}给出了回译方法的一个简要流程。
+\parinterval 使用单语数据构建（双语）伪数据属于后者，它也是一种典型的{\small\bfnew{数据增强}}\index{数据增强}（Data Augmentation）\index{Data Augmentation}方法。一种常用做法是{\small\bfnew{回译}}\index{回译}（Back Translation）\index{Back Translation}\cite{DBLP:conf/acl/SennrichHB16}\cite{DBLP:conf/emnlp/EdunovOAG18}：训练一个从目标语翻译到源语的系统，也就是一个反向翻译系统；之后，用这个系统翻译目标语言单语数据；最后将单语数据（目标语言）和翻译的结果（源语言）作为训练数据，送入源语言到目标语言的翻译系统。这种做法不需要更改任何模型结构，就能很好的利用单语数据，因此也被广泛采用。图\ref{fig:7-35}给出了回译方法的一个简要流程。
 %----------------------------------------------
 % 图
 \begin{figure}[htp]
 \centering
 \input{./Chapter7/Figures/figure-application-process-of-back-translation}
 \caption{回译方法的流程}
-\label{fig:application-process-of-back-translation}
+\label{fig:7-35}
 \end{figure}
 %-------------------------------------------

 \parinterval 在理想情况下，生成的伪数据和真实数据分布越接近越好。不过，在实践中发现，即使一些简单的策略也能带来性能的增长。比如，在一些低资源的语种，仅仅通过将目标语句子复制到源语端构造的伪数据都能为模型带来增益\cite{DBLP:conf/wmt/CurreyBH17}。相比这些简单的构造策略，利用目标语言单语数据进行回译可以获得更高质量的伪数据。因为目标语是正确的句子，这种方法可以保证译文的流畅度。这也间接达到了对目标语言进行语言建模的目的。在富资源的语种中，通常对回译产生的源语句子添加一些噪音，比如随机删除、替换一些词，或者交换两个词的位置，这样可以为模型提供一些训练噪声。而在低资源的语种上，由于双语数据稀缺，模型需要更多的高质量双语数据，不加噪音反而具有更好的效果。

-\parinterval 回译方法的一个问题是：反向翻译模型的训练只依赖于有限的双语数据，生成的源语言端伪数据的质量难以保证。为此，可以采用{\small\bfnew{迭代式回译}}\index{迭代式回译}（Iterative Back Translation）\index{Iterative Back Translation}的方法，同时利用源语端和目标语端的单语数据，不断通过回译的方式来提升前向和反向翻译模型的性能。图\ref{fig:example-of-iterative-back-translation}展示了迭代式回译的框架。首先使用双语数据训练一个前向翻译模型，然后利用源语言单语数据通过回译的方式来提升反向翻译模型的性能，最后由反向翻译模型和目标端单语数据生成的伪数据来提升前向翻译模型的性能。可以看出，这个往复的过程是闭环的，因此可以一直进行下去，直到两个翻译模型的性能不再提升。
+\parinterval 回译方法的一个问题是：反向翻译模型的训练只依赖于有限的双语数据，生成的源语言端伪数据的质量难以保证。为此，可以采用{\small\bfnew{迭代式回译}}\index{迭代式回译}（Iterative Back Translation）\index{Iterative Back Translation}的方法，同时利用源语端和目标语端的单语数据，不断通过回译的方式来提升前向和反向翻译模型的性能。图\ref{fig:7-36}展示了迭代式回译的框架。首先使用双语数据训练一个前向翻译模型，然后利用源语言单语数据通过回译的方式来提升反向翻译模型的性能，最后由反向翻译模型和目标端单语数据生成的伪数据来提升前向翻译模型的性能。可以看出，这个往复的过程是闭环的，因此可以一直进行下去，直到两个翻译模型的性能不再提升。
 %----------------------------------------------
 % 图
 \begin{figure}[htp]
 \centering
 \input{./Chapter7/Figures/figure-example-of-iterative-back-translation}
 \caption{迭代式回译方法的流程}
-\label{fig:example-of-iterative-back-translation}
+\label{fig:7-36}
 \end{figure}
 %-------------------------------------------

@@ -1479,14 +1479,14 @@ p_l=\frac{l}{2L}\cdot \varphi

 \parinterval 编码器-解码器框架天然就包含了对输入（源语言）和输出（目标语言）进行表示学习的过程。比如，在编码端需要学习一种分布式表示（Distributed Representation）来表示源语言句子的信息，这种分布式表示既包含单词的表示也包括整个序列的表示。因此，可以使用更大规模的源语言单语数据完成编码器的训练。

-\parinterval 实现上述想法的一种手段是{\small\bfnew{预训练}}\index{预训练}（Pre-training）\index{Pre-training}。常用的方法是将机器翻译模型中的一部分（比如，编码器）单独提抽取出来，之后用语言建模等方式在大规模单语数据上进行训练。得到的优化后的参数后，将其重新放入神经机器翻译模型中，作为模型的初始值。最后，神经机器翻译模型在双语数据上进行{\small\bfnew{微调}}\index{微调}（Fine-tuning）\index{Fine-tuning}，以得到最终的翻译模型。图\ref{fig:figure-encoder-fin}给出了机器翻译编码器预训练流程的示意图。
+\parinterval 实现上述想法的一种手段是{\small\bfnew{预训练}}\index{预训练}（Pre-training）\index{Pre-training}。常用的方法是将机器翻译模型中的一部分（比如，编码器）单独提抽取出来，之后用语言建模等方式在大规模单语数据上进行训练。得到的优化后的参数后，将其重新放入神经机器翻译模型中，作为模型的初始值。最后，神经机器翻译模型在双语数据上进行{\small\bfnew{微调}}\index{微调}（Fine-tuning）\index{Fine-tuning}，以得到最终的翻译模型。图\ref{fig:7-37}给出了机器翻译编码器预训练流程的示意图。
 %----------------------------------------------
 % 图
 \begin{figure}[htp]
 \centering
 \input{./Chapter7/Figures/figure-encoder-fin}
 \caption{机器翻译编码器预训练流程}
-\label{fig:figure-encoder-fin}
+\label{fig:7-37}
 \end{figure}
 %-------------------------------------------

@@ -1513,26 +1513,26 @@ p_l=\frac{l}{2L}\cdot \varphi
 \begin{figure}[htp]
 \centering
 \input{./Chapter7/Figures/figure-MASS}
-\caption{MASS预训练方法}
-\label{fig:figure-MASS}
+\caption{MASS 预训练方法}
+\label{fig:7-38}
 \end{figure}
 %-------------------------------------------

-\parinterval 以MASS方法为例\cite{song2019mass}，可以直接对整个编码器-解码器的结构进行预训练。训练中采用掩码的方式，将源语词序列中的片段替换成特殊词<mask>，然后在解码器端预测这个未知片段，如图\ref{fig:figure-MASS}所示，\#号表示特殊词<mask>。这种做法可以使得编码器端捕捉上下文信息，同时迫使解码器依赖于编码器，学习编码器和解码器之间的注意力进行预训练。而解码器端片段的预测也使得解码器能够学习到向前依赖的上下文表示。
+\parinterval 以MASS方法为例\cite{song2019mass}，可以直接对整个编码器-解码器的结构进行预训练。训练中采用掩码的方式，将源语词序列中的片段替换成特殊词<mask>，然后在解码器端预测这个未知片段，如图\ref{fig:7-38}所示，\#号表示特殊词<mask>。这种做法可以使得编码器端捕捉上下文信息，同时迫使解码器依赖于编码器，学习编码器和解码器之间的注意力进行预训练。而解码器端片段的预测也使得解码器能够学习到向前依赖的上下文表示。

 %%%%%%%%%%%%%%%%%%
 \subsubsection{联合训练}

 \parinterval {\small\bfnew{多任务学习}}\index{多任务学习}（Multitask Learning）\index{Multitask Learning}是机器学习的一个子领域，是指同时学习多个独立但是相关的任务\cite{DBLP:journals/corr/Ruder17a}。多任务学习通过模型共享的方式，对多个模型进行学习，而这些模型都对应不同的任务，这样不同模型可以互相``促进''。在神经机器翻译中，为了使用单语数据，可以将翻译任务作为主任务，同时设置一些仅使用单语数据的子任务，通过这些子任务来捕捉单语数据中的语言知识\cite{DBLP:conf/emnlp/DomhanH17}。

-\parinterval 语言模型是使用目标端单语数据最直接的方式，但是翻译模型作为一个受限的语言模型，还需要依赖于源语，并不能直接融合进行多任务学习。针对这个问题，对原有翻译模型结构进行了修改，在解码器中增加了一个语言模型子层，将这个子层用于语言模型任务（图\ref{fig:target-side-multi-task-learning}）。在训练过程中，分别将双语数据和单语数据送入翻译模型和语言模型进行计算，得到的损失相加用于整体模型参数的梯度计算和参数更新，其中语言模型的参数是翻译模型的一部分。
+\parinterval 语言模型是使用目标端单语数据最直接的方式，但是翻译模型作为一个受限的语言模型，还需要依赖于源语，并不能直接融合进行多任务学习。针对这个问题，对原有翻译模型结构进行了修改，在解码器中增加了一个语言模型子层，将这个子层用于语言模型任务（图\ref{fig:7-39}）。在训练过程中，分别将双语数据和单语数据送入翻译模型和语言模型进行计算，得到的损失相加用于整体模型参数的梯度计算和参数更新，其中语言模型的参数是翻译模型的一部分。
 %----------------------------------------------
 % 图
 \begin{figure}[htp]
 \centering
 \input{./Chapter7/Figures/figure-target-side-multi-task-learning}
 \caption{机器翻译中的单任务学习和多任务学习}
-\label{fig:target-side-multi-task-learning}
+\label{fig:7-39}
 \end{figure}
 %-------------------------------------------

@@ -1579,21 +1579,21 @@ p_l=\frac{l}{2L}\cdot \varphi
 \item {\small\bfnew{基于单词的知识精炼}}\index{基于单词的知识精炼}（Word-level Knowledge Distillation）\index{Word-level Knowledge Distillation}。该方法的目标是使得学生模型的预测（分布）尽可能逼近教师模型的预测（分布）。令$\textbf{x}=\{x_1,\ldots,x_m\}$和$\textbf{y}=\{y_1,\ldots,y_n\}$分别表示输入和输出（数据中的答案）序列，$V$表示目标语言词表，$n$表示译文序列的长度，则基于单词的知识精炼的损失函数被定义为：
 \begin{eqnarray}
 L_{\textrm{word}} = - \sum_{j=1}^n \sum_{y_j \in V} \textrm{P}_{\textrm{t}} (y_{\textrm{j}}|\textbf{x})\textrm{logP}_{\textrm{s}}(y_j|\textbf{x})
-\label{eqa7.5.3.2-1}
+\label{eq:7-28}
 \end{eqnarray}
-这里， $\textrm{P}_{\textrm{s}}(y_j|\textbf{x})$和$\textrm{P}_{\textrm{t}} (y_i|\textbf{x})$分别表示学生模型和教师模型在$j$位置的输出的概率。公式\ref{eqa7.5.3.2-1}实际上在最小化教师模型和学生模型输出分布之间的交叉熵。
+这里， $\textrm{P}_{\textrm{s}}(y_j|\textbf{x})$和$\textrm{P}_{\textrm{t}} (y_i|\textbf{x})$分别表示学生模型和教师模型在$j$位置的输出的概率。公式\ref{eq:7-28}实际上在最小化教师模型和学生模型输出分布之间的交叉熵。
 \vspace{0.3em}
 \item {\small\bfnew{基于序列的知识精炼}}\index{基于序列的知识精炼}（Sequence-level Knowledge Distillation）\index{Sequence-level Knowledge Distillation}。除了单词一级的拟合，基于序列的知识精炼希望在序列整体上进行拟合。其损失函数被定义为：
 \begin{eqnarray}
 L_{\textrm{seq}} = - \sum_{\textrm{y}}\textrm{P}_{\textrm{t}} (\textbf{y}|\textbf{x})\textrm{logP}_{\textrm{s}}(\textbf{y}|\textbf{x})
-\label{eqa7.5.3.2-2}
+\label{eq:7-29}
 \end{eqnarray}
-公式\ref{eqa7.5.3.2-2}要求遍历所有可能的译文序列，并进行求和，当词表大小为$V$，序列长度为$L$时则可能的序列的数量有$V$的$L$次幂，这么多的译文将消耗大量的计算资源。因此，会考虑用教师模型的真实输出序列$\hat{\textbf{y}}$来代替整个空间，即假设$\textrm{P}_{\textrm{t}}(\hat{\textbf{y}}|\textbf{x})=1$。于是，目标函数变为：
+公式\ref{eq:7-29}要求遍历所有可能的译文序列，并进行求和，当词表大小为$V$，序列长度为$L$时则可能的序列的数量有$V$的$L$次幂，这么多的译文将消耗大量的计算资源。因此，会考虑用教师模型的真实输出序列$\hat{\textbf{y}}$来代替整个空间，即假设$\textrm{P}_{\textrm{t}}(\hat{\textbf{y}}|\textbf{x})=1$。于是，目标函数变为：
 \begin{eqnarray}
 L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\textbf{y}} | \textbf{x})
-\label{eqa7.5.3.2-3}
+\label{eq:7-30}
 \end{eqnarray}
-这样的损失函数带来最直接的好处是，知识精炼的流程会非常简单。因为只需要利用教师模型将训练数据（源语言）翻译一遍，之后把它的输出替换为训练数据的目标语言部分。之后，利用得到的新的双语数据训练学生模型即可，图\ref{fig:difference-between-word-level-and-sequence-level-in-knowledge-distillation}展示了简化后词级和序列级的不同，其中词级知识精炼的解码端输入为真实双语数据的目标语言，并以teacher模型输出的概率分布作为学习目标，而序列级则直接将teacher推断后得到的结果作为解码端的输入，并将解码结果的One-hot向量作为学习目标。
+这样的损失函数带来最直接的好处是，知识精炼的流程会非常简单。因为只需要利用教师模型将训练数据（源语言）翻译一遍，之后把它的输出替换为训练数据的目标语言部分。之后，利用得到的新的双语数据训练学生模型即可，图\ref{fig:7-40}展示了简化后词级和序列级的不同，其中词级知识精炼的解码端输入为真实双语数据的目标语言，并以teacher模型输出的概率分布作为学习目标，而序列级则直接将teacher推断后得到的结果作为解码端的输入，并将解码结果的One-hot向量作为学习目标。
 \vspace{0.3em}
 \end{itemize}
 %----------------------------------------------
@@ -1602,7 +1602,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\textbf{y}} | \textbf{x})
 \centering
 \input{./Chapter7/Figures/figure-difference-between-word-level-and-sequence-level-in-knowledge-distillation}
 \caption{词级和序列级知识精炼的差异}
-\label{fig:difference-between-word-level-and-sequence-level-in-knowledge-distillation}
+\label{fig:7-40}
 \end{figure}
 %-------------------------------------------

@@ -1614,7 +1614,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\textbf{y}} | \textbf{x})
 %%%%%%%%%%%%%%%%%%
 \subsubsection{机器翻译中的知识精炼}

-\parinterval 在神经机器翻译中，通常使用公式\ref{eqa7.5.3.2-3}的方法进行知识精炼，即通过教师模型构造伪数据，之后让学生模型从伪数据中学习。这样做的好处在于，系统研发人员不需要对系统进行任何修改，整个过程只需要调用教师模型和学生模型标准的训练和推断模块即可。
+\parinterval 在神经机器翻译中，通常使用公式\ref{eq:7-30}的方法进行知识精炼，即通过教师模型构造伪数据，之后让学生模型从伪数据中学习。这样做的好处在于，系统研发人员不需要对系统进行任何修改，整个过程只需要调用教师模型和学生模型标准的训练和推断模块即可。

 \parinterval 另一个问题是如何构造教师模型和学生模型。以Transformer为例，通常有两种思路：

@@ -1626,7 +1626,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\textbf{y}} | \textbf{x})
 \vspace{0.3em}
 \end{itemize}

-\parinterval 此外还可以采用迭代的知识精炼的方式。首先，通过模型集成得到较强的教师模型，再将知识迁移到不同的学生模型上，随后继续使用这些学生模型集成新的教师模型。不断的重复上述过程可以逐步提升集成模型的性能，如图\ref{fig:ensemble-knowledge-distillation}所示。值得注意的是，随着迭代次数的增加，集成所带来的收益也会随着子模型之间差异性的减小而减少。
+\parinterval 此外还可以采用迭代的知识精炼的方式。首先，通过模型集成得到较强的教师模型，再将知识迁移到不同的学生模型上，随后继续使用这些学生模型集成新的教师模型。不断的重复上述过程可以逐步提升集成模型的性能，如图\ref{fig:7-41}所示。值得注意的是，随着迭代次数的增加，集成所带来的收益也会随着子模型之间差异性的减小而减少。

 %----------------------------------------------
 % 图
@@ -1634,7 +1634,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\textbf{y}} | \textbf{x})
 \centering
 \input{./Chapter7/Figures/figure-ensemble-knowledge-distillation}
 \caption{Ensemble知识精炼}
-\label{fig:ensemble-knowledge-distillation}
+\label{fig:7-41}
 \end{figure}
 %-------------------------------------------

@@ -1649,7 +1649,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\textbf{y}} | \textbf{x})

 \begin{eqnarray}
 \mathbf t = \mathbf s \cdot \mathbf{W}
-\label{eqC7.5.4.1.1}
+\label{eq:7-31}
 \end{eqnarray}

 \parinterval 这里可以把$\mathbf s$和$\mathbf t$都看作分布式的向量表示；$\mathbf{W}$应当是一个满秩矩阵，否则对于任意一个$\mathbf s$经过$\mathbf{W}$变换得到的$\mathbf t$只落在所有可能的$\mathbf t$的一个子空间内，即在给定$\mathbf{W}$的情况下有些$\mathbf t$不能被任何一个$\mathbf s$表达，而这不符合常识，因为不管是什么句子，我们总能找到它的一种译文。若$\mathbf{W}$是满秩矩阵说明$\mathbf{W}$可逆，也就是给定$\mathbf s$到$\mathbf t$的变换$\mathbf{W}$下，$\mathbf t$到$\mathbf s$的变换必然是$\mathbf{W}$的逆而不是其他矩阵。这个例子说明$\textrm{P}(\mathbf t|\mathbf s)$和$\textrm{P}(\mathbf s|\mathbf t)$直觉上应当存在联系。当然，$\mathbf s$和$\mathbf t$之间是否存在简单的线性变换关系并没有结论，但是上面的例子给出了一种对源语言句子和目标语言句子进行相互转化的思路。实际上，研究人员已经通过一些数学技巧用目标函数来把$\textrm{P}(\mathbf t|\mathbf s)$和$\textrm{P}(\mathbf s|\mathbf t)$联系起来，这样训练神经机器翻译系统一次就可以同时得到两个方向的翻译模型，使得训练变得更加高效\cite{Hassan2018AchievingHP}。
@@ -1661,13 +1661,13 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\textbf{y}} | \textbf{x})
 \begin{eqnarray}
 \textrm{P}(\mathbf s,\mathbf t) &=& \textrm{P}(\mathbf s)\textrm{P}(\mathbf t|\mathbf s) \nonumber \\
 &=& \textrm{P}(t)\textrm{P}(\mathbf s|\mathbf t)
-\label{eqC7.5.4.1.1}
+\label{eq:7-32}
 \end{eqnarray}

-\parinterval 公式\ref{eqC7.5.4.1.1}很自然地把两个方向的翻译模型$\textrm{P}(\mathbf t|\mathbf s)$和$\textrm{P}(\mathbf s|\mathbf t)$以及两个语言模型$\textrm{P}(\mathbf s)$和$\textrm{P}(\mathbf t)$联系起来：$\textrm{P}(\mathbf s)\textrm{P}(\mathbf t|\mathbf s)$应该与$\textrm{P}(\mathbf t)\textrm{P}(\mathbf s|\mathbf t)$接近，因为它们都表达了同一个联合分布$\textrm{P}(\mathbf s,\mathbf t)$。因此，在构建训练两个方向的翻译模型的目标函数时，除了它们单独训练时各自使用的极大似然估计目标函数，可以额外增加一个目标项来鼓励两个方向的翻译模型去满足公式\ref{eqC7.5.4.1.1}：
+\parinterval 公式\ref{eq:7-32}很自然地把两个方向的翻译模型$\textrm{P}(\mathbf t|\mathbf s)$和$\textrm{P}(\mathbf s|\mathbf t)$以及两个语言模型$\textrm{P}(\mathbf s)$和$\textrm{P}(\mathbf t)$联系起来：$\textrm{P}(\mathbf s)\textrm{P}(\mathbf t|\mathbf s)$应该与$\textrm{P}(\mathbf t)\textrm{P}(\mathbf s|\mathbf t)$接近，因为它们都表达了同一个联合分布$\textrm{P}(\mathbf s,\mathbf t)$。因此，在构建训练两个方向的翻译模型的目标函数时，除了它们单独训练时各自使用的极大似然估计目标函数，可以额外增加一个目标项来鼓励两个方向的翻译模型去满足公式\ref{eq:7-32}：
 \begin{eqnarray}
 \mathcal{L} = (\textrm{log P}(\mathbf s) + \textrm{log P}(\mathbf t|\mathbf s) - \textrm{log P}(\mathbf t) - \textrm{log P}(\mathbf s|\mathbf t))^{2}
-\label{eqC7.5.4.1.2}
+\label{eq:7-33}
 \end{eqnarray}

 \parinterval 其中$\textrm{P}(\mathbf s)$和$\textrm{P}(\mathbf t)$这两个语言模型是预先训练好的，并不参与翻译模型的训练。可以看到，对于单独的一个模型来说，其目标函数增加了与另外一个方向的模型相关的项。这样的形式与L1/L2正则化非常类似（见\ref{subsection-7.3.1}节），因此可以把这个方法看作是一种任务特定的正则化的手段（由翻译任务本身的性质所启发而来）。由于两个方向的翻译模型和语言模型相互影响，这种方法能得到比基于单个方向训练效果更好的模型。
@@ -1679,10 +1679,10 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\textbf{y}} | \textbf{x})
 \begin{eqnarray}
 \textrm{P}(\mathbf s) &=& \sum_{\mathbf t}\textrm{P}(\mathbf s,\mathbf t) \nonumber \\
 &=& \sum_{\mathbf t}\textrm{P}(\mathbf s|\mathbf t)\textrm{P}(\mathbf t|\mathbf s)
-\label{eqC7.5.4.2.1}
+\label{eq:7-34}
 \end{eqnarray}

-\noindent  公式\ref{eqC7.5.4.2.1}假设$\textrm{P}(\mathbf s|\mathbf t)=\textrm{P}(\mathbf s|\mathbf s,\mathbf t)$。这个假设显然是成立的，因为当知道一个句子的译文时，并不需要知道它的源文就可以把它翻译回去。如果直接优化（最大化）公式\ref{eqC7.5.4.2.1}右侧，相当于对这个等式$\textrm{P}(\mathbf s|\mathbf t)$和$\textrm{P}(\mathbf t|\mathbf s)$施加了{\small\bfnew{循环一致性}}\index{循环一致性}（Circle Consistency）\index{Circle Consistency}的约束\cite{DBLP:conf/iccv/ZhuPIE17}，也就是对于一个句子$\mathbf s$，通过$\textrm{P}(\mathbf t|\mathbf s)$把它翻译成$\mathbf t$后，根据$\textrm{P}(\mathbf s|\mathbf t)$应该能重新翻译出$\mathbf s$，如图\ref{fig:7-35}所示。公式\ref{eqC7.5.4.2.1}给出了同时优化$\textrm{P}(\mathbf s|\mathbf t)$和$\textrm{P}(\mathbf t|\mathbf s)$的一个目标函数形式。这个目标函数的一个额外的好处是它本质上是在学习一个由$\textrm{P}(\mathbf s|\mathbf t)$和$\textrm{P}(\mathbf t|\mathbf s)$组成的语言模型$\textrm{P}(\mathbf s)$，而$\textrm{P}(\mathbf s)$的学习依赖于单语数据，这意味着这个目标函数可以很自然地直接使用大量单语数据来同时训练两个翻译模型。相同的结论可以推广到$\textrm{P}(\mathbf t)$上\cite{DBLP:conf/nips/HeXQWYLM16}。
+\noindent  公式\ref{eq:7-34}假设$\textrm{P}(\mathbf s|\mathbf t)=\textrm{P}(\mathbf s|\mathbf s,\mathbf t)$。这个假设显然是成立的，因为当知道一个句子的译文时，并不需要知道它的源文就可以把它翻译回去。如果直接优化（最大化）公式\ref{eq:7-34}右侧，相当于对这个等式$\textrm{P}(\mathbf s|\mathbf t)$和$\textrm{P}(\mathbf t|\mathbf s)$施加了{\small\bfnew{循环一致性}}\index{循环一致性}（Circle Consistency）\index{Circle Consistency}的约束\cite{DBLP:conf/iccv/ZhuPIE17}，也就是对于一个句子$\mathbf s$，通过$\textrm{P}(\mathbf t|\mathbf s)$把它翻译成$\mathbf t$后，根据$\textrm{P}(\mathbf s|\mathbf t)$应该能重新翻译出$\mathbf s$，如图\ref{fig:7-42}所示。公式\ref{eq:7-34}给出了同时优化$\textrm{P}(\mathbf s|\mathbf t)$和$\textrm{P}(\mathbf t|\mathbf s)$的一个目标函数形式。这个目标函数的一个额外的好处是它本质上是在学习一个由$\textrm{P}(\mathbf s|\mathbf t)$和$\textrm{P}(\mathbf t|\mathbf s)$组成的语言模型$\textrm{P}(\mathbf s)$，而$\textrm{P}(\mathbf s)$的学习依赖于单语数据，这意味着这个目标函数可以很自然地直接使用大量单语数据来同时训练两个翻译模型。相同的结论可以推广到$\textrm{P}(\mathbf t)$上\cite{DBLP:conf/nips/HeXQWYLM16}。

 %----------------------------------------------
 % 图7.
@@ -1690,24 +1690,24 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\textbf{y}} | \textbf{x})
 \centering
 \input{./Chapter7/Figures/figure-cycle-consistency}
 \caption{循环一致性}
-\label{fig:7-35}
+\label{fig:7-42}
 \end{figure}
 %----------------------------------------------

-\parinterval 但是直接使用公式\ref{eqC7.5.4.2.1}作为目标函数需要解决两个问题：
+\parinterval 但是直接使用公式\ref{eq:7-34}作为目标函数需要解决两个问题：

 \vspace{0.5em}
 \begin{itemize}
-\item 计算公式\ref{eqC7.5.4.2.1}要枚举所有可能的隐变量$\mathbf t$的取值，也就是所有可能产生的目标语句子，而这是不可能的，因此一般会通过平均多个随机产生的$\mathbf t$对应的损失来近似真正的目标函数值；
+\item 计算公式\ref{eq:7-34}要枚举所有可能的隐变量$\mathbf t$的取值，也就是所有可能产生的目标语句子，而这是不可能的，因此一般会通过平均多个随机产生的$\mathbf t$对应的损失来近似真正的目标函数值；
 \vspace{0.5em}
-\item 从公式\ref{eqC7.5.4.2.1}可以看到，在$\textrm{P}(\mathbf s)$上计算完目标函数值后，得到的梯度首先传递给$\textrm{P}(\mathbf s|\mathbf t)$，然后通过$\textrm{P}(\mathbf s|\mathbf t)$传递给$\textrm{P}(\mathbf t|\mathbf s)$。由于$\textrm{P}(\mathbf s|\mathbf t)$的输入$\mathbf t$由$\textrm{P}(\mathbf t|\mathbf s)$采样得到，而采样操作不可导，导致梯度的传播在$\textrm{P}(\mathbf t|\mathbf s)$的输出处断开了，因此$\textrm{P}(\mathbf t|\mathbf s)$接收不到任何梯度来进行更新。常见的解决方案是使用策略梯度\cite{DBLP:conf/nips/SuttonMSM99}。它把$\textrm{P}(\mathbf t|\mathbf s)$采样得到的$\mathbf t$当成$\textrm{P}(\mathbf t|\mathbf s)$的目标来学习，并使用$\textrm{log P}(\mathbf s|\mathbf t)$对$\textrm{P}(\mathbf t|\mathbf s)$的损失进行加权。但是由于仅使用少量样本来近似真正的目标函数，得到的策略梯度方差非常大，系统无法稳定学习，特别是训练的初期，因此通常会需要先使用双语数据预训练两个方向的翻译模型，然后把公式\ref{eqC7.5.4.2.1}作为正常训练的一个正则化项使用。
+\item 从公式\ref{eq:7-34}可以看到，在$\textrm{P}(\mathbf s)$上计算完目标函数值后，得到的梯度首先传递给$\textrm{P}(\mathbf s|\mathbf t)$，然后通过$\textrm{P}(\mathbf s|\mathbf t)$传递给$\textrm{P}(\mathbf t|\mathbf s)$。由于$\textrm{P}(\mathbf s|\mathbf t)$的输入$\mathbf t$由$\textrm{P}(\mathbf t|\mathbf s)$采样得到，而采样操作不可导，导致梯度的传播在$\textrm{P}(\mathbf t|\mathbf s)$的输出处断开了，因此$\textrm{P}(\mathbf t|\mathbf s)$接收不到任何梯度来进行更新。常见的解决方案是使用策略梯度\cite{DBLP:conf/nips/SuttonMSM99}。它把$\textrm{P}(\mathbf t|\mathbf s)$采样得到的$\mathbf t$当成$\textrm{P}(\mathbf t|\mathbf s)$的目标来学习，并使用$\textrm{log P}(\mathbf s|\mathbf t)$对$\textrm{P}(\mathbf t|\mathbf s)$的损失进行加权。但是由于仅使用少量样本来近似真正的目标函数，得到的策略梯度方差非常大，系统无法稳定学习，特别是训练的初期，因此通常会需要先使用双语数据预训练两个方向的翻译模型，然后把公式\ref{eq:7-34}作为正常训练的一个正则化项使用。
 \end{itemize}
 \vspace{0.5em}

 %%%%%%%%%%%%%%%%%%
 \subsubsection{翻译中回译}

-\parinterval 重新回顾公式\ref{eqC7.5.4.2.1}对应的目标函数，无监督对偶学习跟回译（假设现在只在一个句对$(\mathbf s,\mathbf t)$上做回译）之间有着很深的内在联系：给定一个句子$\mathbf s$，无监督对偶学习和回译都首先用$\textrm{P}(\mathbf t|\mathbf s)$把$\mathbf s$翻译成$\mathbf t$，然后无监督对偶学习最大化$\textrm{P}(\mathbf s|\mathbf t)\textrm{P}(\mathbf t|\mathbf s)$，而回译则是最大化$\textrm{P}(\mathbf s|\mathbf t)$。可以看到，当无监督对偶学习假设$\textrm{P}(\mathbf t|\mathbf s)$是一个完美的翻译模型的时候，它与回译是等价的。此外，在共享两个方向的模型参数$\theta$的情况下，可以看到无监督对偶学习的梯度为$\frac{\partial \textrm{P}(\mathbf s)}{\partial \theta} =\textrm{P}(\mathbf t|\mathbf s) \frac{\partial \textrm{P}(\mathbf s|\mathbf t)}{\partial \theta}+\textrm{P}(\mathbf s|\mathbf t) \frac{\partial \textrm{P}(\mathbf t|\mathbf s)}{\partial \theta} $，而回译的梯度为$\frac{\partial \textrm{P}(\mathbf s|\mathbf t)}{\partial \theta}$。从这个角度出发，无监督对偶学习与回译都在优化语言模型$\textrm{P}(\mathbf s)$这个目标函数，只不过回译使用对$\theta$有偏的梯度估计。
+\parinterval 重新回顾公式\ref{eq:7-34}对应的目标函数，无监督对偶学习跟回译（假设现在只在一个句对$(\mathbf s,\mathbf t)$上做回译）之间有着很深的内在联系：给定一个句子$\mathbf s$，无监督对偶学习和回译都首先用$\textrm{P}(\mathbf t|\mathbf s)$把$\mathbf s$翻译成$\mathbf t$，然后无监督对偶学习最大化$\textrm{P}(\mathbf s|\mathbf t)\textrm{P}(\mathbf t|\mathbf s)$，而回译则是最大化$\textrm{P}(\mathbf s|\mathbf t)$。可以看到，当无监督对偶学习假设$\textrm{P}(\mathbf t|\mathbf s)$是一个完美的翻译模型的时候，它与回译是等价的。此外，在共享两个方向的模型参数$\theta$的情况下，可以看到无监督对偶学习的梯度为$\frac{\partial \textrm{P}(\mathbf s)}{\partial \theta} =\textrm{P}(\mathbf t|\mathbf s) \frac{\partial \textrm{P}(\mathbf s|\mathbf t)}{\partial \theta}+\textrm{P}(\mathbf s|\mathbf t) \frac{\partial \textrm{P}(\mathbf t|\mathbf s)}{\partial \theta} $，而回译的梯度为$\frac{\partial \textrm{P}(\mathbf s|\mathbf t)}{\partial \theta}$。从这个角度出发，无监督对偶学习与回译都在优化语言模型$\textrm{P}(\mathbf s)$这个目标函数，只不过回译使用对$\theta$有偏的梯度估计。

 \parinterval 这个事实说明对回译进行适当的增广后应该能取得与无监督对偶学习相似的结果。{\small\bfnew{ 翻译中回译}}\index{翻译中回译}（On-the-fly Back-translation）\index{On-the-fly Back-translation}就是这样一个例子。一般回译的过程是先把数据集里所有$\mathbf s$都翻译出来，然后只训练$\textrm{P}(\mathbf s|\mathbf t)$。区别于回译，从数据集中采集到一个$\mathbf s$之后，翻译中回译立刻把$\mathbf s$翻译成$\mathbf t$，然后训练$\textrm{P}(\mathbf s|\mathbf t)$，并且下一步迭代中采集一个$\mathbf t$然后训练$\textrm{P}(\mathbf t|\mathbf s)$，这样交替更新$\textrm{P}(\mathbf s|\mathbf t)$和$\textrm{P}(\mathbf t|\mathbf s)$。尽管翻译中回译无法像无监督对偶学习那样在一个样本里通过梯度把$\textrm{P}(\mathbf s|\mathbf t)$的信息传到$\textrm{P}(\mathbf t|\mathbf s)$，但是它交替更新$\textrm{P}(\mathbf s|\mathbf t)$和$\textrm{P}(\mathbf t|\mathbf s)$的策略允许$\textrm{P}(\mathbf s|\mathbf t)$在两个样本间通过其产生的输出$\mathbf s$来把信息传递到$\textrm{P}(\mathbf t|\mathbf s)$，因此也能获得相近的效果，并且在实现和计算上都非常高效。翻译中回译已经在无监督神经机器翻译系统训练中被广泛使用\cite{lample2019cross}。