better use of "我们"

c68e2f5a · xiaotong · 9c62231a · c68e2f5a · c68e2f5a · c68e2f5a
Commit c68e2f5a authored Apr 14, 2020 by xiaotong
--- a/Book/Chapter1/chapter1.tex
+++ b/Book/Chapter1/chapter1.tex
@@ -25,11 +25,11 @@
 \end{figure}
 %-------------------------------------------
-\parinterval 这里我们更加关注人类语言之间的翻译问题，即自然语言的翻译。如图\ref{fig:zh_en-example}所示，通过计算机可以将一段中文文字自动转化为英文文字，其中中文被称为{\small\bfnew{源语言}}（Source Language），英文被称为{\small\bfnew{目标语言}}（Target Language）。
+\parinterval 这里更加关注人类语言之间的翻译问题，即自然语言的翻译。如图\ref{fig:zh_en-example}所示，通过计算机可以将一段中文文字自动转化为英文文字，其中中文被称为{\small\bfnew{源语言}}（Source Language），英文被称为{\small\bfnew{目标语言}}（Target Language）。
 \parinterval 一直以来，自然语言文字的翻译往往是由人工完成。让计算机像人一样进行翻译似乎还是电影中的桥段，因为很难想象人类语言的多样性和复杂性可以用计算机语言进行描述。但是时至今日，人工智能技术的发展已经大大超越了人类传统的认知，用计算机进行自动翻译也不再是一种想象，它已经深入到人们生活的很多方面，并发挥着重要作用。而这种由计算机进行自动翻译的过程也被称作{\small\bfnew{机器翻译}}（Machine Translation）。类似的，自动翻译、智能翻译、多语言自动转换等概念也是指同样的事情。如果将今天的机器翻译和人工翻译进行对比，可以发现机器翻译系统所生成的译文还并不完美，甚至有时翻译质量非常差。但是其优点在于速度快并且成本低，更为重要的是机器翻译系统可以从大量数据中不断学习和进化。人工翻译尽管精度很高，但是费时费力。当需要翻译大量的文本且精度要求不那么高时，比如海量数据的浏览型任务，机器翻译的优势就体现了出来。对于人工作业无法完成的事情，使用机器翻译可能只需花几个小时甚至几分钟就能完成。这就类似于拿着锄头耕地种庄稼和使用现代化机器作业之间的区别。
-\parinterval 实现机器翻译往往需要多个学科知识的融合，如数学、语言学、计算机科学、心理学等等。而最终呈现给我们的是一套软件系统\ ——\ 即机器翻译系统。通俗来讲，机器翻译系统就是一个可以在计算机上运行的软件工具，与我们使用的其他软件一样。只不过机器翻译系统是由``不可见的程序''组成，虽然这个系统非常复杂，但是呈现出来的展示形式却很简单，比如输入是待翻译的句子或文本，输出是译文句子或文本。
+\parinterval 实现机器翻译往往需要多个学科知识的融合，如数学、语言学、计算机科学、心理学等等。而最终呈现给使用者的是一套软件系统\ ——\ 即机器翻译系统。通俗来讲，机器翻译系统就是一个可以在计算机上运行的软件工具，与人们使用的其他软件一样。只不过机器翻译系统是由``不可见的程序''组成，虽然这个系统非常复杂，但是呈现出来的展示形式却很简单，比如输入是待翻译的句子或文本，输出是译文句子或文本。
 %----------------------------------------------
 % 图1.2
@@ -59,7 +59,7 @@
 \vspace{0.5em}
 \item {\small\bfnew{计算机的``理解''与人类的``理解''存在鸿沟}}。人类一直希望把自己进行翻译所使用的知识描述出来，并用计算机程序进行实现，包括早期基于规则的机器翻译方法都源自这个思想。但是经过实践发现，人和计算机在``理解''自然语言上存在着明显差异。首先，人类的语言能力是经过长时间多种外部环境因素共同刺激形成的，这种能力很难直接准确表达。也就是说人类的语言知识本身就很难描述，更不用说让计算机来理解；其次，人和机器翻译系统理解语言的目标不一样。人理解和使用语言是为了进行生活和工作，目标非常复杂，而机器翻译系统更多的是为了对某些数学上定义的目标函数进行优化。也就是说，机器翻译系统关注的是翻译这个单一目标，而并不是像人一样进行复杂的活动；此外，人和计算机的运行方式有着本质区别。人类语言能力的生物学机理与机器翻译系统所使用的计算模型本质上是不同的，机器翻译系统使用的是其自身能够理解的``知识''，比如，统计学上的词语表示。这种知识并不需要人来理解，当然从系统开发的角度，计算机也并不需要理解人是如何思考的。
 \vspace{0.5em}
-\item {\small\bfnew{单一的方法无法解决多样的翻译问题}}。首先，语种的多样性会导致任意两种语言之间的翻译实际上都是不同的翻译任务。比如，世界上存在的语言不下几千种，如果任意两种语言进行互译就有上百万种翻译需求。虽然已经有研究者尝试用同一个框架甚至同一个翻译系统进行全语种的翻译，但是离真正可用还有相当的距离；此外，不同的领域，不同的应用场景对翻译也有不同的需求。比如，文学作品的翻译和新闻的翻译就有不同、口译和笔译也有不同，类似的情况不胜枚举。机器翻译需要适用多样的需求，这些又进一步增加了计算机建模的难度；还有，对于机器翻译来说，充足的高质量数据是必要的，但是不同语种、不同领域、不同应用场景所拥有的数据量有明显差异，甚至很多语种几乎没有可用的数据，这时开发机器翻译系统的难度可想而知。注意，现在的机器翻译还无法像人类一样在学习少量样例的情况下进行举一反三，因此数据稀缺情况下的机器翻译也给我们提出了很大挑战。
+\item {\small\bfnew{单一的方法无法解决多样的翻译问题}}。首先，语种的多样性会导致任意两种语言之间的翻译实际上都是不同的翻译任务。比如，世界上存在的语言不下几千种，如果任意两种语言进行互译就有上百万种翻译需求。虽然已经有研究者尝试用同一个框架甚至同一个翻译系统进行全语种的翻译，但是离真正可用还有相当的距离；此外，不同的领域，不同的应用场景对翻译也有不同的需求。比如，文学作品的翻译和新闻的翻译就有不同、口译和笔译也有不同，类似的情况不胜枚举。机器翻译需要适用多样的需求，这些又进一步增加了计算机建模的难度；还有，对于机器翻译来说，充足的高质量数据是必要的，但是不同语种、不同领域、不同应用场景所拥有的数据量有明显差异，甚至很多语种几乎没有可用的数据，这时开发机器翻译系统的难度可想而知。注意，现在的机器翻译还无法像人类一样在学习少量样例的情况下进行举一反三，因此数据稀缺情况下的机器翻译也给研究者提出了很大挑战。
 \end{itemize}
 \vspace{0.5em}
@@ -206,7 +206,7 @@
 \parinterval 早期的机器翻译研究都是以基于规则的方法为主，特别是在上世纪70年代，以基于规则方法为代表的专家系统是人工智能中最具代表性的研究领域。它的主要思想是以词典和人工书写的规则库作为翻译知识，用一系列规则的组合完成翻译。
-\parinterval 图\ref{fig:Example-RBMT}展示了一个使用规则进行翻译的实例。这里，利用一个简单的汉译英规则库完成对句子``我对你感到满意''的翻译。当翻译``我''时，从规则库中找到规则1，该规则表示遇到单词``我''就翻译为``I''；类似的，也可以从规则库中找到规则4，该规则表示翻译调序，即将单词``you''放到``be satisfied with''后面。可以看到，这些规则的使用和我们进行翻译时所使用的思想非常类似，可以说基于规则方法实际上在试图描述人类进行翻译的思维过程。
+\parinterval 图\ref{fig:Example-RBMT}展示了一个使用规则进行翻译的实例。这里，利用一个简单的汉译英规则库完成对句子``我对你感到满意''的翻译。当翻译``我''时，从规则库中找到规则1，该规则表示遇到单词``我''就翻译为``I''；类似的，也可以从规则库中找到规则4，该规则表示翻译调序，即将单词``you''放到``be satisfied with''后面。可以看到，这些规则的使用和进行翻译时所使用的思想非常类似，可以说基于规则方法实际上在试图描述人类进行翻译的思维过程。
 \parinterval 但是，基于规则的机器翻译也存在问题。首先，书写规则需要消耗大量人力，规则库的维护代价极高；其次，规则很难涵盖所有的语言现象；再有，自然语言存在大量的歧义现象，规则之间也会存在冲突，这也导致规则数量不可能无限制增长。
 \subsection{基于实例的机器翻译}\index{Chapter1.4.2}
@@ -307,7 +307,7 @@
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \parinterval 机器翻译质量的评价对于机器翻译的发展具有至关重要的意义。首先，评价的结果可以用于指导研究人员不断改进机器翻译结果，并找到最具潜力的技术发展方向。同时，一个权威的翻译质量评价指标可以帮助用户更有效地使用机器翻译的结果。
-\parinterval 一般来说，机器翻译的翻译{\small\bfnew{质量评价}}（Quality Evaluation）是指在参考答案或者评价标准已知的情况下对译文进行打分。这类方法可以被称作有参考答案的评价，包括人工打分、BLEU 等自动评价方法都是典型的有参考答案评价。相对的，{\small\bfnew{无参考答案的评价}}（Quality Estimation）是指在没有人工评价和参考答案的情况下，对译文质量进行评估。这类方法可以被看作是对机器翻译译文进行质量`` 预测''，这样用户可以选择性的使用机器翻译结果。这里我们主要讨论有参考答案的评价，因为这类方法是机器翻译系统研发所使用的主要评价方法。
+\parinterval 一般来说，机器翻译的翻译{\small\bfnew{质量评价}}（Quality Evaluation）是指在参考答案或者评价标准已知的情况下对译文进行打分。这类方法可以被称作有参考答案的评价，包括人工打分、BLEU 等自动评价方法都是典型的有参考答案评价。相对的，{\small\bfnew{无参考答案的评价}}（Quality Estimation）是指在没有人工评价和参考答案的情况下，对译文质量进行评估。这类方法可以被看作是对机器翻译译文进行质量`` 预测''，这样用户可以选择性的使用机器翻译结果。这里主要讨论有参考答案的评价，因为这类方法是机器翻译系统研发所使用的主要评价方法。
 \subsection{人工评价}\index{Chapter1.5.1}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
@@ -335,7 +335,7 @@
 \parinterval 简而言之，研究者可以根据实际情况选择不同的人工评价方案，人工评价也没有统一的标准。WMT和CCMT机器翻译评测都有配套的人工评价方案，可以作为业界的参考标准。
 \subsection{自动评价}\index{Chapter1.5.2}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
-\parinterval 由于人工评价费事费力，同时具有一定的主观性，甚至同一篇文章不同人在不同时刻的理解都会不同，因此自动评价是也是机器翻译系统研发人员所青睐的方法。自动评价的方式虽然不如人工评价准确，但是具有速度快，成本低、一致性高的优点。而且随着评价技术的不断发展，自动评价方式已经具有了比较好的指导性，可以帮助我们快速了解当前机器翻译译文的质量。在机器翻译领域，自动评价已经成为了一个重要的分支，提出的自动评价方法不下几十种。在这里我们无法对这些方法一一列举，为了便于后续章节的描述，这里仅对具有代表性的一些方法进行简要介绍。
+\parinterval 由于人工评价费事费力，同时具有一定的主观性，甚至同一篇文章不同人在不同时刻的理解都会不同，因此自动评价是也是机器翻译系统研发人员所青睐的方法。自动评价的方式虽然不如人工评价准确，但是具有速度快，成本低、一致性高的优点。而且随着评价技术的不断发展，自动评价方式已经具有了比较好的指导性，可以帮助使用者快速了解当前机器翻译译文的质量。在机器翻译领域，自动评价已经成为了一个重要的分支，提出的自动评价方法不下几十种。这里无法对这些方法一一列举，为了便于后续章节的描述，这里仅对具有代表性的一些方法进行简要介绍。
 \subsubsection{BLEU}\index{Chapter1.5.2.1}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
@@ -441,7 +441,7 @@ His house is on the south bank of the river.
 \section{机器翻译应用}\index{Chapter1.6}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
-\parinterval 机器翻译有着十分广泛的应用，下面看一下机器翻译在我们生活中的具体应用形式：
+\parinterval 机器翻译有着十分广泛的应用，下面看一下机器翻译生活中的具体应用形式：
 \parinterval （一）网页翻译

--- a/Book/Chapter2/chapter2.tex
+++ b/Book/Chapter2/chapter2.tex
@@ -14,16 +14,16 @@
 \parinterval 机器翻译并非是一个孤立的系统，它依赖于很多模块，并且需要很多学科知识的融合。现在的机器翻译系统大多使用统计模型对翻译问题进行建模，同时也会用到一些的自然语言处理工具对不同语言的文字进行分析。因此，在正式开始机器翻译内容的介绍之前，本章将会对相关的基础知识进行概述，包括：概率论与统计建模基础、语言分析、语言建模等。
-\parinterval 概率论与统计建模是机器翻译方法的基础。这里会对机器翻译所涉及的基本数学概念进行简要描述，确保后续使用到的数学工具是完备的。我们会重点关注如何利用统计建模的方式对自然语言处理问题进行描述，这种手段在统计机器翻译和神经机器翻译中会被使用。
+\parinterval 概率论与统计建模是机器翻译方法的基础。这里会对机器翻译所涉及的基本数学概念进行简要描述，确保后续使用到的数学工具是完备的。本章会重点关注如何利用统计建模的方式对自然语言处理问题进行描述，这种手段在统计机器翻译和神经机器翻译中会被使用。
-\parinterval 语言分析部分将以汉语为例介绍词法和句法分析的基本概念。它们都是自然语言处理中的经典问题，而且在机器翻译中也会经常被使用。同样，我们会介绍这两个任务的定义和求解问题的思路。
+\parinterval 语言分析部分将以汉语为例介绍词法和句法分析的基本概念。它们都是自然语言处理中的经典问题，而且在机器翻译中也会经常被使用。同样，本章会介绍这两个任务的定义和求解问题的思路。
-\parinterval 语言建模是机器翻译中最常用的一种技术，它主要用于句子的生成和流畅度评价。我们会以传统统计语言模型为例，对语言建模的相关概念进行介绍。但是，这里并不深入探讨语言模型技术，在后面的章节中还有会单独的内容对神经网络语言模型等前沿技术进行讨论。
+\parinterval 语言建模是机器翻译中最常用的一种技术，它主要用于句子的生成和流畅度评价。本章会以传统统计语言模型为例，对语言建模的相关概念进行介绍。但是，这里并不深入探讨语言模型技术，在后面的章节中还有会单独的内容对神经网络语言模型等前沿技术进行讨论。
 %--问题概述-----------------------------------------
 \section{问题概述 }\index{Chapter2.1}
-\parinterval 很多时候机器翻译系统被看作是孤立的``黑盒''系统（图 \ref {fig:2.1-1} (a)）。我们将一段文本作为输入送入机器翻译系统，之后得到翻译好的译文输出。但是真实的机器翻译系统要复杂的多。因为系统看到的输入和输出的实际上只是一些符号串，这些符号并没有任何其他意义，因此需要进一步对这些符号串进行处理才能更好的使用它们，比如，需要定义翻译中最基本的单元是什么？符号串是否还有结构信息？如何用数学工具刻画这些基本单元和结构？
+\parinterval 很多时候机器翻译系统被看作是孤立的``黑盒''系统（图 \ref {fig:2.1-1} (a)）。可以将一段文本作为输入送入机器翻译系统，之后得到翻译好的译文输出。但是真实的机器翻译系统要复杂的多。因为系统看到的输入和输出的实际上只是一些符号串，这些符号并没有任何其他意义，因此需要进一步对这些符号串进行处理才能更好的使用它们，比如，需要定义翻译中最基本的单元是什么？符号串是否还有结构信息？如何用数学工具刻画这些基本单元和结构？
 %----------------------------------------------
 % 图2.1
@@ -60,7 +60,7 @@
 \parinterval 一般来说，在送入机器翻译系统前需要对文字序列进行处理和加工，这个过程被称为{\small\sffamily\bfseries{预处理}}（Pre-processing）。同理，在机器翻译模型输出译文后的处理作被称作{\small\sffamily\bfseries{后处理}}（Post-processing）。这两个过程对机器翻译性能影响很大，比如，在神经机器翻译里，不同的分词策略可能会造成翻译性能的天差地别。
-\parinterval 值得注意的是，有些观点认为，不论是分词还是句法分析，对于机器翻译来说并不要求符合人的认知和语言学约束。换句话说，机器翻译所使用的``单词''和``结构''本身并不是为了符合人类的解释，它们更直接目的是为了进行翻译。从系统开发的角度，有时候即使进行一些与我们的语言习惯有差别的处理，仍然会带来性能的提升，比如在神经机器翻译中，在传统分词的基础上进一步使用双字节编码（Byte Pair Encoding，BPE）子词切分会使得机器翻译性能大幅提高。当然，自然语言处理中语言学信息的使用一直是学界关注的焦点。甚至关于语言学结构对机器翻译是否有作用这个问题也有争论。但是不能否认的是，无论是语言学的知识，还是计算机自己学习到的知识，对机器翻译都是有价值的。在后续章节会看到，这两种类型的知识对机器翻译帮助很大 \footnote[1]{笔者并不认同语言学结构对机器翻译的帮助有限，相反机器翻译需要更多的人类先验知识的指导。当然，这个问题不是这里讨论的重点。} 。
+\parinterval 值得注意的是，有些观点认为，不论是分词还是句法分析，对于机器翻译来说并不要求符合人的认知和语言学约束。换句话说，机器翻译所使用的``单词''和``结构''本身并不是为了符合人类的解释，它们更直接目的是为了进行翻译。从系统开发的角度，有时候即使进行一些与人类的语言习惯有差别的处理，仍然会带来性能的提升，比如在神经机器翻译中，在传统分词的基础上进一步使用双字节编码（Byte Pair Encoding，BPE）子词切分会使得机器翻译性能大幅提高。当然，自然语言处理中语言学信息的使用一直是学界关注的焦点。甚至关于语言学结构对机器翻译是否有作用这个问题也有争论。但是不能否认的是，无论是语言学的知识，还是计算机自己学习到的知识，对机器翻译都是有价值的。在后续章节会看到，这两种类型的知识对机器翻译帮助很大 \footnote[1]{笔者并不认同语言学结构对机器翻译的帮助有限，相反机器翻译需要更多的人类先验知识的指导。当然，这个问题不是这里讨论的重点。} 。
 \parinterval 剩下的问题是如何进行句子的切分和结构的分析。思路有很多，一种常用的方法是对问题进行概率化，用统计模型来描述问题并求解之。比如，一个句子切分的好坏，并不是非零即一的判断，而是要估计出这种切分的可能性大小，最终选择可能性最大的结果进行输出。这也是一种典型的用统计建模的方式来描述自然语言处理问题。
@@ -81,9 +81,9 @@
 \parinterval {\small\bfnew{概率}}（Probability）是度量随机事件呈现其每个可能状态的可能性的数值，本质上它是一个测度函数\cite{mao-prob-book-2011}\cite{kolmogorov2018foundations}。概率的大小表征了随机事件在一次试验中发生的可能性大小。用$\textrm{P}(\cdot )$表示一个随机事件的可能性，即事件发生的概率。比如$\textrm{P}(\textrm{太阳从东方升起})$表示``太阳从东方升起的可能性''，同理，$\textrm{P}(A=B)$ 表示的就是``$A=B$'' 这件事的可能性。
-\parinterval 在实际问题中，我们往往需要得到随机变量的概率值。但是，真实的概率值可能是无法准确知道的，这时就需要对概率进行{\small\sffamily\bfseries{估计}}，得到的结果是概率的{\small\sffamily\bfseries{估计值}}（Estimate）。在概率论中，一个很简单的方法是利用相对频度作为概率的估计值。如果$\{x_1,x_2,\dots,x_n \}$是一个试验的样本空间，在相同情况下重复试验$N$次，观察到样本$x_i (1\leq{i}\leq{n})$的次数为$n (x_i )$，那么$x_i$在这$N$次试验中的相对频率是$\frac{n(x_i )}{N}$。当$N$越来越大时，相对概率也就越来越接近真实概率$\textrm{P}(x_i)$，即$\lim_{N \to \infty}\frac{n(x_i )}{N}=\textrm{P}(x_i)$。 实际上，很多概率模型都等同于相对频度估计，比如，对于一个服从多项式分布的变量的极大似然估计就可以用相对频度估计实现。
+\parinterval 在实际问题中，往往需要得到随机变量的概率值。但是，真实的概率值可能是无法准确知道的，这时就需要对概率进行{\small\sffamily\bfseries{估计}}，得到的结果是概率的{\small\sffamily\bfseries{估计值}}（Estimate）。在概率论中，一个很简单的方法是利用相对频度作为概率的估计值。如果$\{x_1,x_2,\dots,x_n \}$是一个试验的样本空间，在相同情况下重复试验$N$次，观察到样本$x_i (1\leq{i}\leq{n})$的次数为$n (x_i )$，那么$x_i$在这$N$次试验中的相对频率是$\frac{n(x_i )}{N}$。当$N$越来越大时，相对概率也就越来越接近真实概率$\textrm{P}(x_i)$，即$\lim_{N \to \infty}\frac{n(x_i )}{N}=\textrm{P}(x_i)$。 实际上，很多概率模型都等同于相对频度估计，比如，对于一个服从多项式分布的变量的极大似然估计就可以用相对频度估计实现。
-\parinterval 概率函数是用函数形式给出离散变量每个取值发生的概率，其实就是将变量的概率分布转化为数学表达形式。如果我们把$A$看做一个离散变量，$a$看做变量$A$的一个取值，那么$\textrm{P}(A)$被称作变量$A$的概率函数，$\textrm{P}(A=a)$被称作$A = a$的概率值，简记为$\textrm{P}(a)$。例如，在相同条件下掷一个骰子50次，用$A$表示投骰子出现的点数这个离散变量，$a_i$表示点数的取值，$\textrm{P}_i$表示$A=a_i$的概率值。下表为$A$的概率分布，给出了$A$的所有取值及其概率。
+\parinterval 概率函数是用函数形式给出离散变量每个取值发生的概率，其实就是将变量的概率分布转化为数学表达形式。如果把$A$看做一个离散变量，$a$看做变量$A$的一个取值，那么$\textrm{P}(A)$被称作变量$A$的概率函数，$\textrm{P}(A=a)$被称作$A = a$的概率值，简记为$\textrm{P}(a)$。例如，在相同条件下掷一个骰子50次，用$A$表示投骰子出现的点数这个离散变量，$a_i$表示点数的取值，$\textrm{P}_i$表示$A=a_i$的概率值。下表为$A$的概率分布，给出了$A$的所有取值及其概率。
 %表1--------------------------------------------------------------------
 \begin{table}[htp]
 \centering
@@ -99,7 +99,7 @@
 \parinterval 除此之外，概率函数$\textrm{P}(\cdot)$还具有非负性、归一性等特点，非负性是指，所有的概率函数$\textrm{P}(\cdot)$都必须是大于等于0的数值，概率函数中不可能出现负数：$\forall{x},\textrm{P}{(x)}\geq{0}$。归一性，又称规范性，简单的说就是所有可能发生的事件的概率总和为1，即$\sum_{x}\textrm{P}{(x)}={1}$。
-\parinterval 对于离散变量$A$，$\textrm{P}(A=a)$是个确定的值，可以表示事件$A=a$的可能性大小；而对于连续变量，求在某个定点处的概率是无意义的，只能求其落在某个取值区间内的概率。因此，用{\small\sffamily\bfseries{概率分布函数$F(x)$}}和{\small\sffamily\bfseries{概率密度函数}}$f(x)$来统一描述随机变量的取值分布情况。概率分布函数$F(x)$表示取值小于某个值的概率，是概率的累加（或积分）形式。假设$A$是一个随机变量，$a$是任意实数，将函数$F(a)=\textrm{P}\{A\leq a\}$，$-\infty<a<\infty $定义为$A$的分布函数。通过分布函数，我们可以清晰地表示任何随机变量的概率。
+\parinterval 对于离散变量$A$，$\textrm{P}(A=a)$是个确定的值，可以表示事件$A=a$的可能性大小；而对于连续变量，求在某个定点处的概率是无意义的，只能求其落在某个取值区间内的概率。因此，用{\small\sffamily\bfseries{概率分布函数$F(x)$}}和{\small\sffamily\bfseries{概率密度函数}}$f(x)$来统一描述随机变量的取值分布情况。概率分布函数$F(x)$表示取值小于某个值的概率，是概率的累加（或积分）形式。假设$A$是一个随机变量，$a$是任意实数，将函数$F(a)=\textrm{P}\{A\leq a\}$，$-\infty<a<\infty $定义为$A$的分布函数。通过分布函数，可以清晰地表示任何随机变量的概率。
 \parinterval 概率密度函数反映了变量在某个区间内的概率变化快慢，概率密度函数的值是概率的变化率，该连续变量的概率也就是对概率密度函数求积分得到的结果。设$f(x) \geq 0$是连续变量$X$的概率密度函数，$X$的分布函数就可以用如下公式定义：
@@ -133,7 +133,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{eqnarray}
 %----------------------------------------------
-\parinterval {\small\sffamily\bfseries{边缘概率}}（marginal probability）是和联合概率对应的，它指的是$\textrm{P}(X=a)$或$\textrm{P}(Y=b)$，即仅与单个随机变量有关的概率称为边缘概率。对于离散随机变量$X$和$Y$，我们知道$\textrm{P}(X,Y)$，则边缘概率$\textrm{P}(X)$可以通过求和的方式得到。对于$\forall x \in X $，有
+\parinterval {\small\sffamily\bfseries{边缘概率}}（marginal probability）是和联合概率对应的，它指的是$\textrm{P}(X=a)$或$\textrm{P}(Y=b)$，即仅与单个随机变量有关的概率称为边缘概率。对于离散随机变量$X$和$Y$，如果知道$\textrm{P}(X,Y)$，则边缘概率$\textrm{P}(X)$可以通过求和的方式得到。对于$\forall x \in X $，有
 \begin{eqnarray}
 \textrm{P}(X=x)=\sum_{y}  \textrm{P}(X=x,Y=y)
 \label{eq:2.2-2}
@@ -147,7 +147,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{eqnarray}
 %----------------------------------------------
-\parinterval 为了更好的区分条件概率、边缘概率和联合概率，这里我们用一个图形面积的计算来举例说明。如图\ref{fig:2.2-2}所示，矩形$A$代表事件$X$发生所对应的所有可能状态，矩形$B$代表事件$Y$发生所对应的所有可能状态，矩形$C$代表$A$和$B$的交集，则
+\parinterval 为了更好的区分条件概率、边缘概率和联合概率，这里用一个图形面积的计算来举例说明。如图\ref{fig:2.2-2}所示，矩形$A$代表事件$X$发生所对应的所有可能状态，矩形$B$代表事件$Y$发生所对应的所有可能状态，矩形$C$代表$A$和$B$的交集，则
 \begin{itemize}
 \item 边缘概率：矩形$A$或者矩形$B$的面积；
@@ -177,14 +177,14 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{eqnarray}
 %----------------------------------------------
-\parinterval 推广到$n$个事件，我们得到了链式法则的公式
+\parinterval 推广到$n$个事件，可以得到了链式法则的公式
 \begin{eqnarray}
 \textrm{P}(x_1,x_2,...,x_n)=\textrm{P}(x_1) \prod_{i=2}^n \textrm{P}(x_i \mid x_1,x_2,...,x_{i-1})
 \label{eq:2.2-5}
 \end{eqnarray}
 %----------------------------------------------
-\parinterval 我们可以通过下面这个例子更好的理解链式法则，如图所示，$A$、$B$、$C$、$D$、\\ $E$分别代表五个事件，其中，$A$只和$B$有关，$C$只和$B$、$D$有关，$E$只和$C$有关，$B$和$D$不依赖其他任何事件。则$\textrm{P}(A,B,C,D,E)$的表达式如下式：
+\parinterval 下面的例子有助于更好的理解链式法则，如图\ref{fig:2.2-3}所示，$A$、$B$、$C$、$D$、\\ $E$分别代表五个事件，其中，$A$只和$B$有关，$C$只和$B$、$D$有关，$E$只和$C$有关，$B$和$D$不依赖其他任何事件。则$\textrm{P}(A,B,C,D,E)$的表达式如下式：
 %----------------------------------------------
 % 图2.5
@@ -215,7 +215,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \subsection{贝叶斯法则}\index{Chapter2.2.4}
-\parinterval 首先介绍一下全概率公式：{\small\bfnew{全概率公式}}（Law of Total Probability）是概率论中重要的公式，它可以将一个复杂事件发生的概率分解成不同情况的小事件发生概率的和。这里我们先介绍一个概念——划分。若集合$S$的一个划分事件为$\{B_1,...,B_n\}$是指它们满足$\bigcup_{i=1}^n B_i=S \textrm{且}B_iB_j=\varnothing , i,j=1,...,n,i\neq j$。设$\{B_1,...,B_n\}$是$S$的一个划分，则事件$A$的全概率公式可以被描述为：
+\parinterval 首先介绍一下全概率公式：{\small\bfnew{全概率公式}}（Law of Total Probability）是概率论中重要的公式，它可以将一个复杂事件发生的概率分解成不同情况的小事件发生概率的和。这里先介绍一个概念——划分。若集合$S$的一个划分事件为$\{B_1,...,B_n\}$是指它们满足$\bigcup_{i=1}^n B_i=S \textrm{且}B_iB_j=\varnothing , i,j=1,...,n,i\neq j$。设$\{B_1,...,B_n\}$是$S$的一个划分，则事件$A$的全概率公式可以被描述为：
 %---------------------------------------------
 \begin{eqnarray}
@@ -251,7 +251,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{eqnarray}
 %--------------------------------------------
-\noindent 其中，等式右端的分母部分使用了全概率公式。由上式，我们也可以得到贝叶斯公式的另外两种写法:
+\noindent 其中，等式右端的分母部分使用了全概率公式。由上式，也可以得到贝叶斯公式的另外两种写法:
 \begin{eqnarray}
 \textrm{P}(A \mid B) & = & \frac { \textrm{P}(A \mid B)\textrm{P}(B) }  {\textrm{P}(A)} \nonumber \\
                     & = & \frac { \textrm{P}(A \mid B)\textrm{P}(B) }  {\textrm{P}(A \mid B)\textrm{P}(B)+\textrm{P}(A \mid \bar{B}) \textrm{P}(\bar{B})}
@@ -266,7 +266,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \subsubsection{信息熵}\index{Chapter2.2.5.1}
-\parinterval {\small\sffamily\bfseries{熵}}（Entropy）是热力学中的一个概念，同时也是对系统无序性的一种度量标准。在自然语言处理领域也会使用到信息熵这一概念，比如描述文字的信息量大小。一条信息的信息量可以被看作是这条信息的不确定性。如果我们需要确认一件非常不确定甚至于一无所知的事情，那么需要理解大量的相关信息才能进行确认；同样的，如果我们对某件事已经非常确定，那么就不需要太多的信息就可以把它搞清楚。如下就是两个例子，
+\parinterval {\small\sffamily\bfseries{熵}}（Entropy）是热力学中的一个概念，同时也是对系统无序性的一种度量标准。在自然语言处理领域也会使用到信息熵这一概念，比如描述文字的信息量大小。一条信息的信息量可以被看作是这条信息的不确定性。如果需要确认一件非常不确定甚至于一无所知的事情，那么需要理解大量的相关信息才能进行确认；同样的，如果对某件事已经非常确定，那么就不需要太多的信息就可以把它搞清楚。如下就是两个例子，
 \begin{example}
 确定性和不确定性的事件
@@ -277,7 +277,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{e.g:2.2-1}
 \end{example}
-\parinterval 在这两句话中，``太阳从东方升起''是一件确定性事件（在地球上），几乎不需要查阅更多信息就可以确认，因此这件事的信息熵相对较低；而``明天天气多云''这件事，我们需要关注天气预报，才能大概率确定这件事，它的不确定性很高，因而它的信息熵也就相对较高。因此，信息熵也是对事件不确定性的度量。进一步，我们定义{\small\bfnew{自信息}}（Self-information）：一个事件$X$的自信息的表达式为：
+\parinterval 在这两句话中，``太阳从东方升起''是一件确定性事件（在地球上），几乎不需要查阅更多信息就可以确认，因此这件事的信息熵相对较低；而``明天天气多云''这件事，需要关注天气预报，才能大概率确定这件事，它的不确定性很高，因而它的信息熵也就相对较高。因此，信息熵也是对事件不确定性的度量。进一步，定义{\small\bfnew{自信息}}（Self-information）为一个事件$X$的自信息的表达式为：
 \begin{eqnarray}
 \textrm{I}(x)=-\log\textrm{P}(x)
 \label{eq:2.2-17}
@@ -302,7 +302,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{eq:2.2-18}
 \end{eqnarray}
-\parinterval 一个分布的信息熵也就是从该分布中得到的一个事件的期望信息量。比如，$a$、$b$、$c$、$d$四支球队，四支队伍夺冠的概率分别是$P_1$、$P_2$、$P_3$、$P_4$，某个人对比赛不感兴趣但是又想知道哪只球队夺冠，通过使用二分法2次就确定哪支球队夺冠了。但其实，我们知道这四只球队中$c$的实力可以碾压其他球队，那么猜1次就可以确定。所以对于前面这种情况，哪只球队夺冠的信息量较高，信息熵也相对较高；对于后面这种情况，因为结果是容易猜到的，信息量和信息熵也就相对较低。因此可以得知：分布越尖锐熵越低；分布越均匀熵越高。
+\parinterval 一个分布的信息熵也就是从该分布中得到的一个事件的期望信息量。比如，$a$、$b$、$c$、$d$四支球队，四支队伍夺冠的概率分别是$P_1$、$P_2$、$P_3$、$P_4$，某个人对比赛不感兴趣但是又想知道哪只球队夺冠，通过使用二分法2次就确定哪支球队夺冠了。但假设这四只球队中$c$的实力可以碾压其他球队，那么猜1次就可以确定。所以对于前面这种情况，哪只球队夺冠的信息量较高，信息熵也相对较高；对于后面这种情况，因为结果是容易猜到的，信息量和信息熵也就相对较低。因此可以得知：分布越尖锐熵越低；分布越均匀熵越高。
 \subsubsection{KL距离}\index{Chapter2.2.5.2}
@@ -320,7 +320,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \begin{itemize}
 \item 非负性，即$\textrm{D}_{\textrm{KL}} (\textrm{P} \parallel \textrm{Q}) \ge 0$，等号成立条件是$\textrm{P}$和$\textrm{Q}$相等。
 \vspace{0.5em}
-\item 不对称性，即$\textrm{D}_{\textrm{KL}} (\textrm{P} \parallel \textrm{Q}) \neq \textrm{D}_{\textrm{KL}} (\textrm{Q}  \parallel \textrm{P})$，所以$\textrm{KL}$距离并不是我们常用的欧式空间中的距离。为了消除这种不确定性，有时也会使用$\textrm{D}_{\textrm{KL}} (\textrm{P}  \parallel \textrm{Q})+\textrm{D}_{\textrm{KL}} (\textrm{Q}  \parallel \textrm{P})$作为度量两个分布差异性的函数。
+\item 不对称性，即$\textrm{D}_{\textrm{KL}} (\textrm{P} \parallel \textrm{Q}) \neq \textrm{D}_{\textrm{KL}} (\textrm{Q}  \parallel \textrm{P})$，所以$\textrm{KL}$距离并不是常用的欧式空间中的距离。为了消除这种不确定性，有时也会使用$\textrm{D}_{\textrm{KL}} (\textrm{P}  \parallel \textrm{Q})+\textrm{D}_{\textrm{KL}} (\textrm{Q}  \parallel \textrm{P})$作为度量两个分布差异性的函数。
 \end{itemize}
 \vspace{0.5em}
@@ -337,7 +337,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{中文分词}\index{Chapter2.3}
-\parinterval 对于机器翻译系统而言，输入的是已经切分好的单词序列，而不是原始的字符串（图\ref{fig:2.3-1}）。比如，对于一个中文句子，单词之间是没有间隔的，因此我们需要把一个个的单词切分出来，这样机器翻译系统可以区分不同的翻译单元。甚至，我们可以对语言学上的单词进行进一步切分，得到词片段序列（比如：中国人$\to$中国/人）。我们可以把上述过程看作是一种{\small\sffamily\bfseries{分词}}（Segmentation）过程，即：将一个输入的自然语言字符串切割成单元序列（token序列），每个单元都对应可以处理的最小单位。
+\parinterval 对于机器翻译系统而言，输入的是已经切分好的单词序列，而不是原始的字符串（图\ref{fig:2.3-1}）。比如，对于一个中文句子，单词之间是没有间隔的，因此需要把一个个的单词切分出来，这样机器翻译系统可以区分不同的翻译单元。甚至，可以对语言学上的单词进行进一步切分，得到词片段序列（比如：中国人$\to$中国/人）。可以把上述过程看作是一种{\small\sffamily\bfseries{分词}}（Segmentation）过程，即：将一个输入的自然语言字符串切割成单元序列（token序列），每个单元都对应可以处理的最小单位。
 %----------------------------------------------
 % 图2.7
@@ -349,7 +349,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{figure}
 %-------------------------------------------
 %\vspace{-0.5em}
-\parinterval 分词得到的单元序列可以是语言学上的词序列，也可以是根据其他方式定义的基本处理单元。在本章中，我们把分词得到的一个个单元称为{\small\bfnew{单词}}（Word），或{\small\bfnew{词}}，尽管这些单元可以不是语言学上的完整单词。而这个过程也被称作{\small\bfnew{词法分析}}（Lexical Analysis）。除了汉语，词法分析在日语、泰语等单词之间无明确分割符的语言中有着广泛的应用，芬兰语、维吾尔语等一些形态学十分丰富的语言，也需要使用词法分析来解决复杂的词尾、词缀变化等形态学变化。
+\parinterval 分词得到的单元序列可以是语言学上的词序列，也可以是根据其他方式定义的基本处理单元。在本章中，可以把分词得到的一个个单元称为{\small\bfnew{单词}}（Word），或{\small\bfnew{词}}，尽管这些单元可以不是语言学上的完整单词。而这个过程也被称作{\small\bfnew{词法分析}}（Lexical Analysis）。除了汉语，词法分析在日语、泰语等单词之间无明确分割符的语言中有着广泛的应用，芬兰语、维吾尔语等一些形态学十分丰富的语言，也需要使用词法分析来解决复杂的词尾、词缀变化等形态学变化。
 \parinterval 在机器翻译中，分词系统的好坏往往会决定译文的质量。分词的目的是定义系统处理的基本单元，那么什么叫做``词''呢？关于词的定义有很多，比如：\\
@@ -371,7 +371,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{definition}
 %-------------------------------------------
-\parinterval 从语言学的角度，普遍认为词是可以单独运用的、包含意义的基本单位。我们使用有限的词可以组合出无限的句子，这也正体现出自然语言的奇妙之处。
+\parinterval 从语言学的角度，普遍认为词是可以单独运用的、包含意义的基本单位。这样可以使用有限的词可以组合出无限的句子，这也正体现出自然语言的奇妙之处。
 \parinterval 不过，机器翻译并不仅仅局限在语言学定义的单词。比如，神经机器翻译中广泛使用的BPE子词切分方法（第七章），可以被理解为将词的一部分也进行切开，也就是得到词片段送给机器翻译系统使用。比如，对如下英文字符串，可以得到如下切分结果
 \vspace{0.5em}
@@ -388,9 +388,9 @@ F(X)=\int_{-\infty}^x f(x)dx
 \subsection{基于词典的分词方法}\index{Chapter2.3.1}
-\parinterval 然而，计算机并不能像人类一样在概念上理解``词''，因此需要使用其他方式让计算机可以进行分词。一个最简单的方法就是给定一个词典，在这个词典中出现的汉字组合就是我们定义的``词''。也就是，我们通过一个词典定义一个标准，符合这个标准定义的字符串都是合法的``词''。
+\parinterval 然而，计算机并不能像人类一样在概念上理解``词''，因此需要使用其他方式让计算机可以进行分词。一个最简单的方法就是给定一个词典，在这个词典中出现的汉字组合就是所定义的``词''。也就是，通过一个词典定义一个标准，符合这个标准定义的字符串都是合法的``词''。
-\parinterval 在使用基于词典的分词方法时，只需预先加载词典到计算机中，扫描输入句子，查询每个词串是否出现在词典中。如图\ref{fig:2.3-2} 所示，比如，我们有一个包含六个词的词典，给定输入句子``确实现在物价很高''后，我们自左至右遍历输入句子的每个字，发现词串``确实''在词典中出现，说明``确实''是一个``词''，进行分词操作并在切分该``词''之后重复这个过程。
+\parinterval 在使用基于词典的分词方法时，只需预先加载词典到计算机中，扫描输入句子，查询每个词串是否出现在词典中。如图\ref{fig:2.3-2} 所示，有一个包含六个词的词典，给定输入句子`` 确实现在物价很高''后，分词系统自左至右遍历输入句子的每个字，发现词串``确实''在词典中出现，说明``确实''是一个``词''，进行分词操作并在切分该``词''之后重复这个过程。
 %----------------------------------------------
 % 图2.8
 \begin{figure}[htp]
@@ -419,7 +419,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \subsection{基于统计的分词方法}\label{sec2:statistical-seg}\index{Chapter2.3.2}
-\parinterval 既然基于词典的方法有很多问题，我们就需要一种更为有效的方法。在上文中提到，想要搭建一个分词系统，需要让计算机知道什么是``词''，那么我们可不可以给出已经切分好的分词数据，让计算机在这些数据中学习到规律呢？答案是肯定的 - 利用``数据''来让计算机明白``词''的定义，让计算机直接在数据中学到知识，这就是我们常说的数据驱动的方法。这个过程也是一个典型的基于统计建模的学习过程。
+\parinterval 既然基于词典的方法有很多问题，那么就需要一种更为有效的方法。在上文中提到，想要搭建一个分词系统，需要让计算机知道什么是``词''，那么可不可以给出已经切分好的分词数据，让计算机在这些数据中学习到规律呢？答案是肯定的 - 利用``数据''来让计算机明白``词''的定义，让计算机直接在数据中学到知识，这就常说的数据驱动的方法。这个过程也是一个典型的基于统计建模的学习过程。
 \subsubsection{统计模型的学习与推断}\index{Chapter2.3.2.1}
@@ -449,7 +449,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \vspace{-0.5em}
 \subsubsection{掷骰子游戏}\index{Chapter2.3.2.2}
-\parinterval 上述过程的核心在于从数据中学习一种对分词现象的统计描述，即学习函数$\textrm{P}(\cdot)$。如何让计算机利用分词好的数据学习到分词的知识呢？可以先看一个有趣的实例，用我们生活中比较常见的掷骰子来说，掷一个骰子，玩家猜一个数字，猜中就算赢，按照一般的常识，随便选一个数字，获胜的概率是一样的，即我们所有选择的获胜概率仅是$1/6$。因此这个游戏玩家很难获胜，除非运气很好。假如，我们进行一次游戏，玩家随便选了一个数字，比如是1，投掷30骰子，得到命中$7/30 > 1/6$，还不错。
+\parinterval 上述过程的核心在于从数据中学习一种对分词现象的统计描述，即学习函数$\textrm{P}(\cdot)$。如何让计算机利用分词好的数据学习到分词的知识呢？可以先看一个有趣的实例，用生活中比较常见的掷骰子来说，掷一个骰子，玩家猜一个数字，猜中就算赢，按照一般的常识，随便选一个数字，获胜的概率是一样的，即所有选择的获胜概率仅是$1/6$。因此这个游戏玩家很难获胜，除非运气很好。假设进行一次游戏，玩家随便选了一个数字，比如是1，投掷30骰子，得到命中$7/30 > 1/6$，还不错。
 \vspace{-0.5em}
 %----------------------------------------------
 % 图2.11
@@ -483,13 +483,13 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{eq:2.3-2}
 \end{eqnarray}
-\noindent 这里，$\theta_1 \sim \theta_5$可以被看作是模型的参数，因此这个模型的自由度是5。对于这样的模型，参数确定了，模型也就确定了。但是，新的问题来了，在定义骰子每个面的概率后，如何求出具体的值呢？一种常用的方法是，从大量实例中学习模型参数，这个方法也是常说的{\small\bfnew{参数估计}}（Parameter Estimation）。我们可以将这个不均匀的骰子先实验性的掷很多次，这可以被看作是独立同分布的若干次采样，比如$X$ 次，发现``1'' 出现$X_1$ 次，``2'' 出现$X_2$ 次，以此类推，得到了各个面出现的次数。假设掷骰子中每个面出现的概率符合多项式分布，通过简单的概率论知识可以知道每个面出现概率的极大似然估计为：
+\noindent 这里，$\theta_1 \sim \theta_5$可以被看作是模型的参数，因此这个模型的自由度是5。对于这样的模型，参数确定了，模型也就确定了。但是，新的问题来了，在定义骰子每个面的概率后，如何求出具体的值呢？一种常用的方法是，从大量实例中学习模型参数，这个方法也是常说的{\small\bfnew{参数估计}}（Parameter Estimation）。可以将这个不均匀的骰子先实验性的掷很多次，这可以被看作是独立同分布的若干次采样，比如$X$ 次，发现``1'' 出现$X_1$ 次，``2'' 出现$X_2$ 次，以此类推，得到了各个面出现的次数。假设掷骰子中每个面出现的概率符合多项式分布，通过简单的概率论知识可以知道每个面出现概率的极大似然估计为：
 \begin{eqnarray}
 \textrm{P(``i'')}=\frac {X_i}{X}
 \label{eq:2.3-3}
 \end{eqnarray}
-\parinterval 当$X$足够大的时，$\frac{X_i}{X}$可以无限逼近P(``$i$'')的真实值，因此可以通过大量的实验推算出掷骰子各个面的概率的准确估计值。回归到我们的问题中，如果我们在正式开始游戏前，预先掷骰子30次，得到如图\ref{fig:2.3-6}的结果。
+\parinterval 当$X$足够大的时，$\frac{X_i}{X}$可以无限逼近P(``$i$'')的真实值，因此可以通过大量的实验推算出掷骰子各个面的概率的准确估计值。回归到原始的问题，如果在正式开始游戏前，预先掷骰子30次，得到如图\ref{fig:2.3-6}的结果。
 %----------------------------------------------
 % 图2.12
@@ -501,7 +501,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{figure}
 %-------------------------------------------
-\parinterval 于是，我们看到了一个有倾向性的模型（图 \ref{fig:2.3-7}）：在这样的预先实验基础上，我们知道如果再次玩掷骰子游戏的话，选则数字``4''获胜的可能性是最大的。
+\parinterval 于是，我们看到了一个有倾向性的模型（图 \ref{fig:2.3-7}）：在这样的预先实验基础上，可以知道如果再次玩掷骰子游戏的话，选则数字``4''获胜的可能性是最大的。
 %----------------------------------------------
 % 图2.13
@@ -513,7 +513,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{figure}
 %-------------------------------------------
-\parinterval 通过上面这个掷骰子的游戏，可以得到一个道理：{\small\sffamily\bfseries{上帝是不公平的}}。因为在``公平''的世界中，没有任何一个模型可以学到有价值的事情。从机器学习的角度来看，所谓的``不公平''实际上这是客观事物中蕴含的一种{\small\sffamily\bfseries{偏置}}（Bias），也就是很多事情天然就有对某些情况有倾向。而图像处理、自然语言处理等问题中绝大多数都存在着偏置。比如，我们翻译一个英文单词的时候，它最可能的翻译结果往往就是那几个词。我们设计统计模型的目的正是要学习这种偏置，之后利用这种偏置对新的问题做出足够好的决策。
+\parinterval 通过上面这个掷骰子的游戏，可以得到一个道理：{\small\sffamily\bfseries{上帝是不公平的}}。因为在``公平''的世界中，没有任何一个模型可以学到有价值的事情。从机器学习的角度来看，所谓的``不公平''实际上这是客观事物中蕴含的一种{\small\sffamily\bfseries{偏置}}（Bias），也就是很多事情天然就有对某些情况有倾向。而图像处理、自然语言处理等问题中绝大多数都存在着偏置。比如，我们翻译一个英文单词的时候，它最可能的翻译结果往往就是那几个词。设计统计模型的目的正是要学习这种偏置，之后利用这种偏置对新的问题做出足够好的决策。
 \subsubsection{全概率分词方法}\index{Chapter2.3.2.3}
@@ -539,7 +539,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{figure}
 %-------------------------------------------
-\parinterval 如果，我们把这些数字换成汉语中的词，比如
+\parinterval 如果，把这些数字换成汉语中的词，比如
 \parinterval 88\; = \; 这
@@ -549,7 +549,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \parinterval ...
-\parinterval 之后可以得到图\ref{fig:2.3-9}所示的结果。
+\parinterval 就可以得到图\ref{fig:2.3-9}所示的结果。
 %----------------------------------------------
 % 图2.15
@@ -562,7 +562,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \end{figure}
 %-------------------------------------------
-\parinterval 于是，在中文分词问题中，可以假设我们拥有一个不均匀的多面骰子，每个面都对应一个单词。我们获取人工分词标注数据后，可以统计每个单词出现的次数，进而利用极大似然估计推算出每个单词出现的概率的估计值。图\ref{fig:2.3-10}给出了一个实例。
+\parinterval 于是，在中文分词问题中，可以假设有一个不均匀的多面骰子，每个面都对应一个单词。在获取人工分词标注数据后，可以统计每个单词出现的次数，进而利用极大似然估计推算出每个单词出现的概率的估计值。图\ref{fig:2.3-10}给出了一个实例。
 %----------------------------------------------
 % 图2.16
@@ -606,7 +606,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \parinterval 最后再整体看一下分词系统的学习和使用过程。如图\ref {fig:2.3-8}所示，我们利用大量人工标注好的分词数据，通过统计学习方法获得一个统计模型$\textrm{P}(\cdot)$，给定任意分词结果$W=w_1 w_2...w_m$，都能通过$\textrm{P}(W)=\textrm{P}(w_1) \cdot \textrm{P}(w_2 ) \cdot ... \cdot \textrm{P}(w_m)$计算这种切分的概率值。
-\parinterval 经过充分训练的统计模型$\textrm{P}(\cdot)$就是我们得到分词模型。对于输入的新句子$S$，通过这个模型找到最佳的分词结果$W^*$输出。假设输入句子$S$是``确实现在数据很多''，可以通过列举获得不同切分方式的概率，其中概率最高的切分方式，就是我们的目标输出。
+\parinterval 经过充分训练的统计模型$\textrm{P}(\cdot)$就是得到的分词模型。对于输入的新句子$S$，通过这个模型找到最佳的分词结果$W^*$输出。假设输入句子$S$是``确实现在数据很多''，可以通过列举获得不同切分方式的概率，其中概率最高的切分方式，就是系统的目标输出。
 \parinterval 这种分词方法也被称作基于1-gram语言模型的分词，或全概率分词，使用标注好的分词数据进行学习，获得分词模型。这种方法最大的优点是整个学习过程（模型训练过程）和推导过程（处理新句子进行切分的过程）都是全自动进行的。虽然这种方法十分简单，但是其效率很高，因此被广泛使用在工业界系统里。
@@ -615,7 +615,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{$n$-gram语言模型 }\index{Chapter2.4}
-\parinterval 在基于统计的汉语分词模型中，我们通过``大题小做''的技巧，利用独立性假设把整个句子的单词切分概率转化为每个单个词出现概率的乘积。这里，每个单词也被称作1-gram（或uni-gram），而1-gram概率的乘积实际上也是在度量词序列出现的可能性（记为$\textrm{P}(w_1 w_2...w_m)$）。这种计算整个单词序列概率$\textrm{P}(w_1 w_2...w_m)$的方法被称为统计语言模型。1-gram语言模型是最简单的一种语言模型，它没有考虑任何的上下文。很自然的一个问题是：能否考虑上下文信息构建更强大的语言模型，进而得到更准确的分词结果。下面我们将进一步介绍更加通用的$n$-gram语言模型，它在机器翻译及其他自然语言处理任务中有更加广泛的应用。
+\parinterval 在基于统计的汉语分词模型中，我们通过``大题小做''的技巧，利用独立性假设把整个句子的单词切分概率转化为每个单个词出现概率的乘积。这里，每个单词也被称作1-gram（或uni-gram），而1-gram概率的乘积实际上也是在度量词序列出现的可能性（记为$\textrm{P}(w_1 w_2...w_m)$）。这种计算整个单词序列概率$\textrm{P}(w_1 w_2...w_m)$的方法被称为统计语言模型。1-gram语言模型是最简单的一种语言模型，它没有考虑任何的上下文。很自然的一个问题是：能否考虑上下文信息构建更强大的语言模型，进而得到更准确的分词结果。下面将进一步介绍更加通用的$n$-gram语言模型，它在机器翻译及其他自然语言处理任务中有更加广泛的应用。
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsection{建模}\index{Chapter2.4.1}
@@ -683,7 +683,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \parinterval 极大似然估计方法和前面介绍的统计分词中的方法是一致的，它的核心是使用$n$-gram出现的频度进行参数估计，因此是也自然语言处理中一类经典的$n$-gram方法。基于人工神经网络的方法在近些年也非常受关注，它直接利用多层神经网络对问题的输入$(w_{m-n+1}...w_{m-1})$和输出$\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$进行建模，而模型的参数通过网络中神经元之间连接的权重进行体现。严格意义上了来说，基于人工神经网络的方法并不算基于$n$-gram的方法，或者说它并没有显性记录$n$-gram的生成概率，也不依赖$n$-gram的频度进行参数估计。为了保证内容的连贯性，本章将仍以传统$n$-gram语言模型为基础进行讨论，基于人工神经网络的方法将会在第五章和第六章进行详细介绍。
-\parinterval $n$-gram语言模型的使用非常简单。我们可以像\ref{sec2:statistical-seg}节中一样，直接用它来对词序列出现的概率进行计算。比如，可以使用一个2-gram语言模型计算一个分词序列的概率：
+\parinterval $n$-gram语言模型的使用非常简单。可以像\ref{sec2:statistical-seg}节中一样，直接用它来对词序列出现的概率进行计算。比如，可以使用一个2-gram语言模型计算一个分词序列的概率：
 \begin{eqnarray}
 & &\textrm{P}_{2-gram}{(\textrm{``确实}/\textrm{现在}/\textrm{数据}/\textrm{很}/\textrm{多''})} \nonumber \\
@@ -692,7 +692,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{eq:2.4-4}
 \end{eqnarray}
-\parinterval 以$n$-gram语言模型为代表的统计语言模型的应用非常广泛。除了分词，在文本生成、信息检索、摘要等自然语言处理任务中，语言模型都有举足轻重的地位。包括近些年非常受关注的预训练模型，本质上也是统计语言模型。这些技术都会在后续章节进行介绍。值得注意的是，统计语言模型给我们解决自然语言处理问题提供了一个非常好的建模思路，即：把整个序列生成的问题转化为逐个生成单词的问题。很快我们就会看到，这种建模方式会被广泛的用于机器翻译建模，在统计机器翻译和神经机器翻译中都会有明显的体现。
+\parinterval 以$n$-gram语言模型为代表的统计语言模型的应用非常广泛。除了分词，在文本生成、信息检索、摘要等自然语言处理任务中，语言模型都有举足轻重的地位。包括近些年非常受关注的预训练模型，本质上也是统计语言模型。这些技术都会在后续章节进行介绍。值得注意的是，统计语言模型为解决自然语言处理问题提供了一个非常好的建模思路，即：把整个序列生成的问题转化为逐个生成单词的问题。很快我们就会看到，这种建模方式会被广泛的用于机器翻译建模，在统计机器翻译和神经机器翻译中都会有明显的体现。
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsection{未登录词和平滑算法}\label{sec2:smoothing}\index{Chapter2.4.2}
@@ -724,7 +724,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsubsection{加法平滑方法}\index{Chapter2.4.2.1}
-\parinterval {\small\bfnew{加法平滑}}（Additive Smoothing）是一种简单的平滑技术。我们首先介绍这一方法，希望通过它了解平滑算法的思想。通常情况下，我们会利用采集到的语料库来模拟真实的全部语料库。当然，没有一个语料库能覆盖所有的语言现象。常见的一个问题是，使用的语料无法涵盖所有的词汇。因此，直接依据这样语料所获得的统计信息来获取语言模型就会产生偏差。假设依据某语料$C$ （从未出现`` 确实 现在''二元语法），评估一个已经分好词的句子$S$ =``确实/现在/物价/很/高''的概率。当计算``确实/现在''的概率时，$\textrm{P}(S) = 0$。显然这个结果是不合理的。
+\parinterval {\small\bfnew{加法平滑}}（Additive Smoothing）是一种简单的平滑技术。本小节首先介绍这一方法，希望通过它了解平滑算法的思想。通常情况下，系统研发者会利用采集到的语料库来模拟真实的全部语料库。当然，没有一个语料库能覆盖所有的语言现象。常见的一个问题是，使用的语料无法涵盖所有的词汇。因此，直接依据这样语料所获得的统计信息来获取语言模型就会产生偏差。假设依据某语料$C$ （从未出现`` 确实 现在''二元语法），评估一个已经分好词的句子$S$ =``确实/现在/物价/很/高''的概率。当计算``确实/现在''的概率时，$\textrm{P}(S) = 0$。显然这个结果是不合理的。
 \parinterval 加法平滑方法假设每个$n$-gram出现的次数比实际统计次数多$\theta$次，$0 \le \theta\le 1$。这样，计算概率的时候分子部分不会为0。重新计算$\textrm{P}(\textrm{现在}|\textrm{确实})$，可以得到：
@@ -734,7 +734,7 @@ F(X)=\int_{-\infty}^x f(x)dx
 \label{eq:2.4-7}
 \end{eqnarray}
-\noindent 其中，$V$表示所有词汇的词表，$|V|$为词表中单词的个数，$w$为词典中的一个词。有时候，加法平滑方法会将$\theta$取1，这时我们称之为加一平滑或是拉普拉斯平滑。这种方法比较容易理解，也比较简单，因此也往往被用于对系统的快速原型中。
+\noindent 其中，$V$表示所有词汇的词表，$|V|$为词表中单词的个数，$w$为词典中的一个词。有时候，加法平滑方法会将$\theta$取1，这时称之为加一平滑或是拉普拉斯平滑。这种方法比较容易理解，也比较简单，因此也往往被用于对系统的快速原型中。
 \parinterval 举一个例子。假设在一个英文文档中随机一些单词（词表大小$|V|=20$），各个单词出现的次数为：``look'': 4，``people'': 3，``am'': 2，``what'': 1，``want'': 1，``do'': 1。图\ref{fig:2.4-2} 给出了在平滑之前和平滑之后的概率分布。
@@ -789,7 +789,7 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\
 \noindent 其中$n_1/N$就是分配给所有出现为0次事件的概率。古德-图灵方法最终通过出现1次的$n$-gram估计了出现为0次的事件概率，达到了平滑的效果。
-\parinterval 我们使用一个例子来说明这个方法是如何对事件出现的可能性进行平滑的。仍然考虑在加法平滑法中统计单词的例子，根据古德-图灵方法进行修正如表\ref{tab::2.4-2}所示。
+\parinterval 这里使用一个例子来说明这个方法是如何对事件出现的可能性进行平滑的。仍然考虑在加法平滑法中统计单词的例子，根据古德-图灵方法进行修正如表\ref{tab::2.4-2}所示。
 %------------------------------------------------------
 % 表1.3
@@ -835,9 +835,9 @@ I cannot see without my reading \underline{\ \ \ \ \ \ \ \ }
 \end{center}
 \vspace{0.0em}
-\noindent 直觉上我们会猜测这个地方的词应该是glasses，但是在训练语料库中Francisco 出现的频率非常高。如果在预测时仍然使用的是标准的1-gram模型，那么系统会高概率选择Francisco填入下划线出，这个结果明显是不合理的。当使用的是混合的插值模型时，如果reading Francisco这种二元语法并没有出现在语料中，就会导致1-gram对结果的影响变大，使得仍然会做出与标准1-gram模型相同的结果，犯下相同的错误。
+\noindent 直觉上应该会猜测这个地方的词应该是glasses，但是在训练语料库中Francisco 出现的频率非常高。如果在预测时仍然使用的是标准的1-gram模型，那么系统会高概率选择Francisco填入下划线出，这个结果明显是不合理的。当使用的是混合的插值模型时，如果reading Francisco这种二元语法并没有出现在语料中，就会导致1-gram对结果的影响变大，使得仍然会做出与标准1-gram模型相同的结果，犯下相同的错误。
-\parinterval 观察语料中的2-gram发现，Francisco的前一个词仅可能是San，不会出现reading。这个分析提醒了我们，考虑前一个词的影响是有帮助的，比如仅在前一个词时San时，我们才给Francisco赋予一个较高的概率值。基于这种想法，改进原有的1-gram模型，创造一个新的1-gram模型$\textrm{P}_{\textrm{continuation}}$，简写为$\textrm{P}_{\textrm{cont}}$。这个模型可以通过考虑前一个词的影响评估当前词作为第二个词出现的可能性。
+\parinterval 观察语料中的2-gram发现，Francisco的前一个词仅可能是San，不会出现reading。这个分析提醒了我们，考虑前一个词的影响是有帮助的，比如仅在前一个词时San时，才给Francisco赋予一个较高的概率值。基于这种想法，改进原有的1-gram模型，创造一个新的1-gram模型$\textrm{P}_{\textrm{continuation}}$，简写为$\textrm{P}_{\textrm{cont}}$。这个模型可以通过考虑前一个词的影响评估当前词作为第二个词出现的可能性。
 \parinterval 为了评估$\textrm{P}_{\textrm{cont}}$，统计使用当前词作为第二个词所出现二元语法的种类，二元语法种类越多，这个词作为第二个词出现的可能性越高，呈正比：
 \begin{eqnarray}
@@ -887,7 +887,7 @@ c_{\textrm{KN}}(\cdot) & = & \begin{cases} \textrm{count}(\cdot)\quad\quad \text
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{句法分析（短语结构分析）}\index{Chapter2.5}
-\parinterval 通过前面两节的内容，我们已经了解什么叫做``词''、如何对分词问题进行统计建模。同时也了解了如何对词序列的生成进行概率描述。无论是分词还是语言模型都是句子浅层词串信息的一种表示。对于一个自然语言句子来说，它更深层次的结构信息可以通过句法信息来描述，而句法信息也是机器翻译和自然语言处理其他任务中常用的知识之一。
+\parinterval 通过前面两节的内容，已经了解什么叫做``词''、如何对分词问题进行统计建模。同时也了解了如何对词序列的生成进行概率描述。无论是分词还是语言模型都是句子浅层词串信息的一种表示。对于一个自然语言句子来说，它更深层次的结构信息可以通过句法信息来描述，而句法信息也是机器翻译和自然语言处理其他任务中常用的知识之一。
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsection{句子的句法树表示}\index{Chapter2.5.1}
@@ -956,7 +956,7 @@ c_{\textrm{KN}}(\cdot) & = & \begin{cases} \textrm{count}(\cdot)\quad\quad \text
 \end{definition}
 %-------------------------------------------
-\parinterval 举例说明，假设有上下文无关文法$G=<N,\Sigma,R,S>$，我们用它描述一个简单中文句法结构。其中非终结符集合为不同的中文句法标记
+\parinterval 举例说明，假设有上下文无关文法$G=<N,\Sigma,R,S>$，可以用它描述一个简单中文句法结构。其中非终结符集合为不同的中文句法标记
 \begin{eqnarray}
 N=\{\textrm{NN},\textrm{VV},\textrm{NP},\textrm{VP},\textrm{IP}\} \nonumber
 \label{eq:2.5-1}
@@ -993,7 +993,7 @@ S=\{\textrm{IP}\} \nonumber
 %-------------------------------------------
 \begin{definition} 上下文无关文法规则的使用
-一个符号序列$u$可以通过使用规则$r$替换其中的某个非终结符，并得到符号序列$v$,我们说$v$是在$u$上使用$r$的结果，记为$u \overset{r}{\Rightarrow} v$：
+一个符号序列$u$可以通过使用规则$r$替换其中的某个非终结符，并得到符号序列$v$，于是$v$是在$u$上使用$r$的结果，记为$u \overset{r}{\Rightarrow} v$：
 \begin{center}
 \input{./Chapter2/Figures/figure-usage-of-regulation}
 \end{center}
@@ -1014,7 +1014,7 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{
 \end{displaymath}
 且
-\begin{itemize} 
+\begin{itemize}
 \item $\forall i \in [0,n], s_i \in (N\cup\Sigma)^*$ \hspace{3.5em} $\lhd$ $s_i$为合法的字符串
 \item $\forall j \in [1,n], r_j \in R$ \hspace{6.3em} $\lhd$ $r_j$为$G$的规则
 \item $s_0 \in S$ \hspace{10.9em} $\lhd$ $s_0$为起始非终结符
@@ -1026,7 +1026,7 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{
 \end{definition}
 %-------------------------------------------
-\parinterval 比如，使用前面的示例文法，可以对``猫 喜欢 吃 鱼''进行分析，并形成句法分析树（图\ref{fig:2.5-4}）。我们从起始非终结符IP开始，使用唯一拥有IP作为左部的规则$r_8$推导出NP和VP，之后依次使用规则$r_5$、$r_1$、$r_7$、$r_2$、$r_6$、$r_3$、$r_4$，得到了完整的句法树。
+\parinterval 比如，使用前面的示例文法，可以对``猫 喜欢 吃 鱼''进行分析，并形成句法分析树（图\ref{fig:2.5-4}）。从起始非终结符IP开始，使用唯一拥有IP作为左部的规则$r_8$推导出NP和VP，之后依次使用规则$r_5$、$r_1$、$r_7$、$r_2$、$r_6$、$r_3$、$r_4$，得到了完整的句法树。
 %-------------------------------------------
 % 图2.5.2.3
 \begin{figure}[htp]
@@ -1040,7 +1040,7 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{
 \parinterval 通常，可以把推导简记为$d=r_1 \circ r_2 \circ ... \circ r_n$，其中$ \circ $表示规则的组合。显然，$d$也对应了树形结构，也就是句法分析结果。从这个角度看，推导就是描述句法分析树的一种方式。此外，规则的推导也把规则的使用过程与生成的字符串对应起来。一个推导所生成的字符串，也被称作文法所产生的一个{\small\bfnew{句子}}（Sentence）。而一个文法所能生成的所有句子是这个文法所对应的{\small\bfnew{语言}}（Language）。
-\parinterval 但是，句子和规则的推导并不是一一对应的。同一个句子，往往有很多推导的方式，我们称为{\small\bfnew{歧义}}（Ambiguity）。甚至同一棵句法树，也可以对应不同的推导。图\ref{fig:2.5-5}给出同一棵句法树所对应的两种不同的规则推导。
+\parinterval 但是，句子和规则的推导并不是一一对应的。同一个句子，往往有很多推导的方式，这种现象被称为{\small\bfnew{歧义}}（Ambiguity）。甚至同一棵句法树，也可以对应不同的推导。图\ref{fig:2.5-5} 给出同一棵句法树所对应的两种不同的规则推导。
 %-------------------------------------------
 %图2.5.2.4
@@ -1069,7 +1069,7 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{
 \end{figure}
 %-------------------------------------------
-\parinterval 在统计句法分析中，我们需要对每个推导进行统计建模，于是我们得到一个模型$\textrm{P}( \cdot )$，对于任意的推导$d$，都可以用$\textrm{P}(d)$计算出推导$d$的概率。这样，给定一个输入句子，我们可以对所有可能的推导用$\textrm{P}(d)$计算其概率值，并选择概率最大的结果作为句法分析的结果输出（图\ref{fig:2.5-7}）。
+\parinterval 在统计句法分析中，需要对每个推导进行统计建模，于是定义一个模型$\textrm{P}( \cdot )$，对于任意的推导$d$，都可以用$\textrm{P}(d)$计算出推导$d$的概率。这样，给定一个输入句子，我们可以对所有可能的推导用$\textrm{P}(d)$计算其概率值，并选择概率最大的结果作为句法分析的结果输出（图\ref{fig:2.5-7}）。
 %-------------------------------------------
 %图2.5.2.6
 \begin{figure}[htp]
@@ -1134,7 +1134,7 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
 \label{eq:2.5-7}
 \end{eqnarray}
-\parinterval 图\ref{fig:2.5-8}展示了通过这种方法计算规则概率的过程。与词法分析类似，我们统计树库中规则左部和右部同时出现的次数，除以规则左部出现的全部次数，所得的结果就是所求规则的概率。这种方法也是典型的相对频度估计。但是如果规则左部和右部同时出现的次数为0时是否代表这个规则概率是0呢？遇到这种情况，可以使用平滑方法对概率进行平滑处理，具体思路可参考\ref{sec2:smoothing}节内容。
+\parinterval 图\ref{fig:2.5-8}展示了通过这种方法计算规则概率的过程。与词法分析类似，可以统计树库中规则左部和右部同时出现的次数，除以规则左部出现的全部次数，所得的结果就是所求规则的概率。这种方法也是典型的相对频度估计。但是如果规则左部和右部同时出现的次数为0时是否代表这个规则概率是0呢？遇到这种情况，可以使用平滑方法对概率进行平滑处理，具体思路可参考\ref{sec2:smoothing}节内容。
 %-------------------------------------------
 % 图2.5.3.1
@@ -1168,7 +1168,7 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{小结及深入阅读} \label{sec2:summary}\index{Chapter2.6}
-\parinterval 在本章中，我们重点介绍了如何对自然语言处理问题进行统计建模，并从数据中自动学习统计模型的参数，最终使用学习到的模型对新的问题进行处理。之后，我们将这种思想应用到三个自然语言处理任务中，包括：中文分词、语言建模、句法分析，它们也和机器翻译有着紧密的联系。通过系统化的建模，可以发现：经过适当的假设和化简，统计模型可以很好的描述复杂的自然语言处理问题。相关概念和方法也会在后续章节的内容中被广泛使用。
+\parinterval 本章重点介绍了如何对自然语言处理问题进行统计建模，并从数据中自动学习统计模型的参数，最终使用学习到的模型对新的问题进行处理。之后，本章将这种思想应用到三个自然语言处理任务中，包括：中文分词、语言建模、句法分析，它们也和机器翻译有着紧密的联系。通过系统化的建模，可以发现：经过适当的假设和化简，统计模型可以很好的描述复杂的自然语言处理问题。相关概念和方法也会在后续章节的内容中被广泛使用。
 \parinterval 由于本章重点关注介绍如何用统计的思想对自然语言处理任务进行建模，因此并没有对具体的问题展开深入讨论。有几方面内容，读者可以继续关注：

--- a/Book/Chapter3/Chapter3.tex
+++ b/Book/Chapter3/Chapter3.tex
--- a/Book/mt-book-xelatex.idx
+++ b/Book/mt-book-xelatex.idx
@@ -7,7 +7,7 @@
 \indexentry{Chapter3.2.2|hyperpage}{13}
 \indexentry{Chapter3.2.3|hyperpage}{14}
 \indexentry{Chapter3.2.3.1|hyperpage}{14}
-\indexentry{Chapter3.2.3.2|hyperpage}{15}
+\indexentry{Chapter3.2.3.2|hyperpage}{14}
 \indexentry{Chapter3.2.3.3|hyperpage}{16}
 \indexentry{Chapter3.2.4|hyperpage}{17}
 \indexentry{Chapter3.2.4.1|hyperpage}{17}
@@ -17,7 +17,7 @@
 \indexentry{Chapter3.3.1|hyperpage}{24}
 \indexentry{Chapter3.3.2|hyperpage}{26}
 \indexentry{Chapter3.3.2.1|hyperpage}{27}
-\indexentry{Chapter3.3.2.2|hyperpage}{28}
+\indexentry{Chapter3.3.2.2|hyperpage}{27}
 \indexentry{Chapter3.3.2.3|hyperpage}{29}
 \indexentry{Chapter3.4|hyperpage}{30}
 \indexentry{Chapter3.4.1|hyperpage}{30}
@@ -26,16 +26,16 @@
 \indexentry{Chapter3.4.4|hyperpage}{34}
 \indexentry{Chapter3.4.4.1|hyperpage}{34}
 \indexentry{Chapter3.4.4.2|hyperpage}{35}
-\indexentry{Chapter3.5|hyperpage}{41}
+\indexentry{Chapter3.5|hyperpage}{40}
 \indexentry{Chapter3.5.1|hyperpage}{41}
-\indexentry{Chapter3.5.2|hyperpage}{44}
+\indexentry{Chapter3.5.2|hyperpage}{43}
 \indexentry{Chapter3.5.3|hyperpage}{45}
-\indexentry{Chapter3.5.4|hyperpage}{47}
+\indexentry{Chapter3.5.4|hyperpage}{46}
 \indexentry{Chapter3.5.5|hyperpage}{48}
-\indexentry{Chapter3.5.5|hyperpage}{51}
+\indexentry{Chapter3.5.5|hyperpage}{50}
-\indexentry{Chapter3.6|hyperpage}{51}
+\indexentry{Chapter3.6|hyperpage}{50}
 \indexentry{Chapter3.6.1|hyperpage}{51}
-\indexentry{Chapter3.6.2|hyperpage}{52}
+\indexentry{Chapter3.6.2|hyperpage}{51}
-\indexentry{Chapter3.6.4|hyperpage}{53}
+\indexentry{Chapter3.6.4|hyperpage}{52}
-\indexentry{Chapter3.6.5|hyperpage}{54}
+\indexentry{Chapter3.6.5|hyperpage}{53}
-\indexentry{Chapter3.7|hyperpage}{54}
+\indexentry{Chapter3.7|hyperpage}{53}
--- a/Book/mt-book-xelatex.ptc
+++ b/Book/mt-book-xelatex.ptc
 \boolfalse {citerequest}\boolfalse {citetracker}\boolfalse {pagetracker}\boolfalse {backtracker}\relax 
 \babel@toc {english}{}
 \defcounter {refsection}{0}\relax 
-\contentsline {part}{\@mypartnumtocformat {I}{统计机器翻译}}{7}{part.1}% 
+\contentsline {part}{\@mypartnumtocformat {I}{统计机器翻译}}{7}{part.1}%
 \ttl@starttoc {default@1}
 \defcounter {refsection}{0}\relax 
-\contentsline {chapter}{\numberline {1}基于词的机器翻译模型}{9}{chapter.1}% 
+\contentsline {chapter}{\numberline {1}基于词的机器翻译模型}{9}{chapter.1}%
 \defcounter {refsection}{0}\relax 
-\contentsline {section}{\numberline {1.1}什么是基于词的翻译模型}{9}{section.1.1}% 
+\contentsline {section}{\numberline {1.1}什么是基于词的翻译模型}{9}{section.1.1}%
 \defcounter {refsection}{0}\relax 
-\contentsline {section}{\numberline {1.2}构建一个简单的机器翻译系统}{11}{section.1.2}% 
+\contentsline {section}{\numberline {1.2}构建一个简单的机器翻译系统}{11}{section.1.2}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.2.1}如何进行翻译？}{11}{subsection.1.2.1}% 
+\contentsline {subsection}{\numberline {1.2.1}如何进行翻译？}{11}{subsection.1.2.1}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{机器翻译流程}{12}{section*.6}% 
+\contentsline {subsubsection}{机器翻译流程}{12}{section*.6}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{人工翻译 vs. 机器翻译}{13}{section*.8}% 
+\contentsline {subsubsection}{人工翻译 vs. 机器翻译}{13}{section*.8}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.2.2}基本框架}{13}{subsection.1.2.2}% 
+\contentsline {subsection}{\numberline {1.2.2}基本框架}{13}{subsection.1.2.2}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.2.3}单词翻译概率}{14}{subsection.1.2.3}% 
+\contentsline {subsection}{\numberline {1.2.3}单词翻译概率}{14}{subsection.1.2.3}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{什么是单词翻译概率？}{14}{section*.10}% 
+\contentsline {subsubsection}{什么是单词翻译概率？}{14}{section*.10}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{如何从一个双语平行数据中学习？}{15}{section*.12}% 
+\contentsline {subsubsection}{如何从一个双语平行数据中学习？}{14}{section*.12}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{如何从大量的双语平行数据中学习？}{16}{section*.13}% 
+\contentsline {subsubsection}{如何从大量的双语平行数据中学习？}{16}{section*.13}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.2.4}句子级翻译模型}{17}{subsection.1.2.4}% 
+\contentsline {subsection}{\numberline {1.2.4}句子级翻译模型}{17}{subsection.1.2.4}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{基础模型}{17}{section*.15}% 
+\contentsline {subsubsection}{基础模型}{17}{section*.15}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{生成流畅的译文}{19}{section*.17}% 
+\contentsline {subsubsection}{生成流畅的译文}{19}{section*.17}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.2.5}解码}{21}{subsection.1.2.5}% 
+\contentsline {subsection}{\numberline {1.2.5}解码}{21}{subsection.1.2.5}%
 \defcounter {refsection}{0}\relax 
-\contentsline {section}{\numberline {1.3}基于词的翻译建模}{24}{section.1.3}% 
+\contentsline {section}{\numberline {1.3}基于词的翻译建模}{24}{section.1.3}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.3.1}噪声信道模型}{24}{subsection.1.3.1}% 
+\contentsline {subsection}{\numberline {1.3.1}噪声信道模型}{24}{subsection.1.3.1}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.3.2}统计机器翻译的三个基本问题}{26}{subsection.1.3.2}% 
+\contentsline {subsection}{\numberline {1.3.2}统计机器翻译的三个基本问题}{26}{subsection.1.3.2}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{词对齐}{27}{section*.26}% 
+\contentsline {subsubsection}{词对齐}{27}{section*.26}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{基于词对齐的翻译模型}{28}{section*.29}% 
+\contentsline {subsubsection}{基于词对齐的翻译模型}{27}{section*.29}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{基于词对齐的翻译实例}{29}{section*.31}% 
+\contentsline {subsubsection}{基于词对齐的翻译实例}{29}{section*.31}%
 \defcounter {refsection}{0}\relax 
-\contentsline {section}{\numberline {1.4}IBM模型1-2}{30}{section.1.4}% 
+\contentsline {section}{\numberline {1.4}IBM模型1-2}{30}{section.1.4}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.4.1}IBM模型1}{30}{subsection.1.4.1}% 
+\contentsline {subsection}{\numberline {1.4.1}IBM模型1}{30}{subsection.1.4.1}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.4.2}IBM模型2}{32}{subsection.1.4.2}% 
+\contentsline {subsection}{\numberline {1.4.2}IBM模型2}{32}{subsection.1.4.2}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.4.3}解码及计算优化}{33}{subsection.1.4.3}% 
+\contentsline {subsection}{\numberline {1.4.3}解码及计算优化}{33}{subsection.1.4.3}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.4.4}训练}{34}{subsection.1.4.4}% 
+\contentsline {subsection}{\numberline {1.4.4}训练}{34}{subsection.1.4.4}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{目标函数}{34}{section*.36}% 
+\contentsline {subsubsection}{目标函数}{34}{section*.36}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{优化}{35}{section*.38}% 
+\contentsline {subsubsection}{优化}{35}{section*.38}%
 \defcounter {refsection}{0}\relax 
-\contentsline {section}{\numberline {1.5}IBM模型3-5及隐马尔可夫模型}{41}{section.1.5}% 
+\contentsline {section}{\numberline {1.5}IBM模型3-5及隐马尔可夫模型}{40}{section.1.5}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.5.1}基于产出率的翻译模型}{41}{subsection.1.5.1}% 
+\contentsline {subsection}{\numberline {1.5.1}基于产出率的翻译模型}{41}{subsection.1.5.1}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.5.2}IBM 模型3}{44}{subsection.1.5.2}% 
+\contentsline {subsection}{\numberline {1.5.2}IBM 模型3}{43}{subsection.1.5.2}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.5.3}IBM 模型4}{45}{subsection.1.5.3}% 
+\contentsline {subsection}{\numberline {1.5.3}IBM 模型4}{45}{subsection.1.5.3}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.5.4} IBM 模型5}{47}{subsection.1.5.4}% 
+\contentsline {subsection}{\numberline {1.5.4} IBM 模型5}{46}{subsection.1.5.4}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.5.5}隐马尔可夫模型}{48}{subsection.1.5.5}% 
+\contentsline {subsection}{\numberline {1.5.5}隐马尔可夫模型}{48}{subsection.1.5.5}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{隐马尔可夫模型}{49}{section*.50}% 
+\contentsline {subsubsection}{隐马尔可夫模型}{48}{section*.50}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsubsection}{词对齐模型}{50}{section*.52}% 
+\contentsline {subsubsection}{词对齐模型}{49}{section*.52}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.5.6}解码和训练}{51}{subsection.1.5.6}% 
+\contentsline {subsection}{\numberline {1.5.6}解码和训练}{50}{subsection.1.5.6}%
 \defcounter {refsection}{0}\relax 
-\contentsline {section}{\numberline {1.6}问题分析}{51}{section.1.6}% 
+\contentsline {section}{\numberline {1.6}问题分析}{50}{section.1.6}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.6.1}词对齐及对称化}{51}{subsection.1.6.1}% 
+\contentsline {subsection}{\numberline {1.6.1}词对齐及对称化}{51}{subsection.1.6.1}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.6.2}Deficiency}{52}{subsection.1.6.2}% 
+\contentsline {subsection}{\numberline {1.6.2}Deficiency}{51}{subsection.1.6.2}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.6.3}句子长度}{53}{subsection.1.6.3}% 
+\contentsline {subsection}{\numberline {1.6.3}句子长度}{52}{subsection.1.6.3}%
 \defcounter {refsection}{0}\relax 
-\contentsline {subsection}{\numberline {1.6.4}其他问题}{54}{subsection.1.6.4}% 
+\contentsline {subsection}{\numberline {1.6.4}其他问题}{53}{subsection.1.6.4}%
 \defcounter {refsection}{0}\relax 
-\contentsline {section}{\numberline {1.7}小结及深入阅读}{54}{section.1.7}% 
+\contentsline {section}{\numberline {1.7}小结及深入阅读}{53}{section.1.7}%
 \contentsfinish