第二章框架

149ed7bc · 单韦乔 · 94a73952 · 149ed7bc
Commit 149ed7bc authored Jul 01, 2020 by 单韦乔
--- a/Chapter2/chapter2.tex
+++ b/Chapter2/chapter2.tex
@@ -37,14 +37,20 @@
 %----------------------------------------------------------------------------------------

 \sectionnewpage
-\section{概率论基础}
-\parinterval 为了便于后续内容的介绍，首先对本书中使用的概率和统计学概念进行说明。
+\section{数学基础}
+\parinterval 为了便于后续内容的介绍，首先对本书中将会对概率和统计学概念以及线性代数相关概念进行说明。这些概念被广泛应用于科学和工程中，在神经机器翻译以及统计机器翻译中也大量使用了这些数学工具。因此，这里对相关概念进行简要介绍，以方便对本书后续内容的理解。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsection{随机变量和概率}
+\subsection{概率论基础}
+
+%----------------------------------------------------------------------------------------
+%    NEW SUBSUB-SECTION
+%----------------------------------------------------------------------------------------
+
+\subsubsection{随机变量和概率}
 \parinterval 在自然界中，很多{\small\bfnew{事件}}\index{事件}（Event）\index{Event}是否会发生是不确定的。例如，明天会下雨、掷一枚硬币是正面朝上、扔一个骰子的点数是5$\cdots\cdots$这类事件可能会发生也可能不会发生。通过大量的重复试验，能发现其具有某种规律性的事件叫做{\small\sffamily\bfseries{随机事件}}\index{随机事件}。

 \parinterval {\small\sffamily\bfseries{随机变量}}\index{随机变量}（Random Variable）\index{Random Variable}是对随机事件发生可能状态的描述，是随机事件的数量表征。设$\Omega = \{ \omega \}$为一个随机试验的样本空间，$X=X(\omega)$就是定义在样本空间$\Omega$上的单值实数函数，即$X=X(\omega)$为随机变量，记为$X$。随机变量是一种能随机选取数值的变量，常用大写的英文字母或希腊字母表示，其取值通常用小写字母来表示。例如，用$A$ 表示一个随机变量，用$a$表示变量$A$的一个取值。根据随机变量可以选取的值的某些性质，可以将其划分为离散变量和连续变量。
@@ -92,10 +98,10 @@ F(x)=\int_{-\infty}^x f(x)dx
 \end{eqnarray}

 %----------------------------------------------------------------------------------------
-%    NEW SUB-SECTION
+%    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsection{联合概率、条件概率和边缘概率}
+\subsubsection{联合概率、条件概率和边缘概率}
 \parinterval {\small\sffamily\bfseries{联合概率}}\index{联合概率}（Joint Probability）\index{Joint Probability}是指多个事件共同发生，每个随机变量满足各自条件的概率，表示为$\textrm{P}(AB)$或$\textrm{P}(A\cap{B})$。{\small\sffamily\bfseries{条件概率}}\index{条件概率}（Conditional Probability）\index{Conditional Probability}是指$A$、$B$为任意的两个事件，在事件$A$已出现的前提下，事件$B$出现的概率，使用$\textrm{P}(B \mid A)$表示。

 \parinterval 贝叶斯法则（见\ref{sec:2.2.3}小节）是条件概率计算时的重要依据，条件概率可以表示为
@@ -140,10 +146,10 @@ F(x)=\int_{-\infty}^x f(x)dx
 %-------------------------------------------

 %----------------------------------------------------------------------------------------
-%    NEW SUB-SECTION
+%    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsection{链式法则}
+\subsubsection{链式法则}

 \parinterval 条件概率公式$\textrm{P}(A \mid B)=\textrm{P}(AB)/\textrm{P}(B)$反映了事件$B$发生的条件下事件$A$发生的概率。如果将其推广到三个事件$A$、$B$、$C$，为了计算$\textrm{P}(A,B,C)$，我们可以运用两次$\textrm{P}(A \mid B)=\textrm{P}(AB)/\textrm{P}(B)$，计算过程如下：
 \begin{eqnarray}
@@ -186,10 +192,10 @@ F(x)=\int_{-\infty}^x f(x)dx
 \end{eqnarray}

 %----------------------------------------------------------------------------------------
-%    NEW SUB-SECTION
+%    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsection{贝叶斯法则}\label{sec:2.2.3}
+\subsubsection{贝叶斯法则}\label{sec:2.2.3}

 \parinterval 首先介绍一下全概率公式：{\small\bfnew{全概率公式}}\index{全概率公式}（Law of Total Probability）\index{Law of Total Probability}是概率论中重要的公式，它可以将一个复杂事件发生的概率分解成不同情况的小事件发生概率的和。这里先介绍一个概念——划分。集合$S$的一个划分事件为$\{B_1,...,B_n\}$是指它们满足$\bigcup_{i=1}^n B_i=S \textrm{且}B_iB_j=\varnothing , i,j=1,...,n,i\neq j$。此时事件$A$的全概率公式可以被描述为：

@@ -234,21 +240,21 @@ F(x)=\int_{-\infty}^x f(x)dx
 \label{eq:2-12}
 \end{eqnarray}

-\parinterval 贝叶斯公式常用于根据已知的结果来推断使之发生的各因素的可能性。 \\ \\ 
+\parinterval 贝叶斯公式常用于根据已知的结果来推断使之发生的各因素的可能性。

 %----------------------------------------------------------------------------------------
-%    NEW SUB-SECTION
+%    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsection{KL距离和熵}
+\subsubsection{KL距离和熵}

 %----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
+%    NEW SUBSUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{信息熵}
+{\small\bfnew{信息熵}}

-\parinterval {\small\sffamily\bfseries{熵}}\index{熵}（Entropy）\index{Entropy}是热力学中的一个概念，同时也是对系统无序性的一种度量标准。在自然语言处理领域也会使用到信息熵这一概念，比如描述文字的信息量大小。一条信息的信息量可以被看作是这条信息的不确定性。如果需要确认一件非常不确定甚至于一无所知的事情，那么需要理解大量的相关信息才能进行确认；同样的，如果对某件事已经非常确定，那么就不需要太多的信息就可以把它搞清楚。如下就是两个例子，
+\parinterval {\small\bfnew{熵}}\index{熵}（Entropy）\index{Entropy}是热力学中的一个概念，同时也是对系统无序性的一种度量标准。在自然语言处理领域也会使用到信息熵这一概念，比如描述文字的信息量大小。一条信息的信息量可以被看作是这条信息的不确定性。如果需要确认一件非常不确定甚至于一无所知的事情，那么需要理解大量的相关信息才能进行确认；同样的，如果对某件事已经非常确定，那么就不需要太多的信息就可以把它搞清楚。如下就是两个例子，

 \begin{example}
 确定性和不确定性的事件
@@ -286,10 +292,10 @@ F(x)=\int_{-\infty}^x f(x)dx
 \parinterval 一个分布的信息熵也就是从该分布中得到的一个事件的期望信息量。比如，$a$、$b$、$c$、$d$四支球队，四支队伍夺冠的概率分别是$P_1$、$P_2$、$P_3$、$P_4$，某个人对比赛不感兴趣但是又想知道哪只球队夺冠，通过使用二分法2次就确定哪支球队夺冠了。但假设这四只球队中$c$的实力可以碾压其他球队，那么猜1次就可以确定。所以对于前面这种情况，哪只球队夺冠的信息量较高，信息熵也相对较高；对于后面这种情况，因为结果是容易猜到的，信息量和信息熵也就相对较低。因此可以得知：分布越尖锐熵越低；分布越均匀熵越高。

 %----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
+%    NEW SUBSUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{KL距离}
+{\small\bfnew{KL距离}}

 \parinterval 如果同一个随机变量$X$上有两个概率分布P$(x)$和Q$(x)$，那么可以使用KL距离(``Kullback-Leibler''散度)来衡量这两个分布的不同，这种度量就是{\small\bfnew{相对熵}}\index{相对熵}（Relative Entropy）\index{Relative Entropy}。其公式如下：
 \begin{eqnarray}
@@ -309,10 +315,10 @@ F(x)=\int_{-\infty}^x f(x)dx
 \end{itemize}

 %----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
+%    NEW SUBSUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{交叉熵}
+{\small\bfnew{交叉熵}}

 \parinterval {\small\bfnew{交叉熵}}\index{交叉熵}（Cross-entropy）\index{Cross-entropy}是一个与KL距离密切相关的概念，它的公式是：
 \begin{eqnarray}
@@ -323,133 +329,296 @@ F(x)=\int_{-\infty}^x f(x)dx
 \parinterval 结合相对熵公式可知，交叉熵是KL距离公式中的右半部分。因此，当概率分布P$(x)$固定时，求关于Q的交叉熵的最小值等价于求KL距离的最小值。从实践的角度来说，交叉熵与KL距离的目的相同：都是用来描述两个分布的差异，由于交叉熵计算上更加直观方便，因此在机器翻译中被广泛应用。

 %----------------------------------------------------------------------------------------
-%    NEW SECTION
+%    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------

-\sectionnewpage
-\section{中文分词}
+\subsection{线性代数基础}

-\parinterval 对于机器翻译系统而言，输入的是已经切分好的单词序列，而不是原始的字符串（图\ref{fig:2-7}）。比如，对于一个中文句子，单词之间是没有间隔的，因此需要把一个个的单词切分出来，这样机器翻译系统可以区分不同的翻译单元。甚至，可以对语言学上的单词进行进一步切分，得到词片段序列（比如：中国人$\to$中国/人）。可以把上述过程看作是一种{\small\sffamily\bfseries{分词}}\index{分词}（Segmentation）\index{Segmentation}过程，即：将一个输入的自然语言字符串切割成单元序列（token序列），每个单元都对应可以处理的最小单位。
+%----------------------------------------------------------------------------------------
+%    NEW SUBSUB-SECTION
+%----------------------------------------------------------------------------------------

-%----------------------------------------------
-\begin{figure}[htp]
-\centering
-\input{./Chapter2/Figures/figure-a-simple-pre-processing-process}
-\caption{一个简单的预处理流程}
-\label{fig:2-7}
-\end{figure}
-%-------------------------------------------
+\subsubsection{标量、向量和矩阵}

-%\vspace{-0.5em}
-\parinterval 分词得到的单元序列可以是语言学上的词序列，也可以是根据其他方式定义的基本处理单元。在本章中，可以把分词得到的一个个单元称为{\small\bfnew{单词}}\index{单词}（Word）\index{Word}，或{\small\bfnew{词}}\index{词}，尽管这些单元可以不是语言学上的完整单词。而这个过程也被称作{\small\bfnew{词法分析}}\index{词法分析}（Lexical Analysis）\index{Lexical Analysis}。除了汉语，词法分析在日语、泰语等单词之间无明确分割符的语言中有着广泛的应用，芬兰语、维吾尔语等一些形态学十分丰富的语言，也需要使用词法分析来解决复杂的词尾、词缀变化等形态学变化。
+\vspace{-0.5em}
+\parinterval {\small\sffamily\bfseries{标量}}\index{标量}（Scalar）\index{Scalar}：标量亦称``无向量''，是一种只具有数值大小而没有方向的量，通俗地说，一个标量就是一个单独的数，这里特指实数\footnote{严格意义上，标量可以是复数等其他形式。这里为了方便讨论，仅以实数为对象。}。一般用小写斜体表示标量。比如，对于$ a=5 $，$ a $就是一个标量。

-\parinterval 在机器翻译中，分词系统的好坏往往会决定译文的质量。分词的目的是定义系统处理的基本单元，那么什么叫做``词''呢？关于词的定义有很多，比如：
+\parinterval {\small\sffamily\bfseries{向量}}\index{向量}（Vector）\index{Vector}：向量是由一组实数组成的有序数组。与标量不同，向量既有大小也有方向。可以把向量看作空间中的点，每个元素是不同坐标轴上的坐标。公式\ref{eq:5-1}和公式\ref{eq:5-2}展示了一个行向量和一个列向量。本章默认使用行向量，如$ \mathbf a=(a_1, a_2, a_3) $，$ \mathbf a $对应的列向量记为$ \mathbf a^{\rm T} $。
+\begin{eqnarray}
+\mathbf a &=& \begin{pmatrix}
+  1 & 2 & 5 & 7
+\end{pmatrix}\label{eq:5-1}\\ \nonumber \\
+\mathbf{a^{\textrm{T}}} &=& \begin{pmatrix}
+    &1& \\
+    &2&\\
+    &5& \\
+    &7&\end{pmatrix}
+\label{eq:5-2}
+\end{eqnarray}

-%-------------------------------------------
-\vspace{0.5em}
-\begin{definition} 词
+\parinterval {\small\sffamily\bfseries{矩阵}}\index{矩阵}（Matrix）\index{Matrix}：矩阵是一个按照长方阵列排列的实数集合，最早来自于方程组的系数及常数所构成的方阵。在计算机领域，通常将矩阵看作二维数组。我们用粗体的符号$ \mathbf a $表示一个矩阵，如果该矩阵有$ m $行$ n $列，那么有$ \mathbf a\in R^{m\times n} $。这里，用不加粗的符号来表示矩阵中的元素，其中每个元素都被一个行索引和一个列索引所确定。例如，$ a_{ij} $表示第$ i $行、第$ j $列的矩阵元素。如下，公式\ref{eq:5-3}中$ \mathbf a $定义了一个2行2列的矩阵。
+\begin{eqnarray}
+\mathbf a & = & \begin{pmatrix}
+   a_{11} & a_{12}\\
+   a_{21} & a_{22}
+\end{pmatrix} \nonumber \\
+& = & \begin{pmatrix}
+   1 & 2\\
+   3 & 4
+\end{pmatrix}
+\label{eq:5-3}
+\end{eqnarray}

-\vspace{0.5em}
-语言里最小的可以独立运用的单位。
-\begin{flushright}——《新华字典》\end{flushright}
+%----------------------------------------------------------------------------------------
+%    NEW SUBSUB-SECTION
+%----------------------------------------------------------------------------------------

-单词（word），含有语义内容或语用内容，且能被单独念出来的的最小单位。
-\begin{flushright}——《维基百科》\end{flushright}
+\subsubsection{矩阵的转置}

-語句中具有完整概念，能獨立自由運用的基本單位。
-\begin{flushright}——《国语辞典》\end{flushright}
-\end{definition}
-%-------------------------------------------
+\parinterval {\small\sffamily\bfseries{转置}}\index{转置}（Transpose）\index{Transpose}是矩阵的重要操作之一。矩阵的转置可以看作是将矩阵以对角线为镜像进行翻转：假设$ \mathbf a $为$ m $行$ n $列的矩阵，第$ i $行、第$ j $ 列的元素是$ a_{ij} $，即：$ \mathbf a={(a_{ij})}_{m\times n} $，把$ m\times n $矩阵$ \mathbf a $的行换成同序数的列得到一个$ n\times m $矩阵，则得到$ \mathbf a $的转置矩阵，记为$ \mathbf a^{\rm T} $，其中$ a_{ji}^{\rm T}=a_{ij} $。例如：
+\begin{eqnarray}
+\mathbf a & = & \begin{pmatrix} 1 & 3 & 2 & 6\\5 & 4 & 8 & 2\end{pmatrix} \\ \nonumber \\
+{\mathbf a}^{\rm T} & = &\begin{pmatrix} 1 & 5\\3 & 4\\2 & 8\\6 & 2\end{pmatrix}
+\end{eqnarray}

-\parinterval 从语言学的角度来看，人们普遍认为词是可以单独运用的、包含意义的基本单位。这样可以使用有限的词组合出无限的句子，这也正体现出自然语言的奇妙之处。
+\parinterval 向量可以看作只有一行（列）的矩阵。对应地，向量的转置可以看作是只有一列（行）的矩阵。标量可以看作是只有一个元素的矩阵。因此，标量的转置等于它本身，即$ a^{\rm T}=a $。

-\parinterval 不过，机器翻译并不仅仅局限在语言学定义的单词。比如，神经机器翻译中广泛使用的BPE子词切分方法（见第七章），可以被理解为将词的一部分也进行切开，也就是得到词片段送给机器翻译系统使用。比如，对如下英文字符串，可以得到如下切分结果：
+%----------------------------------------------------------------------------------------
+%    NEW SUBSUB-SECTION
+%----------------------------------------------------------------------------------------

-\newpage
-\parinterval Interesting \; $\to$ \; Interest/ing  selection \hspace{0.08em} $\to$ \;se/lect/ion  procession \hspace{0.43em} $\to$ \; pro/cess/ion
+\subsubsection{矩阵加法和数乘}

-\parinterval Interested \hspace{0.62em} $\to$ \; Interest/ed   selecting \hspace{0.34em} $\to$ \; se/lect/ing  processing \hspace{0.22em} $\to$ \; pro/cess/ing
+\parinterval 矩阵加法又被称作{\small\sffamily\bfseries{按元素加法}}\index{按元素加法}（Element-wise Addition）\index{Element-wise Addition}。它是指两个矩阵把其相对应元素加在一起的运算，通常的矩阵加法被定义在两个形状相同的矩阵上。两个$ m\times n $矩阵$ \mathbf a $和$ \mathbf b $的和，标记为$ \mathbf a + \mathbf b $，它也是个$ m\times n $矩阵，其内的各元素为其相对应元素相加后的值。如果矩阵$ \mathbf c = \mathbf a + \mathbf b $，则$ c_{ij} = a_{ij} + b_{ij} $。公式\ref{eq:5-4}展示了矩阵之间进行加法的计算过程。
+\begin{eqnarray}
+\begin{pmatrix}
+   1 & 3\\
+   1 & 0\\
+   1 & 2
+\end{pmatrix}\;\;+\;\;\begin{pmatrix}
+   0 & 0\\
+   7 & 5\\
+   2 & 1
+\end{pmatrix}&=&\begin{pmatrix}
+   1+0 & 3+0\\
+   1+7 & 0+5\\
+   1+2 & 2+1
+\end{pmatrix}\;\;=\;\;\begin{pmatrix}
+   1 & 3\\
+   8 & 5\\
+   3 & 3
+\end{pmatrix}
+\label{eq:5-4}
+\end{eqnarray}

-\parinterval Interests \hspace{1.17em} $\to$ \; Interest/s   selected \hspace{1.24em} $\to$ \; se/lect/ed   processed \hspace{0.82em} $\to$ \; pro/cess/ed \\
+\parinterval 矩阵加法满足以下运算规律：

+\begin{itemize}
+\vspace{0.5em}
+\item 交换律：$ \mathbf a+\mathbf b = \mathbf b +\mathbf a $。
+\vspace{0.5em}
+\item 结合律：$ (\mathbf a+\mathbf b)+\mathbf c = \mathbf a+(\mathbf b+\mathbf c) $。
+\vspace{0.5em}
+\item $ \mathbf a+\mathbf 0=\mathbf a $，其中$ \mathbf 0 $指的是零矩阵，即元素皆为0的矩阵。
+\vspace{0.5em}
+\item $ \mathbf a+(-\mathbf a)=\mathbf 0 $，其中$ -\mathbf a $是矩阵$ \mathbf a $的负矩阵，即将矩阵$ \mathbf a $的每个元素取负得到的矩阵。
+\vspace{0.5em}
+\end{itemize}
+
+\parinterval 矩阵的{\small\bfnew{数乘}}\index{数乘}（Scalar Multiplication）\index{Scalar Multiplication}是指标量（实数）与矩阵的乘法运算，计算过程是将标量与矩阵的每个元素相乘，最终得到与原矩阵形状相同的矩阵。例如，矩阵$ \mathbf a={(a_{ij})}_{m\times n} $与标量$ k $进行数乘运算，其结果矩阵$ \mathbf b={(ka_{ij})}_{m\times n} $，即$ k{(a_{ij})}_{m\times n}={(ka_{ij})}_{m\times n} $。下面的式子展示了矩阵数乘的计算过程：
+\begin{eqnarray}
+\mathbf a & = &
+\begin{pmatrix}
+   3 & 2 & 7\\
+   5 & 8 & 1
+\end{pmatrix}
+\\ \nonumber \\
+2\mathbf a & = &
+\begin{pmatrix}
+   6 & 4 & 14\\
+   10 & 16 & 2
+\end{pmatrix}
+\label{eq:5-5}
+\end{eqnarray}

-\parinterval 词法分析的重要性在自然语言处理领域已经有共识。如果切分的颗粒度很大，获得的单词的歧义也很小，比如``中华人民共和国''整体作为一个单词不存在歧义，而如果单独的一个单词``国''，可能会代表``中国''、``美国''等不同的国家，存在歧义。但是随着切分颗粒度的增大，特定单词出现的频度也随之降低，低频词容易和噪音混淆，系统很难进行学习。因此，处理这些问题并开发适合翻译任务的分词系统是机器翻译的第一步。
+\parinterval 矩阵的数乘满足以下运算规律，其中$ k $和$ l $是实数，$ \mathbf a $和$ \mathbf b $是形状相同的矩阵：
+
+\begin{itemize}
+\vspace{0.5em}
+\item 右分配律：$ k(\mathbf a+\mathbf b)=k\mathbf a+k\mathbf b $。
+\vspace{0.5em}
+\item 左分配律：$ (k+l)\mathbf a=k\mathbf a+l\mathbf a $。
+\vspace{0.5em}
+\item 结合律：$ (kl)\mathbf a=k(l\mathbf a) $。
+%\vspace{0.5em}
+\end{itemize}

 %----------------------------------------------------------------------------------------
-%    NEW SUB-SECTION
+%    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsection{基于词典的分词方法}
-\parinterval 然而，计算机并不能像人类一样在概念上理解``词''，因此需要使用其他方式让计算机可以进行分词。一个最简单的方法就是给定一个词典，在这个词典中出现的汉字组合就是所定义的``词''。也就是，通过一个词典定义一个标准，符合这个标准定义的字符串都是合法的``词''。
+\subsubsection{矩阵乘法和矩阵点乘}

-\parinterval 在使用基于词典的分词方法时，只需预先加载词典到计算机中，扫描输入句子，查询每个词串是否出现在词典中。如图\ref{fig:2-8} 所示，有一个包含六个词的词典，给定输入句子`` 确实现在物价很高''后，分词系统自左至右遍历输入句子的每个字，发现词串``确实''在词典中出现，说明``确实''是一个``词''，进行分词操作并在切分该``词''之后重复这个过程。
+\parinterval 矩阵乘法是矩阵运算中最重要的操作之一，为了与矩阵点乘区分，通常也把矩阵乘法叫做矩阵叉乘。假设$ \mathbf a $为$ m\times p $的矩阵，$ \mathbf b $为$ p\times n $的矩阵，对$ \mathbf a $和$ \mathbf b $作矩阵乘法的结果是一个$ m\times n $的矩阵$ \mathbf c $，其中矩阵$ \mathbf c $中第$ i $行、第$ j $列的元素可以表示为：
+\begin{eqnarray}
+{(\mathbf a\mathbf b)}_{ij} &=& \sum_{k=1}^p a_{ik}b_{kj}
+\label{eq:5-6}
+\end{eqnarray}

-%----------------------------------------------
-\begin{figure}[htp]
-\centering
-\input{./Chapter2/Figures/figure-example-of-word-segmentation-based-on-dictionary}
-\caption{基于词典进行分词的实例}
-\label{fig:2-8}
-\end{figure}
-%-------------------------------------------
+\parinterval 只有当第一个矩阵的列数与第二个矩阵的行数相等时，两个矩阵才可以作矩阵乘法。公式\ref{eq:5-7}展示了矩阵乘法的运算过程，若$\mathbf a=\begin{pmatrix}a_{11} & a_{12}& a_{13}\\a_{21} & a_{22} & a_{23}\end{pmatrix}$，$\mathbf b=\begin{pmatrix}b_{11} & b_{12}\\b_{21} & b_{22}\\b_{31} & b_{32}\end{pmatrix} $，则有：
+\vspace{-0.5em}
+\begin{eqnarray}
+\mathbf c & = & \mathbf a\mathbf b \nonumber \\
+          & = & \begin{pmatrix}
+   a_{11}b_{11}+a_{12}b_{21}+a_{13}b_{31} & a_{11}b_{12}+a_{12}b_{22}+a_{13}b_{32}\\
+   a_{21}b_{11}+a_{22}b_{21}+a_{23}b_{31} & a_{21}b_{12}+a_{22}b_{22}+a_{23}b_{32}
+\end{pmatrix}
+\label{eq:5-7}
+\end{eqnarray}

-\parinterval 但是，基于词典的分词方法很``硬''。这是因为自然语言非常灵活，经常出现歧义，用词典定义的合法单词之间有重叠的交叉型歧义就很难解决。图\ref{fig:2-9} 就给出了上面例子中的交叉型歧义，从词典中查看，``实现''和``现在''都是合法的单词，但是在句子中二者有重叠，因此词典无法告诉我们哪个结果是正确的。
+\parinterval 矩阵乘法满足以下运算规律：

-%----------------------------------------------
-\begin{figure}[htp]
-\centering
-\input{./Chapter2/Figures/figure-cross-type-word-segmentation-ambiguity}
-\caption{交叉型分词歧义}
-\label{fig:2-9}
-\end{figure}
-%-------------------------------------------
+\begin{itemize}
+\vspace{0.5em}
+\item 结合律：若$ \mathbf a\in R^{m\times n} $，$ \mathbf b\in R^{n\times p} $，$ \mathbf c\in R^{p\times q} $，则$ (\mathbf {ab})\mathbf c=\mathbf a(\mathbf {bc}) $。
+\vspace{0.5em}
+\item 左分配律：若$ \mathbf a\in R^{m\times n} $，$ \mathbf b\in R^{m\times n} $，$ \mathbf c\in R^{n\times p} $，则$ (\mathbf a+\mathbf b)\mathbf c=\mathbf {ac}+\mathbf {bc} $。
+\vspace{0.5em}
+\item 右分配律：若$ \mathbf a\in R^{m\times n} $，$ \mathbf b\in R^{n\times p} $，$ \mathbf c\in R^{n\times p} $，则$ \mathbf a(\mathbf b+\mathbf c)=\mathbf {ab}+\mathbf {ac} $。
+\vspace{0.5em}
+\end{itemize}

-\parinterval 类似的例子在生活中也很常见。再比如``答辩结束的和尚未答辩的同学都请留在教室''一句中，正常的分词结果是``答辩/结束/的/和/尚未/答辩/的/同学/都/请/留在/教室''，但是由于``尚未''、`` 和尚''都是常见词汇，使用基于词典的分词方法在这时很容易出现切分错误。
+\begin{spacing}{1.4}
+\parinterval 可以将线性方程组用矩阵乘法表示，如对于线性方程组$ \begin{cases} 5x_1+2x_2=y_1\\3x_1+x_2=y_2\end{cases} $，可以表示为$ \mathbf {ax}^{\rm T}=\mathbf y^{\rm T}$，其中$ \mathbf a = \begin{pmatrix} 5 & 2\\3 & 1\end{pmatrix} $，$ \mathbf x^{\rm T} = \begin{pmatrix} x_1\\x_2\end{pmatrix} $，$ \mathbf y^{\rm T} = \begin{pmatrix} y_1\\y_2\end{pmatrix} $。
+\end{spacing}

-\parinterval 基于词典的分词方法是典型的基于规则的方法，完全依赖于人工给定的词典。在遇到歧义时，需要人工定义消除歧义的规则，比如，可以自左向右扫描每次匹配最长的单词，这是一种简单的启发式的消歧策略。图\ref{fig:2-8}中的例子实际上就是使用这种策略得到的分词结果。但是，启发式的消岐方法对人工的依赖程度很高，而且启发式规则也不能处理所有的情况。所以说简单的基于词典的方法还不能很好的解决分词问题。
+\parinterval 矩阵的点乘就是两个形状相同的矩阵各个对应元素相乘，矩阵点乘也被称为{\small\bfnew{按元素乘积}}\index{按元素乘积}（Element-wise Product）\index{Element-wise Product}或Hadamard乘积，记为$ \mathbf a \odot \mathbf b$。例如，对于
+\begin{eqnarray}
+\mathbf a &=&
+\begin{pmatrix}
+   1 & 0\\
+   -1 & 3
+\end{pmatrix}
+\\ \nonumber \\
+\mathbf b &=&
+\begin{pmatrix}
+   3 & 1\\
+   2 & 1
+\end{pmatrix}
+\end{eqnarray}
+
+\parinterval 矩阵点乘的计算如下：
+\begin{eqnarray}
+\mathbf c & = & \mathbf a\odot \mathbf b \nonumber \\
+          & = & \begin{pmatrix}
+   1\times 3 & 0\times1\\
+   -1\times2 & 3\times1
+\end{pmatrix}
+\label{eq:5-8}
+\end{eqnarray}

 %----------------------------------------------------------------------------------------
-%    NEW SUB-SECTION
+%    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsection{基于统计的分词方法}\label{sec2:statistical-seg}
+\subsubsection{线性映射}

-\parinterval 既然基于词典的方法有很多问题，那么就需要一种更为有效的方法。在上文中提到，想要搭建一个分词系统，需要让计算机知道什么是``词''，那么可不可以给出已经切分好的分词数据，让计算机在这些数据中学习到规律呢？答案是肯定的，利用``数据''来让计算机明白``词''的定义，让计算机直接在数据中学到知识，这就常说的数据驱动的方法。这个过程也是一个典型的基于统计建模的学习过程。
+\parinterval {\small\sffamily\bfseries{线性映射}}\index{线性映射}（ Linear Mapping）\index{Linear Mapping}或{\small\sffamily\bfseries{线性变换}}\index{线性变换}（Linear Transformation）\index{Linear Transformation}是从一个向量空间V到另一个向量空间W的映射函数$ f:v\rightarrow w$，且该映射函数保持加法运算和数量乘法运算，即对于空间V中任何两个向量$ \mathbf u $ 和$ \mathbf v $以及任何标量$ c $，有：
+\begin{eqnarray}
+f(\mathbf u+\mathbf v)&=&f(\mathbf u)+f(\mathbf v)\label{eq:5-9}\\
+f(c\mathbf v)&=&cf(\mathbf v)
+\label{eq:5-10}
+\end{eqnarray}
+
+\parinterval 利用矩阵$ \mathbf a\in R^{m\times n} $，可以实现两个有限维欧氏空间的映射函数$f:R^n\rightarrow R^m$。例如$ n $维列向量$ \mathbf x ^{\rm T}$与$ m\times n $的矩阵$ \mathbf a $，向量$ \mathbf x ^{\rm T}$左乘矩阵$ \mathbf a $，可将向量$ \mathbf x ^{\rm T}$映射为$ m $列向量，对于
+\begin{eqnarray}
+\mathbf x^{\textrm{T}} & = & {\begin{pmatrix} x_1, & x_2, & \dots &, x_n \end{pmatrix}}^{\rm T}
+\label{eq:5-11}
+\end{eqnarray}
+
+\begin{eqnarray}
+\mathbf a&=&
+\begin{pmatrix}
+   a_{11} & a_{12} & \dots & a_{1n}\\
+   a_{21} & \dots & \dots & \dots \\
+   \dots & \dots & \dots & \dots \\
+   a_{m1} & \dots & \dots & a_{mn}
+\end{pmatrix}
+\label{eq:5-12}
+\end{eqnarray}
+
+\parinterval 可以得到：
+\begin{eqnarray}
+\mathbf y^{\textrm{T}}& = &\mathbf a\mathbf x^{\textrm{T}} \nonumber \\
+               & = &
+\begin{pmatrix}
+   a_{11}x_{1}+a_{12}x_{2}+\dots+a_{1n}x_{n}\\
+   a_{21}x_{1}+a_{22}x_{2}+\dots+a_{2n}x_{n}\\
+   \vdots \\
+   a_{m1}x_{1}+a_{m2}x_{2}+\dots+a_{mn}x_{n}
+\label{eq:5-13}\end{pmatrix}
+\end{eqnarray}
+
+\parinterval 上例中矩阵$ \mathbf a $定义了一个从$ R^n $到$ R^m $的线性映射：向量$ \mathbf x^{\textrm{T}}\in R^n $和$ \mathbf y^{\textrm{T}}\in R^m $别为两个空间中的列向量，即大小为$ n\times 1 $ 和$ m\times 1 $ 的矩阵。

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{统计模型的学习与推断}
+\subsubsection{范数}
+
+\parinterval 工程领域，经常会使用被称为{\small\bfnew{范数}}\index{范数}（Norm）\index{Norm}的函数衡量向量大小，范数为向量空间内的所有向量赋予非零的正长度或大小。对于一个$n$维向量$ \mathbf x $，一个常见的范数函数为$ l_p $ 范数，通常表示为$ {\Vert{\mathbf x}\Vert}_p $ ，其中$p\ge 0$，是一个标量形式的参数。常用的$ p $的取值有$ 1 $、$ 2 $、$ \infty $等。范数的计算公式为：
+\begin{eqnarray}
+l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
+               & = & {\left (\sum_{i=1}^{n}{{\vert x_{i}\vert}^p}\right )}^{\frac{1}{p}}
+\label{eq:5-14}
+\end{eqnarray}
+
+\parinterval $ l_1 $范数为向量的各个元素的绝对值之和：
+\begin{eqnarray}
+{\Vert{\mathbf x}\Vert}_1&=&\sum_{i=1}^{n}{\vert x_{i}\vert}
+\label{eq:5-15}
+\end{eqnarray}
+
+\parinterval $ l_2 $范数为向量的各个元素平方和的二分之一次方：
+\begin{eqnarray}
+{\Vert{\mathbf x}\Vert}_2&=&\sqrt{\sum_{i=1}^{n}{{x_{i}}^2}} \nonumber \\
+                                      &=&\sqrt{{\mathbf x}^{\rm T}\mathbf x}
+\label{eq:5-16}
+\end{eqnarray}
+
+\parinterval $ l_2 $范数被称为{\small\bfnew{欧几里得范数}}\index{欧几里得范数}（Euclidean Norm）\index{Euclidean Norm}。从几何角度，向量也可以表示为从原点出发的一个带箭头的有向线段，其$ l_2 $范数为线段的长度，也常被称为向量的模。$ l_2 $ 范数在机器学习中非常常用，向量$ \mathbf x $的$ l_2 $范数经常简化为$ \Vert{\mathbf x}\Vert $，可以简单地通过点积$ {\mathbf x}^{\rm T}\mathbf x $计算。
+
+\parinterval $ l_{\infty} $范数为向量的各个元素的最大绝对值：
+\begin{eqnarray}
+{\Vert{\mathbf x}\Vert}_{\infty}&=&{\rm{max}}\{x_1,x_2,\dots,x_n\}
+\label{eq:5-17}
+\end{eqnarray}

-\parinterval 在分词任务中，数据驱动主要指用已经分词切分好的数据``喂''给系统，这个数据也被称作{\small\bfnew{标注数据}}\index{标注数据}（Annotated Data）\index{Annotated Data}。在获得标注数据后，系统自动学习一个统计模型来描述分词的过程，而这个模型会把分词的`` 知识''作为参数保存在模型中。当送入一个新的需要分词的句子时，可以利用学习到的模型对所有可能的分词结果进行预测，并进行概率化的描述，最终选择概率最大的结果作为输出。这个方法就是基于统计的分词方法。具体来说，可以分为两个步骤：
+\parinterval 广义上讲，范数是将向量映射到非负值的函数，其作用是衡量向量$ \mathbf x $到坐标原点的距离。更严格的说，范数并不拘于$ l_p $范数，任何一个同时满足下列性质的函数都可以作为范数：

 \begin{itemize}
 \vspace{0.5em}
-\item {\small\bfnew{训练}}\index{训练}（Training）\index{Training}。利用标注数据，对统计模型的参数进行学习。
+\item 若$ f(x)=0 $，则$ x=0 $。
+\vspace{0.5em}
+\item 三角不等式：$ f(x+y)\leqslant f(x)+f(y) $。
 \vspace{0.5em}
-\item {\small\bfnew{推断}}\index{推断}（Inference）\index{Inference}。利用学习到的模型和参数，对新的句子进行切分。
+\item 任意实数$ \alpha $，$ f(\alpha x)=\vert \alpha \vert f(x) $。
 \vspace{0.5em}
 \end{itemize}

-\parinterval 图\ref{fig:2-10} 给出了一个基于统计建模的汉语分词实例。左侧是标注数据，其中每个句子是已经经过人工标注的分词结果（单词用斜杠分开）。之后，建立一个统计模型，记为$\textrm{P}(\cdot)$。模型通过在标注数据上的学习来对问题进行描述，即学习$\textrm{P}(\cdot)$。最后，对于新的未分词的句子，使用模型$\textrm{P}(\cdot)$对每个可能的切分方式进行概率估计，之后选择概率最高的切分结果输出。
-
-%----------------------------------------------
-\begin{figure}[htp]
-\centering
-\input{./Chapter2/Figures/figure-word-segmentation-based-on-statistics}
-%\setlength{\belowcaptionskip}{-0.5cm}
-\caption{基于统计的自动分词流程}
-\label{fig:2-10}
-\end{figure}
-%-------------------------------------------
-\vspace{-1em}
+\parinterval 在深度学习中，有时候希望衡量矩阵的大小，这时可以考虑使用 {\small\bfnew{Frobenius 范数}}\index{Frobenius 范数}（Frobenius Norm）\index{Frobenius Norm}。计算方式为：
+\begin{eqnarray}
+{\Vert{\mathbf a}\Vert}_F&=&\sqrt{\sum_{i,j} a_{i,j}^2}
+\label{eq:5-18}
+\end{eqnarray}

 %----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
+%    NEW SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{掷骰子游戏}
+\sectionnewpage
+\section{掷骰子游戏}

 \parinterval 上述过程的核心在于从数据中学习一种对分词现象的统计描述，即学习函数$\textrm{P}(\cdot)$。如何让计算机利用分词好的数据学习到分词的知识呢？可以先看一个有趣的实例（图\ref{fig:2-11}），用生活中比较常见的掷骰子来说，掷一个骰子，玩家猜一个数字，猜中就算赢，按照一般的常识，随便选一个数字，获胜的概率是一样的，即所有选择的获胜概率仅是$1/6$。因此这个游戏玩家很难获胜，除非运气很好。假设进行一次游戏，玩家随便选了一个数字，比如是1，投掷30次骰子，得到命中$7/30 > 1/6$，还不错。
 \vspace{-0.5em}
@@ -514,103 +683,6 @@ F(x)=\int_{-\infty}^x f(x)dx
 \parinterval 通过上面这个掷骰子的游戏，可以得到一个道理：{\small\sffamily\bfseries{上帝是不公平的}}。因为在``公平''的世界中，没有任何一个模型可以学到有价值的事情。从机器学习的角度来看，所谓的``不公平''实际上这是客观事物中蕴含的一种{\small\sffamily\bfseries{偏置}}\index{偏置}（Bias）\index{Bias}，也就是很多事情天然就有对某些情况有倾向。而图像处理、自然语言处理等问题中绝大多数都存在着偏置。比如，我们翻译一个英文单词的时候，它最可能的翻译结果往往就是那几个词。设计统计模型的目的正是要学习这种偏置，之后利用这种偏置对新的问题做出足够好的决策。

 %----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
-%----------------------------------------------------------------------------------------
-
-\subsubsection{全概率分词方法}
-
-\parinterval 回到分词的问题上。与掷骰子游戏类似，分词系统的统计学原理也可以这么理解：假设有已经人工分词好的句子，其中每个单词的出现就好比掷一个巨大的骰子，与前面的例子中有所不同的是：
-
-\begin{itemize}
-\vspace{0.5em}
-\item 骰子有很多个面，每个面代表一个单词。
-\vspace{0.5em}
-\item 骰子是不均匀的，有些面会出现比较多次。
-\vspace{0.5em}
-\end{itemize}
-
-\parinterval 如果投掷这个新的骰子，可能会得到图\ref{fig:2-14}这样的结果，
-
-%----------------------------------------------
-\begin{figure}[htp]
-\centering
-\input{./Chapter2/Figures/figure-full-probability-word-segmentation-1}
-\caption{投掷一个很多面骰子的结果}
-\label{fig:2-14}
-\end{figure}
-%-------------------------------------------
-
-\parinterval 如果，把这些数字换成汉语中的词，比如
-
-\parinterval 88\; = \; 这
-
-\parinterval 87\; = \; 是
-
-\parinterval 45\; = \; 一
-
-\parinterval ...
-
-\parinterval 就可以得到图\ref{fig:2-15}所示的结果。
-
-%----------------------------------------------
-\begin{figure}[htp]
-\centering
-\input{./Chapter2/Figures/figure-full-probability-word-segmentation-2}
-\setlength{\belowcaptionskip}{-0.2cm}
-\caption{掷骰子游戏中把数字换成汉字后的结果}
-\label{fig:2-15}
-\end{figure}
-%-------------------------------------------
-
-\parinterval 于是，在中文分词问题中，可以假设有一个不均匀的多面骰子，每个面都对应一个单词。在获取人工分词标注数据后，可以统计每个单词出现的次数，进而利用极大似然估计推算出每个单词出现的概率的估计值。图\ref{fig:2-16}给出了一个实例。
-
-%----------------------------------------------
-\begin{figure}[htp]
-\centering
-\input{./Chapter2/Figures/figure-full-probability-word-segmentation-3}
-\caption{单词概率的估计结果}
-\label{fig:2-16}
-\end{figure}
-%-------------------------------------------
-
-\parinterval 通过这个学习过程，我们得到了每个词出现的概率，即模型的参数。而我们原始的问题是如何计算这个整句分词结果的概率，比如，$\textrm{P}\textrm{(``确实/现在/数据/很/多'')}=?$。这里可以使用``大题小做''的技巧：原始的问题很复杂，我们将其切分为小问题。这样，将复杂的分词问题简单化，基于独立性假设解决分词问题：假定所有词出现都是相互独立的。设$w_1 w_2 w_3...w_m$表示一个由单词$w_1,w_2,w_3,...,w_m$组成的切分结果，于是有：
-{\setlength{\belowdisplayskip}{-9pt}
-\begin{eqnarray}
-\textrm{P}(w_1 w_2 w_3...w_m)=\textrm{P}(w_1) \cdot \textrm{P}(w_2) \cdot ... \cdot \textrm{P}(w_m)
-\label{eq:2-20}
-\end{eqnarray}
-}
-
-
-\parinterval 以``确实现在数据很多''这个实例来说，如果把这句话按照``确实/现在/数据/很/多''这样的方式进行切分，这个句子切分的概率P(``确实/现在/数据/很/多'')可以通过每个词出现概率相乘的方式进行计算。
-\begin{eqnarray}
-&\textrm{P}&\textrm{(``确实/现在/数据/很/多'')} \nonumber \\
-& = &\textrm{P}\textrm{(``确实'')} \cdot \textrm{P}\textrm{(``现在'')} \cdot \textrm{P}\textrm{(``数据'')} \cdot \textrm{P}\textrm{(``很'')} \cdot \textrm{P}\textrm{(``多'')} \nonumber \\
-& = &0.000001 \times 0.000022 \times 0.000009 \times 0.000010 \times 0.000078 \nonumber \\
-& = &1.5444 \times 10^{-25}
-\label{eq:2-21}
-\end{eqnarray}
-
-这个假设也是自然语言处理中1-gram语言模型假设，即当前词的生成与任何历史都无关。当然，独立性假设并不能完美描述客观世界的问题，但是它大大化简了问题的复杂度。
-
-%----------------------------------------------
-\begin{figure}[htp]
-\centering
-\input{./Chapter2/Figures/figure-examples-of-chinese-word-segmentation-based-on-1-gram-model}
-\caption{基于1-gram语言模型的中文分词实例}
-\label{fig:2-17}
-\end{figure}
-%-------------------------------------------
-
-\parinterval 最后再整体看一下分词系统的学习和使用过程。如图\ref {fig:2-17}所示，我们利用大量人工标注好的分词数据，通过统计学习方法获得一个统计模型$\textrm{P}(\cdot)$，给定任意分词结果$W=w_1 w_2...w_m$，都能通过$\textrm{P}(W)=\textrm{P}(w_1) \cdot \textrm{P}(w_2 ) \cdot ... \cdot \textrm{P}(w_m)$计算这种切分的概率值。
-
-\parinterval 经过充分训练的统计模型$\textrm{P}(\cdot)$就是得到的分词模型。对于输入的新句子$S$，通过这个模型找到最佳的分词结果$W^*$输出。假设输入句子$S$是``确实现在数据很多''，可以通过列举获得不同切分方式的概率，其中概率最高的切分方式，就是系统的目标输出。
-
-\parinterval 这种分词方法也被称作基于1-gram语言模型的分词，或全概率分词，使用标注好的分词数据进行学习，获得分词模型。这种方法最大的优点是整个学习过程（模型训练过程）和推导过程（处理新句子进行切分的过程）都是全自动进行的。这种方法虽然简单，但是其效率很高，因此被广泛应用在工业界系统里。
-
-\parinterval 当然，真正的分词系统还需要解决很多其他问题，比如使用动态规划等方法高效搜索最优解以及如何处理未见过的词等等，由于本节的重点是介绍中文分词的基础方法和统计建模思想，因此无法覆盖所有中文分词的技术内容，有兴趣的读者可以参考\ref{sec2:summary}节的相关文献做进一步深入研究。
-
-%----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------

@@ -916,310 +988,7 @@ c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}
 %----------------------------------------------------------------------------------------

 \sectionnewpage
-\section{句法分析（短语结构分析）}
-\parinterval 通过前面两节的内容，读者已经了解什么叫做``词''、如何对分词问题进行统计建模。同时也了解了如何对词序列的生成进行概率描述。无论是分词还是语言模型都是句子浅层词串信息的一种表示。对于一个自然语言句子来说，它更深层次的结构信息可以通过句法信息来描述，而句法信息也是机器翻译和自然语言处理其他任务中常用的知识之一。
-
-%----------------------------------------------------------------------------------------
-%    NEW SUB-SECTION
-%----------------------------------------------------------------------------------------
-
-\subsection{句子的句法树表示}
-
-\parinterval {\small\sffamily\bfseries{句法}}\index{句法}（Syntax）\index{Syntax}是研究句子的每个组成部分和它们之间的组合方式。一般来说，句法和语言是相关的，比如，英文是主谓宾结构，而日语是主宾谓结构。因此不同的语言也会有不同的句法描述方式。自然语言处理领域最常用的两种句法分析形式是{\small\sffamily\bfseries{短语结构分析}}\index{短语结构分析}（Phrase Structure Parsing）\index{Phrase Structure Parsing}和{\small\sffamily\bfseries{依存分析}}\index{依存分析}（Dependency Parsing）\index{Dependency Parsing}。图\ref{fig:2-20}展示了这两种的句法表示形式的实例。其中，左侧是短语结构树。它描述的是短语的结构功能，比如``吃''是动词（记为VV），``鱼''是名词（记为NN），``吃\ 鱼''组成动词短语，这个短语再与``喜欢''这一动词组成新的动词短语。短语结构树的每个子树都是一个句法功能单元，比如，子树VP(VV(吃) NN(鱼))就表示了``吃\ 鱼''这个动词短语的结构，其中子树根节点VP是句法功能标记。短语结构树利用嵌套的方式描述了语言学的功能。短语结构树中，每个词都有词性(或词类)，不同的词或者短语可以组成名动结构、动宾结构等语言学短语结构。短语结构分析一般也被称为{\small\bfnew{成分分析}}\index{成分分析}(Constituency Parsing)或{\small\bfnew{完全分析}}\index{完全分析}（Full Parsing）\index{Full Parsing}。
-
-%----------------------------------------------
-\begin{figure}[htp]
-    \centering
-\input{./Chapter2/Figures/figure-phrase-structure-tree-and-dependency-tree}
-    \caption{短语结构树(左)和依存树(右)}
-    \label{fig:2-20}
-\end{figure}
-%---------------------------
-
-\parinterval 图\ref{fig:2-20}右侧展示的是另一种句法结构，被称作依存句法树。依存句法树表示了句子中单词和单词之间的依存关系。比如，从这个例子可以了解，``猫''依赖``喜欢''，``吃''依赖``喜欢''，``鱼''依赖``吃''。
-
-\parinterval 短语结构树和依存句法树的结构和功能有很大不同。短语结构树的叶子节点是单词，中间节点是词性或者短语句法标记。在短语结构分析中，通常把单词称作{\small\bfnew{终结符}}\index{终结符}（Terminal）\index{Terminal}，把词性称为{\small\bfnew{预终结符}}\index{预终结符}（Pre-terminal）\index{Pre-terminal}，而把其他句法标记称为{\small\bfnew{非终结符}}\index{非终结符}（Non-terminal）\index{Non-terminal}。依存句法树没有预终结符和非终结符，所有的节点都是句子里的单词，通过不同节点间的连线表示句子中各个单词之间的依存关系。每个依存关系实际上都是有方向的，头和尾分别指向``接受''和``发出''依存关系的词。依存关系也可以进行分类，图\ref{fig:2-20}中我们对每个依存关系的类型都进行了标记，这也被称作是有标记的依存分析。如果不生成这些标记，这样的句法分析被称作无标记的依存分析。
-
-\parinterval 虽然短语结构树和依存树的句法表现形式有很大不同，但是它们在某些条件下能相互转化。比如，可以使用启发性规则将短语结构树自动转化为依存树。从应用的角度，依存分析由于形式更加简单，而且直接建模词语之间的依赖，因此在自然语言处理领域中受到很多关注。在机器翻译中，无论是哪种句法树结构，都已经被证明会对机器翻译系统产生帮助。特别是短语结构树，在机器翻译中的应用历史更长，研究更为深入，因此本节将会以短语结构分析为例介绍句法分析的相关概念。
-
-\parinterval 而句法分析到底是什么呢？简单的理解，句法分析就是在小学语文课程中学习的句子成分的分析，以及对句子中各个成分内部、外部关系的判断。更规范一些的定义，可以参照百度百科维基百科的句法分析的解释。
-
-%-------------------------------------------
-\vspace{-0.0em}
-\begin{definition} 句法分析
-
-句法分析(Parsing)就是指对句子中的词语语法功能进行分析。
-\begin{flushright}——《百度百科》\end{flushright}
-
-在自然语言或者计算机语言中，句法分析是利用形式化的文法规则对一个符号串进行分析的过程。
-\begin{flushright}——《维基百科（译文）》\end{flushright}
-\end{definition}
-%-------------------------------------------
-
-\parinterval 上面的定义中，句法分析包含三个重要的概念：
-
-\begin{itemize}
-\vspace{0.5em}
-\item 形式化的文法：描述语言结构的定义，由文法规则组成。
-\vspace{0.5em}
-\item 符号串：在本节中，符号串就是指词串，由前面提到的分词系统生成。
-\vspace{0.5em}
-\item 分析：使用形式文法对符号串进行分析的具体方法，在这里指实现分析的计算机算法。
-\vspace{0.5em}
-\end{itemize}
-
-\parinterval 以上三点是实现一个句法分析器的要素。本节的后半部分会对相关的概念和技术方法进行介绍。
-\vspace{-0.5em}
-
-%----------------------------------------------------------------------------------------
-%    NEW SUB-SECTION
-%----------------------------------------------------------------------------------------
-
-\subsection{上下文无关文法}
-
-\parinterval 句法树是对句子的一种抽象。这种树形结构表达了一种对句子结构的归纳过程，比如，从树的叶子开始，把每一个树节点看作一次抽象，最终形成一个根节点。那这个过程如何用计算机来实现呢？这就需要使用到形式文法。
-
-\parinterval 形式文法是分析自然语言的一种重要工具。根据乔姆斯基的定义\cite{chomsky2002syntactic}，形式文法分为四种类型：无限制文法（0型文法）、上下文相关文法（1型文法）、上下文无关文法（2型文法）和正规文法（3型文法）。不同类型的文法有不同的应用，比如，正规文法可以用来描述有限状态自动机，因此也会被使用在语言模型等系统中。对于短语结构分析问题，常用的是{\small\bfnew{上下文无关文法}}\index{上下文无关文法}（Context-Free Grammar）\index{Context-Free Grammar}。上下文无关文法的具体形式如下：
-
-%-------------------------------------------
-\vspace{0.5em}
-\begin{definition} 上下文无关文法
-
-一个上下文无关文法可以被视为一个系统$G=<N,\Sigma,R,S>$，其中
-
-\begin{itemize}
-\vspace{0.5em}
-\item $N$为一个非终结符集合
-\vspace{0.5em}
-\item $\Sigma$为一个终结符集合
-\vspace{0.5em}
-\item $R$为一个规则（产生式）集合，每条规则 $r \in R$的形式为$X \to Y_1Y_2...Y_n$，其中$X \in N$, $Y_i \in N \cup \Sigma$
-\vspace{0.5em}
-\item $S$为一个起始符号集合且$S \subseteq N$
-\vspace{0.5em}
-\end{itemize}
-\end{definition}
-%-------------------------------------------
-
-\parinterval 举例说明，假设有上下文无关文法$G=<N,\Sigma,R,S>$，可以用它描述一个简单中文句法结构。其中非终结符集合为不同的中文句法标记
-\begin{eqnarray}
-N=\{\textrm{NN},\textrm{VV},\textrm{NP},\textrm{VP},\textrm{IP}\} \nonumber
-\label{eq:2-42}
-\end{eqnarray}
-
-这里，\textrm{NN}代表名词，\textrm{VV}代表动词，\textrm{NP}代表名词短语，\textrm{VP}代表动词短语，\textrm{IP}代表单句。进一步，把终结符集合定义为
-\begin{eqnarray}
-\Sigma = \{\text{猫,喜欢,吃,鱼}\} \nonumber
-\label{eq:2-43}
-\end{eqnarray}
-
-再定义起始符集合为
-\begin{eqnarray}
-S=\{\textrm{IP}\} \nonumber
-\label{eq:2-44}
-\end{eqnarray}
-
-最后，文法的规则集定义图\ref{fig:2-21}所示（其中$r_i$为规则的编号）
-
-%----------------------------------------------
-\begin{figure}[htp]
-    \centering
-\input{./Chapter2/Figures/figure-rules-of-grammar}
-\caption{一个示例文法的规则集}
-    \label{fig:2-21}
-\end{figure}
-%---------------------------
-
-\parinterval 上面这个文法蕴含了不同``层次''的句法信息。比如，规则$r_1$、$r_2$、$r_3$和$r_4$表达了词性对单词的抽象；规则$r_6$、$r_7$和$r_8$是表达了短语结构的抽象，其中，规则$r_8$描述了汉语中名词短语(主语)+动词短语(谓语)的结构。在实际应用中，像$r_8$这样的规则可以覆盖很大的片段（试想一下一个包含50个词的主谓结构的句子，可以使用$r_8$进行描述）。
-
-\parinterval 上下文无关文法的规则是一种{\small\sffamily\bfseries{产生式规则}}\index{产生式规则}（Production Rule）\index{Production Rule}，形如$\alpha \to \beta $，它表示把规则左端的非终结符$\alpha$替换为规则右端的符号序列$\beta$。 通常，$\alpha$被称作规则的左部（Left-hand Side），$\beta$被称作规则的右部（Right-hand Side）。使用右部$\beta$替换左部$\alpha$的过程也被称作规则的使用，而这个过程的逆过程称为规约。规则的使用可以如下定义：
-
-%-------------------------------------------
-\vspace{0.5em}
-\begin{definition} 上下文无关文法规则的使用
-
-一个符号序列$u$可以通过使用规则$r$替换其中的某个非终结符，并得到符号序列$v$，于是$v$是在$u$上使用$r$的结果，记为$u \overset{r}{\Rightarrow} v$：
-\begin{center}
-\input{./Chapter2/Figures/figure-usage-of-regulation}
-\end{center}
-\end{definition}
-%-------------------------------------------
-
-\parinterval 给定起始非终结符，可以不断地使用规则，最终生成一个终结符串，这个过程也被称为{\small\bfnew{推导}}\index{推导}（Derivation）\index{Derivation}。形式化的定义为：
-
-%-------------------------------------------
-\vspace{0.5em}
-\begin{definition} 推导
-
-给定一个文法$G=<N,\Sigma,R,S>$，对于一个字符串序 \\
-列$s_0,s_1,...,s_n$和规则序列$r_1,r_2,...,r_n$，满足
-
-\vspace{-0.5em}
-\begin{displaymath}
-s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{\Rightarrow} ... \overset{r_{n}}{\Rightarrow} s_n
-\end{displaymath}
-
-且
-\begin{itemize}
-\vspace{0.5em}
-\item $\forall i \in [0,n], s_i \in (N\cup\Sigma)^*$ \hspace{3.5em} $\lhd$ $s_i$为合法的字符串
-\vspace{0.5em}
-\item $\forall j \in [1,n], r_j \in R$ \hspace{6.3em} $\lhd$ $r_j$为$G$的规则
-\vspace{0.5em}
-\item $s_0 \in S$ \hspace{10.9em} $\lhd$ $s_0$为起始非终结符
-\vspace{0.5em}
-\item $s_n \in \Sigma^{*}$ \hspace{10.4em} $\lhd$ $s_n$为终结符序列
-\vspace{0.5em}
-\end{itemize}
-
-\vspace{0.8em}
-则$s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{\Rightarrow} ... \overset{r_{n}}{\Rightarrow} s_n$为一个推导
-\end{definition}
-%-------------------------------------------
-
-\parinterval 比如，使用前面的示例文法，可以对``猫 喜欢 吃 鱼''进行分析，并形成句法分析树（图\ref{fig:2-22}）。从起始非终结符IP开始，使用唯一拥有IP作为左部的规则$r_8$推导出NP和VP，之后依次使用规则$r_5$、$r_1$、$r_7$、$r_2$、$r_6$、$r_3$、$r_4$，得到了完整的句法树。
-
-%-------------------------------------------
-\begin{figure}[htp]
-    \centering
-\input{./Chapter2/Figures/figure-example-of-derivation}
-	\caption{上下文无关文法推导实例}
-    \label{fig:2-22}
-\end{figure}
-%-------------------------------------------
-
-\parinterval 通常，可以把推导简记为$d=r_1 \circ r_2 \circ ... \circ r_n$，其中$ \circ $表示规则的组合。显然，$d$也对应了树形结构，也就是句法分析结果。从这个角度看，推导就是描述句法分析树的一种方式。此外，规则的推导也把规则的使用过程与生成的字符串对应起来。一个推导所生成的字符串，也被称作文法所产生的一个{\small\bfnew{句子}}\index{句子}（Sentence）\index{Sentence}。而一个文法所能生成的所有句子的集合是这个文法所对应的{\small\bfnew{语言}}\index{语言}（Language）\index{Language}。
-
-\parinterval 但是，句子和规则的推导并不是一一对应的。同一个句子，往往有很多推导的方式，这种现象被称为{\small\bfnew{歧义}}\index{歧义}（Ambiguity）\index{Ambiguity}。甚至同一棵句法树，也可以对应不同的推导。图\ref{fig:2-23} 给出同一棵句法树所对应的两种不同的规则推导。
-
-%-------------------------------------------
-\begin{figure}[htp]
-    \centering
-\input{./Chapter2/Figures/figure-two-different-derivation-of-regulation}
-\setlength{\abovecaptionskip}{-0.5em}
-	\caption{同一棵句法树对应的不同规则推导}
-    \label{fig:2-23}
-\end{figure}
-%-------------------------------------------
-
-\parinterval 显然，规则顺序的不同会导致句法树的推导这一确定的过程变得不确定。因此，需要进行{\small\bfnew{消歧}}\index{消歧}（Disambiguation）\index{Disambiguation}。这里，可以使用启发式方法：要求规则使用都服从最左优先原则，这样得到的推导被称为{\small\bfnew{最左优先推导}}\index{最左优先推导}（Left-most Derivation）\index{Left-most Derivation}。图\ref{fig:2-23}中的推导1 就是符合最左优先原则的推导。
-
-%-------------------------------------------
-\begin{figure}[htp]
-    \centering
-\input{./Chapter2/Figures/figure-perspectives-of-expert-ordinary-and-syntactic-parser}
-	\caption{如何选择最佳的句法分析结果 - 专家、普通人和句法分析器的视角}
-    \label{fig:2-24}
-\end{figure}
-%-------------------------------------------
-
-\parinterval 这样，对于一个上下文无关文法，每一棵句法树都有唯一的最左推导与之对应。于是，句法分析可以被描述为：对于一个句子找到能够生成它的最佳推导，这个推导所对应的句法树就是这个句子的句法分析结果。
-
-\parinterval 不过问题又回来了，怎样才能知道什么样的推导或者句法树是``最佳''的呢？如图\ref{fig:2-24}所示，对于语言学专家，他们可以很确定的分辨出哪些句法树是正确的，哪些句法树是错误。甚至普通人也可以通过一些课本中学到的知识产生一些模糊的判断。而计算机如何进行判别呢？沿着前面介绍的统计建模的思想，计算机可以得出不同句法树出现的概率，进而选择概率最高的句法树作为输出，而这正是统计句法分析所做的事情。
-
-\parinterval 在统计句法分析中，需要对每个推导进行统计建模，于是定义一个模型$\textrm{P}( \cdot )$，对于任意的推导$d$，都可以用$\textrm{P}(d)$计算出推导$d$的概率。这样，给定一个输入句子，我们可以对所有可能的推导用$\textrm{P}(d)$计算其概率值，并选择概率最大的结果作为句法分析的结果输出（图\ref{fig:2-25}）。
-
-%-------------------------------------------
-\begin{figure}[htp]
-    \centering
-\input{./Chapter2/Figures/figure-probability-values-corresponding-to-different-derivations}
-	\caption{不同推导（句法树）对应的概率值}
-    \label{fig:2-25}
-\end{figure}
-
-%-------------------------------------------
-
-%----------------------------------------------------------------------------------------
-%    NEW SUB-SECTION
-%----------------------------------------------------------------------------------------
-
-\subsection{规则和推导的概率}
-
-\parinterval 对句法树进行概率化，首先要对使用的规则进行概率化。为了达到这个目的，可以使用{\small\bfnew{概率上下文无关文法}}\index{概率上下文无关文法}（Probabilistic Context-Free Grammar）\index{Probabilistic Context-Free Grammar}，它是上下文无关文法的一种扩展。
-
-%-------------------------------------------
-\vspace{0.5em}
-\begin{definition} 概率上下文无关文法
-
-一个概率上下文无关文法可以被视为一个系统$G=<N,\Sigma,R,S>$，其中
-\begin{itemize}
-\vspace{0.5em}
-\item $N$为一个非终结符集合
-\vspace{0.5em}
-\item $\Sigma$为一个终结符集合
-\vspace{0.5em}
-\item $R$为一个规则(产生式)集合，每条规则 $r \in R$的形式为$p:X \to Y_1Y_2...Y_n$，其中$X \in N$, $Y_i \in N \cup \Sigma$，每个$r$都对应一个概率$p$，表示其生成的可能性。
-\vspace{0.5em}
-\item $S$为一个起始符号集合且$S \subseteq N$
-\vspace{0.5em}
-\end{itemize}
-\end{definition}
-%-------------------------------------------
-
-\parinterval 概率上下文无关文法与传统上下文无关文法的区别在于，每条规则都会有一个概率，描述规则生成的可能性。具体来说，规则$\textrm{P}(\alpha \to \beta)$的概率可以被定义为：
-\begin{eqnarray}
-\textrm{P}(\alpha \to \beta)=\textrm{P}(\beta | \alpha)
-\label{eq:2-45}
-\end{eqnarray}
-
-\noindent 即，在给定规则左部的情况下生成规则右部的可能性。进一步，在上下文无关文法中，每条规则之间的使用都是相互独立的 \footnote[3]{如果是上下文有关文法，规则会形如 $a\alpha b\to a\beta b$，这时$\alpha \to \beta $的过程会依赖前后上下文$a$和$b$}。因此可以把$\textrm{P}(d)$分解为规则概率的乘积：
-\begin{eqnarray}
-\textrm{P}(d) & = & \textrm{P}(r_1 \cdot r_2 \cdot ... \cdot r_n) \nonumber \\
-& = & \textrm{P}(r_1) \cdot \textrm{P}(r_2) \cdots \textrm{P}(r_n)
-\label{eq:2-46}
-\end{eqnarray}
-
-\parinterval 这个模型可以很好的解释词串的生成过程。比如，对于规则集
-\begin{eqnarray}
-r_3: & &\textrm{VV} \to \text{吃}\nonumber \\
-r_4: & & \textrm{NN} \to \text{鱼}\nonumber \\
-r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
-\label{eq:2-47}
-\end{eqnarray}
-
-\parinterval 可以得到 $d_1=r_3 \cdot r_4 \cdot r_6$的概率为
-\begin{eqnarray}
-\textrm{P}(d_1) & = &\textrm{P}(r_3) \cdot \textrm{P}(r_4) \cdot \textrm{P}(r_6)\nonumber  \\
-& = & \textrm{P}(\textrm{``VV} \to \text{吃''}) \cdot \textrm{P}(\textrm{``NN} \to \text{鱼''}) \cdot \textrm{P}(\textrm{``VP} \to \textrm{VV NN''})
-\label{eq:2-48}
-\end{eqnarray}
-
-\parinterval 这也对应了词串``吃\ 鱼''的生成过程。首先，从起始非终结符VP开始，使用规则$r_6$生成两个非终结符VV和NN；进一步，分别使用规则$r_3$和$r_4$从VV和NN进一步生成单词``吃''和``鱼''。整个过程的概率等于三条规则概率的乘积。
-
-\parinterval 新的问题又来了，如何得到规则的概率呢？这里仍然可以从数据中学习文法规则的概率。假设有人工标注的数据，它包括很多人工标注句法树的句法，称之为{\small\bfnew{树库}}\index{树库}（Treebank）\index{Treebank}。然后，对于规则$\textrm{r}:\alpha \to \beta$可以使用极大似然估计：
-
-\begin{eqnarray}
-\textrm{P}(r)  = \frac{\text{规则$r$在树库中出现的次数}}{\alpha \text{在树库中出现的次数}}
-\label{eq:2-49}
-\end{eqnarray}
-
-\parinterval 图\ref{fig:2-26}展示了通过这种方法计算规则概率的过程。与词法分析类似，可以统计树库中规则左部和右部同时出现的次数，除以规则左部出现的全部次数，所得的结果就是所求规则的概率。这种方法也是典型的相对频度估计。但是如果规则左部和右部同时出现的次数为0时是否代表这个规则概率是0呢？遇到这种情况，可以使用平滑方法对概率进行平滑处理，具体思路可参考\ref{sec2:smoothing}节内容。
-
-%-------------------------------------------
-\begin{figure}[htp]
-    \centering
-\input{./Chapter2/Figures/figure-evaluation-of-probability-for-grammar}
-	\caption{上下文无关文法规则概率估计}
-    \label{fig:2-26}
-\end{figure}
-%-------------------------------------------
-
-\parinterval 图\ref{fig:2-27}展示了基于统计的句法分析的流程。首先，通过树库上的统计，获得各个规则的概率，这样就得到了一个上下文无关句法分析模型$\textrm{P}( \cdot )$。对于任意句法分析结果$d=r_1 \circ r_2 \circ ... \circ r_n$，都能通过如下公式计算其概率值：
-
-\begin{equation}
-\textrm{P}(d)= \prod_{i=1}^{n}\textrm{P}(r_i)
-\end{equation}
-
-%-------------------------------------------
-\begin{figure}[htp]
-    \centering
-\input{./Chapter2/Figures/figure-process-of-statistical-syntax-analysis}
-	\caption{统计句法分析的流程}
-    \label{fig:2-27}
-\end{figure}
-%-------------------------------------------
-
-\parinterval 在获取统计分析模型后，就可以使用模型对任意句子进行分析，计算每个句法分析树的概率，并输出概率最高的树作为句法分析的结果。
+\section{搜索}

 %----------------------------------------------------------------------------------------
 %    NEW SECTION