合并分支 'shanweiqiao' 到 'caorunzhe'

Shanweiqiao 查看合并请求 !21

合并分支 'shanweiqiao' 到 'caorunzhe'
Shanweiqiao 查看合并请求 !21
372d2d04 · 单韦乔 · 9e572859 · 55b2ea06 · 372d2d04 · 372d2d04
Commit 372d2d04 authored Jul 24, 2020 by 单韦乔
--- a/Chapter2/Figures/figure-full-probability-word-segmentation-1.tex
+++ b/Chapter2/Figures/figure-full-probability-word-segmentation-1.tex
+
+\definecolor{ublue}{rgb}{0.152,0.250,0.545}
+\definecolor{ugreen}{rgb}{0,0.5,0}
+
+
+
+%%% outline
+%-------------------------------------------------------------------------
+
+
+\begin{tikzpicture}
+
+{
+\begin{scope}
+\node[anchor=west,draw,very thick,minimum size=25pt] (s1) at (0,0) {{88}};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s2) at ([xshift=0.2cm]s1.east) {{87}};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s3) at ([xshift=0.2cm]s2.east) {{45}};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s4) at ([xshift=0.2cm]s3.east) {{47}};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s5) at ([xshift=0.2cm]s4.east) {{100}};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s6) at ([xshift=0.2cm]s5.east) {{15}};
+\end{scope}
+
+\begin{scope}[yshift=-1cm]
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s1) at (0,0) {{5}};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s2) at ([xshift=0.2cm]s1.east) {{230}};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s3) at ([xshift=0.2cm]s2.east) {{7}};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s4) at ([xshift=0.2cm]s3.east) {{234}};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s5) at ([xshift=0.2cm]s4.east) {{500}};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s6) at ([xshift=0.2cm]s5.east) {{39}};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s7) at ([xshift=0.2cm]s6.east) {{100}};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s8) at ([xshift=0.2cm]s7.east) {{15}};
+
+\end{scope}
+
+\begin{scope}[yshift=-2cm]
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s1) at (0,0) {{975}};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s2) at ([xshift=0.2cm]s1.east) {{7}};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s3) at ([xshift=0.2cm]s2.east) {{234}};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s4) at ([xshift=0.2cm]s3.east) {{294}};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s5) at ([xshift=0.2cm]s4.east) {{69}};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s6) at ([xshift=0.2cm]s5.east) {{15}};
+
+\end{scope}
+
+}
+
+
+\end{tikzpicture}
+
+
+
+
--- a/Chapter2/Figures/figure-full-probability-word-segmentation-2.tex
+++ b/Chapter2/Figures/figure-full-probability-word-segmentation-2.tex
+
+\definecolor{ublue}{rgb}{0.152,0.250,0.545}
+\definecolor{ugreen}{rgb}{0,0.5,0}
+
+
+
+%%% outline
+%-------------------------------------------------------------------------
+\begin{tikzpicture}
+\begin{scope}
+\node[anchor=west,draw,very thick,minimum size=25pt] (s1) at (0,0) {这};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s2) at ([xshift=0.2cm]s1.east) {是};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s3) at ([xshift=0.2cm]s2.east) {一};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s4) at ([xshift=0.2cm]s3.east) {种};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s5) at ([xshift=0.2cm]s4.east) {\small{数据}};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s6) at ([xshift=0.2cm]s5.east) {。};
+\node[anchor=west] (s7) at ([xshift=0.2cm]s6.east) {...};
+\end{scope}
+
+\begin{scope}[yshift=-1cm]
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s1) at (0,0) {现在};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s2) at ([xshift=0.2cm]s1.east) {已经};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s3) at ([xshift=0.2cm]s2.east) {有};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s4) at ([xshift=0.2cm]s3.east) {不少};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s5) at ([xshift=0.2cm]s4.east) {\small{可}};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s6) at ([xshift=0.2cm]s5.east) {用};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s7) at ([xshift=0.2cm]s6.east) {数据};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s8) at ([xshift=0.2cm]s7.east) {。};
+\node[anchor=west] (s9) at ([xshift=0.2cm]s8.east) {...};
+\end{scope}
+
+\begin{scope}[yshift=-2cm]
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s1) at (0,0) {确实};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s2) at ([xshift=0.2cm]s1.east) {有};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s3) at ([xshift=0.2cm]s2.east) {很};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s4) at ([xshift=0.2cm]s3.east) {多};
+\node[anchor=west,draw,very thick,minimum size=25pt, inner sep=0] (s5) at ([xshift=0.2cm]s4.east) {疑问};
+\node[anchor=west,draw,very thick,minimum size=25pt] (s6) at ([xshift=0.2cm]s5.east) {。};
+\node[anchor=west] (s7) at ([xshift=0.2cm]s6.east) {...};
+\end{scope}
+
+\end{tikzpicture}
+	
+
+%---------------------------------------------------------------------
+
+
+
--- a/Chapter2/Figures/figure-full-probability-word-segmentation-3.tex
+++ b/Chapter2/Figures/figure-full-probability-word-segmentation-3.tex
+
+
+\definecolor{ublue}{rgb}{0.152,0.250,0.545}
+\definecolor{ugreen}{rgb}{0,0.5,0}
+
+
+
+
+%%% outline
+%-------------------------------------------------------------------------
+\begin{tikzpicture}
+
+\node [anchor=west] (label1) at (0,0) {总词数：$6 + 8 + 5 = 20$};
+\node [anchor=north west] (p1) at (label1.south west) {$\textrm{P}(\textrm{“很”})=1/20=0.05$};
+\node [anchor=north west] (p2) at (p1.south west) {$\textrm{P}(\textrm{“。”})=3/20=0.15$};
+\node [anchor=north west] (p3) at (p2.south west) {$\textrm{P}(\textrm{“确实”})=1/20=0.05$};
+
+
+
+\node [anchor=north west] (label11) at ([xshift=18.0em,yshift=1.63em]label1.south west) {更多数据-总词数:100K $\sim$ 1M};
+\node [anchor=north west] (p12) at (label11.south west) {$\textrm{P}(\textrm{“很”})=0.000010$};
+\node [anchor=north west] (p22) at (p12.south west) {$\textrm{P}(\textrm{“。”})=0.001812$};
+\node [anchor=north west] (p32) at (p22.south west) {$\textrm{P}(\textrm{“确实”})=0.000001$};
+
+
+
+\begin{pgfonlayer}{background}
+{
+\node[rectangle,draw=ublue, inner sep=0mm] [fit =(label1)(label11)(p3)(p32)] {};
+}
+\end{pgfonlayer}
+
+\end{tikzpicture}
+%---------------------------------------------------------------------
+
+
+
--- a/Chapter2/chapter2.tex
+++ b/Chapter2/chapter2.tex
@@ -39,25 +39,21 @@
 \sectionnewpage
 \section{前言}

+\parinterval 世界上很多事物都具有不确定性，大到宇宙的运行，小到分子的运动。建立统计模型正是描述这种不确定性的一种手段，包括机器翻译在内对众多自然语言处理问题的求解都大量依赖于此模型。本章将会对统计建模的基础数学工具进行介绍，并在此基础上对语言建模问题展开讨论。实际上，统计建模与语言建模任务的结合产生了自然语言处理的一个重要方向\ \dash\ 统计语言建模。这是一个典型的语言生成任务。一方面，它与机器翻译属于同一类型任务，比如，二者都对应了单词串生成的过程，因此在描述问题的思想上有很多相似之处；另一方面，统计语言模型也常常被作为机器翻译系统的组件，对于机器翻译系统研发有着重要意义。本章所讨论的内容对本书后续章节有很好的铺垫作用，特别是运用统计模型的思想对自然语言处理问题进行描述，在本书后面的内容中也会被大量使用。
+
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------

 \sectionnewpage
-\section{数学基础}
-\parinterval 为了便于后续内容的介绍，首先对本书中将会对概率和统计学概念以及线性代数相关概念进行说明。这些概念被广泛应用于科学和工程中，在神经机器翻译以及统计机器翻译中也大量使用了这些数学工具。因此，这里对相关概念进行简要介绍，以方便对本书后续内容的理解。
+\section{概率论基础}
+\parinterval 为了便于后续内容的介绍，首先对本书中使用的概率和统计学概念进行说明。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsection{概率论基础}
-
-%----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
-%----------------------------------------------------------------------------------------
-
-\subsubsection{随机变量和概率}
+\subsection{随机变量和概率}
 \parinterval 在自然界中，很多{\small\bfnew{事件}}\index{事件}（Event）\index{Event}是否会发生是不确定的。例如，明天会下雨、掷一枚硬币是正面朝上、扔一个骰子的点数是5$\cdots\cdots$这类事件可能会发生也可能不会发生。通过大量的重复试验，能发现其具有某种规律性的事件叫做{\small\sffamily\bfseries{随机事件}}\index{随机事件}。

 \parinterval {\small\sffamily\bfseries{随机变量}}\index{随机变量}（Random Variable）\index{Random Variable}是对随机事件发生可能状态的描述，是随机事件的数量表征。设$\Omega = \{ \omega \}$为一个随机试验的样本空间，$X=X(\omega)$就是定义在样本空间$\Omega$上的单值实数函数，即$X=X(\omega)$为随机变量，记为$X$。随机变量是一种能随机选取数值的变量，常用大写的英文字母或希腊字母表示，其取值通常用小写字母来表示。例如，用$A$ 表示一个随机变量，用$a$表示变量$A$的一个取值。根据随机变量可以选取的值的某些性质，可以将其划分为离散变量和连续变量。
@@ -92,11 +88,11 @@
 \centering
 \input{./Chapter2/Figures/figure-probability-density-function&distribution-function}
 \caption{一个概率密度函数(左)与其对应的分布函数(右)}
-\label{fig:2-3}
+\label{fig:2-1}
 \end{figure}
 %-------------------------------------------

-\parinterval 对于离散变量$A$，$\textrm{P}(A=a)$是个确定的值，可以表示事件$A=a$的可能性大小；而对于连续变量，求在某个定点处的概率是无意义的，只能求其落在某个取值区间内的概率。因此，用{\small\sffamily\bfseries{概率分布函数}}\index{概率分布函数}$F(x)$和{\small\sffamily\bfseries{概率密度函数}}\index{概率密度函数}$f(x)$来统一描述随机变量取值的分布情况（如图\ref{fig:2-3}）。概率分布函数$F(x)$表示取值小于等于某个值的概率，是概率的累加（或积分）形式。假设$A$是一个随机变量，$a$是任意实数，将函数$F(a)=\textrm{P}\{A\leq a\}$，$-\infty<a<\infty $定义为$A$的分布函数。通过分布函数，可以清晰地表示任何随机变量的概率。
+\parinterval 对于离散变量$A$，$\textrm{P}(A=a)$是个确定的值，可以表示事件$A=a$的可能性大小；而对于连续变量，求在某个定点处的概率是无意义的，只能求其落在某个取值区间内的概率。因此，用{\small\sffamily\bfseries{概率分布函数}}\index{概率分布函数}$F(x)$和{\small\sffamily\bfseries{概率密度函数}}\index{概率密度函数}$f(x)$来统一描述随机变量取值的分布情况（如图\ref{fig:2-1}）。概率分布函数$F(x)$表示取值小于等于某个值的概率，是概率的累加（或积分）形式。假设$A$是一个随机变量，$a$是任意实数，将函数$F(a)=\textrm{P}\{A\leq a\}$，$-\infty<a<\infty $定义为$A$的分布函数。通过分布函数，可以清晰地表示任何随机变量的概率。

 \parinterval 概率密度函数反映了变量在某个区间内的概率变化快慢，概率密度函数的值是概率的变化率，该连续变量的概率也就是对概率密度函数求积分得到的结果。设$f(x) \geq 0$是连续变量$X$的概率密度函数，$X$的分布函数就可以用如下公式定义：
 \begin{eqnarray}
@@ -105,10 +101,10 @@ F(x)=\int_{-\infty}^x f(x)dx
 \end{eqnarray}

 %----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
+%    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{联合概率、条件概率和边缘概率}
+\subsection{联合概率、条件概率和边缘概率}
 \parinterval {\small\sffamily\bfseries{联合概率}}\index{联合概率}（Joint Probability）\index{Joint Probability}是指多个事件共同发生，每个随机变量满足各自条件的概率，表示为$\textrm{P}(AB)$或$\textrm{P}(A\cap{B})$。{\small\sffamily\bfseries{条件概率}}\index{条件概率}（Conditional Probability）\index{Conditional Probability}是指$A$、$B$为任意的两个事件，在事件$A$已出现的前提下，事件$B$出现的概率，使用$\textrm{P}(B \mid A)$表示。

 \parinterval 贝叶斯法则（见\ref{sec:2.2.3}小节）是条件概率计算时的重要依据，条件概率可以表示为
@@ -131,7 +127,7 @@ F(x)=\int_{-\infty}^x f(x)dx
 \label{eq:2-4}
 \end{eqnarray}

-\parinterval 为了更好地区分条件概率、边缘概率和联合概率，这里用一个图形面积的计算来举例说明。如图\ref{fig:2-4}所示，矩形$A$代表事件$X$发生所对应的所有可能状态，矩形$B$代表事件$Y$发生所对应的所有可能状态，矩形$C$代表$A$和$B$的交集，则
+\parinterval 为了更好地区分条件概率、边缘概率和联合概率，这里用一个图形面积的计算来举例说明。如图\ref{fig:2-2}所示，矩形$A$代表事件$X$发生所对应的所有可能状态，矩形$B$代表事件$Y$发生所对应的所有可能状态，矩形$C$代表$A$和$B$的交集，则

 \begin{itemize}
 \vspace{0.5em}
@@ -148,15 +144,15 @@ F(x)=\int_{-\infty}^x f(x)dx
 \centering
 \input{./Chapter2/Figures/figure-schematic-edge-probability&joint-probability}
 \caption{$A$、$B$、$C$事件所对应概率的图形化表示}
-\label{fig:2-4}
+\label{fig:2-2}
 \end{figure}
 %-------------------------------------------

 %----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
+%    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{链式法则}
+\subsection{链式法则}

 \parinterval 条件概率公式$\textrm{P}(A \mid B)=\textrm{P}(AB)/\textrm{P}(B)$反映了事件$B$发生的条件下事件$A$发生的概率。如果将其推广到三个事件$A$、$B$、$C$，为了计算$\textrm{P}(A,B,C)$，我们可以运用两次$\textrm{P}(A \mid B)=\textrm{P}(AB)/\textrm{P}(B)$，计算过程如下：
 \begin{eqnarray}
@@ -171,7 +167,7 @@ F(x)=\int_{-\infty}^x f(x)dx
 \label{eq:2-6}
 \end{eqnarray}

-\parinterval 下面的例子有助于更好的理解链式法则，如图\ref{fig:2-5}所示，$A$、$B$、$C$、$D$、\\ $E$分别代表五个事件，其中，$A$只和$B$有关，$C$只和$B$、$D$有关，$E$只和$C$有关，$B$和$D$不依赖其他任何事件。则$\textrm{P}(A,B,C,D,E)$的表达式如下式：
+\parinterval 下面的例子有助于更好的理解链式法则，如图\ref{fig:2-3}所示，$A$、$B$、$C$、$D$、\\ $E$分别代表五个事件，其中，$A$只和$B$有关，$C$只和$B$、$D$有关，$E$只和$C$有关，$B$和$D$不依赖其他任何事件。则$\textrm{P}(A,B,C,D,E)$的表达式如下式：

 %----------------------------------------------
 \begin{figure}[htp]
@@ -179,7 +175,7 @@ F(x)=\int_{-\infty}^x f(x)dx
 \input{./Chapter2/Figures/figure-schematic-chain-rule}
 \setlength{\belowcaptionskip}{-1cm}
 \caption{事件$A$、$B$、$C$、$D$、$E$之间的关系图}
-\label{fig:2-5}
+\label{fig:2-3}
 \end{figure}
 %-------------------------------------------

@@ -192,17 +188,17 @@ F(x)=\int_{-\infty}^x f(x)dx
 \label{eq:2-7}
 \end{eqnarray}

-\parinterval 根据图\ref {fig:2-5} 易知$E$只和$C$有关，所以$\textrm{P}(E \mid A,B,C,D)=\textrm{P}(E \mid C)$；$D$不依赖于其他事件，所以$\textrm{P}(D \mid A,B,C)=\textrm{P}(D)$；$C$只和$B$、$D$有关，所以$\textrm{P}(C \mid A,B)=\textrm{P}(C \mid B)$；$B$不依赖于其他事件，所以$\textrm{P}(B \mid  A)=\textrm{P}(B)$。最终化简可得：
+\parinterval 根据图\ref {fig:2-3} 易知$E$只和$C$有关，所以$\textrm{P}(E \mid A,B,C,D)=\textrm{P}(E \mid C)$；$D$不依赖于其他事件，所以$\textrm{P}(D \mid A,B,C)=\textrm{P}(D)$；$C$只和$B$、$D$有关，所以$\textrm{P}(C \mid A,B)=\textrm{P}(C \mid B)$；$B$不依赖于其他事件，所以$\textrm{P}(B \mid  A)=\textrm{P}(B)$。最终化简可得：
 \begin{eqnarray}
 \textrm{P}(A,B,C,D,E)=\textrm{P}(E \mid C) \cdot \textrm{P}(D) \cdot \textrm{P}(C \mid B) \cdot \textrm{P}(B)\cdot \textrm{P}(A \mid B)
 \label{eq:2-8}
 \end{eqnarray}

 %----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
+%    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{贝叶斯法则}\label{sec:2.2.3}
+\subsection{贝叶斯法则}\label{sec:2.2.3}

 \parinterval 首先介绍一下全概率公式：{\small\bfnew{全概率公式}}\index{全概率公式}（Law of Total Probability）\index{Law of Total Probability}是概率论中重要的公式，它可以将一个复杂事件发生的概率分解成不同情况的小事件发生概率的和。这里先介绍一个概念——划分。集合$S$的一个划分事件为$\{B_1,...,B_n\}$是指它们满足$\bigcup_{i=1}^n B_i=S \textrm{且}B_iB_j=\varnothing , i,j=1,...,n,i\neq j$。此时事件$A$的全概率公式可以被描述为：

@@ -247,21 +243,21 @@ F(x)=\int_{-\infty}^x f(x)dx
 \label{eq:2-12}
 \end{eqnarray}

-\parinterval 贝叶斯公式常用于根据已知的结果来推断使之发生的各因素的可能性。
+\parinterval 贝叶斯公式常用于根据已知的结果来推断使之发生的各因素的可能性。 \\ \\ 

 %----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
+%    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{KL距离和熵}
+\subsection{KL距离和熵}

 %----------------------------------------------------------------------------------------
-%    NEW SUBSUBSUB-SECTION
+%    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-{\small\bfnew{信息熵}}
+\subsubsection{信息熵}

-\parinterval {\small\bfnew{熵}}\index{熵}（Entropy）\index{Entropy}是热力学中的一个概念，同时也是对系统无序性的一种度量标准。在自然语言处理领域也会使用到信息熵这一概念，比如描述文字的信息量大小。一条信息的信息量可以被看作是这条信息的不确定性。如果需要确认一件非常不确定甚至于一无所知的事情，那么需要理解大量的相关信息才能进行确认；同样的，如果对某件事已经非常确定，那么就不需要太多的信息就可以把它搞清楚。如下就是两个例子，
+\parinterval {\small\sffamily\bfseries{熵}}\index{熵}（Entropy）\index{Entropy}是热力学中的一个概念，同时也是对系统无序性的一种度量标准。在自然语言处理领域也会使用到信息熵这一概念，比如描述文字的信息量大小。一条信息的信息量可以被看作是这条信息的不确定性。如果需要确认一件非常不确定甚至于一无所知的事情，那么需要理解大量的相关信息才能进行确认；同样的，如果对某件事已经非常确定，那么就不需要太多的信息就可以把它搞清楚。如下就是两个例子，

 \begin{example}
 确定性和不确定性的事件
@@ -278,14 +274,14 @@ F(x)=\int_{-\infty}^x f(x)dx
 \label{eq:2-13}
 \end{eqnarray}

-\noindent 其中，$\textrm{P}(x)$表示$x$发生的概率。自信息用来衡量单一事件发生时所包含的信息多少，当底数为e时，单位为nats，其中1nats是通过观察概率为$\frac{1}{e}$的事件而获得的信息量；当底数为2 时，单位为bits或shannons。$\textrm{I}(x)$和$\textrm{P}(x)$的函数关系如图\ref{fig:2-6} 所示。
+\noindent 其中，$\textrm{P}(x)$表示$x$发生的概率。自信息用来衡量单一事件发生时所包含的信息多少，当底数为e时，单位为nats，其中1nats是通过观察概率为$\frac{1}{e}$的事件而获得的信息量；当底数为2 时，单位为bits或shannons。$\textrm{I}(x)$和$\textrm{P}(x)$的函数关系如图\ref{fig:2-4} 所示。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter2/Figures/figure-self-information-function}
 \caption{自信息函数$\textrm{I}(x)$关于$\textrm{P}(x)$的曲线}
-\label{fig:2-6}
+\label{fig:2-4}
 \end{figure}
 %-------------------------------------------

@@ -299,10 +295,10 @@ F(x)=\int_{-\infty}^x f(x)dx
 \parinterval 一个分布的信息熵也就是从该分布中得到的一个事件的期望信息量。比如，$a$、$b$、$c$、$d$四支球队，四支队伍夺冠的概率分别是$P_1$、$P_2$、$P_3$、$P_4$，某个人对比赛不感兴趣但是又想知道哪只球队夺冠，通过使用二分法2次就确定哪支球队夺冠了。但假设这四只球队中$c$的实力可以碾压其他球队，那么猜1次就可以确定。所以对于前面这种情况，哪只球队夺冠的信息量较高，信息熵也相对较高；对于后面这种情况，因为结果是容易猜到的，信息量和信息熵也就相对较低。因此可以得知：分布越尖锐熵越低；分布越均匀熵越高。

 %----------------------------------------------------------------------------------------
-%    NEW SUBSUBSUB-SECTION
+%    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-{\small\bfnew{KL距离}}
+\subsubsection{KL距离}

 \parinterval 如果同一个随机变量$X$上有两个概率分布P$(x)$和Q$(x)$，那么可以使用KL距离(``Kullback-Leibler''散度)来衡量这两个分布的不同，这种度量就是{\small\bfnew{相对熵}}\index{相对熵}（Relative Entropy）\index{Relative Entropy}。其公式如下：
 \begin{eqnarray}
@@ -322,10 +318,10 @@ F(x)=\int_{-\infty}^x f(x)dx
 \end{itemize}

 %----------------------------------------------------------------------------------------
-%    NEW SUBSUBSUB-SECTION
+%    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-{\small\bfnew{交叉熵}}
+\subsubsection{交叉熵}

 \parinterval {\small\bfnew{交叉熵}}\index{交叉熵}（Cross-entropy）\index{Cross-entropy}是一个与KL距离密切相关的概念，它的公式是：
 \begin{eqnarray}
@@ -336,298 +332,13 @@ F(x)=\int_{-\infty}^x f(x)dx
 \parinterval 结合相对熵公式可知，交叉熵是KL距离公式中的右半部分。因此，当概率分布P$(x)$固定时，求关于Q的交叉熵的最小值等价于求KL距离的最小值。从实践的角度来说，交叉熵与KL距离的目的相同：都是用来描述两个分布的差异，由于交叉熵计算上更加直观方便，因此在机器翻译中被广泛应用。

 %----------------------------------------------------------------------------------------
-%    NEW SUB-SECTION
-%----------------------------------------------------------------------------------------
-
-\subsection{线性代数基础}
-
-%----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
-%----------------------------------------------------------------------------------------
-
-\subsubsection{标量、向量和矩阵}
-
-\vspace{-0.5em}
-\parinterval {\small\sffamily\bfseries{标量}}\index{标量}（Scalar）\index{Scalar}：标量亦称``无向量''，是一种只具有数值大小而没有方向的量，通俗地说，一个标量就是一个单独的数，这里特指实数\footnote{严格意义上，标量可以是复数等其他形式。这里为了方便讨论，仅以实数为对象。}。一般用小写斜体表示标量。比如，对于$ a=5 $，$ a $就是一个标量。
-
-\parinterval {\small\sffamily\bfseries{向量}}\index{向量}（Vector）\index{Vector}：向量是由一组实数组成的有序数组。与标量不同，向量既有大小也有方向。可以把向量看作空间中的点，每个元素是不同坐标轴上的坐标。公式\ref{eq:5-1}和公式\ref{eq:5-2}展示了一个行向量和一个列向量。本章默认使用行向量，如$ \mathbf a=(a_1, a_2, a_3) $，$ \mathbf a $对应的列向量记为$ \mathbf a^{\rm T} $。
-\begin{eqnarray}
-\mathbf a &=& \begin{pmatrix}
-  1 & 2 & 5 & 7
-\end{pmatrix}\label{eq:5-1}\\ \nonumber \\
-\mathbf{a^{\textrm{T}}} &=& \begin{pmatrix}
-    &1& \\
-    &2&\\
-    &5& \\
-    &7&\end{pmatrix}
-\label{eq:5-2}
-\end{eqnarray}
-
-\parinterval {\small\sffamily\bfseries{矩阵}}\index{矩阵}（Matrix）\index{Matrix}：矩阵是一个按照长方阵列排列的实数集合，最早来自于方程组的系数及常数所构成的方阵。在计算机领域，通常将矩阵看作二维数组。我们用粗体的符号$ \mathbf a $表示一个矩阵，如果该矩阵有$ m $行$ n $列，那么有$ \mathbf a\in R^{m\times n} $。这里，用不加粗的符号来表示矩阵中的元素，其中每个元素都被一个行索引和一个列索引所确定。例如，$ a_{ij} $表示第$ i $行、第$ j $列的矩阵元素。如下，公式\ref{eq:5-3}中$ \mathbf a $定义了一个2行2列的矩阵。
-\begin{eqnarray}
-\mathbf a & = & \begin{pmatrix}
-   a_{11} & a_{12}\\
-   a_{21} & a_{22}
-\end{pmatrix} \nonumber \\
-& = & \begin{pmatrix}
-   1 & 2\\
-   3 & 4
-\end{pmatrix}
-\label{eq:5-3}
-\end{eqnarray}
-
-%----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
-%----------------------------------------------------------------------------------------
-
-\subsubsection{矩阵的转置}
-
-\parinterval {\small\sffamily\bfseries{转置}}\index{转置}（Transpose）\index{Transpose}是矩阵的重要操作之一。矩阵的转置可以看作是将矩阵以对角线为镜像进行翻转：假设$ \mathbf a $为$ m $行$ n $列的矩阵，第$ i $行、第$ j $ 列的元素是$ a_{ij} $，即：$ \mathbf a={(a_{ij})}_{m\times n} $，把$ m\times n $矩阵$ \mathbf a $的行换成同序数的列得到一个$ n\times m $矩阵，则得到$ \mathbf a $的转置矩阵，记为$ \mathbf a^{\rm T} $，其中$ a_{ji}^{\rm T}=a_{ij} $。例如：
-\begin{eqnarray}
-\mathbf a & = & \begin{pmatrix} 1 & 3 & 2 & 6\\5 & 4 & 8 & 2\end{pmatrix} \\ \nonumber \\
-{\mathbf a}^{\rm T} & = &\begin{pmatrix} 1 & 5\\3 & 4\\2 & 8\\6 & 2\end{pmatrix}
-\end{eqnarray}
-
-\parinterval 向量可以看作只有一行（列）的矩阵。对应地，向量的转置可以看作是只有一列（行）的矩阵。标量可以看作是只有一个元素的矩阵。因此，标量的转置等于它本身，即$ a^{\rm T}=a $。
-
-%----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
-%----------------------------------------------------------------------------------------
-
-\subsubsection{矩阵加法和数乘}
-
-\parinterval 矩阵加法又被称作{\small\sffamily\bfseries{按元素加法}}\index{按元素加法}（Element-wise Addition）\index{Element-wise Addition}。它是指两个矩阵把其相对应元素加在一起的运算，通常的矩阵加法被定义在两个形状相同的矩阵上。两个$ m\times n $矩阵$ \mathbf a $和$ \mathbf b $的和，标记为$ \mathbf a + \mathbf b $，它也是个$ m\times n $矩阵，其内的各元素为其相对应元素相加后的值。如果矩阵$ \mathbf c = \mathbf a + \mathbf b $，则$ c_{ij} = a_{ij} + b_{ij} $。公式\ref{eq:5-4}展示了矩阵之间进行加法的计算过程。
-\begin{eqnarray}
-\begin{pmatrix}
-   1 & 3\\
-   1 & 0\\
-   1 & 2
-\end{pmatrix}\;\;+\;\;\begin{pmatrix}
-   0 & 0\\
-   7 & 5\\
-   2 & 1
-\end{pmatrix}&=&\begin{pmatrix}
-   1+0 & 3+0\\
-   1+7 & 0+5\\
-   1+2 & 2+1
-\end{pmatrix}\;\;=\;\;\begin{pmatrix}
-   1 & 3\\
-   8 & 5\\
-   3 & 3
-\end{pmatrix}
-\label{eq:5-4}
-\end{eqnarray}
-
-\parinterval 矩阵加法满足以下运算规律：
-
-\begin{itemize}
-\vspace{0.5em}
-\item 交换律：$ \mathbf a+\mathbf b = \mathbf b +\mathbf a $。
-\vspace{0.5em}
-\item 结合律：$ (\mathbf a+\mathbf b)+\mathbf c = \mathbf a+(\mathbf b+\mathbf c) $。
-\vspace{0.5em}
-\item $ \mathbf a+\mathbf 0=\mathbf a $，其中$ \mathbf 0 $指的是零矩阵，即元素皆为0的矩阵。
-\vspace{0.5em}
-\item $ \mathbf a+(-\mathbf a)=\mathbf 0 $，其中$ -\mathbf a $是矩阵$ \mathbf a $的负矩阵，即将矩阵$ \mathbf a $的每个元素取负得到的矩阵。
-\vspace{0.5em}
-\end{itemize}
-
-\parinterval 矩阵的{\small\bfnew{数乘}}\index{数乘}（Scalar Multiplication）\index{Scalar Multiplication}是指标量（实数）与矩阵的乘法运算，计算过程是将标量与矩阵的每个元素相乘，最终得到与原矩阵形状相同的矩阵。例如，矩阵$ \mathbf a={(a_{ij})}_{m\times n} $与标量$ k $进行数乘运算，其结果矩阵$ \mathbf b={(ka_{ij})}_{m\times n} $，即$ k{(a_{ij})}_{m\times n}={(ka_{ij})}_{m\times n} $。下面的式子展示了矩阵数乘的计算过程：
-\begin{eqnarray}
-\mathbf a & = &
-\begin{pmatrix}
-   3 & 2 & 7\\
-   5 & 8 & 1
-\end{pmatrix}
-\\ \nonumber \\
-2\mathbf a & = &
-\begin{pmatrix}
-   6 & 4 & 14\\
-   10 & 16 & 2
-\end{pmatrix}
-\label{eq:5-5}
-\end{eqnarray}
-
-\parinterval 矩阵的数乘满足以下运算规律，其中$ k $和$ l $是实数，$ \mathbf a $和$ \mathbf b $是形状相同的矩阵：
-
-\begin{itemize}
-\vspace{0.5em}
-\item 右分配律：$ k(\mathbf a+\mathbf b)=k\mathbf a+k\mathbf b $。
-\vspace{0.5em}
-\item 左分配律：$ (k+l)\mathbf a=k\mathbf a+l\mathbf a $。
-\vspace{0.5em}
-\item 结合律：$ (kl)\mathbf a=k(l\mathbf a) $。
-%\vspace{0.5em}
-\end{itemize}
-
-%----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
-%----------------------------------------------------------------------------------------
-
-\subsubsection{矩阵乘法和矩阵点乘}
-
-\parinterval 矩阵乘法是矩阵运算中最重要的操作之一，为了与矩阵点乘区分，通常也把矩阵乘法叫做矩阵叉乘。假设$ \mathbf a $为$ m\times p $的矩阵，$ \mathbf b $为$ p\times n $的矩阵，对$ \mathbf a $和$ \mathbf b $作矩阵乘法的结果是一个$ m\times n $的矩阵$ \mathbf c $，其中矩阵$ \mathbf c $中第$ i $行、第$ j $列的元素可以表示为：
-\begin{eqnarray}
-{(\mathbf a\mathbf b)}_{ij} &=& \sum_{k=1}^p a_{ik}b_{kj}
-\label{eq:5-6}
-\end{eqnarray}
-
-\parinterval 只有当第一个矩阵的列数与第二个矩阵的行数相等时，两个矩阵才可以作矩阵乘法。公式\ref{eq:5-7}展示了矩阵乘法的运算过程，若$\mathbf a=\begin{pmatrix}a_{11} & a_{12}& a_{13}\\a_{21} & a_{22} & a_{23}\end{pmatrix}$，$\mathbf b=\begin{pmatrix}b_{11} & b_{12}\\b_{21} & b_{22}\\b_{31} & b_{32}\end{pmatrix} $，则有：
-\vspace{-0.5em}
-\begin{eqnarray}
-\mathbf c & = & \mathbf a\mathbf b \nonumber \\
-          & = & \begin{pmatrix}
-   a_{11}b_{11}+a_{12}b_{21}+a_{13}b_{31} & a_{11}b_{12}+a_{12}b_{22}+a_{13}b_{32}\\
-   a_{21}b_{11}+a_{22}b_{21}+a_{23}b_{31} & a_{21}b_{12}+a_{22}b_{22}+a_{23}b_{32}
-\end{pmatrix}
-\label{eq:5-7}
-\end{eqnarray}
-
-\parinterval 矩阵乘法满足以下运算规律：
-
-\begin{itemize}
-\vspace{0.5em}
-\item 结合律：若$ \mathbf a\in R^{m\times n} $，$ \mathbf b\in R^{n\times p} $，$ \mathbf c\in R^{p\times q} $，则$ (\mathbf {ab})\mathbf c=\mathbf a(\mathbf {bc}) $。
-\vspace{0.5em}
-\item 左分配律：若$ \mathbf a\in R^{m\times n} $，$ \mathbf b\in R^{m\times n} $，$ \mathbf c\in R^{n\times p} $，则$ (\mathbf a+\mathbf b)\mathbf c=\mathbf {ac}+\mathbf {bc} $。
-\vspace{0.5em}
-\item 右分配律：若$ \mathbf a\in R^{m\times n} $，$ \mathbf b\in R^{n\times p} $，$ \mathbf c\in R^{n\times p} $，则$ \mathbf a(\mathbf b+\mathbf c)=\mathbf {ab}+\mathbf {ac} $。
-\vspace{0.5em}
-\end{itemize}
-
-\begin{spacing}{1.4}
-\parinterval 可以将线性方程组用矩阵乘法表示，如对于线性方程组$ \begin{cases} 5x_1+2x_2=y_1\\3x_1+x_2=y_2\end{cases} $，可以表示为$ \mathbf {ax}^{\rm T}=\mathbf y^{\rm T}$，其中$ \mathbf a = \begin{pmatrix} 5 & 2\\3 & 1\end{pmatrix} $，$ \mathbf x^{\rm T} = \begin{pmatrix} x_1\\x_2\end{pmatrix} $，$ \mathbf y^{\rm T} = \begin{pmatrix} y_1\\y_2\end{pmatrix} $。
-\end{spacing}
-
-\parinterval 矩阵的点乘就是两个形状相同的矩阵各个对应元素相乘，矩阵点乘也被称为{\small\bfnew{按元素乘积}}\index{按元素乘积}（Element-wise Product）\index{Element-wise Product}或Hadamard乘积，记为$ \mathbf a \odot \mathbf b$。例如，对于
-\begin{eqnarray}
-\mathbf a &=&
-\begin{pmatrix}
-   1 & 0\\
-   -1 & 3
-\end{pmatrix}
-\\ \nonumber \\
-\mathbf b &=&
-\begin{pmatrix}
-   3 & 1\\
-   2 & 1
-\end{pmatrix}
-\end{eqnarray}
-
-\parinterval 矩阵点乘的计算如下：
-\begin{eqnarray}
-\mathbf c & = & \mathbf a\odot \mathbf b \nonumber \\
-          & = & \begin{pmatrix}
-   1\times 3 & 0\times1\\
-   -1\times2 & 3\times1
-\end{pmatrix}
-\label{eq:5-8}
-\end{eqnarray}
-
-%----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
-%----------------------------------------------------------------------------------------
-
-\subsubsection{线性映射}
-
-\parinterval {\small\sffamily\bfseries{线性映射}}\index{线性映射}（ Linear Mapping）\index{Linear Mapping}或{\small\sffamily\bfseries{线性变换}}\index{线性变换}（Linear Transformation）\index{Linear Transformation}是从一个向量空间V到另一个向量空间W的映射函数$ f:v\rightarrow w$，且该映射函数保持加法运算和数量乘法运算，即对于空间V中任何两个向量$ \mathbf u $ 和$ \mathbf v $以及任何标量$ c $，有：
-\begin{eqnarray}
-f(\mathbf u+\mathbf v)&=&f(\mathbf u)+f(\mathbf v)\label{eq:5-9}\\
-f(c\mathbf v)&=&cf(\mathbf v)
-\label{eq:5-10}
-\end{eqnarray}
-
-\parinterval 利用矩阵$ \mathbf a\in R^{m\times n} $，可以实现两个有限维欧氏空间的映射函数$f:R^n\rightarrow R^m$。例如$ n $维列向量$ \mathbf x ^{\rm T}$与$ m\times n $的矩阵$ \mathbf a $，向量$ \mathbf x ^{\rm T}$左乘矩阵$ \mathbf a $，可将向量$ \mathbf x ^{\rm T}$映射为$ m $列向量，对于
-\begin{eqnarray}
-\mathbf x^{\textrm{T}} & = & {\begin{pmatrix} x_1, & x_2, & \dots &, x_n \end{pmatrix}}^{\rm T}
-\label{eq:5-11}
-\end{eqnarray}
-
-\begin{eqnarray}
-\mathbf a&=&
-\begin{pmatrix}
-   a_{11} & a_{12} & \dots & a_{1n}\\
-   a_{21} & \dots & \dots & \dots \\
-   \dots & \dots & \dots & \dots \\
-   a_{m1} & \dots & \dots & a_{mn}
-\end{pmatrix}
-\label{eq:5-12}
-\end{eqnarray}
-
-\parinterval 可以得到：
-\begin{eqnarray}
-\mathbf y^{\textrm{T}}& = &\mathbf a\mathbf x^{\textrm{T}} \nonumber \\
-               & = &
-\begin{pmatrix}
-   a_{11}x_{1}+a_{12}x_{2}+\dots+a_{1n}x_{n}\\
-   a_{21}x_{1}+a_{22}x_{2}+\dots+a_{2n}x_{n}\\
-   \vdots \\
-   a_{m1}x_{1}+a_{m2}x_{2}+\dots+a_{mn}x_{n}
-\label{eq:5-13}\end{pmatrix}
-\end{eqnarray}
-
-\parinterval 上例中矩阵$ \mathbf a $定义了一个从$ R^n $到$ R^m $的线性映射：向量$ \mathbf x^{\textrm{T}}\in R^n $和$ \mathbf y^{\textrm{T}}\in R^m $别为两个空间中的列向量，即大小为$ n\times 1 $ 和$ m\times 1 $ 的矩阵。
-
-%----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
-%----------------------------------------------------------------------------------------
-
-\subsubsection{范数}
-
-\parinterval 工程领域，经常会使用被称为{\small\bfnew{范数}}\index{范数}（Norm）\index{Norm}的函数衡量向量大小，范数为向量空间内的所有向量赋予非零的正长度或大小。对于一个$n$维向量$ \mathbf x $，一个常见的范数函数为$ l_p $ 范数，通常表示为$ {\Vert{\mathbf x}\Vert}_p $ ，其中$p\ge 0$，是一个标量形式的参数。常用的$ p $的取值有$ 1 $、$ 2 $、$ \infty $等。范数的计算公式为：
-\begin{eqnarray}
-l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
-               & = & {\left (\sum_{i=1}^{n}{{\vert x_{i}\vert}^p}\right )}^{\frac{1}{p}}
-\label{eq:5-14}
-\end{eqnarray}
-
-\parinterval $ l_1 $范数为向量的各个元素的绝对值之和：
-\begin{eqnarray}
-{\Vert{\mathbf x}\Vert}_1&=&\sum_{i=1}^{n}{\vert x_{i}\vert}
-\label{eq:5-15}
-\end{eqnarray}
-
-\parinterval $ l_2 $范数为向量的各个元素平方和的二分之一次方：
-\begin{eqnarray}
-{\Vert{\mathbf x}\Vert}_2&=&\sqrt{\sum_{i=1}^{n}{{x_{i}}^2}} \nonumber \\
-                                      &=&\sqrt{{\mathbf x}^{\rm T}\mathbf x}
-\label{eq:5-16}
-\end{eqnarray}
-
-\parinterval $ l_2 $范数被称为{\small\bfnew{欧几里得范数}}\index{欧几里得范数}（Euclidean Norm）\index{Euclidean Norm}。从几何角度，向量也可以表示为从原点出发的一个带箭头的有向线段，其$ l_2 $范数为线段的长度，也常被称为向量的模。$ l_2 $ 范数在机器学习中非常常用，向量$ \mathbf x $的$ l_2 $范数经常简化为$ \Vert{\mathbf x}\Vert $，可以简单地通过点积$ {\mathbf x}^{\rm T}\mathbf x $计算。
-
-\parinterval $ l_{\infty} $范数为向量的各个元素的最大绝对值：
-\begin{eqnarray}
-{\Vert{\mathbf x}\Vert}_{\infty}&=&{\rm{max}}\{x_1,x_2,\dots,x_n\}
-\label{eq:5-17}
-\end{eqnarray}
-
-\parinterval 广义上讲，范数是将向量映射到非负值的函数，其作用是衡量向量$ \mathbf x $到坐标原点的距离。更严格的说，范数并不拘于$ l_p $范数，任何一个同时满足下列性质的函数都可以作为范数：
-
-\begin{itemize}
-\vspace{0.5em}
-\item 若$ f(x)=0 $，则$ x=0 $。
-\vspace{0.5em}
-\item 三角不等式：$ f(x+y)\leqslant f(x)+f(y) $。
-\vspace{0.5em}
-\item 任意实数$ \alpha $，$ f(\alpha x)=\vert \alpha \vert f(x) $。
-\vspace{0.5em}
-\end{itemize}
-
-\parinterval 在深度学习中，有时候希望衡量矩阵的大小，这时可以考虑使用 {\small\bfnew{Frobenius 范数}}\index{Frobenius 范数}（Frobenius Norm）\index{Frobenius Norm}。计算方式为：
-\begin{eqnarray}
-{\Vert{\mathbf a}\Vert}_F&=&\sqrt{\sum_{i,j} a_{i,j}^2}
-\label{eq:5-18}
-\end{eqnarray}
-
-%----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------

 \sectionnewpage
 \section{掷骰子游戏}

-\parinterval 上述过程的核心在于从数据中学习一种对分词现象的统计描述，即学习函数$\textrm{P}(\cdot)$。如何让计算机利用分词好的数据学习到分词的知识呢？可以先看一个有趣的实例（图\ref{fig:2-11}），用生活中比较常见的掷骰子来说，掷一个骰子，玩家猜一个数字，猜中就算赢。按照一般的常识，随便选一个数字，获胜的概率是一样的，即所有选择的获胜概率仅是$1/6$。因此这个游戏玩家很难获胜，除非运气很好。假设进行一次游戏，玩家随便选了一个数字，比如是1，投掷30次骰子，得到命中$7/30 > 1/6$，还不错。
+\parinterval 我们在阐述统计建模方法前，先看一个有趣的实例（图\ref{fig:2-5}）。掷骰子，一个生活中比较常见的游戏，掷一个骰子，玩家猜一个数字，猜中就算赢，按照常识来说，随便选一个数字，获胜的概率是一样的，即所有选择的获胜概率都是$1/6$。因此这个游戏玩家很难获胜，除非运气很好。假设进行一次游戏，玩家随意选了一个数字，比如是1。当投掷30次骰子，发现我们的运气不错，得到命中$7/30 > 1/6$，还不错。
 \vspace{-0.5em}

 %----------------------------------------------
@@ -636,12 +347,11 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
 \input{./Chapter2/Figures/figure-the-dice-game}
 %\setlength{\belowcaptionskip}{-0.5cm}
 \caption{骰子结果}
-\label{fig:2-11}
+\label{fig:2-5}
 \end{figure}
 %-------------------------------------------

-\vspace{-0.5em}
-\parinterval 似乎玩家的胜利只能来源于运气。不过，请注意，这里的假设``随便选一个数字''本身就是一个概率模型，它对骰子的六个面的出现做了均匀分布假设。
+\parinterval 此时玩家的胜利似乎只能来源于运气。不过，请注意，这里的假设``随便选一个数字''本身就是一个概率模型，它对骰子的六个面的出现做了均匀分布假设。
 \begin{eqnarray}
 \textrm{P(``1'')}=\textrm{P(``2'')}=...=\textrm{P(``5'')}=\textrm{P(``6'')}=1/6
 \label{eq:2-17}
@@ -659,37 +369,95 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
 \label{eq:2-18}
 \end{eqnarray}

-\noindent 这里，$\theta_1 \sim \theta_5$可以被看作是模型的参数，因此这个模型的自由度是5。对于这样的模型，参数确定了，模型也就确定了。但是，新的问题来了，在定义骰子每个面的概率后，如何求出具体的值呢？一种常用的方法是，从大量实例中学习模型参数，这个方法也是常说的{\small\bfnew{参数估计}}\index{参数估计}（Parameter Estimation）\index{Parameter Estimation}。可以将这个不均匀的骰子先实验性的掷很多次，这可以被看作是独立同分布的若干次采样，比如$X$ 次，发现``1'' 出现$X_1$ 次，``2'' 出现$X_2$ 次，以此类推，得到了各个面出现的次数。假设掷骰子中每个面出现的概率符合多项式分布，通过简单的概率论知识可以知道每个面出现概率的极大似然估计为：
+\noindent 这里，$\theta_1 \sim \theta_5$可以被看作是模型的参数，因此这个模型的自由度是5。对于这样的模型，参数确定了，模型也就确定了。但是，新的问题来了，在定义骰子每个面的概率后，如何求出具体的概率值呢？一种常用的方法是，从大量实例中学习模型参数，这个方法也是常说的{\small\bfnew{参数估计}}\index{参数估计}（Parameter Estimation）\index{Parameter Estimation}。可以将这个不均匀的骰子先实验性的掷很多次，这可以被看作是独立同分布的若干次采样，比如$X$ 次，发现``1'' 出现$X_1$ 次，``2'' 出现$X_2$ 次，以此类推，得到了各个面出现的次数。假设掷骰子中每个面出现的概率符合多项式分布，通过简单的概率论知识可以知道每个面出现概率的极大似然估计为：
 \begin{eqnarray}
 \textrm{P(``i'')}=\frac {X_i}{X}
 \label{eq:2-19}
 \end{eqnarray}

-\parinterval 当$X$足够大的时，$\frac{X_i}{X}$可以无限逼近P(``$i$'')的真实值，因此可以通过大量的实验推算出掷骰子各个面的概率的准确估计值。回归到原始的问题，如果在正式开始游戏前，预先掷骰子30次，得到如图\ref{fig:2-12}的结果。
+\parinterval 当$X$足够大的时，$\frac{X_i}{X}$可以无限逼近P(``$i$'')的真实值，因此可以通过大量的实验推算出掷骰子各个面的概率的准确估计值。回归到原始的问题，如果在正式开始游戏前，预先掷骰子30次，得到如图\ref{fig:2-6}的结果。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter2/Figures/figure-the-dice-game2}
 \caption{实验性投掷骰子的结果}
-\label{fig:2-12}
+\label{fig:2-6}
 \end{figure}
 %-------------------------------------------

-\parinterval 于是，我们看到了一个有倾向性的模型（图 \ref{fig:2-13}）：在这样的预先实验基础上，可以知道如果再次玩掷骰子游戏的话，选则数字``4''获胜的可能性是最大的。
+\parinterval 于是，我们可以看到，这是一个有倾向性的模型（图 \ref{fig:2-7}）：在这样的预先实验基础上，可以知道这个骰子是不均匀的，如果用这个骰子玩掷骰子游戏，选择数字``4''获胜的可能性是最大的。

 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter2/Figures/figure-the-dice-game-model}
 \caption{投骰子模型}
-\label{fig:2-13}
+\label{fig:2-7}
 \end{figure}
 %-------------------------------------------

-\parinterval 通过上面这个掷骰子的游戏，可以得到一个道理：{\small\sffamily\bfseries{上帝是不公平的}}。因为在``公平''的世界中，没有任何一个模型可以学到有价值的事情。从机器学习的角度来看，所谓的``不公平''实际上这是客观事物中蕴含的一种{\small\sffamily\bfseries{偏置}}\index{偏置}（Bias）\index{Bias}，也就是很多事情天然就有对某些情况有倾向。而图像处理、自然语言处理等问题中绝大多数都存在着偏置。
+\parinterval {\small\sffamily\bfseries{上帝是不公平的}}，上面这个掷骰子游戏也是如此。在``公平''的世界中，没有任何一个模型可以学到有价值的事情。从机器学习的角度来看，所谓的``不公平''实际上这是客观事物中蕴含的一种{\small\sffamily\bfseries{偏置}}\index{偏置}（Bias）\index{Bias}，也就是很多事情天然就有对某些情况有倾向。而图像处理、自然语言处理等问题中绝大多数都存在着偏置。比如，我们翻译一个英文单词的时候，它最可能的翻译结果往往就是那几个词。设计统计模型的目的正式要学习这种偏置，之后利用这种偏置对新的问题做出足够好的决策。
+
+\parinterval 在处理语言问题时，为了评价哪些词更容易在一个句子中出现，或者哪些句子在某些语境下更合理，常常也会使用统计方法对词或句子出现的可能性建模。与掷骰子游戏类似，词出现的概率可以这样理解：每个单词的出现就好比掷一个巨大的骰子，与前面的例子中有所不同的是：
+
+\begin{itemize}
+\vspace{0.5em}
+\item 骰子有很多个面，每个面代表一个单词。
+\vspace{0.5em}
+\item 骰子是不均匀的，代表常用单词所在的那些面的出现次数会远远多于罕见词。
+\vspace{0.5em}
+\end{itemize}
+
+\parinterval 如果投掷这个新的骰子，可能会得到图\ref{fig:2-8}这样的结果，
+
+%----------------------------------------------
+\begin{figure}[htp]
+\centering
+\input{./Chapter2/Figures/figure-full-probability-word-segmentation-1}
+\caption{投掷一个很多面骰子的结果}
+\label{fig:2-8}
+\end{figure}
+%-------------------------------------------

-\parinterval 比如，在机器翻译任务中，当我们想将一个英文单词翻译为汉字的时候，最简单的方式是，让计算机在最全的汉英字典中从头至尾地寻找对应的字或词组，这相当于假设了字典中的每个字都有可能在这句话中出现，如同我们认为骰子的6个面出现的概率是等可能的。但是显然由于语境的限制，一个句子中可能出现的字不会太多。例如，人类在翻译体育新闻时会更倾向于考虑``篮球''、``奥运会''等词汇，而不是``核武器''。那么如何让机器学会这种``偏置''呢？常用的方式是在进行翻译之前准备一些与待翻译句子领域相关的文本，计算出这个文本中每一个出现的词汇的概率，并用这个概率作为词在待翻译句子中出现的可能性。与先前掷骰子的思想相同，在文本中，每看一个字的动作都像在掷一次骰子，看到的每个字就像是骰子的一个面，文本中有多少个字就是掷了多少次骰子。因此从文本中学到的概率也是不均匀的，该领域中经常出现的词汇的概率将远高于该词汇在字典中出现的概率，因此这种概率也更加利于对该领域句子的翻译。设计统计模型的目的正是要根据不同的领域或文本学习不同概率，也就是学习偏置，之后利用这种偏置对新的问题做出足够好的决策。
+\parinterval 如果，把这些数字换成汉语中的词，比如
+
+\parinterval 88\; = \; 这
+
+\parinterval 87\; = \; 是
+
+\parinterval 45\; = \; 一
+
+\parinterval ...
+
+\parinterval 就可以得到图\ref{fig:2-9}所示的结果。
+
+%----------------------------------------------
+\begin{figure}[htp]
+\centering
+\input{./Chapter2/Figures/figure-full-probability-word-segmentation-2}
+\setlength{\belowcaptionskip}{-0.2cm}
+\caption{掷骰子游戏中把数字换成汉字后的结果}
+\label{fig:2-9}
+\end{figure}
+%-------------------------------------------
+
+\parinterval 于是，可以假设有一个不均匀的多面骰子，每个面都对应一个单词。在获取一些文本数据后，可以统计每个单词出现的次数，进而利用极大似然估计推算出每个单词在语料库中出现的概率的估计值。图\ref{fig:2-10}给出了一个实例。
+
+%----------------------------------------------
+\begin{figure}[htp]
+\centering
+\input{./Chapter2/Figures/figure-full-probability-word-segmentation-3}
+\caption{单词概率的估计结果}
+\label{fig:2-10}
+\end{figure}
+%-------------------------------------------
+
+\parinterval 通过这个学习过程，我们就可以得到每个词出现的概率，成功使用统计方法对“单词的频率”这个问题进行建模。
+
+\parinterval 那么又该如何计算一个句子的概率呢？在自然语言处理领域中，句子可以被看作是由单词组成的序列，因而句子的概率可以被建模为若干单词的联合概率，即$\textrm{P}(w_1 w_2 w_3...w_m)$
+
+\parinterval 其中，$w$表示句子中的一个单词。此时仍可以使用掷骰子的方式，将骰子的每个面看作一个句子，然后用统计词汇概率的方式统计句子的概率。但是这里有一个问题，一个句子在指定文本中出现的次数一定比词汇在文本出现的次数低得多，此时通过统计的方式求句子的频率会由于样本数太少，导致无法准确的求出句子的概率，因此对句子的统计建模仍需要更好的方式。

 %----------------------------------------------------------------------------------------
 %    NEW SECTION
@@ -698,7 +466,7 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
 \sectionnewpage
 \section{$n$-gram语言模型}

-\parinterval 在翻译过程中，为了衡量机器生成的句子是否是正常人可以理解的话，我们常常要给句子的合理程度打分。以英语为例，最简单的方式是将句子看作一个由许多单词构成的串，这个串的合理性可以由其中每个单词的合理性判断，此时每个单词也被称作1-gram（或uni-gram），而1-gram概率的乘积实际上也是在度量词序列出现的可能性（记为$\textrm{P}(w_1 w_2...w_m)$）。这种计算整个单词序列概率$\textrm{P}(w_1 w_2...w_m)$的方法被称为统计语言模型。1-gram语言模型是最简单的一种语言模型，它没有考虑任何的上下文。很自然的一个问题是：能否考虑上下文信息构建更强大的语言模型，进而得到更准确的分词结果。下面将进一步介绍更加通用的$n$-gram语言模型，它在机器翻译及其他自然语言处理任务中有更加广泛的应用。
+\parinterval 在骰子游戏中，我们可以通过一种统计的方式，估计出在文本中词和句子出现的概率。但是在计算句子概率时往往会因为句子的样本过少而无法正确估计出句子出现的频率，为了能够准确地衡量句子出现的频率，我们引入了计算整个单词序列概率$\textrm{P}(w_1 w_2 w_3...w_m)$的方法---统计语言模型的概念，并在本章进一步介绍更加通用的n-gram语言模型，它在机器翻译及其他自然语言处理任务中有更加广泛的应用。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -749,10 +517,11 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
 }
 \end{center}

-\vspace{-1.5em}
-\parinterval 可以看到，1-gram语言模型只是$n$-gram语言模型的一种特殊形式。$n$-gram的优点在于，它所使用的历史信息是有限的，即$n-1$个单词。这种性质也反映了经典的马尔可夫链的思想\cite{liuke-markov-2004}\cite{resnick1992adventures}，有时也被称作马尔可夫假设或者马尔可夫属性。因此$n$-gram也可以被看作是变长序列上的一种马尔可夫模型，比如，2-gram语言模型对应着1阶马尔可夫模型，3-gram语言模型对应着2阶马尔可夫模型，以此类推。
+\parinterval $n$-gram的优点在于，它所使用的历史信息是有限的，即$n-1$个单词。这种性质也反映了经典的马尔可夫链的思想\cite{liuke-markov-2004}\cite{resnick1992adventures}，有时也被称作马尔可夫假设或者马尔可夫属性。因此$n$-gram也可以被看作是变长序列上的一种马尔可夫模型，比如，2-gram语言模型对应着1阶马尔可夫模型，3-gram语言模型对应着2阶马尔可夫模型，以此类推。
+
+\parinterval 可以看到，1-gram语言模型只是$n$-gram语言模型的一种特殊形式。基于独立性假设，1-gram假定当前词出现与否与任何历史都无关，这种方法大大化简了求解句子概率的复杂度。

-\parinterval 那么，如何计算$\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$呢？有很多种选择，比如：
+\parinterval 虽然1-gram语言模型的计算十分简单，但是它没有考虑任何的上下文。就像英语中完形填空考察的那样，句子中的词汇并非完全相互独立的，因此这种语言模型并不能完美的描述客观世界的问题。如果需要更精确的处理结果，仍需要使用更长的n-gram。那么在使用更长的n-gram时，如何计算$\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$呢？有很多种选择，比如：

 \begin{itemize}
 \vspace{0.5em}
@@ -781,7 +550,7 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
 \label{eq:2-25}
 \end{eqnarray}

-\parinterval 以$n$-gram语言模型为代表的统计语言模型的应用非常广泛。除了分词，在文本生成、信息检索、摘要等自然语言处理任务中，语言模型都有举足轻重的地位。包括近些年非常受关注的预训练模型，本质上也是统计语言模型。这些技术都会在后续章节进行介绍。值得注意的是，统计语言模型为解决自然语言处理问题提供了一个非常好的建模思路，即：把整个序列生成的问题转化为逐个生成单词的问题。很快我们就会看到，这种建模方式会被广泛地用于机器翻译建模，在统计机器翻译和神经机器翻译中都会有明显的体现。
+\parinterval 以$n$-gram语言模型为代表的统计语言模型的应用非常广泛。除了将要在第三章中介绍的全概率分词方法，在文本生成、信息检索、摘要等自然语言处理任务中，语言模型都有举足轻重的地位。包括近些年非常受关注的预训练模型，本质上也是统计语言模型。这些技术都会在后续章节进行介绍。值得注意的是，统计语言模型为解决自然语言处理问题提供了一个非常好的建模思路，即：把整个序列生成的问题转化为逐个生成单词的问题。很快我们就会看到，这种建模方式会被广泛地用于机器翻译建模，在统计机器翻译和神经机器翻译中都会有明显的体现。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -797,14 +566,14 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
 \label{eq:2-26}
 \end{eqnarray}

-\parinterval 显然，这个结果是不能接受的。因为即使语料中没有 ``确实''和``现在''两个词连续出现，这种搭配也是客观存在的。这时简单的用极大似然估计得到概率却是0，导致整个切分结果的概率为0。 更常见的问题是那些根本没有出现在词表中的词，称为{\small\sffamily\bfseries{未登录词}}\index{未登录词}（Out-of-Vocabulary Word，OOV Word）\index{Out-of-Vocabulary Word，OOV Word}，比如一些生僻词，可能模型训练阶段从来没有看到过，这时模型仍然会给出0 概率。图\ref{fig:2-18}展示了一个真实语料库中词语出现频度的分布，可以看到绝大多数词都是低频词。
+\parinterval 显然，这个结果是不能接受的。因为即使语料中没有 ``确实''和``现在''两个词连续出现，这种搭配也是客观存在的。这时简单的用极大似然估计得到概率却是0，导致整个切分结果的概率为0。 更常见的问题是那些根本没有出现在词表中的词，称为{\small\sffamily\bfseries{未登录词}}\index{未登录词}（Out-of-Vocabulary Word，OOV Word）\index{Out-of-Vocabulary Word，OOV Word}，比如一些生僻词，可能模型训练阶段从来没有看到过，这时模型仍然会给出0 概率。图\ref{fig:2-11}展示了一个真实语料库中词语出现频度的分布，可以看到绝大多数词都是低频词。

 %----------------------------------------------
 \begin{figure}[htp]
    \centering
 \input{./Chapter2/Figures/figure-word-frequency-distribution}
 	 \caption{词语频度的分布}
-    \label{fig:2-18}
+    \label{fig:2-11}
 \end{figure}
 %---------------------------

@@ -830,14 +599,14 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\

 \noindent 其中，$V$表示所有词汇的词表，$|V|$为词表中单词的个数，$w$为词典中的一个词。有时候，加法平滑方法会将$\theta$取1，这时称之为加一平滑或是拉普拉斯平滑。这种方法比较容易理解，也比较简单，因此也往往被用于对系统的快速原型中。

-\parinterval 举一个例子。假设在一个英文文档中随机采样一些单词（词表大小$|V|=20$），各个单词出现的次数为：``look'': 4，``people'': 3，``am'': 2，``what'': 1，``want'': 1，``do'': 1。图\ref{fig:2-19} 给出了在平滑之前和平滑之后的概率分布。
+\parinterval 举一个例子。假设在一个英文文档中随机采样一些单词（词表大小$|V|=20$），各个单词出现的次数为：``look'': 4，``people'': 3，``am'': 2，``what'': 1，``want'': 1，``do'': 1。图\ref{fig:2-12} 给出了在平滑之前和平滑之后的概率分布。

 %----------------------------------------------
 \begin{figure}[htp]
    \centering
 	\input{./Chapter2/Figures/figure-no-smoothing&smoothed-probability-distributions}
 	\caption{无平滑和有平滑的概率分布}
-    \label{fig:2-19}
+    \label{fig:2-12}
 \end{figure}
 %-------------------------------------------

@@ -887,7 +656,7 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\

 \noindent 其中$n_1/N$就是分配给所有出现为0次事件的概率。古德-图灵方法最终通过出现1次的$n$-gram估计了出现为0次的事件概率，达到了平滑的效果。

-\parinterval 这里使用一个例子来说明这个方法是如何对事件出现的可能性进行平滑的。仍然考虑在加法平滑法中统计单词的例子，根据古德-图灵方法进行修正如表\ref{tab:2-21}所示。
+\parinterval 这里使用一个例子来说明这个方法是如何对事件出现的可能性进行平滑的。仍然考虑在加法平滑法中统计单词的例子，根据古德-图灵方法进行修正如表\ref{tab:2-2}所示。

 %------------------------------------------------------
 \begin{table}[htp]{
@@ -902,7 +671,7 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\
 \rule{0pt}{10pt} 3 & 1 & 4 & 0.333 \\
 \rule{0pt}{10pt} 4 & 1 & - & - \\
 \end{tabular}
-\label{tab:2-21}
+\label{tab:2-2}
 }
 \end{center}
 }\end{table}