minor updates of sections 2-3

a744eab3 · xiaotong · d8921642 · a744eab3 · a744eab3 · a744eab3
Commit a744eab3 authored Apr 12, 2020 by xiaotong
--- a/Book/Chapter2/Figures/figure-probability-values-corresponding-to-different-derivations.tex
+++ b/Book/Chapter2/Figures/figure-probability-values-corresponding-to-different-derivations.tex
@@ -66,7 +66,7 @@
 \end{scope}

 \draw [->,thick,ublue] ([xshift=-2em]sent.south) ..controls + (south:2em) and +(north:2em).. ([xshift=-8em,yshift=-2em]sent.south);
-\draw [->,thick,ublue] ([xshift=-1em]sent.south) ..controls + (south:2em) and +(north:2em).. ([xshift=-2em,yshift=-3em]sent.south);
+\draw [->,thick,ublue] ([xshift=-1em]sent.south) ..controls + (south:2em) and +(north:2em).. ([xshift=-2em,yshift=-2em]sent.south);
 \draw [->,thick,ublue] ([xshift=0em]sent.south) ..controls + (south:2em) and +(north:2em).. ([xshift=6.5em,yshift=-2em]sent.south);
 \draw [->,thick,ublue,dotted] ([xshift=1em]sent.south) ..controls + (south:1.5em) and +(north:2.5em).. ([xshift=12.5em,yshift=-2em]sent.south);


--- a/Book/Chapter2/chapter2.tex
+++ b/Book/Chapter2/chapter2.tex
@@ -227,9 +227,9 @@ F(X)=\int_{-\infty}^x f(x)dx
 \parinterval 举个例子，小张从家到公司有三条路分别为$a$，$b$，$c$，选择每条路的概率分别为0.5，0.3，0.2。令：

 \begin{itemize}
-\item $S_a$：小张选择a路去上班
-\item $S_b$：小张选择b路去上班
-\item $S_c$：小张选择c路去上班
+\item $S_a$：小张选择$a$路去上班
+\item $S_b$：小张选择$b$路去上班
+\item $S_c$：小张选择$c$路去上班
 \item $S$：小张去上班
 \end{itemize}

@@ -308,7 +308,7 @@ F(X)=\int_{-\infty}^x f(x)dx

 \subsubsection{KL距离}\index{Chapter2.2.5.2}

-\parinterval 如果同一个随机变量$X$上有两个独立的概率分布P$(x)$和Q$(x)$，那么可以使用KL距离("Kullback-Leibler" 散度)来衡量这两个分布的不同，这种度量就是{\small\bfnew{相对熵}}（Relative Entropy）。其公式如下：
+\parinterval 如果同一个随机变量$X$上有两个独立的概率分布P$(x)$和Q$(x)$，那么可以使用KL距离(``Kullback-Leibler''散度)来衡量这两个分布的不同，这种度量就是{\small\bfnew{相对熵}}（Relative Entropy）。其公式如下：
 \begin{eqnarray}
 \textrm{D}_{\textrm{KL}}(\textrm{P}\parallel \textrm{Q}) & = & \sum_{x \in \textrm{X}} [ \textrm{P}(x)\log \frac{\textrm{P}(x) }{ \textrm{Q}(x) } ]  \nonumber \\
                                                                                       & = & \sum_{x \in \textrm{X} }[ \textrm{P}(x)(\log\textrm{P}(x)-\log \textrm{Q}(x))]
@@ -773,7 +773,7 @@ r^* = (r + 1)\frac{n_{r + 1}}{n_r}
 \parinterval 基于这个公式，就可以估计所有0次$n$-gram的频次$n_0 r^*=(r+1)n_1=n_1$。要把这个重新估计的统计数转化为概率，需要进行归一化处理：对于每个统计数为$r$的事件，其概率为

 \begin{eqnarray}
-\textrm{P}_r=r^*/N
+\textrm{P}_r=\frac{r^*}{N}
 \end{eqnarray}

 其中
@@ -784,7 +784,7 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\
 \label{eq:2.4-10}
 \end{eqnarray}

-也就是说，$N$仍然为这个整个样本分布最初的计数。这样样本中所有事件的概率之和为：
+也就是说，$N$仍然为这个整个样本分布最初的计数。样本中所有事件的概率之和为：

 \begin{eqnarray}
 \textrm{P}(r>0) & = & \sum_{r>0}{\textrm{P}_r} \nonumber \\
@@ -1152,7 +1152,7 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
 \end{figure}
 %-------------------------------------------

-\parinterval 图\ref{fig:2.5-9}展示了基于统计的句法分析的流程。首先，通过树库上的统计，获得各个规则的概率，这样就得到了一个上下文无关句法分析模型$\textrm{P}( \cdot )$。对于任意句法分析结果$d=r_1 \cdot r_2 \cdot ... \cdot r_n$，都能通过如下公式计算其概率值：
+\parinterval 图\ref{fig:2.5-9}展示了基于统计的句法分析的流程。首先，通过树库上的统计，获得各个规则的概率，这样就得到了一个上下文无关句法分析模型$\textrm{P}( \cdot )$。对于任意句法分析结果$d=r_1 \circ r_2 \circ ... \circ r_n$，都能通过如下公式计算其概率值：

 \begin{equation}
 \textrm{P}(d)= \prod_{i=1}^{n}\textrm{P}(r_i)
@@ -1182,7 +1182,7 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
 \begin{itemize}
 \item 在建模方面，本章介绍的三个任务均采用的是基于人工先验知识进行模型设计的思路。也就是，问题所表达的现象被``一步一步''生成出来。这是一种典型的生成式建模思想，它把要解决的问题看作一些观测结果的隐含变量（比如，句子是观测结果，分词结果是隐含在背后的变量），之后通过对隐含变量生成观测结果的过程进行建模，以达到对问题进行数学描述的目的。这类模型一般需要依赖一些独立性假设，假设的合理性对最终的性能有较大影响。相对{\small\sffamily\bfseries{生成模型}}（Generative Model），另一类方法{\small\sffamily\bfseries{判别模型}}（Discriminative Model），它直接描述了从隐含变量生成观测结果的过程，这样对问题的建模更加直接，同时这类模型可以更加灵活的引入不同的特征。判别式模型在自然语言处理中也有广泛应用\cite{shannon1948mathematical}\cite{ng2002discriminative}。 在本书的第四章也会使用到判别式模型。

-\item 从现在自然语言处理的前沿看，基于端到端学习的深度学习方法在很多任务中都取得了领先的性能。但是，本章并没有涉及深度学习及相关方法，这是由于笔者认为：{\color{red} 对问题的建模是自然语言处理的基础，对问题的本质刻画并不会因为方法的改变而改变}。因此，本章的内容没有太多的陷入到更加复杂的模型和算法设计中，相反，我们希望关注对基本问题的理解和描述。不过，一些前沿方法仍可以作为参考，包括：基于条件随机场和双向长短时记忆模型的序列标注模型（\cite{lafferty2001conditional}\cite{huang2015bidirectional}\cite{ma2016end}、神经语言模型\cite{bengio2003neural}\cite{mikolov2010recurrent}、神经句法分析模型\cite{chen2014fast}\cite{zhu2015long}。
+\item 从现在自然语言处理的前沿看，基于端到端学习的深度学习方法在很多任务中都取得了领先的性能。但是，本章并没有涉及深度学习及相关方法，这是由于笔者认为：{\color{red} 对问题的建模是自然语言处理的基础，对问题的本质刻画并不会因为方法的改变而改变}。因此，本章的内容没有太多的陷入到更加复杂的模型和算法设计中，相反，我们希望关注对基本问题的理解和描述。不过，一些前沿方法仍可以作为参考，包括：基于条件随机场和双向长短时记忆模型的序列标注模型\cite{lafferty2001conditional}\cite{huang2015bidirectional}\cite{ma2016end}、神经语言模型\cite{bengio2003neural}\cite{mikolov2010recurrent}、神经句法分析模型\cite{chen2014fast}\cite{zhu2015long}。

 \item 此外，本章并没有对模型的推断方法进行深入介绍。比如，对于一个句子如何有效的找到概率最大的分词结果？显然，简单枚举是不可行的。对于这类问题比较简单的解决方法是使用动态规划\cite{huang2008advanced}。如果使用动态规划的条件不满足，可以考虑使用更加复杂的搜索策略，并配合一定剪枝方法。实际上，无论是$n$-gram语言模型还是简单的上下文无关文法都有高效的推断方法。比如，$n$-gram语言模型可以被视为概率有限状态自动机，因此可以直接使用成熟的自动机工具。对于更复杂的句法分析问题，可以考虑使用移进-规约方法来解决推断问题\cite{aho1972theory}。
 \end{itemize}

--- a/Book/Chapter3/Figures/figure-processes-SMT.tex
+++ b/Book/Chapter3/Figures/figure-processes-SMT.tex
@@ -26,7 +26,7 @@
 \draw [->,very thick,ublue] ([xshift=0.2em]corpus.east) -- ([xshift=3.2em]corpus.east)  node [pos=0.5, above] {\color{red}{\scriptsize{模型学习}}};

 {
-\draw [->,very thick,ublue] ([xshift=0.4em]model.east) -- ([xshift=3.4em]model.east)  node [inner sep=0pt,pos=0.5, above,yshift=0.3em] (decodingarrow) {\color{red}{\scriptsize{穷举\&计算}}};
+\draw [->,very thick,ublue] ([xshift=0.4em]model.east) -- ([xshift=3.4em]model.east)  node [inner sep=0pt,pos=0.5, above,yshift=0.3em] (decodingarrow) {\color{red}{\scriptsize{搜索\&计算}}};

 {\scriptsize
 \node [anchor=north west,inner sep=2pt] (sentlabel) at ([xshift=5.5em,yshift=-0.9em]model.north east) {{\color{ublue} \sffamily\bfseries{机器翻译引擎}}};

--- a/Book/mt-book-xelatex.idx
+++ b/Book/mt-book-xelatex.idx
--- a/Book/mt-book-xelatex.ptc
+++ b/Book/mt-book-xelatex.ptc
--- a/Book/mt-book-xelatex.tex
+++ b/Book/mt-book-xelatex.tex
@@ -112,13 +112,13 @@
 %	CHAPTERS
 %----------------------------------------------------------------------------------------

-%\include{Chapter1/chapter1}
+\include{Chapter1/chapter1}
 \include{Chapter2/chapter2}
-%\include{Chapter3/chapter3}
-%\include{Chapter4/chapter4}
-%\include{Chapter5/chapter5}
-%\include{Chapter6/chapter6}
-%\include{ChapterAppend/chapterappend}
+\include{Chapter3/chapter3}
+\include{Chapter4/chapter4}
+\include{Chapter5/chapter5}
+\include{Chapter6/chapter6}
+\include{ChapterAppend/chapterappend}