第二章n-gram修改

4fcd0bfc · 单韦乔 · 812e144f · 4fcd0bfc
Commit 4fcd0bfc authored Jul 27, 2020 by 单韦乔
--- a/Chapter2/chapter2.tex
+++ b/Chapter2/chapter2.tex
@@ -517,11 +517,11 @@ F(x)=\int_{-\infty}^x f(x)dx
 }
 \end{center}

-\parinterval $n$-gram的优点在于，它所使用的历史信息是有限的，即$n-1$个单词。这种性质也反映了经典的马尔可夫链的思想\cite{liuke-markov-2004}\cite{resnick1992adventures}，有时也被称作马尔可夫假设或者马尔可夫属性。因此$n$-gram也可以被看作是变长序列上的一种马尔可夫模型，比如，2-gram语言模型对应着1阶马尔可夫模型，3-gram语言模型对应着2阶马尔可夫模型，以此类推。
+\parinterval 可以看到，1-gram语言模型只是$n$-gram语言模型的一种特殊形式。基于独立性假设，1-gram假定当前词出现与否与任何历史都无关，这种方法大大化简了求解句子概率的复杂度。但是1-gram语言模型没有考虑任何的上下文。就像英语中完形填空考察的那样，句子中的词汇并非完全相互独立的，因此这种语言模型并不能完美的描述客观世界的问题。如果需要更精确地获取句子的概率，就需要使用$n$-gram语言模型了。

-\parinterval 可以看到，1-gram语言模型只是$n$-gram语言模型的一种特殊形式。基于独立性假设，1-gram假定当前词出现与否与任何历史都无关，这种方法大大化简了求解句子概率的复杂度。
+\parinterval $n$-gram的优点在于，它所使用的历史信息是有限的，即$n-1$个单词。这种性质也反映了经典的马尔可夫链的思想\cite{liuke-markov-2004}\cite{resnick1992adventures}，有时也被称作马尔可夫假设或者马尔可夫属性。因此$n$-gram也可以被看作是变长序列上的一种马尔可夫模型，比如，2-gram语言模型对应着1阶马尔可夫模型，3-gram语言模型对应着2阶马尔可夫模型，以此类推。

-\parinterval 虽然1-gram语言模型的计算十分简单，但是它没有考虑任何的上下文。就像英语中完形填空考察的那样，句子中的词汇并非完全相互独立的，因此这种语言模型并不能完美的描述客观世界的问题。如果需要更精确的处理结果，仍需要使用更长的n-gram。那么在使用更长的n-gram时，如何计算$\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$呢？有很多种选择，比如：
+\parinterval 那么，如何计算$\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$呢？有很多种选择，比如：

 \begin{itemize}
 \vspace{0.5em}