合并分支 'shanweiqiao' 到 'caorunzhe'

第一二章格式调整查看合并请求 !51

合并分支 'shanweiqiao' 到 'caorunzhe'
第一二章格式调整查看合并请求 !51
3932b1fb · 单韦乔 · b48c81fd · 2632a3b8 · 3932b1fb · 3932b1fb
Commit 3932b1fb authored Aug 11, 2020 by 单韦乔
--- a/Chapter1/Figures/figure-comparison-mt-ht-1.tex
+++ b/Chapter1/Figures/figure-comparison-mt-ht-1.tex
@@ -27,53 +27,10 @@
 \node [anchor=north west] (ht1-3) at ([yshift=0.4em]ht1-2.south west) {\scriptsize{{\color{red}\underline{-mined to}} persist till the last moment.A few days later, almost the whole island sunk into the sea,}};
 \node [anchor=north west] (ht1-4) at ([yshift=0.4em]ht1-3.south west) {\scriptsize{and LOVE had to {\color{red}\underline{seek for help.}}}};
-%第二段--------------------------------
-%原文-------------
-\node[anchor=north west] (original4) at ([xshift=-3.5em,yshift=-0.3em]ht1-4.south west)  {\scriptsize{源 \qquad 文：这时，富裕乘着一艘大船经过。爱说：``富裕，你能带我走吗？''富裕 答道：``不，我的船中}};
-\node[anchor=north west] (original4-1) at ([xshift=3.5em,yshift=0.3em]original4.south west)  {\scriptsize{有许多金银财宝，没有你的位置。''爱看见虚荣在一艘华丽的小船上，说：``虚荣，帮帮我吧}};
-\node[anchor=north west] (original4-2) at ([yshift=0.3em]original4-1.south west)  {\scriptsize{！''``我帮不了你。你全身都湿透了，会弄坏我这漂亮的小船的。''悲哀来了，爱向他求助：``}};
-\node[anchor=north west] (original4-3) at ([yshift=0.3em]original4-2.south west)  {\scriptsize{悲哀，让我跟你去吧！''``哦，……爱，我实在太悲哀了，想自己一个人呆一会儿！''悲哀答}};
-\node[anchor=north west] (original4-4) at ([yshift=0.3em]original4-3.south west)  {\scriptsize{道。快乐走近爱的身边，但是她太快乐了，竟然没有听见爱在叫她！}};
-%机器翻译--------------
-\node [anchor=north west] (mt4) at ([xshift=-3.5em,yshift=-0.3em]original4-4.south west) {\scriptsize{机器翻译：At this time, Richness {\color{red}\underline{passed by}} in a big ship. Love said, ``Rich, can you take me away?'' Richness}};
-\node [anchor=north west] (mt4-1) at ([xshift=3.5em,yshift=0.4em]mt4.south west) {\scriptsize{replied, ``No, {\color{red}\underline{there are many treasures}} of gold and silver in my ship,and there is no place for you.''}};
-\node [anchor=north west] (mt4-2) at ([xshift=0em,yshift=0.3em]mt4-1.south west) {\scriptsize{ Love saw vanity in a magnificent boat and said, ``Vanity, help me!'' ``I can't help you. You are {\color{red}\underline{soak}}}};
-\node [anchor=north west] (mt4-3) at ([yshift=0.4em]mt4-2.south west) {\scriptsize{{\color{red}\underline{-ed to the skin}} and will damage my beautiful boat.'' When sorrow came, love asked him for help: ``}};
-\node [anchor=north west] (mt4-4) at ([yshift=0.4em]mt4-3.south west) {\scriptsize{sorrow, let me go with you!'' ``Oh,...love, I am so sad that I want to be alone for a while!'' Sadly rep}};
-\node [anchor=north west] (mt4-5) at ([yshift=0.4em]mt4-4.south west) {\scriptsize{-lied. Happiness {\color{red}\underline{approached}} love, but she was too happy to hear love calling her!}};
-%人工翻译---------------
-\node [anchor=north west] (ht4) at ([xshift=-3.5em,yshift=0.3em]mt4-5.south west) {\scriptsize{人工翻译：At that moment, WEALTH {\color{red}\underline{was passing by}} in a big boat. Love said,``WEALTH, can you take me}};
-\node [anchor=north west] (ht4-1) at ([xshift=3.5em,yshift=0.4em]ht4.south west) {\scriptsize{with you?'' WEALTH answered, ``no, {\color{red}\underline{there is a lot}} of gold and silver in my boat. There is no place}};
-\node [anchor=north west] (ht4-2) at ([yshift=0.4em]ht4-1.south west) {\scriptsize{for you.'' Love saw VANITY in a beautiful boat and said, ``VANITY, help me!'' ``I can't help you.}};
-\node [anchor=north west] (ht4-3) at ([yshift=0.4em]ht4-2.south west) {\scriptsize{You are {\color{red}\underline{all wet,}} and will break my pretty boat.'' Then SADNESS came. Love asked for help,``SAD}};
-\node [anchor=north west] (ht4-4) at ([yshift=0.4em]ht4-3.south west) {\scriptsize{-NESS, let me go with you!'' ``Oh,...LOVE, I am so sad that I want to be alone for a while!'' ``Repli}};
-\node [anchor=north west] (ht4-5) at ([yshift=0.4em]ht4-4.south west) {\scriptsize{-ed SADNESS. JOY {\color{red}\underline{came close to }} love, but she was so happy that she did not hear him call her!}};
-%第三段--------------------------------
-\node[anchor=north west] (original8) at ([xshift=-3.5em,yshift=-0.3em]ht4-5.south west)  {\scriptsize{源 \qquad 文：突然，一个声音传来：``过来，爱，我带你走。''这是位长者。爱大喜过望，竟忘了问他他}};
-\node[anchor=north west] (original8-1) at ([xshift=3.5em,yshift=0.3em]original8.south west)  {\scriptsize{的名字。登上陆地后，长者独自走开了。爱对长者感激不尽，问另一位长者知识：``帮我的}};
-\node[anchor=north west] (original8-2) at ([yshift=0.3em]original8-1.south west)  {\scriptsize{那个人是谁？''``他是时间。''知识老人回答。``时间？''爱问道，``他为什么要帮我？''知识老}};
-\node[anchor=north west] (original8-3) at ([yshift=0.3em]original8-2.south west)  {\scriptsize{人笑道：``因为只有时间才能理解爱有多么伟大。''}};
-%机器翻译--------------
-\node [anchor=north west] (mt8) at ([xshift=-3.5em,yshift=0.4em]original8-3.south west) {\scriptsize{机器翻译：Suddenly, a voice {\color{red}\underline{came:}} ``Come here, love, I'll take you away.'' This is an elder. Love was {\color{red}\underline{overjoy}}}};
-\node [anchor=north west] (mt8-1) at ([xshift=3.5em,yshift=0.4em]mt8.south west) {\scriptsize{{\color{red}\underline{-ed and}} forgot to ask his name. After landing on land, the elder walked away alone.Love was very}};
-\node [anchor=north west] (mt8-2) at ([yshift=0.4em]mt8-1.south west) {\scriptsize{grateful to the elder and asked another elder knowledge, {\color{red}\underline{``Who is the person who helped me?''}} ``He}};
-\node [anchor=north west] (mt8-3) at ([yshift=0.4em]mt8-2.south west) {\scriptsize{is time.'' The {\color{red}\underline{old intellectual}} replied. ``Time?'' Love asked,``Why did he help me?'' The old intellec}};
-\node [anchor=north west] (mt8-4) at ([yshift=0.4em]mt8-3.south west) {\scriptsize{-tual laughed, ``Because only time canunderstand how great love is.''}};
-%人工翻译---------------
-\node [anchor=north west] (ht8) at ([xshift=-3.5em,yshift=0.4em]mt8-4.south west) {\scriptsize{人工翻译：Suddenly, a voice {\color{red}\underline{said,}} ``come, LOVE, I'll take you.'' This is an elder. LOVE was {\color{red}\underline{so over that}} she}};
-\node [anchor=north west] (ht8-1) at ([xshift=3.5em,yshift=0.4em]ht8.south west) {\scriptsize{forgot to ask his name. After landing on land, the elder walked away}};
-\node [anchor=north west] (ht8-2) at ([yshift=0.4em]ht8-1.south west) {\scriptsize{alone.LOVE was so grateful to the elder that she asked KNOWLEDGE, another elder, {\color{red}\underline{``who help}}}};
-\node [anchor=north west] (ht8-3) at ([yshift=0.4em]ht8-2.south west) {\scriptsize{{\color{red}\underline{-ed me?''}} ``He is TIME.'' The {\color{red}\underline{old man}} replied. ``TIME?'' LOVE asked. ``why did he help me?'' The}};
-\node [anchor=north west] (ht8-4) at ([yshift=0.4em]ht8-3.south west) {\scriptsize{old man smiled and said, ``Because only time can understand how great love is.''}};
 \begin{pgfonlayer}{background}
 {
-\node[rectangle,draw=ublue, inner sep=0mm] [fit =(original1)(ht1)(mt1)(original4-4)(ht4-2)(ht8-4)(ht8)] {};
+\node[rectangle,draw=ublue, inner sep=0mm] [fit =(original1)(ht1)(mt1)(ht1-4)] {};
 }
 \end{pgfonlayer}

--- a/Chapter1/Figures/figure-eniac.jpg
+++ b/Chapter1/Figures/figure-eniac.jpg
--- a/Chapter1/Figures/figure-example-nmt.tex
+++ b/Chapter1/Figures/figure-example-nmt.tex
@@ -10,10 +10,10 @@
 \begin{scope}
 {
 {\footnotesize
-\node [anchor=south west,minimum width=15em] (source) at (0,0.57) {\textbf{source}: 我\ \ \ \ 对\ \ \ \ 你\ \ \ \ 感到\ \ \ \ 满意};
+\node [anchor=south west,minimum width=15em] (source) at (0,0.57) {\textbf{源语言}: 我\ \ \ \ 对\ \ \ \ 你\ \ \ \ 感到\ \ \ \ 满意};
 }
 {\footnotesize
-\node [anchor=south west,minimum width=15em] (target) at ([yshift=11em]source.north west) {\textbf{target}: I\ \ am\ \ \ satisfied\ \ \ with\ \ \ you};
+\node [anchor=south west,minimum width=15em] (target) at ([xshift=-0.4em,yshift=11em]source.north west) {\textbf{目标语言}: I\ \ am\ \ \ satisfied\ \ \ with\ \ \ you};
 }
 {
 \node [anchor=center,minimum width=9.6em,minimum height=1.8em,draw,rounded corners=0.3em] (hidden) at ([yshift=5em]source.north) {};
@@ -44,7 +44,7 @@
 {
 \node [anchor=south] (enclabel) at ([xshift=-0.1em,yshift=1.4em]source.north) {\large{\textbf{Encoder}}};
 \node [anchor=north] (declabel) at ([xshift=-0.1em,yshift=-1em]target.south) {\large{\textbf{Decoder}}};
-\node [anchor=east,align=left] (hiddenlabel) at (hidden.west) {\scriptsize{represe-}\\\scriptsize{ntation}};
+\node [anchor=east,align=left] (hiddenlabel) at (hidden.west) {\scriptsize{分布式}\\\scriptsize{表示}};
 }
 \end{scope}
@@ -80,12 +80,12 @@
 \end{pgfonlayer}
 % input and output labels
-\draw[->,thick,align=center] ([yshift=-0.8em]layer1.south)--([yshift=-0.1em]layer1.south) node [pos=0,anchor=north,inner sep=3pt] (word01) {\footnotesize{input} \footnotesize{(word)}};
+\draw[->,thick,align=center] ([yshift=-0.8em]layer1.south)--([yshift=-0.1em]layer1.south) node [pos=0,anchor=north,inner sep=3pt] (word01) {\footnotesize{输入} \footnotesize{(word)}};
-\draw[->,thick,align=center] ([yshift=-0.8em]layer2.south)--([yshift=-0.1em]layer2.south) node [pos=0,anchor=north,inner sep=3pt] (word02) {\footnotesize{input} \footnotesize{(word)}};
+\draw[->,thick,align=center] ([yshift=-0.8em]layer2.south)--([yshift=-0.1em]layer2.south) node [pos=0,anchor=north,inner sep=3pt] (word02) {\footnotesize{输入} \footnotesize{(word)}};
-\draw[<-,thick,align=center] ([yshift=0.8em]layer3.north)--([yshift=0.1em]layer3.north) node [pos=0,anchor=south,inner sep=0] (outputnode) {\footnotesize{output} \footnotesize{(representation)}};
+\draw[<-,thick,align=center] ([yshift=0.8em]layer3.north)--([yshift=0.1em]layer3.north) node [pos=0,anchor=south,inner sep=0] (outputnode) {\footnotesize{输出} \footnotesize{(representation)}};
 % layer and neuron labels
-\node[anchor=west] (layerlabel3) at (layer3.east) {\footnotesize{layer}};
+%\node[anchor=west] (layerlabel3) at (layer3.east) {\footnotesize{layer}};
 % connections
 \draw[-] (neuron01)--(neuron21); \draw[-] (neuron02)--(neuron21); \draw[-] (neuron03)--(neuron21); \draw[-] (neuron04)--(neuron21);

--- a/Chapter1/Figures/figure-results-zh-to-en-news-field-translation.tex
+++ b/Chapter1/Figures/figure-results-zh-to-en-news-field-translation.tex
@@ -14,6 +14,8 @@
 \node [anchor=south] (humanscore) at (human.north) {4.7};
 \draw [->,thick] ([xshift=-0.5cm]mt.south west) -- ([xshift=0.5cm]human.south east);
 \draw [->,thick] ([xshift=-0.5cm]mt.south west) -- ([xshift=-0.5cm,yshift=3.2cm]mt.south west);
+\node [anchor=north west] (x1) at ([xshift=0.0cm]human.south east) {\footnotesize{评价对象}};
+\node [anchor=north east] (y1) at ([xshift=-0.5cm,yshift=3.2cm]mt.south west) {\footnotesize{打分}};
 \node [anchor=south west, fill=blue!50, minimum width=1.1cm, minimum height=1.5cm] (mt1) at ([xshift=13.0em,yshift=-3.0em]mt.east) {{\color{white} {\small\sffamily\bfseries{机器}}}};
 \node [anchor=south west, fill=red!50, minimum width=1.1cm, minimum height=2.7cm] (human1) at ([xshift=0.5cm]mt1.south east) {{\color{white} {\small\sffamily\bfseries{人}}}};
@@ -21,6 +23,8 @@
 \node [anchor=south] (humanscore1) at (human1.north) {100};
 \draw [->,thick] ([xshift=-0.5cm]mt1.south west) -- ([xshift=0.5cm]human1.south east);
 \draw [->,thick] ([xshift=-0.5cm]mt1.south west) -- ([xshift=-0.5cm,yshift=3.2cm]mt1.south west);
+\node [anchor=north west] (x1) at ([xshift=0.0cm]human1.south east) {\footnotesize{评价对象}};
+\node [anchor=north east] (y1) at ([xshift=-0.5cm,yshift=3.2cm]mt1.south west) {\footnotesize{打分}};
 \node[anchor=south](footname1) at ([xshift=2.1em,yshift=-2.0em]mt.south){\footnotesize{人工评价（五分制）}};
 \node[anchor=south](footname2) at ([xshift=2.1em,yshift=-2.0em]mt1.south){\footnotesize{自动评价（百分制）}};

--- a/Chapter1/chapter1.tex
+++ b/Chapter1/chapter1.tex
@@ -30,9 +30,11 @@
 \section{机器翻译的概念}
-\parinterval 从广义上来讲，``翻译''是指把一个事物转化为另一个事物的过程。这个概念多使用在对序列的转化上，比如，计算机程序的编译、自然语言文字翻译、蛋白质生物合成等。在程序编译中，高级语言编写的程序经过一系列的处理后转化为可执行的目标程序，这是一种从高级程序语言到低级程序语言的``翻译''。在人类语言的翻译中，一种语言文字通过人脑转化为另一种语言表达，这是一种自然语言的``翻译''。在蛋白质合成的第一步，RNA分子序列转化为特定的氨基酸序列，这是一种生物学遗传信息的``翻译''。甚至说给上联对出下联、给一幅图片写出图片的主题等都可以被看作是``翻译''的过程。
+\parinterval 从广义上来讲，“翻译”是指把一个事物转化为另一个事物的过程。这个概念多使用在对序列的转化上，比如，计算机程序的编译、自然语言文字翻译、蛋白质生物合成等。在程序编译中，高级语言编写的程序经过一系列的处理后转化为可执行的目标程序，这是一种从高级程序语言到低级程序语言的“翻译”。在人类语言的翻译中，一种语言文字通过人脑转化为另一种语言表达，这是一种自然语言的“翻译”。在蛋白质合成的第一步，RNA分子序列转化为特定的氨基酸序列，这是一种生物学遗传信息的“翻译”。甚至说给上联对出下联、给一幅图片写出图片的主题等都可以被看作是“翻译”的过程。
 \vspace{0.5em}
+\parinterval 这里更加关注人类语言之间的翻译问题，即自然语言的翻译。如图\ref{fig:1-1}所示，通过计算机可以将一段中文文字自动转化为英文文字，中文被称为{\small\bfnew{源语言}}\index{源语言}（Source Language）\index{Source Language}，英文被称为{\small\bfnew{目标语言}}\index{目标语言}（Target Language）\index{Target Language}。
 %----------------------------------------------
 \begin{figure}[htp]
    \centering
@@ -42,34 +44,32 @@
 \end{figure}
 %----------------------------------------------
-\parinterval 这里更加关注人类语言之间的翻译问题，即自然语言的翻译。如图\ref{fig:1-1}所示，通过计算机可以将一段中文文字自动转化为英文文字，中文被称为{\small\bfnew{源语言}}\index{源语言}（Source Language）\index{Source Language}，英文被称为{\small\bfnew{目标语言}}\index{目标语言}（Target Language）\index{Target Language}。
 \parinterval 一直以来，文字的翻译往往是由人工完成。让计算机像人一样进行翻译似乎还是电影中的桥段，因为人们很难想象语言的多样性和复杂性可以用计算机语言进行描述。但是时至今日，人工智能技术的发展已经大大超越了人类传统的认知，用计算机进行自动翻译也不再是一种梦想，它已经深入到人们生活的很多方面，并发挥着重要作用。而这种由计算机进行自动翻译的过程也被称作{\small\bfnew{机器翻译}}\index{机器翻译}（Machine Translation）\index{Machine Translation}。类似地，自动翻译、智能翻译、多语言自动转换等概念也是指同样的事情。如果将今天的机器翻译和人工翻译进行对比，可以发现机器翻译系统所生成的译文还并不完美，甚至有时翻译质量非常差，但是它的生成速度快且成本低廉，更为重要的是机器翻译系统可以从大量数据中不断学习和进化。
 \parinterval 人工翻译尽管精度很高，但是费时费力。当需要翻译大量的文本且精度要求不那么高时，比如海量数据的浏览型任务，机器翻译的优势就体现出来了。对于人工作业无法完成的事情，使用机器翻译可能只需花费几个小时甚至几分钟就能完成。这就类似于拿着锄头耕地种庄稼和使用现代化机器作业之间的区别。
-\parinterval 实现机器翻译往往需要多个学科知识的融合，如数学、语言学、计算机科学、心理学等等。而最终呈现给使用者的是一套软件系统\ \dash\ 机器翻译系统。通俗来讲，机器翻译系统就是一个可以在计算机上运行的软件工具，与人们使用的其他软件一样，只不过机器翻译系统是由``不可见的程序''组成。虽然这个系统非常复杂，但是呈现出来的展示形式却很简单，比如输入是待翻译的句子或文本，输出是译文句子或文本。
+\parinterval 实现机器翻译往往需要多个学科知识的融合，如数学、语言学、计算机科学、心理学等等。而最终呈现给使用者的是一套软件系统\ \dash\ 机器翻译系统。通俗来讲，机器翻译系统就是一个可以在计算机上运行的软件工具，与人们使用的其他软件一样，只不过机器翻译系统是由“不可见的程序”组成。虽然这个系统非常复杂，但是呈现出来的展示形式却很简单，比如输入是待翻译的句子或文本，输出是译文句子或文本。
-%----------------------------------------------
-\begin{figure}[htp]
-    \centering
-\input{./Chapter1/Figures/figure-required-parts-of-mt}
-    \caption{机器翻译系统的组成}
-    \label{fig:1-2}
-\end{figure}
-%-------------------------------------------
 \parinterval 用机器进行翻译的想法可以追溯到电子计算机产生之前，发展过程中也经历了多个范式的变迁，现代机器翻译系统大多是基于数据驱动的方法\ \dash\ 从数据中自动学习翻译知识，并运用这些知识对新的文本进行翻译。如图\ref{fig:1-2}所示，机器翻译系统通常由两部分组成：
 \begin{itemize}
 \vspace{0.5em}
-\item {\small\bfnew{资源}}：如果把机器翻译系统比作一辆汽车，资源就好比是可以使汽车运行的``汽油''，它包括很多内容，如翻译规则、双（单）语数据、知识库等翻译知识，且这些``知识''都是计算机可读的。值得一提的是,如果没有翻译资源的支持，任何机器翻译系统都无法运行起来。
+\item {\small\bfnew{资源}}：如果把机器翻译系统比作一辆汽车，资源就好比是可以使汽车运行的“汽油”，它包括很多内容，如翻译规则、双（单）语数据、知识库等翻译知识，且这些“知识”都是计算机可读的。值得一提的是,如果没有翻译资源的支持，任何机器翻译系统都无法运行起来。
 \vspace{0.5em}
 \item {\small\bfnew{系统}}：机器翻译算法的程序实现被称作系统，也就是机器翻译研究人员开发的软件。无论是翻译规则、翻译模板还是统计模型中的参数都需要通过机器翻译系统进行读取和使用。
 \vspace{0.5em}
 \end{itemize}
-\parinterval 构建一个强大的机器翻译系统需要``资源''和``系统''两方面共同作用。在资源方面，随着语料库语言学的发展，已经有大量高质量的双语和单语数据（称为语料）被整理并且电子化存储，研发机器翻译系统所需要的语料基础已经具备。特别是像英语、汉语等世界主流语种，相关语料资源已经非常丰富，这也大大加速了相关研究的进展。当然，对于一些稀缺资源语种或者特殊的领域，语料库仍然匮乏，但是这些并不影响机器翻译领域整体的发展速度。因此在现有语料库的基础上，很多研究者把精力集中在``系统''研发上。
+%----------------------------------------------
+\begin{figure}[htp]
+    \centering
+\input{./Chapter1/Figures/figure-required-parts-of-mt}
+    \caption{机器翻译系统的组成}
+    \label{fig:1-2}
+\end{figure}
+%-------------------------------------------
+\parinterval 构建一个强大的机器翻译系统需要“资源”和“系统”两方面共同作用。在资源方面，随着语料库语言学的发展，已经有大量高质量的双语和单语数据（称为语料）被整理并且电子化存储，研发机器翻译系统所需要的语料基础已经具备。特别是像英语、汉语等世界主流语种，相关语料资源已经非常丰富，这也大大加速了相关研究的进展。当然，对于一些稀缺资源语种或者特殊的领域，语料库仍然匮乏，但是这些并不影响机器翻译领域整体的发展速度。因此在现有语料库的基础上，很多研究者把精力集中在“系统”研发上。
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
@@ -99,7 +99,7 @@
 \parinterval 随后，更多的翻译工作在文化和知识传播中开展。其中一个典型代表是宗教文献的翻译。在人类的历史长河中，宗教是人类意识形态的一个重要载体。为了宣传教义，人们编写了大量的宗教文献。在西方，一项最早被记录的翻译活动是将旧约圣经（希伯来文及埃兰文）翻译为希腊文版本。迄今为止人类历史上翻译版本最多的书就是圣经。在中国唐代，有一位世界性的重量级文化人物\ \dash \ 玄奘，他不仅是佛学家、旅行家，还是翻译家。玄奘西行求法归来后把全部的心血和智慧奉献给了译经事业，在助手们的帮助下，共翻译佛教经论74部，1335卷，每卷万字左右，合计1335万字，占去整个唐代译经总数的一半以上，树立了我国古代翻译思想的光辉典范。
-\parinterval 翻译在人类历史长河中起到了重要的作用。一方面，由于语言文字、文化和地理位置的差异性，使得翻译成为一个重要的需求；另一方面，翻译也加速了不同文明的融会贯通，促进了世界的发展。今天，翻译已经成为重要的行业之一，包括各个高校也都设立了翻译及相关专业，相关人才不断涌现。据《2019年中国语言服务行业发展报告》统计：全球语言服务产值预计将首次接近500亿美元；中国涉及语言服务的在营企业360,000余家，语言服务为主营业务的在营企业近万家，总产值超过300亿元，年增长3\%以上；全国开设外语类专业的高校数量多达上千所，其中设立有翻译硕士（MTI）和翻译本科（BTI）专业的院校分别有250余所和280余所，MTI累计招生数达6万余人\cite{赵军峰2019深化改革}。当然，面对着巨大的需求，如何使用机器辅助翻译等技术手段提高人工翻译效率，也是人工翻译和机器翻译领域需要共同探索的方向。
+\parinterval 翻译在人类历史长河中起到了重要的作用。一方面，由于语言文字、文化和地理位置的差异性，使得翻译成为一个重要的需求；另一方面，翻译也加速了不同文明的融会贯通，促进了世界的发展。今天，翻译已经成为重要的行业之一，包括各个高校也都设立了翻译及相关专业，相关人才不断涌现。据《2019年中国语言服务行业发展报告》统计：全球语言服务产值预计将首次接近500亿美元；中国涉及语言服务的在营企业360,000余家，语言服务为主营业务的在营企业近万家，总产值超过300亿元，年增长3\%以上；全国开设外语类专业的高校数量多达上千所，其中设立有翻译硕士（MTI）和翻译本科（BTI）专业的院校分别有250余所和280余所，MTI累计招生数达6万余人\upcite{赵军峰2019深化改革}。当然，面对着巨大的需求，如何使用机器辅助翻译等技术手段提高人工翻译效率，也是人工翻译和机器翻译领域需要共同探索的方向。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -111,18 +111,18 @@
 \parinterval 早在17世纪，如Descartes、Leibniz、Cave\ Beck、Athanasius\ Kircher和Johann\ Joachim\ Becher等很多学者就提出采用机器词典（电子词典）来克服语言障碍的想法，这种想法在那个连计算机都没有的时代是很超前的。随着语言学、计算机科学等学科中基础知识的累积，在19世纪30年代使用计算模型进行自动翻译的思想开始萌芽，如当时法国科学家G.\ B.\ Artsouni就提出用机器来进行翻译的想法。但是那时依然没有合适的实现手段，所以这种想法的合理性无法被证实，所有的想法都仅仅是猜测。
+\parinterval 随着第二次世界大战爆发， 由于战争的需要，对文字进行加密和解密成为重要的军事需求，这也使得数学和密码学变得相当发达。残酷的战争使得科学飞速发展，在战争结束一年后，世界上第一台通用电子数字计算机于1946年研制成功（图\ref{fig:1-4}），至此使用机器进行翻译有了真正实现的可能。
 %----------------------------------------------
 \begin{figure}[htp]
    \centering
-\includegraphics[scale=0.25]{./Chapter1/Figures/figure-eniac.jpg}
+\includegraphics[scale=0.4]{./Chapter1/Figures/figure-eniac.jpg}
-    \caption{世界上第一台通用电子数字计算机``埃尼阿克''（ENIAC）}
+    \caption{世界上第一台通用电子数字计算机“埃尼阿克”（ENIAC）}
    \label{fig:1-4}
 \end{figure}
 %-------------------------------------------
-\parinterval 随着第二次世界大战爆发， 由于战争的需要，对文字进行加密和解密成为重要的军事需求，这也使得数学和密码学变得相当发达。残酷的战争使得科学飞速发展，在战争结束一年后，世界上第一台通用电子数字计算机于1946年研制成功（图\ref{fig:1-4}\footnote{\url{https://baike.baidu.com/item/ENIAC}}），至此使用机器进行翻译有了真正实现的可能。
+\parinterval 基于战时密码学领域与通讯领域的研究，Claude\ Elwood\ Shannon在1948年提出使用“噪声信道”描述语言的传输过程，并借用热力学中的“{\small\bfnew{熵}}\index{熵}”（Entropy）\index{Entropy}来刻画消息中的信息量\upcite{DBLP:journals/bstj/Shannon48}。次年，Shannon和Warren\ Weaver更是合著了著名的《通讯的数学理论》\upcite{DBLP:journals/bstj/Shannon48a}，这都为后期的统计机器翻译打下了理论基础。
-\parinterval 基于战时密码学领域与通讯领域的研究，Claude\ Elwood\ Shannon在1948年提出使用``噪声信道''描述语言的传输过程，并借用热力学中的``{\small\bfnew{熵}}\index{熵}''（Entropy）\index{Entropy}来刻画消息中的信息量\cite{DBLP:journals/bstj/Shannon48}。次年，Shannon和Warren\ Weaver更是合著了著名的《通讯的数学理论》\cite{DBLP:journals/bstj/Shannon48a}，这都为后期的统计机器翻译打下了理论基础。
 \parinterval 1949年，Weaver撰写了一篇名为《翻译》的备忘录，在这个备忘录中Weaver提出用密码学的方法解决人类语言翻译任务的想法，比如把汉语看成英语的一个加密文本，汉语翻译成英语就类似于解密的过程。并且在这篇备忘录中他也第一次提出了机器翻译，正式开创了{\small\bfnew{机器翻译}}\index{机器翻译}（Machine Translation）\index{Machine Translation}的概念，这个概念一直沿用至今。虽然，在那个年代进行机器翻译研究仍有很多不具备的条件，包括使用加密解密技术进行自动翻译的很多尝试很快也被验证是不可行的。不过，这些早期的探索为后来机器翻译的发展提供了思想的火种。
@@ -134,9 +134,9 @@
 \parinterval 随着电子计算机的发展，研究者开始尝试使用计算机来进行自动翻译。1954年，美国乔治敦大学在IBM公司支持下，启动了第一次真正的机器翻译实验。翻译的目标是将几个简单的俄语句子翻译成为英文，翻译系统包含6条翻译规则和250词汇。这次翻译实验中测试了50个化学文本句子，取得了初步成功。在某种意义上来说，这个实验显示了采用基于词典和翻译规则的方法可以实现机器翻译过程。虽然只是取得了初步成功，但却一下子引起了苏联、英国和日本研究机构的机器翻译研究热，大大推动了早期机器翻译研究进展。
-\parinterval 1957年，Noam\ Chomsky在《句法结构》一书中详细描述了转换生成语法，他使用数学方法来研究自然语言，建立了包括上下文有关语法、上下文无关语法等4种类型的语法。这些工作最终为今天计算机中广泛使用的``形式语言''奠定了基础。而他的思想也深深地影响了同时期的语言学和自然语言处理领域的学者，似乎他的``普遍语法''观点：``人类从出生开始就有某种可以让人类学会任何语言的机制''成为了一个普遍真理，也是在这种认识下，早期基于规则的机器翻译被认为是更加合乎逻辑的。
+\parinterval 1957年，Noam\ Chomsky描述了转换生成语法，他使用数学方法来研究自然语言，建立了包括上下文有关语法、上下文无关语法等4种类型的语法\upcite{Chomsky1957Syntactic}。这些工作最终为今天计算机中广泛使用的“形式语言”奠定了基础。而他的思想也深深地影响了同时期的语言学和自然语言处理领域的学者，似乎他的“普遍语法”观点：“人类从出生开始就有某种可以让人类学会任何语言的机制”成为了一个普遍真理，也是在这种认识下，早期基于规则的机器翻译被认为是更加合乎逻辑的。
-\parinterval 虽然在这段时间，使用机器进行翻译的议题越加火热，但是事情并不总是一帆风顺，怀疑论者对机器翻译一直存有质疑，并很容易找出一些机器翻译无法解决的问题。自然地，人们也期望能够客观地评估一下机器翻译的可行性。当时美国基金资助组织委任自动语言处理咨询会承担了这项任务。经过近两年的调查与分析，该委员会于1966年11月公布了一个题为《语言与机器》的报告（图\ref{fig:1-5}），即ALPAC报告。该报告全面否定了机器翻译的可行性，为机器翻译的研究泼了一盆冷水。
+\parinterval 虽然在这段时间，使用机器进行翻译的议题越加火热，但是事情并不总是一帆风顺，怀疑论者对机器翻译一直存有质疑，并很容易找出一些机器翻译无法解决的问题。自然地，人们也期望能够客观地评估一下机器翻译的可行性。当时美国基金资助组织委任自动语言处理咨询会承担了这项任务。经过近两年的调查与分析，该委员会于1966年11月公布了一个题为$LANGUAGE AND MACHINES$的报告（图\ref{fig:1-5}），即ALPAC报告。该报告全面否定了机器翻译的可行性，为机器翻译的研究泼了一盆冷水。
 %----------------------------------------------
 \begin{figure}[htp]
@@ -149,7 +149,7 @@
 \parinterval 随后美国政府终止了对机器翻译研究的支持，这导致整个产业界和学术界对机器翻译都开始回避。大家觉得机器翻译像伪科学，无论是发表论文还是申请项目都很难得到支持。没有了政府的支持，企业也无法进行大规模投入，机器翻译的研究就此受挫。
-\parinterval 从历史上看，包括机器翻译在内很多人工智能领域在那个年代并不受``待见''，其主要原因在于当时的技术水平还比较低，而大家又对机器翻译等技术的期望过高。最后发现，当时的机器翻译水平无法满足实际需要，因此转而排斥它。但是，也正是这一盆冷水，让人们可以更加冷静的思考机器翻译的发展方向，为后来的爆发蓄力。
+\parinterval 从历史上看，包括机器翻译在内很多人工智能领域在那个年代并不受“待见”，其主要原因在于当时的技术水平还比较低，而大家又对机器翻译等技术的期望过高。最后发现，当时的机器翻译水平无法满足实际需要，因此转而排斥它。但是，也正是这一盆冷水，让人们可以更加冷静的思考机器翻译的发展方向，为后来的爆发蓄力。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -159,11 +159,11 @@
 \parinterval 事物发展都是螺旋式上升的，机器翻译也是一样。早期基于规则的机器翻译方法需要人来书写规则，虽然对少部分句子具有较高的翻译精度，可是对翻译现象的覆盖度有限，而且对规则或者模板中的噪声非常敏感，系统健壮性差。
-\parinterval 上世纪70年代中后期，特别是80年代到90年代初，国家之间往来日益密切，而不同语言之间形成的交流障碍愈发严重，传统的人工作业方式已经远远不能满足需求。与此同时，语料库语言学的发展也为机器翻译提供了新的思路。其中，随着传统纸质文字资料不断电子化，计算机可读的语料越来越多，这使得人们可以用计算机对语言规律进行统计分析。另一方面，随着可用数据越来越多，用数学模型描述这些数据中的规律并进行推理逐渐成为可能。这也衍生出一类数学建模方法\ \dash\ {\small\bfnew{数据驱动}}\index{数据驱动}（Data-Driven）\index{Data-Driven}的方法。同时这类方法也成为了随后出现的统计机器翻译的基础，其中比较有代表性的就是IBM研究人员基于噪声信道模型提出的5种统计模型，后来被称为IBM Model1到IBM Model5\cite{DBLP:journals/coling/BrownCPPJLMR90,DBLP:journals/coling/BrownPPM94}。
+\parinterval 上世纪70年代中后期，特别是80年代到90年代初，国家之间往来日益密切，而不同语言之间形成的交流障碍愈发严重，传统的人工作业方式已经远远不能满足需求。与此同时，语料库语言学的发展也为机器翻译提供了新的思路。一方面，随着传统纸质文字资料不断电子化，计算机可读的语料越来越多，这使得人们可以用计算机对语言规律进行统计分析。另一方面，随着可用数据越来越多，用数学模型描述这些数据中的规律并进行推理逐渐成为可能。这也衍生出一类数学建模方法\ \dash\ {\small\bfnew{数据驱动}}\index{数据驱动}（Data-Driven）\index{Data-Driven}的方法。同时这类方法也成为了随后出现的统计机器翻译的基础，其中比较有代表性的就是IBM研究人员基于噪声信道模型提出的5种统计模型，后来被称为IBM Model1到IBM Model5\upcite{DBLP:journals/coling/BrownCPPJLMR90,DBLP:journals/coling/BrownPPM94}。
-\parinterval 基于数据驱动的方法不依赖于人写的规则，机器翻译的建模、训练和推断都可以自动地从数据中学习。这使得整个机器翻译的范式发生了翻天覆地的变化，比如，日本学者长尾真提出的基于实例的方法\cite{DBLP:conf/coling/SatoN90}和统计机器翻译就是在此期间兴起的。此外，这样的方法使得机器翻译系统的开发代价大大地降低。
+\parinterval 基于数据驱动的方法不依赖于人写的规则，机器翻译的建模、训练和推断都可以自动地从数据中学习。这使得整个机器翻译的范式发生了翻天覆地的变化，比如，日本学者长尾真提出的基于实例的方法\upcite{DBLP:conf/coling/SatoN90}和统计机器翻译就是在此期间兴起的。此外，这样的方法使得机器翻译系统的开发代价大大地降低。
-\parinterval 从上世纪90年代到本世纪初，随着语料库的完善与高性能计算机的发展，统计机器翻译很快成为了当时机器翻译研究与应用的代表性方法。一个标志性的事件是谷歌推出了一个在线的免费自动翻译服务，也就是大家熟知的谷歌翻译。这使得机器翻译这种``高大上''的技术快速进入人们的生活，而不再是束之高阁的科研想法。随着机器翻译不断走向实用，机器翻译的应用也越来越多，这反过来进一步促进了机器翻译的研究进程。比如，在2005－2015年间，统计机器翻译这个主题几乎统治了ACL等自然语言处理相关方向顶级会议的论文，可见其在当时的影响力。
+\parinterval 从上世纪90年代到本世纪初，随着语料库的完善与高性能计算机的发展，统计机器翻译很快成为了当时机器翻译研究与应用的代表性方法。一个标志性的事件是谷歌推出了一个在线的免费自动翻译服务，也就是大家熟知的谷歌翻译。这使得机器翻译这种“高大上”的技术快速进入人们的生活，而不再是束之高阁的科研想法。随着机器翻译不断走向实用，机器翻译的应用也越来越多，这反过来进一步促进了机器翻译的研究进程。比如，在2005－2015年间，统计机器翻译这个主题几乎统治了ACL等自然语言处理相关方向顶级会议的论文，可见其在当时的影响力。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -171,7 +171,7 @@
 \subsection{机器翻译的爆发}
-\parinterval 2005年拉开了统计机器翻译发展十年黄金时期的序幕。在这一时期，各种基于统计机器翻译模型层出不穷，经典的基于短语的模型和基于句法的模型也先后被提出。在2013年以后，机器学习的进步带来了机器翻译技术的进一步提升。特别是基于神经网络的深度学习方法在机器视觉、语音识别中被成功应用，带来性能的飞跃式提升。很快，相关模型和方法也被用于机器翻译。对于机器翻译来说，深度学习的成功也是一种必然，原因如下：
+\parinterval 2005年拉开了统计机器翻译发展十年黄金时期的序幕。在这一时期，各种基于统计机器翻译模型层出不穷，经典的基于短语的模型和基于句法的模型也先后被提出。在2013年以后，机器学习的进步带来了机器翻译技术的进一步提升。特别是基于神经网络的深度学习方法在机器视觉、语音识别中被成功应用，带来性能的飞跃式提升。很快，相关模型和方法也被用于机器翻译。对于机器翻译任务来说，深度学习的成功也是一种必然，原因如下：
 \begin{itemize}
 \vspace{0.5em}
@@ -179,10 +179,12 @@
 \vspace{0.5em}
 \item 第二，神经网络的连续空间模型有更强的表示能力。机器翻译中的一个基本问题是：如何表示一个句子？统计机器翻译把句子的生成过程看作是短语或者规则的推导，这本质上是一个离散空间上的符号系统。深度学习把传统的基于离散化的表示变成了连续空间的表示。比如，用实数空间的分布式表示代替了离散化的词语表示，而整个句子可以被描述为一个实数向量。这使得翻译问题可以在连续空间上描述，进而大大缓解了传统离散空间模型维度灾难等问题。更重要的是，连续空间模型可以用梯度下降等方法进行优化，具有很好的数学性质并且易于实现。
 \vspace{0.5em}
-\item 第三，深度网络学习算法的发展和{\small\bfnew{GPU}}\index{GPU}（Graphics Processing Unit）\index{Graphics Processing Unit}等并行计算设备为训练神经网络提供了可能。早期的基于神经网络的方法一直没有在机器翻译甚至自然语言处理领域得到大规模应用，其中一个重要的原因是这类方法需要大量的浮点运算，而且以前计算机的计算能力无法达到这个要求。随着GPU等并行计算设备的进步，训练大规模神经网络也变为了可能。现在已经可以在几亿、几十亿，甚至上百亿句对上训练机器翻译系统，系统研发的周期越来越短，进展日新月异。
+\item 第三，深度网络学习算法的发展和GPU\index{GPU}（Graphics Processing Unit）\index{Graphics Processing Unit}等并行计算设备为训练神经网络提供了可能。早期的基于神经网络的方法一直没有在机器翻译甚至自然语言处理领域得到大规模应用，其中一个重要的原因是这类方法需要大量的浮点运算，而且以前计算机的计算能力无法达到这个要求。随着GPU等并行计算设备的进步，训练大规模神经网络也变为了可能。现在已经可以在几亿、几十亿，甚至上百亿句对上训练机器翻译系统，系统研发的周期越来越短，进展日新月异。
 \vspace{0.5em}
 \end{itemize}
+\parinterval {\red 今天，神经机器翻译已经成为新的范式，与统计机器翻译一同推动了机器翻译技术与应用产品的发展}。比如，从世界上著名的机器翻译比赛WMT和CCMT中就可以看出这个趋势。如图\ref{fig:1-6}所示，其中左图是WMT\ 19全球机器翻译比赛的参赛队伍的截图，这些参赛队伍基本上都在使用深度学习完成机器翻译的建模。而在WMT\ 19各个项目夺冠系统中（\ref{fig:1-6}右图），神经机器翻译也几乎一统天下。
 %----------------------------------------------
 \begin{figure}[htp]
    \centering
@@ -194,8 +196,6 @@
 \end{figure}
 %-------------------------------------------
-\parinterval 今天，神经机器翻译已经成为新的范式，大有全面替代统计机器翻译之势。比如，从世界上著名的机器翻译比赛WMT和CCMT中就可以看出这个趋势。如图\ref{fig:1-6}所示，其中左图是WMT\ 19全球机器翻译比赛的参赛队伍的截图，这些参赛队伍基本上都在使用深度学习完成机器翻译的建模。而在WMT\ 19各个项目夺冠系统中（\ref{fig:1-6}右图），神经机器翻译也几乎一统天下。
 \parinterval 值得一提的是，近些年神经机器翻译的快速发展也得益于产业界的关注。各大互联网企业和机器翻译技术研发机构都对神经机器翻译的模型和实践方法给予了很大贡献。比如，谷歌、微软、百度、搜狗、金山、腾讯、阿里、有道、讯飞、小牛翻译等企业凭借自身人才和基础设施方面的优势，先后推出了以神经机器翻译为内核的产品及服务，相关技术方法已经在大规模应用中得到验证，大大推动了机器翻译的产业化进程，而且这种趋势在不断加强，机器翻译的前景也更加宽广。
 %----------------------------------------------------------------------------------------
@@ -205,7 +205,9 @@
 \sectionnewpage
 \section{机器翻译现状及挑战}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
-\parinterval 机器翻译技术发展到今天已经过无数次迭代，技术范式也经过若干次更替，近些年机器翻译的应用也如雨后春笋。但是大家都很好奇今天的机器翻译的质量究竟如何呢？乐观地说，在受限条件下，机器翻译的译文结果还是非常不错的，甚至可以接近人工翻译的结果。然而，在开放式翻译任务中，机器翻译的结果却并不理想。更严格来说，机器翻译的质量远没有达到人们所期望的完美的程度。对于有些人提到的``机器翻译代替人工翻译''也并不是事实。比如，在高精度同声传译任务中，机器翻译仍需要更多打磨；再比如，针对于小说的翻译，机器翻译还无法做到与人工翻译媲美；甚至有人尝试用机器翻译系统翻译中国古代诗词，这里更多的是娱乐的味道。但是毫无疑问的是，机器翻译可以帮助人类，甚至有朝一日可以代替一些低端的人工翻译工作。
+\parinterval 机器翻译技术发展到今天已经过无数次迭代，技术范式也经过若干次更替，近些年机器翻译的应用也如雨后春笋。但是大家都很好奇今天的机器翻译的质量究竟如何呢？乐观地说，在受限条件下，机器翻译的译文结果还是非常不错的，甚至可以接近人工翻译的结果。然而，在开放式翻译任务中，机器翻译的结果却并不理想。更严格来说，机器翻译的质量远没有达到人们所期望的完美的程度。对于有些人提到的“机器翻译代替人工翻译”也并不是事实。比如，在高精度同声传译任务中，机器翻译仍需要更多打磨；再比如，针对于小说的翻译，机器翻译还无法做到与人工翻译媲美；甚至有人尝试用机器翻译系统翻译中国古代诗词，这里更多的是娱乐的味道。但是毫无疑问的是，机器翻译可以帮助人类，甚至有朝一日可以代替一些低端的人工翻译工作。
+\parinterval 图\ref{fig:1-7}展示了机器翻译和人工翻译质量的一个对比结果。在汉语到英语的新闻翻译任务中，如果对译文进行人工评价（五分制），那么机器翻译的译文得分为3.9分，人工译文得分为4.7分（人的翻译也不是完美的）。可见，在这个任务中机器翻译表现不错，但是与人还有一定差距。如果换一种方式评价，把人的译文作为参考答案，用机器翻译的译文与其进行比对（百分制），会发现机器翻译的得分只有47分。当然，这个结果并不是说机器翻译的译文质量很差，它更多的是表明机器翻译系统可以生成一些与人工翻译不同的译文，机器翻译也具有一定的创造性。这也类似于，很多围棋选手都想向AlphaGo学习，因为智能围棋系统也可以走出一些人类从未走过的妙招。
 %----------------------------------------------
 \begin{figure}[htp]
@@ -217,31 +219,24 @@
 \end{figure}
 %-------------------------------------------
-\parinterval 图\ref{fig:1-7}展示了机器翻译和人工翻译质量的一个对比结果。在汉语到英语的新闻翻译任务中，如果对译文进行人工评价（五分制），那么机器翻译的译文得分为3.9分，人工译文得分为4.7分（人的翻译也不是完美的）。可见，在这个任务中机器翻译表现不错，但是与人还有一定差距。如果换一种方式评价，把人的译文作为参考答案，用机器翻译的译文与其进行比对（百分制），会发现机器翻译的得分只有47分。当然，这个结果并不是说机器翻译的译文质量很差，它更多的是表明机器翻译系统可以生成一些与人工翻译不同的译文，机器翻译也具有一定的创造性。这也类似于，很多围棋选手都想向AlphaGo学习，因为智能围棋系统也可以走出一些人类从未走过的妙招。
+\parinterval 图\ref{fig:1-8}展示了一个真实的汉语到英语翻译实例。对比发现，机器翻译与人工翻译还是存在差距的，特别是在翻译一些具有感情色彩的词语时，机器翻译的译文缺一些味道。那么，机器翻译一点用都没有吗？显然不是。实际上，如果考虑翻译速度与翻译代价，机器翻译的价值是无可比拟的。还是同一个例子，翻译一篇短文如果人工翻译需要30分钟甚至更长时间，那么机器翻译仅仅需要两秒，换种情况思考，如果有100万篇这样的文档，其人工翻译的成本根本无法想象，消耗的时间更是难以计算，而计算机集群仅仅需要一天，而且只有电力的消耗。
 %----------------------------------------------
 \begin{figure}[htp]
    \centering
 \input{./Chapter1/Figures/figure-comparison-mt-ht-1}
-%\end{figure}
-%\begin{figure}[t]
-%    \centering
-%\input{./Chapter1/Figures/figure-comparison-mt-ht-2}
    \caption{机器翻译与人工翻译实例结果对比}
-%\setlength{\belowcaptionskip}{7.0em}
    \label{fig:1-8}
 \end{figure}
 %-------------------------------------------
-\parinterval 图\ref{fig:1-8}展示了一个真实的汉语到英语翻译实例。对比发现，机器翻译与人工翻译还是存在差距的，特别是在翻译一些具有感情色彩的词语时，机器翻译的译文缺一些味道。那么，机器翻译一点用都没有吗？显然不是。实际上，如果考虑翻译速度与翻译代价，机器翻译的价值是无可比拟的。还是同一个例子，翻译一篇短文如果人工翻译需要30分钟甚至更长时间，那么机器翻译仅仅需要两秒，换种情况思考，如果有100万篇这样的文档，其人工翻译的成本根本无法想象，消耗的时间更是难以计算，而计算机集群仅仅需要一天，而且只有电力的消耗。
 \parinterval 虽然机器翻译有上述优点，但是，使用时仍有以下几方面挑战：
 \begin{itemize}
 \vspace{0.5em}
-\item {\small\bfnew{自然语言翻译问题的复杂性极高}}。语言是人类进化的最高成就之一，自然语言具有高度的概括性、灵活性、多样性，这些都很难用几个简单的模型和算法进行描述。因此，翻译问题的数学建模和计算机程序实现难度很大。虽然近几年AlphaGo等人工智能系统在围棋等领域取得了令人瞩目的成绩，但是，相比翻译来说，围棋等棋类任务仍然``简单''。正如不同人对同一句话的理解不尽相同，一个句子往往不存在绝对的标准译文，其潜在的译文几乎是不可穷尽的。甚至人类译员在翻译一个句子、一个单词的时候，都要考虑整个篇章的上下文语境。这些难点都不是传统棋类任务所具有的。
+\item {\small\bfnew{自然语言翻译问题的复杂性极高}}。语言是人类进化的最高成就之一，自然语言具有高度的概括性、灵活性、多样性，这些都很难用几个简单的模型和算法进行描述。因此，翻译问题的数学建模和计算机程序实现难度很大。虽然近几年AlphaGo等人工智能系统在围棋等领域取得了令人瞩目的成绩，但是，相比翻译来说，围棋等棋类任务仍然“简单”。正如不同人对同一句话的理解不尽相同，一个句子往往不存在绝对的标准译文，其潜在的译文几乎是不可穷尽的。甚至人类译员在翻译一个句子、一个单词的时候，都要考虑整个篇章的上下文语境。这些难点都不是传统棋类任务所具有的。
 \vspace{0.5em}
-\item {\small\bfnew{计算机的``理解''与人类的``理解''存在鸿沟}}。人类一直希望把自己翻译时所使用的知识描述出来，并用计算机程序进行实现，例如早期基于规则的机器翻译方法就源自这个思想。但是，经过实践发现，人和计算机在``理解''自然语言上存在着明显差异。首先，人类的语言能力是经过长时间在多种外部环境因素共同作用下形成的，这种能力很难直接准确地表达。况且人类的语言知识本身就很难描述，更不用说让计算机来理解；其次，人和机器翻译系统理解语言的目的不一样。人理解和使用语言是为了进行生活和工作，而机器翻译系统更多的是为了对某些数学上定义的目标函数进行优化。也就是说，机器翻译系统关注的是翻译这个单一目标，而并不是像人一样进行复杂的活动；此外，人和计算机的运行方式有着本质区别。人类语言能力的生物学机理与机器翻译系统所使用的计算模型本质上是不同的，机器翻译系统使用的是其自身能够理解的``知识''，比如，统计学上的词语表示。这种``知识''并不需要人来理解，当然从系统开发的角度，计算机也并不需要理解人是如何思考的。
+\item {\small\bfnew{计算机的“理解”与人类的“理解”存在鸿沟}}。人类一直希望把自己翻译时所使用的知识描述出来，并用计算机程序进行实现，例如早期基于规则的机器翻译方法就源自这个思想。但是，经过实践发现，人和计算机在“理解”自然语言上存在着明显差异。首先，人类的语言能力是经过长时间在多种外部环境因素共同作用下形成的，这种能力很难直接准确地表达。况且人类的语言知识本身就很难描述，更不用说让计算机来理解；其次，人和机器翻译系统理解语言的目的不一样。人理解和使用语言是为了进行生活和工作，而机器翻译系统更多的是为了对某些数学上定义的目标函数进行优化。也就是说，机器翻译系统关注的是翻译这个单一目标，而并不是像人一样进行复杂的活动；此外，人和计算机的运行方式有着本质区别。人类语言能力的生物学机理与机器翻译系统所使用的计算模型本质上是不同的，机器翻译系统使用的是其自身能够理解的“知识”，比如，统计学上的词语表示。这种“知识”并不需要人来理解，当然从系统开发的角度，计算机也并不需要理解人是如何思考的。
 \vspace{0.5em}
 \item {\small\bfnew{单一的方法无法解决多样的翻译问题}}。首先，语种的多样性会导致任意两种语言之间的翻译实际上都是不同的翻译任务。比如，世界上存在的语言多达几千种，如果选择任意两种语言进行互译就产生上百万种翻译方向。虽然已经有研究者尝试用同一个框架甚至同一个翻译系统进行全语种的翻译，但是这类系统离真正可用还有很远的距离；其次，不同的领域，不同的应用场景对翻译也有不同的需求。比如，文学作品的翻译和新闻的翻译就有不同、口译和笔译也有不同，类似的情况不胜枚举。机器翻译要适用于多样的需求，这些又进一步增加了计算机建模的难度；再次，对于机器翻译来说，充足的高质量数据是必要的，但是不同语种、不同领域、不同应用场景所拥有的数据量有明显差异，甚至很多语种几乎没有可用的数据，这时开发机器翻译系统的难度可想而知。值得注意的是，现在的机器翻译还无法像人类一样在学习少量样例的情况下进行举一反三，因此数据稀缺情况下的机器翻译也给研究者带来了很大的挑战。
 \vspace{0.5em}
@@ -254,11 +249,11 @@
 %----------------------------------------------------------------------------------------
 \sectionnewpage
-\section{基于规则的方法}
+\section{基于规则的方法}\label{section-1.4}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \parinterval 机器翻译技术大体上可以分为三种方法，分别为基于规则的机器翻译、统计机器翻译以及神经机器翻译。第一代机器翻译技术是主要使用基于规则的机器翻译方法，其主要思想是通过形式文法定义的规则引入源语言和目标语中的语言学知识。此类方法在机器翻译技术诞生之初就被人所关注，特别是在上世纪70年代，以基于规则方法为代表的专家系统是人工智能中最具代表性的研究领域。甚至到了统计机器翻译时代，很多系统中也大量地使用了基于规则的翻译知识表达形式。
-\parinterval 早期，基于规则的机器翻译大多依赖人工定义及书写的规则。主要有两类方法\cite{tripathi2010approaches}：一类是基于转换规则的机器翻译方法，简称转换法。另一类是基于中间语言的方法。它们都以词典和人工书写的规则库作为翻译知识，用一系列规则的组合完成翻译。
+\parinterval 早期，基于规则的机器翻译大多依赖人工定义及书写的规则。主要有两类方法\upcite{tripathi2010approaches}：一类是基于转换规则的机器翻译方法，简称转换法。另一类是基于中间语言的方法。它们都以词典和人工书写的规则库作为翻译知识，用一系列规则的组合完成翻译。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -268,6 +263,8 @@
 \parinterval 规则就像语言中的``IF-THEN''语句，如果满足条件，则执行相应的语义动作。这种方式实际上可以理解为对待翻译句子中的词，使用目标语言词汇替换，但是这种替换并非随意的，而是在语言学知识的指导下进行的。
+\parinterval 图\ref{fig:1-9}展示了一个使用转换法进行翻译的实例。这里，利用一个简单的汉译英规则库完成对句子“我对你感到满意”的翻译。当翻译“我”时，从规则库中找到规则1，该规则表示遇到单词“我”就翻译为``I''；类似地，也可以从规则库中找到规则4，该规则表示翻译调序，即将单词``you''放到``be satisfied with''后面。这种通过规则表示词汇的对应关系，并在翻译中使用的思想也为统计机器翻译方法提供了思路。如统计机器翻译中，基于短语的翻译模型使用短语对对原文进行替换，详细描述可以参考第四章。
 %----------------------------------------------
 \begin{figure}[t]
    \centering
@@ -277,15 +274,13 @@
 \end{figure}
 %-------------------------------------------
-\parinterval 图\ref{fig:1-9}展示了一个使用转换法进行翻译的实例。这里，利用一个简单的汉译英规则库完成对句子``我对你感到满意''的翻译。当翻译``我''时，从规则库中找到规则1，该规则表示遇到单词``我''就翻译为``I''；类似地，也可以从规则库中找到规则4，该规则表示翻译调序，即将单词``you''放到``be satisfied with''后面。这种通过规则表示词汇的对应关系，并在翻译中使用的思想也为统计机器翻译方法提供了思路。如统计机器翻译中，基于短语的翻译模型使用短语对对原文进行替换，详细描述可以参考第四章。
 \parinterval 在上述例子中可以发现，规则不仅仅可以翻译句子之间词汇的对应，如规则1，还可以表示句法甚至语法之间的对应，如规则6。因此基于规则的方法可以分成多个层次，如图\ref{fig:1-10}所示。图中不同的层次表示采用不同的知识来书写规则，进而完成机器翻译过程。对于一个翻译问题，可以构建不同层次的基于规则的机器翻译系统。这里包括四个层次，分别为：词汇转换、句法转换、语义转换和中间语言层。其中，上层可以继承下层的翻译知识，比如说句法转换层会利用词汇转换层知识。早期基于规则的方法属于词汇转换层。
 %----------------------------------------------
 \begin{figure}[htp]
    \centering
 \input{./Chapter1/Figures/four-levels-of-rbmt}
-    \caption{基于规则的机器翻译方法的四个层次\cite{冯志伟2004机器翻译研究}}
+    \caption{基于规则的机器翻译方法的四个层次\upcite{冯志伟2004机器翻译研究}}
 \setlength{\belowcaptionskip}{-1.5em}
    \label{fig:1-10}
 \end{figure}
@@ -297,7 +292,7 @@
 \subsection{转换法}
-\parinterval 通常一个典型的{\small\bfnew{基于转换规则的机器翻译}}\index{基于转换规则的机器翻译}（Transfer Based Translation）\index{Transfer Based Translation}过程可以被视为``独立分析-独立生成-相关转换''的过程\cite{jurafsky2000speech}。如图\ref{fig:1-11}所示，完整的机器翻译过程可以分成六个步骤，其中每一个步骤都是通过相应的翻译规则来完成。比如，第一个步骤中需要构建源语词法分析规则，第二个步骤中需要构建源语句法分析规则，第三个和第四个步骤中需要构建转换规则，其中包括源语-目标语词汇和结构转换规则。
+\parinterval 通常一个典型的{\small\bfnew{基于转换规则的机器翻译}}\index{基于转换规则的机器翻译}（Transfer Based Translation）\index{Transfer Based Translation}过程可以被视为“独立分析-独立生成-相关转换”的过程\upcite{jurafsky2000speech}。如图\ref{fig:1-11}所示，完整的机器翻译过程可以分成六个步骤，其中每一个步骤都是通过相应的翻译规则来完成。比如，第一个步骤中需要构建源语词法分析规则，第二个步骤中需要构建源语句法分析规则，第三个和第四个步骤中需要构建转换规则，其中包括源语-目标语词汇和结构转换规则。
 %----------------------------------------------
 \begin{figure}[htp]
@@ -310,6 +305,8 @@
 \parinterval 转换法的目标就是使用规则定义的词法和句法，将原文句子分解成为一个蕴含语言学标志的结构。
+\parinterval 如一个中文源文“她把一束花放在桌上。”，经过词法和句法分析之后可以被表示成如图\ref{fig:1-12}所示的结构，对应于图\ref{fig:1-11}中的源文结构。这种使用语言学提取句子结构化表示，并使用某种规则匹配源文结构和译文结构的方式也为统计机器翻译中基于语言学句法的模型提供了思路。
 %----------------------------------------------
 \begin{figure}[htp]
    \centering
@@ -319,8 +316,6 @@
 \end{figure}
 %-------------------------------------------
-\parinterval 如一个中文源文``她把一束花放在桌上。''，经过词法和句法分析之后可以被表示成如图\ref{fig:1-12}所示的结构，对应于图\ref{fig:1-11}中的源文结构。这种使用语言学提取句子结构化表示，并使用某种规则匹配源文结构和译文结构的方式也为统计机器翻译中基于语言学句法的模型提供了思路。
 \parinterval 在转换法中，翻译规则通常会分成两类：通用规则和个性规则。所谓通用的规则主要用于句法分析、语义分析、结构转换和句法生成等，是不具体依赖于某个源语言或者目标语言词汇而设计的翻译规则；个性规则通常以具体源语言词汇来做索引，比如图\ref{fig:1-9}中规则5就是针对主语是``I''的个性规则，它直接针对某个具体词汇进行分析和翻译。
 \parinterval 个性规则通常会保留在词库中，每条具体的个性规则会与某具体词汇关联，一个词汇可能会关联多条个性规则。在翻译的过程中，根据当前被分析的单词来激活所关联的个性规则。通用规则通常会统一保存在一个规则库里，根据通用规则的用途来组织，比如词法分析通用规则库、句法分析通用规则库等等。通用规则库中可能包含很多不同的通用翻译规则，由于这些规则没有优先级，所以比较简单的方式就是从头开始匹配通用规则，一旦某一条通用规则被激活使用后，继续从头开始匹配，直到找不到可用的具体通用翻译规则为止。在实际应用中，为了避免因通用翻译规则的覆盖度不全使得找不到合适的通用翻译规则进行匹配，导致最后分析和翻译失败，通常会默认设置一条缺省通用翻译规则作为最后的选择，比如默认采用最有可能的操作保证分析和翻译过程能够继续下去。
@@ -333,6 +328,8 @@
 \parinterval 基于转换的方法可以通过词汇层、句法层和语义层完成从源语到目标语的转换过程，虽然采用了独立分析和独立生成两个子过程，但中间包含一个从源语到目标语的相关转换过程。这就会导致一个实际问题，假设需要实现$N$个语言之间互译的机器翻译系统，采用基于转换的方法，需要构建$N(N-1)$个不同的机器翻译系统，这个构建代价是非常高的。为了解决这个问题，一种有效的解决方案是使用{\small\bfnew{基于中间语言的机器翻译}}\index{基于中间语言的机器翻译}（Interlingua Based Translation）\index{Interlingua Based Translation}方法。
+\parinterval 如图\ref{fig:1-13}所示，基于中间语言方法的最大特点就是采用了一个称之为“中间语言”的知识表示结构，将“中间语言”作为独立源语分析和独立目标语生成的桥梁，真正实现独立分析和独立生成。并且在基于中间语言的方法中不涉及“相关转换”这个过程，这一点与基于转换的方法有很大区别。
 %----------------------------------------------
 \begin{figure}[htp]
    \centering
@@ -342,13 +339,11 @@
 \end{figure}
 %-------------------------------------------
-\parinterval 如图\ref{fig:1-13}所示，基于中间语言方法的最大特点就是采用了一个称之为``中间语言''的知识表示结构，将``中间语言''作为独立源语分析和独立目标语生成的桥梁，真正实现独立分析和独立生成。并且在基于中间语言的方法中不涉及``相关转换''这个过程，这一点与基于转换的方法有很大区别。
 \parinterval 从图\ref{fig:1-10}可以发现，中间语言（知识表示）处于最顶端，本质上是独立于源语言和目标语言的，这也是基于中间语言的方法可以将分析过程和生成过程分开的原因。
-\parinterval 虽然基于中间语言的方法有上述优点，但如何定义中间语言一个关键问题。严格上说，所谓中间语言本身是一种知识表示结构，承载着源语言句子的分析结果，应该包含和体现尽可能多的源语言知识，可以用于生成过程使用。如果中间语言的表示能力不强，会导致源语言句子信息丢失，这自然会影响目标语生成结果。
+\parinterval 虽然基于中间语言的方法有上述优点，但如何定义中间语言是一个关键问题。严格上说，所谓中间语言本身是一种知识表示结构，承载着源语言句子的分析结果，应该包含和体现尽可能多的源语言知识，可以用于生成过程使用。如果中间语言的表示能力不强，会导致源语言句子信息丢失，这自然会影响目标语生成结果。
-\parinterval 在基于规则的机器翻译方法中，构建中间语言结构的知识表示方式有很多，比较常见是语法树、语义网、逻辑结构表示或者多种结构的融合等。但不管哪种方法，实际上都无法充分地表达源语言句子所携带的信息。因此，在早期的基于规则的机器翻译研究中，基于中间语言的方法明显弱于基于转换的机器翻译方法。不过，近些年随着神经机器翻译等方法的兴起，使用统一的中间表示来刻画句子又受到了广泛关注。但是，神经机器翻译中的``中间表示''并不是规则系统中的中间语言，二者有着本质区别，这部分内容将会在第十章进行介绍。
+\parinterval 在基于规则的机器翻译方法中，构建中间语言结构的知识表示方式有很多，比较常见是语法树、语义网、逻辑结构表示或者多种结构的融合等。但不管哪种方法，实际上都无法充分地表达源语言句子所携带的信息。因此，在早期的基于规则的机器翻译研究中，基于中间语言的方法明显弱于基于转换的机器翻译方法。不过，近些年随着神经机器翻译等方法的兴起，使用统一的中间表示来刻画句子又受到了广泛关注。但是，神经机器翻译中的“中间表示”并不是规则系统中的中间语言，二者有着本质区别，这部分内容将会在第十章进行介绍。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -358,7 +353,7 @@
 \parinterval 在基于规则的机器翻译时代，机器翻译技术研究有一个特点就是{\small\bfnew{语法}}\index{语法}（Grammer）\index{Grammer}和{\small\bfnew{算法}}\index{算法}（Algorithm）\index{Algorithm}分开，本质上是把语言分析和程序设计分开。传统方式使用程序代码来实现翻译规则，并把所谓的翻译规则隐含在程序代码实现中。其中最大问题是一旦翻译规则发生修改，程序代码也需要进行相应修改，导致维护代价非常高。此外书写翻译规则的语言学家与编代码的程序员沟通代价也非常高，有时候会出现鸡同鸭讲的感觉。把语法和算法分开对于基于规则的机器翻译技术来说最大好处就是可以将语言学家和程序员的工作分开，各自发挥自己的优势。
-\parinterval 这种语言分析和程序设计分开的实现方式也使得基于人工书写翻译规则的机器翻译方法非常直观，语言学家可以很容易地将翻译知识利用规则的方法表达出来，并且不需要修改系统代码。例如：1991年，东北大学自然语言处理实验室王宝库教授提出的规则描述语言（CTRDL）\cite{王宝库1991机器翻译系统中一种规则描述语言}。以及1995年，同为东北大学自然语言处理实验室的姚天顺教授提出的词汇语义驱动算法\cite{唐泓英1995基于搭配词典的词汇语义驱动算法}，都是在这种思想上对机器翻译方法的一种改进。此外，使用规则本身就具有一定的优势。首先，翻译规则的书写颗粒度具有很大的可伸缩性。其次，较大颗粒度的翻译规则有很强的概括能力，较小颗粒度的翻译规则具有精细的描述能力。最后，翻译规则还便于处理复杂的句法结构和进行深层次的语义理解，比如解决翻译过程中的长距离依赖问题。
+\parinterval 这种语言分析和程序设计分开的实现方式也使得基于人工书写翻译规则的机器翻译方法非常直观，语言学家可以很容易地将翻译知识利用规则的方法表达出来，并且不需要修改系统代码。例如：1991年，东北大学自然语言处理实验室王宝库教授提出的规则描述语言（CTRDL）\upcite{王宝库1991机器翻译系统中一种规则描述语言}。以及1995年，同为东北大学自然语言处理实验室的姚天顺教授提出的词汇语义驱动算法\upcite{唐泓英1995基于搭配词典的词汇语义驱动算法}，都是在这种思想上对机器翻译方法的一种改进。此外，使用规则本身就具有一定的优势。首先，翻译规则的书写颗粒度具有很大的可伸缩性。其次，较大颗粒度的翻译规则有很强的概括能力，较小颗粒度的翻译规则具有精细的描述能力。最后，翻译规则还便于处理复杂的句法结构和进行深层次的语义理解，比如解决翻译过程中的长距离依赖问题。
 \parinterval 通过图\ref{fig:1-9}中规则的翻译实例中可以看出，规则的使用和人类进行翻译时所使用的思想非常类似，可以说基于规则的方法实际上在试图描述人类进行翻译的思维过程。虽然直接模仿人类的翻译方式对翻译问题建模是合理的，但是这一定程度上也暴露了基于规则的方法的弱点。基于规则的机器翻译方法中，人工书写翻译规则的主观因素重，有时与客观事实有一定差距。并且人工书写翻译规则的难度大，代价非常高，这也成为了后来基于数据驱动的机器翻译方法主要改进的方向。
@@ -377,7 +372,9 @@
 \subsection{基于实例的机器翻译}
-\parinterval 在实际使用上，上一章提到的基于规则的方法更多地被使用在受限翻译场景中，比如受限词汇集的翻译。针对基于规则的方法存在的问题，基于实例的机器翻译于上世纪80年代中期被提出\cite{nagao1984framework}。该方法的基本思想是在双语句库中找到与待翻译句子相似的实例，之后对实例的译文进行修改，如替换、增加、删除等一系列操作，从而得到最终译文。这个过程可以类比人类学习并运用语言的过程：人会先学习一些翻译实例或者模板，当遇到新的句子时，会用以前的实例和模板作对比，之后得到新的句子的翻译结果。这也是一种举一反三的思想。
+\parinterval 在实际使用上，\ref{section-1.4}章提到的基于规则的方法更多地被使用在受限翻译场景中，比如受限词汇集的翻译。针对基于规则的方法存在的问题，基于实例的机器翻译于上世纪80年代中期被提出\upcite{nagao1984framework}。该方法的基本思想是在双语句库中找到与待翻译句子相似的实例，之后对实例的译文进行修改，如替换、增加、删除等一系列操作，从而得到最终译文。这个过程可以类比人类学习并运用语言的过程：人会先学习一些翻译实例或者模板，当遇到新的句子时，会用以前的实例和模板作对比，之后得到新的句子的翻译结果。这也是一种举一反三的思想。
+\parinterval 图\ref{fig:1-14}展示了一个基于实例的机器翻译过程。它利用简单的翻译实例库与翻译词典完成对句子“我对你感到满意”的翻译。首先，使用待翻译句子的源语言端在翻译实例库中进行比较，根据相似度大小找到相似的实例“我对他感到高兴”。然后，标记实例中不匹配的部分，即“你”和“他”，“满意”和“高兴”。再查询翻译词典得到词“你”和“满意”所对应的翻译结果``you''和``satisfied''，用这两个词分别替换实例中的``him''和``happy''，从而得到最终译文。
 %----------------------------------------------
 \begin{figure}[htp]
@@ -388,8 +385,6 @@
 \end{figure}
 %-------------------------------------------
-\parinterval 图\ref{fig:1-14}展示了一个基于实例的机器翻译过程。它利用简单的翻译实例库与翻译词典完成对句子``我对你感到满意''的翻译。首先，使用待翻译句子的源语言端在翻译实例库中进行比较，根据相似度大小找到相似的实例``我对他感到高兴''。然后，标记实例中不匹配的部分，即``你''和``他''，``满意''和``高兴''。再查询翻译词典得到词``你''和``满意''所对应的翻译结果``you''和``satisfied''，用这两个词分别替换实例中的``him''和``happy''，从而得到最终译文。
 \parinterval 当然，基于实例的机器翻译也并不完美。首先，这种方法对翻译实例的精确度要求非常高，一个实例的错误可能会导致一个句型都无法翻译正确；其次，实例维护较为困难，实例库的构建通常需要单词级对齐的标注，而保证词对齐的质量是非常困难的工作，这也大大增加了实例库维护的难度；再次，尽管可以通过实例或者模板进行翻译，但是其覆盖度仍然有限。在实际应用中，很多句子无法找到可以匹配的实例或者模板。
 %----------------------------------------------------------------------------------------
@@ -398,7 +393,9 @@
 \subsection{统计机器翻译}
-\parinterval 统计机器翻译兴起于上世纪90年代\cite{brown1990statistical,koehn2003statistical}它利用统计模型从单/双语语料中自动学习翻译知识。具体来说，可以使用单语语料学习语言模型，使用双语平行语料学习翻译模型，并使用这些统计模型完成对翻译过程的建模。整个过程不需要人工编写规则，也不需要从实例中构建翻译模板。无论是词还是短语，甚至是句法结构，统计机器翻译系统都可以自动学习。人更多的是定义翻译所需的特征和基本翻译单元的形式，而翻译知识都保存在模型的参数中。
+\parinterval 统计机器翻译兴起于上世纪90年代\upcite{brown1990statistical,koehn2003statistical}，它利用统计模型从单/双语语料中自动学习翻译知识。具体来说，可以使用单语语料学习语言模型，使用双语平行语料学习翻译模型，并使用这些统计模型完成对翻译过程的建模。整个过程不需要人工编写规则，也不需要从实例中构建翻译模板。无论是词还是短语，甚至是句法结构，统计机器翻译系统都可以自动学习。人更多的是定义翻译所需的特征和基本翻译单元的形式，而翻译知识都保存在模型的参数中。
+\parinterval 图\ref{fig:1-15}展示了一个统计机器翻译系统运行的简单实例。整个系统需要两个模型：翻译模型和语言模型。其中，翻译模型从双语平行语料中学习翻译知识，得到短语表，其中包含各种词汇的翻译及其概率，这样可以度量源语言和目标语言片段之间互为翻译的可能性大小；语言模型从单语语料中学习目标语的词序列生成规律，来衡量目标语言译文的流畅性。最后，将这两种模型联合使用，翻译引擎来搜索尽可能多的翻译结果，并计算不同翻译结果的可能性大小，最后将概率最大的译文作为最终结果输出。这个过程并没有显性使用人工翻译规则和模板，译文的生成仅仅依赖翻译模型和语言模型中的统计参数。
 %----------------------------------------------
 \begin{figure}[htp]
@@ -409,8 +406,6 @@
 \end{figure}
 %-------------------------------------------
-\parinterval 图\ref{fig:1-15}展示了一个统计机器翻译系统运行的简单实例。整个系统需要两个模型：翻译模型和语言模型。其中，翻译模型从双语平行语料中学习翻译知识，得到短语表，其中包含各种词汇的翻译及其概率，这样可以度量源语言和目标语言片段之间互为翻译的可能性大小；语言模型从单语语料中学习目标语的词序列生成规律，来衡量目标语言译文的流畅性。最后，将这两种模型联合使用，翻译引擎来搜索尽可能多的翻译结果，并计算不同翻译结果的可能性大小，最后将概率最大的译文作为最终结果输出。这个过程并没有显性使用人工翻译规则和模板，译文的生成仅仅依赖翻译模型和语言模型中的统计参数。
 \parinterval 由于没有对翻译过程进行过多的限制，统计机器翻译有很灵活的译文生成方式，因此系统可以处理更加多样的句子。但是这种方法也带来了一些问题：首先，虽然并不需要人工定义翻译规则或模板，但统计机器翻译系统仍然需要人工定义翻译特征。提升翻译品质往往需要大量的特征工程，这导致人工特征设计的好坏会对系统产生决定性影响；其次，统计机器翻译的模块较多，系统研发比较复杂；再次，随着训练数据增多，统计机器翻译的模型（比如短语翻译表）会明显增大，在系统存储资源受限的情况下，这种模型不利于系统的正常使用。
 %----------------------------------------------------------------------------------------
@@ -419,7 +414,9 @@
 \subsection{神经机器翻译}
-\parinterval 随着机器学习技术的发展，基于深度学习的神经机器翻译逐渐兴起。自2014年开始，它在短短几年内已经在大部分任务上取得了明显的优势\cite{NIPS2014_5346,bahdanau2014neural}。在神经机器翻译中，词串被表示成实数向量，即分布式向量表示。这样，翻译过程并不是在离散化的单词和短语上进行，而是在实数向量空间上计算，因此它对词序列表示的方式产生了本质的改变。通常，机器翻译可以被看作一个序列到另一个序列的转化。在神经机器翻译中，序列到序列的转化过程可以由{\small\bfnew{编码器-解码器}}\index{编码器-解码器}（Encoder-Decoder）\index{Encoder-Decoder}框架实现。其中，编码器把源语言序列进行编码，并提取源语言中信息进行分布式表示，之后解码器再把这种信息转换为另一种语言的表达。
+\parinterval 随着机器学习技术的发展，基于深度学习的神经机器翻译逐渐兴起。自2014年开始，它在短短几年内已经在大部分任务上取得了明显的优势\upcite{NIPS2014_5346,bahdanau2014neural}。在神经机器翻译中，词串被表示成实数向量，即分布式向量表示。这样，翻译过程并不是在离散化的单词和短语上进行，而是在实数向量空间上计算，因此它对词序列表示的方式产生了本质的改变。通常，机器翻译可以被看作一个序列到另一个序列的转化。在神经机器翻译中，序列到序列的转化过程可以由{\small\bfnew{编码器-解码器}}\index{编码器-解码器}（Encoder-Decoder）\index{Encoder-Decoder}框架实现。其中，编码器把源语言序列进行编码，并提取源语言中信息进行分布式表示，之后解码器再把这种信息转换为另一种语言的表达。
+\parinterval 图\ref{fig:1-16}展示了一个神经机器翻译的实例。首先，通过编码器，源语言序列“我对你感到满意”经过多层神经网络编码生成一个向量表示，即图中的向量（0.2，-1，6，5，0.7，-2）。再将该向量作为输入送到解码器中，解码器把这个向量解码成目标语言序列。注意，目标语言序列的生成是逐词进行的（虽然图中展示的是解码器生成整个序列，但是在具体实现时是逐个单词生成目标语译文），产生某个词的时候依赖之前生成的目标语言的历史信息，直到产生句子结束符为止。
 %----------------------------------------------
 \begin{figure}[htp]
@@ -430,9 +427,16 @@
 \end{figure}
 %-------------------------------------------
-\parinterval 图\ref{fig:1-16}展示了一个神经机器翻译的实例。首先，通过编码器，源语言序列``我对你感到满意''经过多层神经网络编码生成一个向量表示，即图中的向量（0.2，-1，6，5，0.7，-2）。再将该向量作为输入送到解码器中，解码器把这个向量解码成目标语言序列。注意，目标语言序列的生成是逐词进行的（虽然图中展示的是解码器生成整个序列，但是在具体实现时是逐个单词生成目标语译文），产生某个词的时候依赖之前生成的目标语言的历史信息，直到产生句子结束符为止。
+\parinterval 相比统计机器翻译，神经机器翻译的优势体现在其不需要特征工程，所有信息由神经网络自动从原始输入中提取。而且，相比离散化的表示，词和句子的分布式连续空间表示可以为建模提供更为丰富的信息，同时可以使用相对成熟的基于梯度的方法优化模型。此外，神经网络的存储需求较小，天然适合小设备上的应用。但是，神经机器翻译也存在问题。{\red 如果用的话，enumerate的格式要改一下}
+\begin{enumerate}
-\parinterval 相比统计机器翻译，神经机器翻译的优势体现在其不需要特征工程，所有信息由神经网络自动从原始输入中提取。而且，相比离散化的表示，词和句子的分布式连续空间表示可以为建模提供更为丰富的信息，同时可以使用相对成熟的基于梯度的方法优化模型。此外，神经网络的存储需求较小，天然适合小设备上的应用。但是，神经机器翻译也存在问题。首先，虽然脱离了特征工程，但神经网络的结构需要人工设计，即使设计好结构，系统的调优、超参数的设置等仍然依赖大量的实验；其次，神经机器翻译现在缺乏可解释性，其过程和人的认知差异很大，通过人的先验知识干预的程度差；再次，神经机器翻译对数据的依赖很大，数据规模、质量对性能都有很大影响，特别是在数据稀缺的情况下，充分训练神经网络很有挑战性。
+\vspace{0.5em}
+\item 虽然脱离了特征工程，但神经网络的结构需要人工设计，即使设计好结构，系统的调优、超参数的设置等仍然依赖大量的实验；。
+\vspace{0.5em}
+\item 神经机器翻译现在缺乏可解释性，其过程和人的认知差异很大，通过人的先验知识干预的程度差。
+\vspace{0.5em}
+\item 神经机器翻译对数据的依赖很大，数据规模、质量对性能都有很大影响，特别是在数据稀缺的情况下，充分训练神经网络很有挑战性。
+\vspace{0.5em}
+\end{enumerate}
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -489,28 +493,28 @@
 %----------------------------------------------------------------------------------------
 \subsection{经典书籍}
-\parinterval 首先，推荐一本书《Statistical Machine Translation》\cite{koehn2009statistical}，其作者是机器翻译领域著名学者Philipp Koehn教授。该书是机器翻译领域内的经典之作，介绍了统计机器翻译技术的进展。该书从语言学和概率学两个方面介绍了统计机器翻译的构成要素，然后介绍了统计机器翻译的主要模型：基于词、基于短语和基于树的模型，以及机器翻译评价、语言建模、判别式训练等方法。此外，作者在该书的最新版本中增加了神经机器翻译的章节，方便研究人员全面了解机器翻译的最新发展趋势\cite{DBLP:journals/corr/abs-1709-07809}。
+\parinterval 首先，推荐一本书《Statistical Machine Translation》\upcite{koehn2009statistical}，其作者是机器翻译领域著名学者Philipp Koehn教授。该书是机器翻译领域内的经典之作，介绍了统计机器翻译技术的进展。该书从语言学和概率学两个方面介绍了统计机器翻译的构成要素，然后介绍了统计机器翻译的主要模型：基于词、基于短语和基于树的模型，以及机器翻译评价、语言建模、判别式训练等方法。此外，作者在该书的最新版本中增加了神经机器翻译的章节，方便研究人员全面了解机器翻译的最新发展趋势\upcite{DBLP:journals/corr/abs-1709-07809}。
-\parinterval 《Foundations of Statistical Natural Language Processing》\cite{manning1999foundations}中文译名《统计自然语言处理基础》，作者是自然语言处理领域的权威Chris Manning教授和Hinrich Sch$\ddot{\textrm{u}}$tze教授。该书对统计自然语言处理方法进行了全面介绍。书中讲解了统计自然语言处理所需的语言学和概率论基础知识，介绍了机器翻译评价、语言建模、判别式训练以及整合语言学信息等基础方法。其中也包含了构建自然语言处理工具所需的基本理论和算法，提供了对数学和语言学基础内容广泛而严格的覆盖，以及统计方法的详细讨论。
+\parinterval 《Foundations of Statistical Natural Language Processing》\upcite{manning1999foundations}中文译名《统计自然语言处理基础》，作者是自然语言处理领域的权威Chris Manning教授和Hinrich Sch$\ddot{\textrm{u}}$tze教授。该书对统计自然语言处理方法进行了全面介绍。书中讲解了统计自然语言处理所需的语言学和概率论基础知识，介绍了机器翻译评价、语言建模、判别式训练以及整合语言学信息等基础方法。其中也包含了构建自然语言处理工具所需的基本理论和算法，提供了对数学和语言学基础内容广泛而严格的覆盖，以及统计方法的详细讨论。
-\parinterval 《统计自然语言处理》\cite{宗成庆2013统计自然语言处理}由中国科学院自动化所宗成庆教授所著。该书中系统介绍了统计自然语言处理的基本概念、理论方法和最新研究进展，既有对基础知识和理论模型的介绍，也有对相关问题的研究背景、实现方法和技术现状的详细阐述。可供从事自然语言处理、机器翻译等研究的相关人员参考。
+\parinterval 《统计自然语言处理（第2版）》\upcite{宗成庆2013统计自然语言处理}由中国科学院自动化所宗成庆教授所著。该书中系统介绍了统计自然语言处理的基本概念、理论方法和最新研究进展，既有对基础知识和理论模型的介绍，也有对相关问题的研究背景、实现方法和技术现状的详细阐述。可供从事自然语言处理、机器翻译等研究的相关人员参考。
-\parinterval  Ian Goodfellow、Yoshua Bengio、Aaron Courville三位机器学习领域的学者所写的《Deep Learning》\cite{Goodfellow-et-al-2016}也是值得一读的参考书。其讲解了有关深度学习常用的方法，其中很多都会在深度学习模型设计和使用中用到。同时在该书的应用一章中也简单讲解了神经机器翻译的任务定义和发展过程。
+\parinterval  Ian Goodfellow、Yoshua Bengio、Aaron Courville三位机器学习领域的学者所写的《Deep Learning》\upcite{Goodfellow-et-al-2016}也是值得一读的参考书。其讲解了有关深度学习常用的方法，其中很多都会在深度学习模型设计和使用中用到。同时在该书的应用一章中也简单讲解了神经机器翻译的任务定义和发展过程。
-\parinterval 《Neural Network Methods for Natural Language Processing》\cite{goldberg2017neural}是Yoav Goldberg编写的面向自然语言处理的深度学习参考书。相比《Deep Learning》，该书聚焦在自然语言处理中的深度学习方法，内容更加易读，非常适合刚入门自然语言处理及深度学习应用的人员参考。
+\parinterval 《Neural Network Methods for Natural Language Processing》\upcite{goldberg2017neural}是Yoav Goldberg编写的面向自然语言处理的深度学习参考书。相比《Deep Learning》，该书聚焦在自然语言处理中的深度学习方法，内容更加易读，非常适合刚入门自然语言处理及深度学习应用的人员参考。
-\parinterval 《机器学习》\cite{周志华2016机器学习}由南京大学周志华教授所著，作为机器学习领域入门教材，该书尽可能地涵盖了机器学习基础知识的各个方面，试图尽可能少地使用数学知识介绍机器学习方法与思想。
+\parinterval 《机器学习》\upcite{周志华2016机器学习}由南京大学周志华教授所著，作为机器学习领域入门教材，该书尽可能地涵盖了机器学习基础知识的各个方面，试图尽可能少地使用数学知识介绍机器学习方法与思想。
-\parinterval 《统计学习方法》\cite{李航2012统计学习方法}由李航博士所著，该书对机器学习的有监督和无监督等方法进行了全面而系统的介绍。可以作为梳理机器学习的知识体系，同时了解相关基础概念的参考读物。
+\parinterval 《统计学习方法（第2版）》\upcite{李航2019统计学习方法}由李航博士所著，该书对机器学习的有监督和无监督等方法进行了全面而系统的介绍。可以作为梳理机器学习的知识体系，同时了解相关基础概念的参考读物。
-\parinterval 《神经网络与深度学习》\cite{邱锡鹏2020神经网络与深度学习}由复旦大学邱锡鹏教授所著，全面地介绍了神经网络和深度学习的基本概念和常用技术，同时涉及了许多深度学习的前沿方法。该书适合初学者阅读，同时又不失为一本面向专业人士的参考书。
+\parinterval 《神经网络与深度学习》\upcite{邱锡鹏2020神经网络与深度学习}由复旦大学邱锡鹏教授所著，全面地介绍了神经网络和深度学习的基本概念和常用技术，同时涉及了许多深度学习的前沿方法。该书适合初学者阅读，同时又不失为一本面向专业人士的参考书。
 %----------------------------------------------------------------------------------------
 %    NEW SUBSECTION
 %----------------------------------------------------------------------------------------
 \subsection{专业组织和会议}
-许多自然语言处理的相关学术组织会定期举办学术会议。与机器翻译相关的会议有：
+许多自然语言处理的相关学术组织会定期举办学术会议。与机器翻译相关的会议有：{\red 改一下顺序}
 \begin{itemize}
 \vspace{0.5em}

--- a/Chapter2/Figures/figure-example-of-dfs-extension-method.tex
+++ b/Chapter2/Figures/figure-example-of-dfs-extension-method.tex
@@ -60,5 +60,5 @@
 	\draw[->,ublue,very thick] (pt34.south) -- (n43.west);
 	\draw[->,ublue,very thick] (pt35.south) -- (n44.west);
-	\draw[->,red,ultra thick,opacity=0.7,line width=2pt]([xshift=-0.5em]n11.west) -- (n11.east) -- (n22.west) -- (pt22.south) -- (n36.west) -- ([xshift=0.5em]pt36.south);
+	\draw[->,dashed,red,ultra thick,opacity=0.5,line width=4pt]([xshift=-0.5em]n11.west) -- (n11.east) -- (n22.west) -- (pt22.south) -- (n36.west) -- ([xshift=0.5em]pt36.south);
 \end{tikzpicture}
\ No newline at end of file
--- a/Chapter2/Figures/figure-example-of-greedy-search.tex
+++ b/Chapter2/Figures/figure-example-of-greedy-search.tex
@@ -37,5 +37,5 @@
 	\draw[->,ublue,very thick] (pt22.south) -- (n36.west);
-	\draw[->,red,ultra thick,opacity=0.7,line width=2pt]([xshift=-0.5em]n11.west) -- (n11.east) -- (n22.west) -- (pt22.south) -- (n36.west) -- ([xshift=0.5em]pt36.south);
+	\draw[->,red,ultra thick,opacity=0.7,line width=2pt]([xshift=-0.5em,yshift=-0.5em]n11.west) -- ([yshift=-0.5em]n11.east) -- ([yshift=-0.5em]n22.west) -- ([yshift=-0.5em]pt22.south) -- ([yshift=-0.5em]n36.west) -- ([xshift=0.5em,yshift=-0.5em]pt36.south);
 \end{tikzpicture}
\ No newline at end of file
--- a/Chapter2/Figures/figure-full-probability-word-segmentation-3.tex
+++ b/Chapter2/Figures/figure-full-probability-word-segmentation-3.tex
@@ -11,16 +11,16 @@
 \begin{tikzpicture}
 \node [anchor=west] (label1) at (0,0) {总词数：$6 + 8 + 5 = 20$};
-\node [anchor=north west] (p1) at (label1.south west) {$\textrm{P}(\textrm{“很”})=1/20=0.05$};
+\node [anchor=north west] (p1) at (label1.south west) {$\textrm{P}(\textrm{``很''})=1/20=0.05$};
-\node [anchor=north west] (p2) at (p1.south west) {$\textrm{P}(\textrm{“。”})=3/20=0.15$};
+\node [anchor=north west] (p2) at (p1.south west) {$\textrm{P}(\textrm{``。''})=3/20=0.15$};
-\node [anchor=north west] (p3) at (p2.south west) {$\textrm{P}(\textrm{“确实”})=1/20=0.05$};
+\node [anchor=north west] (p3) at (p2.south west) {$\textrm{P}(\textrm{``确实''})=1/20=0.05$};
 \node [anchor=north west] (label11) at ([xshift=18.0em,yshift=1.63em]label1.south west) {更多数据-总词数:100K $\sim$ 1M};
-\node [anchor=north west] (p12) at (label11.south west) {$\textrm{P}(\textrm{“很”})=0.000010$};
+\node [anchor=north west] (p12) at (label11.south west) {$\textrm{P}(\textrm{``很''})=0.000010$};
-\node [anchor=north west] (p22) at (p12.south west) {$\textrm{P}(\textrm{“。”})=0.001812$};
+\node [anchor=north west] (p22) at (p12.south west) {$\textrm{P}(\textrm{``。''})=0.001812$};
-\node [anchor=north west] (p32) at (p22.south west) {$\textrm{P}(\textrm{“确实”})=0.000001$};
+\node [anchor=north west] (p32) at (p22.south west) {$\textrm{P}(\textrm{``确实''})=0.000001$};

--- a/Chapter2/Figures/figure-score-solution-space-tree-by-lm.tex
+++ b/Chapter2/Figures/figure-score-solution-space-tree-by-lm.tex
@@ -60,5 +60,10 @@
 	\draw[->,ublue,very thick] (pt34.south) -- (n43.west);
 	\draw[->,ublue,very thick] (pt35.south) -- (n44.west);
-	\draw[->,red,ultra thick,opacity=0.7,line width=2pt]([xshift=-0.5em]n11.west) -- (n11.east) -- (n21.west) -- (n21.east) -- ([xshift=0.5em]pt42.south);
+\begin{pgfonlayer}{background}
+{
+	\draw[->,red,ultra thick,opacity=0.7,line width=4pt]([xshift=-1em]n11.west) -- (n11.east) -- (n21.west) -- (n21.east) -- ([xshift=1em]pt42.south);
+}
+\end{pgfonlayer}
 \end{tikzpicture}
\ No newline at end of file
--- a/Chapter2/Figures/figure-solution-space-tree-of-enumeration-search.tex
+++ b/Chapter2/Figures/figure-solution-space-tree-of-enumeration-search.tex
@@ -4,7 +4,7 @@
 	\node[fill=red!40,inner sep=2pt,minimum width=5em](vocab)at(0,0){\color{white}{\small\bfnew{词表}}};
 	\node[fill=red!20,anchor=north,align=left,inner sep=3pt,minimum width=5em](words)at(vocab.south){I\\[-0.5ex]agree};
 	\node[fill=blue!40,anchor=north,align=left,inner sep=2pt,minimum width=5em](spe)at(words.south){\color{white}{\small\bfnew{特殊符号}}};
-	\node[fill=blue!20,anchor=north,align=left,inner sep=3pt,minimum width=5em](eos)at(spe.south){$<$sos$>$\\[-0.5ex]$<$eos$>$};
+	\node[fill=blue!10,anchor=north,align=left,inner sep=3pt,minimum width=5em](eos)at(spe.south){$<$sos$>$\\[-0.5ex]$<$eos$>$};
 	\node[anchor=north,unit,text=red] (w1) at ([xshift=2.5em,yshift=-1em]eos.south){$w_1$};
 	\node[anchor=north,unit,fill=blue!10] (n11) at ([yshift=-0.5em]w1.south){{{$<$sos$>$}}};

--- a/Chapter2/chapter2.tex
+++ b/Chapter2/chapter2.tex
@@ -47,9 +47,9 @@
 \parinterval 连续变量是在其取值区间内连续取值，无法被一一列举，具有无限个取值的变量。例如，图书馆的开馆时间是8:30-22:00，用$X$代表某人进入图书馆的时间，时间的取值范围是[8:30，22:00]这个时间区间，$X$就是一个连续变量。
-\parinterval {\small\bfnew{概率}}\index{概率}（Probability）\index{Probability}是度量随机事件呈现其每个可能状态的可能性的数值，本质上它是一个测度函数\cite{mao-prob-book-2011}\cite{kolmogorov2018foundations}。概率的大小表征了随机事件在一次试验中发生的可能性大小。用$\textrm{P}(\cdot )$表示一个随机事件的可能性，即事件发生的概率。比如$\textrm{P}(\textrm{太阳从东方升起})$表示``太阳从东方升起的可能性''，同理，$\textrm{P}(A=B)$ 表示的就是``$A=B$'' 这件事的可能性。
+\parinterval {\small\bfnew{概率}}\index{概率}（Probability）\index{Probability}是度量随机事件呈现其每个可能状态的可能性的数值，本质上它是一个测度函数\upcite{mao-prob-book-2011}\upcite{kolmogorov2018foundations}。概率的大小表征了随机事件在一次试验中发生的可能性大小。用$P(\cdot )$表示一个随机事件的可能性，即事件发生的概率。比如$P(\textrm{太阳从东方升起})$表示``太阳从东方升起的可能性''，同理，$P(A=B)$ 表示的就是``$A=B$'' 这件事的可能性。
-\parinterval 在实际问题中，往往需要得到随机变量的概率值。但是，真实的概率值可能是无法准确知道的，这时就需要对概率进行{\small\sffamily\bfseries{估计}}\index{估计}，得到的结果是概率的{\small\sffamily\bfseries{估计值}}\index{估计值}（Estimate）\index{Estimate}。在概率论中，一个很简单的方法是利用相对频度作为概率的估计值。如果$\{x_1,x_2,\dots,x_n \}$是一个试验的样本空间，在相同情况下重复试验$N$次，观察到样本$x_i (1\leq{i}\leq{n})$的次数为$n (x_i )$，那么$x_i$在这$N$次试验中的相对频率是$\frac{n(x_i )}{N}$。当$N$越来越大时，相对概率也就越来越接近真实概率$\textrm{P}(x_i)$，即$\lim_{N \to \infty}\frac{n(x_i )}{N}=\textrm{P}(x_i)$。 实际上，很多概率模型都等同于相对频度估计，比如，对于一个服从多项式分布的变量的极大似然估计就可以用相对频度估计实现。
+\parinterval 在实际问题中，往往需要得到随机变量的概率值。但是，真实的概率值可能是无法准确知道的，这时就需要对概率进行{\small\sffamily\bfseries{估计}}\index{估计}，得到的结果是概率的{\small\sffamily\bfseries{估计值}}\index{估计值}（Estimate）\index{Estimate}。在概率论中，一个很简单的方法是利用相对频度作为概率的估计值。如果$\{x_1,x_2,\dots,x_n \}$是一个试验的样本空间，在相同情况下重复试验$N$次，观察到样本$x_i (1\leq{i}\leq{n})$的次数为$n (x_i )$，那么$x_i$在这$N$次试验中的相对频率是$\frac{n(x_i )}{N}$。当$N$越来越大时，相对概率也就越来越接近真实概率$P(x_i)$，即$\lim_{N \to \infty}\frac{n(x_i )}{N}=P(x_i)$。 实际上，很多概率模型都等同于相对频度估计，比如，对于一个服从多项式分布的变量的极大似然估计就可以用相对频度估计实现。
 %--------------------------------------------------------------------
 \begin{table}[htp]
@@ -58,15 +58,17 @@
 \begin{tabular}{c|c c c c c c}
 \rule{0pt}{15pt}     $A$ & $a_1=1$ & $a_2=2$ & $a_3=3$ & $a_4=4$ & $a_5=5$ & $a_6=6$\\
               \hline
-\rule{0pt}{15pt}     $\textrm{P}_i$ & $\textrm{P}_1=\frac{4}{25}$  &  $\textrm{P}_2=\frac{3}{25}$ &  $\textrm{P}_3=\frac{4}{25}$ & $\textrm{P}_4=\frac{6}{25}$ & $\textrm{P}_5=\frac{3}{25}$ & $\textrm{P}_6=\frac{1}{25}$  \\
+\rule{0pt}{15pt}     $P_i$ & $P_1=\frac{4}{25}$  &  $P_2=\frac{3}{25}$ &  $P_3=\frac{4}{25}$ & $P_4=\frac{6}{25}$ & $P_5=\frac{3}{25}$ & $P_6=\frac{1}{25}$  \\
             \end{tabular}
             \label{tab:2-1}
 \end{table}
 %--------------------------------------------------------------------
-\parinterval 概率函数是用函数形式给出离散变量每个取值发生的概率，其实就是将变量的概率分布转化为数学表达形式。如果把$A$看做一个离散变量，$a$看做变量$A$的一个取值，那么$\textrm{P}(A)$被称作变量$A$的概率函数，$\textrm{P}(A=a)$被称作$A = a$的概率值，简记为$\textrm{P}(a)$。例如，在相同条件下掷一个骰子50次，用$A$表示投骰子出现的点数这个离散变量，$a_i$表示点数的取值，$\textrm{P}_i$表示$A=a_i$的概率值。表\ref{tab:2-1}为$A$的概率分布，给出了$A$的所有取值及其概率。
+\parinterval 概率函数是用函数形式给出离散变量每个取值发生的概率，其实就是将变量的概率分布转化为数学表达形式。如果把$A$看做一个离散变量，$a$看做变量$A$的一个取值，那么$P(A)$被称作变量$A$的概率函数，$P(A=a)$被称作$A = a$的概率值，简记为$P(a)$。例如，在相同条件下掷一个骰子50次，用$A$表示投骰子出现的点数这个离散变量，$a_i$表示点数的取值，$P_i$表示$A=a_i$的概率值。表\ref{tab:2-1}为$A$的概率分布，给出了$A$的所有取值及其概率。
-\parinterval 除此之外，概率函数$\textrm{P}(\cdot)$还具有非负性、归一性等特点。非负性是指，所有的概率函数$\textrm{P}(\cdot)$都必须是大于等于0的数值，概率函数中不可能出现负数，即$\forall{x},\textrm{P}{(x)}\geq{0}$。归一性，又称规范性，简单的说就是所有可能发生的事件的概率总和为1，即$\sum_{x}\textrm{P}{(x)}={1}$。
+\parinterval 除此之外，概率函数$P(\cdot)$还具有非负性、归一性等特点。非负性是指，所有的概率函数$P(\cdot)$都必须是大于等于0的数值，概率函数中不可能出现负数，即$\forall{x},P{(x)}\geq{0}$。归一性，又称规范性，简单的说就是所有可能发生的事件的概率总和为1，即$\sum_{x}P{(x)}={1}$。
+\parinterval 对于离散变量$A$，$P(A=a)$是个确定的值，可以表示事件$A=a$的可能性大小；而对于连续变量，求在某个定点处的概率是无意义的，只能求其落在某个取值区间内的概率。因此，用{\small\sffamily\bfseries{概率分布函数}}\index{概率分布函数}$F(x)$和{\small\sffamily\bfseries{概率密度函数}}\index{概率密度函数}$f(x)$来统一描述随机变量取值的分布情况（如图\ref{fig:2-1}）。概率分布函数$F(x)$表示取值小于等于某个值的概率，是概率的累加（或积分）形式。假设$A$是一个随机变量，$a$是任意实数，将函数$F(a)=P\{A\leq a\}$，$-\infty<a<\infty $定义为$A$的分布函数。通过分布函数，可以清晰地表示任何随机变量的概率。
 %----------------------------------------------
 \begin{figure}[htp]
@@ -77,8 +79,6 @@
 \end{figure}
 %-------------------------------------------
-\parinterval 对于离散变量$A$，$\textrm{P}(A=a)$是个确定的值，可以表示事件$A=a$的可能性大小；而对于连续变量，求在某个定点处的概率是无意义的，只能求其落在某个取值区间内的概率。因此，用{\small\sffamily\bfseries{概率分布函数}}\index{概率分布函数}$F(x)$和{\small\sffamily\bfseries{概率密度函数}}\index{概率密度函数}$f(x)$来统一描述随机变量取值的分布情况（如图\ref{fig:2-1}）。概率分布函数$F(x)$表示取值小于等于某个值的概率，是概率的累加（或积分）形式。假设$A$是一个随机变量，$a$是任意实数，将函数$F(a)=\textrm{P}\{A\leq a\}$，$-\infty<a<\infty $定义为$A$的分布函数。通过分布函数，可以清晰地表示任何随机变量的概率。
 \parinterval 概率密度函数反映了变量在某个区间内的概率变化快慢，概率密度函数的值是概率的变化率，该连续变量的概率也就是对概率密度函数求积分得到的结果。设$f(x) \geq 0$是连续变量$X$的概率密度函数，$X$的分布函数就可以用如下公式定义：
 \begin{eqnarray}
 F(x)=\int_{-\infty}^x f(x)dx
@@ -90,25 +90,25 @@ F(x)=\int_{-\infty}^x f(x)dx
 %----------------------------------------------------------------------------------------
 \subsection{联合概率、条件概率和边缘概率}
-\parinterval {\small\sffamily\bfseries{联合概率}}\index{联合概率}（Joint Probability）\index{Joint Probability}是指多个事件共同发生，每个随机变量满足各自条件的概率，表示为$\textrm{P}(AB)$或$\textrm{P}(A\cap{B})$。{\small\sffamily\bfseries{条件概率}}\index{条件概率}（Conditional Probability）\index{Conditional Probability}是指$A$、$B$为任意的两个事件，在事件$A$已出现的前提下，事件$B$出现的概率，使用$\textrm{P}(B \mid A)$表示。
+\parinterval {\small\sffamily\bfseries{联合概率}}\index{联合概率}（Joint Probability）\index{Joint Probability}是指多个事件共同发生，每个随机变量满足各自条件的概率，表示为$P(AB)$或$P(A\cap{B})$。{\small\sffamily\bfseries{条件概率}}\index{条件概率}（Conditional Probability）\index{Conditional Probability}是指$A$、$B$为任意的两个事件，在事件$A$已出现的前提下，事件$B$出现的概率，使用$P(B \mid A)$表示。
 \parinterval 贝叶斯法则（见\ref{sec:2.2.3}小节）是条件概率计算时的重要依据，条件概率可以表示为
 \begin{eqnarray}
-\textrm{P}{(B|A)} & = & \frac{\textrm{P}(A\cap{B})}{\textrm{P}(A)}  \nonumber \\
+P{(B|A)} & = & \frac{P(A\cap{B})}{P(A)}  \nonumber \\
-                           & = & \frac{\textrm{P}(A)\textrm{P}(B|A)}{\textrm{P}(A)}  \nonumber \\
+                           & = & \frac{P(A)P(B|A)}{P(A)}  \nonumber \\
-                           & = & \frac{\textrm{P}(B)\textrm{P}(A|B)}{\textrm{P}(A)}
+                           & = & \frac{P(B)P(A|B)}{P(A)}
 \label{eq:2-2}
 \end{eqnarray}
-\parinterval {\small\sffamily\bfseries{边缘概率}}\index{边缘概率}（marginal probability）\index{marginal probability}是和联合概率对应的，它指的是$\textrm{P}(X=a)$或$\textrm{P}(Y=b)$，即仅与单个随机变量有关的概率。对于离散随机变量$X$和$Y$，如果知道$\textrm{P}(X,Y)$，则边缘概率$\textrm{P}(X)$可以通过求和的方式得到。对于$\forall x \in X $，有
+\parinterval {\small\sffamily\bfseries{边缘概率}}\index{边缘概率}（marginal probability）\index{marginal probability}是和联合概率对应的，它指的是$P(X=a)$或$P(Y=b)$，即仅与单个随机变量有关的概率。对于离散随机变量$X$和$Y$，如果知道$P(X,Y)$，则边缘概率$P(X)$可以通过求和的方式得到。对于$\forall x \in X $，有
 \begin{eqnarray}
-\textrm{P}(X=x)=\sum_{y}  \textrm{P}(X=x,Y=y)
+P(X=x)=\sum_{y}  P(X=x,Y=y)
 \label{eq:2-3}
 \end{eqnarray}
-\parinterval 对于连续变量，边缘概率$\textrm{P}(X)$需要通过积分得到，如下式所示
+\parinterval 对于连续变量，边缘概率$P(X)$需要通过积分得到，如下式所示
 \begin{eqnarray}
-\textrm{P}(X=x)=\int \textrm{P}(x,y)dy
+P(X=x)=\int P(x,y)dy
 \label{eq:2-4}
 \end{eqnarray}
@@ -120,7 +120,7 @@ F(x)=\int_{-\infty}^x f(x)dx
 \vspace{0.5em}
 \item 联合概率：矩形$C$的面积；
 \vspace{0.5em}
-\item 条件概率：联合概率/对应的边缘概率，如：$\textrm{P}(A \mid B)$=矩形$C$的面积/矩形B的面积。
+\item 条件概率：联合概率/对应的边缘概率，如：$P(A \mid B)$=矩形$C$的面积/矩形B的面积。
 \vspace{0.5em}
 \end{itemize}
@@ -139,20 +139,35 @@ F(x)=\int_{-\infty}^x f(x)dx
 \subsection{链式法则}
-\parinterval 条件概率公式$\textrm{P}(A \mid B)=\textrm{P}(AB)/\textrm{P}(B)$反映了事件$B$发生的条件下事件$A$发生的概率。如果将其推广到三个事件$A$、$B$、$C$，为了计算$\textrm{P}(A,B,C)$，可以运用两次$\textrm{P}(A \mid B)=\textrm{P}(AB)/\textrm{P}(B)$，计算过程如下：
+\parinterval 条件概率公式$P(A \mid B)=P(AB)/P(B)$反映了事件$B$发生的条件下事件$A$发生的概率。如果将其推广到三个事件$A$、$B$、$C$，为了计算$P(A,B,C)$，可以运用两次$P(A \mid B)=P(AB)/P(B)$，计算过程如下：
 \begin{eqnarray}
-\textrm{P}(A,B,C) & = & \textrm{P}(A \mid B ,C)\textrm{P}(B,C) \nonumber \\
+P(A,B,C) & = & P(A \mid B ,C)P(B,C) \nonumber \\
-                           & = & \textrm{P}(A \mid B,C)\textrm{P}(B \mid C)\textrm{P}(C)
+                           & = & P(A \mid B,C)P(B \mid C)P(C)
 \label{eq:2-5}
 \end{eqnarray}
 \parinterval 推广到$n$个事件，可以得到了链式法则的公式
 \begin{eqnarray}
-\textrm{P}(x_1,x_2,...,x_n)=\textrm{P}(x_1) \prod_{i=2}^n \textrm{P}(x_i \mid x_1,x_2,...,x_{i-1})
+P(x_1,x_2,...,x_n)=P(x_1) \prod_{i=2}^n P(x_i \mid x_1,x_2,...,x_{i-1})
 \label{eq:2-6}
 \end{eqnarray}
-\parinterval 下面的例子有助于更好的理解链式法则，如图\ref{fig:2-3}所示，$A$、$B$、$C$、$D$、\\ $E$分别代表五个事件，其中，$A$只和$B$有关，$C$只和$B$、$D$有关，$E$只和$C$有关，$B$和$D$不依赖其他任何事件。则$\textrm{P}(A,B,C,D,E)$的表达式如下式：
+\parinterval 下面的例子有助于更好的理解链式法则，如图\ref{fig:2-3}所示，$A$、$B$、$C$、$D$、\\ $E$分别代表五个事件，其中，$A$只和$B$有关，$C$只和$B$、$D$有关，$E$只和$C$有关，$B$和$D$不依赖其他任何事件。则$P(A,B,C,D,E)$的表达式如下式：
+\begin{eqnarray}
+&   & P(A,B,C,D,E) \nonumber \\
+&=&P(E \mid A,B,C,D) \cdot P(A,B,C,D) \nonumber \\
+&=&P(E \mid A,B,C,D) \cdot P(D \mid A,B,C) \cdot P(A,B,C) \nonumber \\
+&=&P(E \mid A,B,C,D) \cdot P(D \mid A,B,C) \cdot P(C \mid A,B) \cdot P(A,B) \nonumber \\
+&=&P(E \mid A,B,C,D) \cdot P(D \mid A,B,C) \cdot P(C \mid A,B) \cdot P(B \mid A) \cdot P(A)
+\label{eq:2-7}
+\end{eqnarray}
+\parinterval 根据图\ref {fig:2-3} 易知$E$只和$C$有关，所以$P(E \mid A,B,C,D)=P(E \mid C)$；$D$不依赖于其他事件，所以$P(D \mid A,B,C)=P(D)$；$C$只和$B$、$D$有关，所以$P(C \mid A,B)=P(C \mid B)$；$B$不依赖于其他事件，所以$P(B \mid  A)=P(B)$。最终化简可得：
+\begin{eqnarray}
+P(A,B,C,D,E)=P(E \mid C) \cdot P(D) \cdot P(C \mid B) \cdot P(B)\cdot P(A \mid B)
+\label{eq:2-8}
+\end{eqnarray}
 %----------------------------------------------
 \begin{figure}[htp]
@@ -164,21 +179,6 @@ F(x)=\int_{-\infty}^x f(x)dx
 \end{figure}
 %-------------------------------------------
-\begin{eqnarray}
-&   & \textrm{P}(A,B,C,D,E) \nonumber \\
-&=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(A,B,C,D) \nonumber \\
-&=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(D \mid A,B,C) \cdot \textrm{P}(A,B,C) \nonumber \\
-&=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(D \mid A,B,C) \cdot \textrm{P}(C \mid A,B) \cdot \textrm{P}(A,B) \nonumber \\
-&=&\textrm{P}(E \mid A,B,C,D) \cdot \textrm{P}(D \mid A,B,C) \cdot \textrm{P}(C \mid A,B) \cdot \textrm{P}(B \mid A) \cdot \textrm{P}(A)
-\label{eq:2-7}
-\end{eqnarray}
-\parinterval 根据图\ref {fig:2-3} 易知$E$只和$C$有关，所以$\textrm{P}(E \mid A,B,C,D)=\textrm{P}(E \mid C)$；$D$不依赖于其他事件，所以$\textrm{P}(D \mid A,B,C)=\textrm{P}(D)$；$C$只和$B$、$D$有关，所以$\textrm{P}(C \mid A,B)=\textrm{P}(C \mid B)$；$B$不依赖于其他事件，所以$\textrm{P}(B \mid  A)=\textrm{P}(B)$。最终化简可得：
-\begin{eqnarray}
-\textrm{P}(A,B,C,D,E)=\textrm{P}(E \mid C) \cdot \textrm{P}(D) \cdot \textrm{P}(C \mid B) \cdot \textrm{P}(B)\cdot \textrm{P}(A \mid B)
-\label{eq:2-8}
-\end{eqnarray}
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------
@@ -188,7 +188,7 @@ F(x)=\int_{-\infty}^x f(x)dx
 \parinterval 首先介绍一下全概率公式：{\small\bfnew{全概率公式}}\index{全概率公式}（Law Of Total Probability）\index{Law Of Total Probability}是概率论中重要的公式，它可以将一个复杂事件发生的概率分解成不同情况的小事件发生概率的和。这里先介绍一个概念——划分。集合$S$的一个划分事件为$\{B_1,...,B_n\}$是指它们满足$\bigcup_{i=1}^n B_i=S \textrm{且}B_iB_j=\varnothing , i,j=1,...,n,i\neq j$。此时事件$A$的全概率公式可以被描述为：
 \begin{eqnarray}
-\textrm{P}(A)=\sum_{k=1}^n \textrm{P}(A \mid B_k)\textrm{P}(B_k)
+P(A)=\sum_{k=1}^n P(A \mid B_k)P(B_k)
 \label{eq:2-9}
 \end{eqnarray}
@@ -206,25 +206,25 @@ F(x)=\int_{-\infty}^x f(x)dx
 \vspace{0.5em}
 \end{itemize}
-\parinterval 显然，$S_a$，$S_b$，$S_c$是$S$的划分。如果三条路不拥堵的概率分别为$\textrm{P}({S_{a}^{'}})$=0.2， $\textrm{P}({S_{b}^{'}})$=0.4，$\textrm{P}({S_{c}^{'}})$=0.7，那么事件$L$：小张上班没有遇到拥堵情况的概率就是：
+\parinterval 显然，$S_a$，$S_b$，$S_c$是$S$的划分。如果三条路不拥堵的概率分别为$P({S_{a}^{'}})$=0.2， $P({S_{b}^{'}})$=0.4，$P({S_{c}^{'}})$=0.7，那么事件$L$：小张上班没有遇到拥堵情况的概率就是：
 \begin{eqnarray}
-{\textrm{P}(L)} &=& {\textrm{P}( L| S_a )\textrm{P}(S_a )+\textrm{P}( L| S_b )\textrm{P}(S_b )+\textrm{P}( L| S_c )\textrm{P}(S_c )}\nonumber \\
+{P(L)} &=& {P( L| S_a )P(S_a )+P( L| S_b )P(S_b )+P( L| S_c )P(S_c )}\nonumber \\
-& = &{\textrm{P}({S_{a}^{'}})\textrm{P}(S_a)+\textrm{P}({S_{b}^{'}})\textrm{P}(S_b)+\textrm{P}({S_{c}^{'}})\textrm{P}(S_c) }\nonumber \\
+& = &{P({S_{a}^{'}})P(S_a)+P({S_{b}^{'}})P(S_b)+P({S_{c}^{'}})P(S_c) }\nonumber \\
 & = &{0.36}
 \label{eq:2-10}
 \end{eqnarray}
-\parinterval {\small\sffamily\bfseries{贝叶斯法则}}\index{贝叶斯法则}（Bayes' rule）\index{Bayes' rule}是概率论中的一个经典公式，通常用于已知$\textrm{P}(A \mid B)$求$\textrm{P}(B \mid A)$。可以表述为：设$\{B_1,...,B_n\}$是$S$的一个划分，$A$为事件，则对于$i=1,...,n$，有如下公式
+\parinterval {\small\sffamily\bfseries{贝叶斯法则}}\index{贝叶斯法则}（Bayes' rule）\index{Bayes' rule}是概率论中的一个经典公式，通常用于已知$P(A \mid B)$求$P(B \mid A)$。可以表述为：设$\{B_1,...,B_n\}$是$S$的一个划分，$A$为事件，则对于$i=1,...,n$，有如下公式
 \begin{eqnarray}
-\textrm{P}(B_i \mid A) & = & \frac {\textrm{P}(A  B_i)} { \textrm{P}(A) } \nonumber \\
+P(B_i \mid A) & = & \frac {P(A  B_i)} { P(A) } \nonumber \\
-                                   & = & \frac {\textrm{P}(A \mid B_i)\textrm{P}(B_i) } { \sum_{k=1}^n\textrm{P}(A \mid B_k)\textrm{P}(B_k) }
+                                   & = & \frac {P(A \mid B_i)P(B_i) } { \sum_{k=1}^nP(A \mid B_k)P(B_k) }
 \label{eq:2-11}
 \end{eqnarray}
 \noindent 其中，等式右端的分母部分使用了全概率公式。由上式，也可以得到贝叶斯公式的另外两种写法:
 \begin{eqnarray}
-\textrm{P}(B \mid A) & = & \frac { \textrm{P}(A \mid B)\textrm{P}(B) }  {\textrm{P}(A)} \nonumber \\
+P(B \mid A) & = & \frac { P(A \mid B)P(B) }  {P(A)} \nonumber \\
-                     & = & \frac { \textrm{P}(A \mid B)\textrm{P}(B) }  {\textrm{P}(A \mid B)\textrm{P}(B)+\textrm{P}(A \mid \bar{B}) \textrm{P}(\bar{B})}
+                     & = & \frac { P(A \mid B)P(B) }  {P(A \mid B)P(B)+P(A \mid \bar{B}) P(\bar{B})}
 \label{eq:2-12}
 \end{eqnarray}
@@ -253,27 +253,27 @@ F(x)=\int_{-\infty}^x f(x)dx
 \label{eg:2-1}
 \end{example}
-\parinterval 在这两句话中，``太阳从东方升起''是一件确定性事件（在地球上），几乎不需要查阅更多信息就可以确认，因此这件事的信息熵相对较低；而``明天天气多云''这件事，需要关注天气预报，才能大概率确定这件事，它的不确定性很高，因而它的信息熵也就相对较高。因此，信息熵也是对事件不确定性的度量。进一步，定义{\small\bfnew{自信息}}\index{自信息}（Self-Information）\index{Self-Information}为一个事件$X$的自信息的表达式为：
+\parinterval 在这两句话中，``太阳从东方升起''是一件确定性事件（在地球上），几乎不需要查阅更多信息就可以确认，因此这件事的信息熵相对较低；而``明天天气多云''这件事，需要关注天气预报，才能大概率确定这件事，它的不确定性很高，因而它的信息熵也就相对较高。因此，信息熵也是对事件不确定性的度量。进一步，定义{\small\bfnew{自信息}}\index{自信息}（Self-Information）\index{Self-Information}为一个事件$X$的自信息的表达式为：{\red 改一下X与x的关系}
 \begin{eqnarray}
-\textrm{I}(x)=-\log\textrm{P}(x)
+\textrm{I}(x)=-\log P(x)
 \label{eq:2-13}
 \end{eqnarray}
-\noindent 其中，$\textrm{P}(x)$表示$x$发生的概率。自信息用来衡量单一事件发生时所包含的信息多少，当底数为e时，单位为nats，其中1nats是通过观察概率为$\frac{1}{e}$的事件而获得的信息量；当底数为2 时，单位为bits或shannons。$\textrm{I}(x)$和$\textrm{P}(x)$的函数关系如图\ref{fig:2-4} 所示。
+\noindent 其中，$P(x)$表示$x$发生的概率。自信息用来衡量单一事件发生时所包含的信息多少，当底数为e时，单位为nats，其中1nats是通过观察概率为$\frac{1}{e}$的事件而获得的信息量；当底数为2 时，单位为bits或shannons。$\textrm{I}(x)$和$P(x)$的函数关系如图\ref{fig:2-4} 所示。
 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter2/Figures/figure-self-information-function}
-\caption{自信息函数$\textrm{I}(x)$关于$\textrm{P}(x)$的曲线}
+\caption{自信息函数$\textrm{I}(x)$关于$P(x)$的曲线}
 \label{fig:2-4}
 \end{figure}
 %-------------------------------------------
 \parinterval 自信息处理的是变量单一取值的情况。若量化整个概率分布中的不确定性或信息量，可以用信息熵，记为$\textrm{H}(x)$。其公式如下：
 \begin{eqnarray}
-\textrm{H}(x) & = & \sum_{x \in \textrm{X}}[ \textrm{P}(x) \textrm{I}(x)] \nonumber \\
+\textrm{H}(x) & = & \sum_{x \in \textrm{X}}[ P(x) \textrm{I}(x)] \nonumber \\
-              & = & - \sum_{x \in \textrm{X} } [\textrm{P}(x)\log(\textrm{P}(x)) ]
+              & = & - \sum_{x \in \textrm{X} } [P(x)\log(P(x)) ]
 \label{eq:2-14}
 \end{eqnarray}
@@ -287,18 +287,18 @@ F(x)=\int_{-\infty}^x f(x)dx
 \parinterval 如果同一个随机变量$X$上有两个概率分布P$(x)$和Q$(x)$，那么可以使用KL距离(``Kullback-Leibler''散度)来衡量这两个分布的不同，这种度量就是{\small\bfnew{相对熵}}\index{相对熵}（Relative Entropy）\index{Relative Entropy}。其公式如下：
 \begin{eqnarray}
-\textrm{D}_{\textrm{KL}}(\textrm{P}\parallel \textrm{Q}) & = & \sum_{x \in \textrm{X}} [ \textrm{P}(x)\log \frac{\textrm{P}(x) }{ \textrm{Q}(x) } ]  \nonumber \\
+\textrm{D}_{\textrm{KL}}(P\parallel \textrm{Q}) & = & \sum_{x \in \textrm{X}} [ P(x)\log \frac{P(x) }{ \textrm{Q}(x) } ]  \nonumber \\
-                                                                                       & = & \sum_{x \in \textrm{X} }[ \textrm{P}(x)(\log\textrm{P}(x)-\log \textrm{Q}(x))]
+                                                                                       & = & \sum_{x \in \textrm{X} }[ P(x)(\log P(x)-\log \textrm{Q}(x))]
 \label{eq:2-15}
 \end{eqnarray}
-\parinterval 相对熵的意义在于：在一个事件空间里，概率分布$\textrm{P}(x)$对应的每个事件的可能性。若用概率分布Q$(x)$编码$\textrm{P}(x)$，平均每个事件的信息量增加了多少。它衡量的是同一个事件空间里两个概率分布的差异。KL距离有两条重要的性质：
+\parinterval 相对熵的意义在于：在一个事件空间里，概率分布$P(x)$对应的每个事件的可能性。若用概率分布Q$(x)$编码$P(x)$，平均每个事件的信息量增加了多少。它衡量的是同一个事件空间里两个概率分布的差异。KL距离有两条重要的性质：
 \begin{itemize}
 \vspace{0.5em}
-\item 非负性，即$\textrm{D}_{\textrm{KL}} (\textrm{P} \parallel \textrm{Q}) \ge 0$，等号成立条件是$\textrm{P}$和$\textrm{Q}$相等。
+\item 非负性，即$\textrm{D}_{\textrm{KL}} (P \parallel \textrm{Q}) \ge 0$，等号成立条件是$P$和$\textrm{Q}$相等。
 \vspace{0.5em}
-\item 不对称性，即$\textrm{D}_{\textrm{KL}} (\textrm{P} \parallel \textrm{Q}) \neq \textrm{D}_{\textrm{KL}} (\textrm{Q}  \parallel \textrm{P})$，所以$\textrm{KL}$距离并不是常用的欧式空间中的距离。为了消除这种不确定性，有时也会使用$\textrm{D}_{\textrm{KL}} (\textrm{P}  \parallel \textrm{Q})+\textrm{D}_{\textrm{KL}} (\textrm{Q}  \parallel \textrm{P})$作为度量两个分布差异性的函数。
+\item 不对称性，即$\textrm{D}_{\textrm{KL}} (P \parallel \textrm{Q}) \neq \textrm{D}_{\textrm{KL}} (\textrm{Q}  \parallel P)$，所以$\textrm{KL}$距离并不是常用的欧式空间中的距离。为了消除这种不确定性，有时也会使用$\textrm{D}_{\textrm{KL}} (P  \parallel \textrm{Q})+\textrm{D}_{\textrm{KL}} (\textrm{Q}  \parallel P)$作为度量两个分布差异性的函数。
 \vspace{0.5em}
 \end{itemize}
@@ -310,7 +310,7 @@ F(x)=\int_{-\infty}^x f(x)dx
 \parinterval {\small\bfnew{交叉熵}}\index{交叉熵}（Cross-Entropy）\index{Cross-Entropy}是一个与KL距离密切相关的概念，它的公式是：
 \begin{eqnarray}
-\textrm{H}(\textrm{P},\textrm{Q})=-\sum_{x \in \textrm{X}} [\textrm{P}(x) \log \textrm{Q}(x) ]
+\textrm{H}(P,\textrm{Q})=-\sum_{x \in \textrm{X}} [P(x) \log \textrm{Q}(x) ]
 \label{eq:2-16}
 \end{eqnarray}
@@ -338,25 +338,25 @@ F(x)=\int_{-\infty}^x f(x)dx
 \parinterval 此时玩家的胜利似乎只能来源于运气。不过，请注意，这里的假设``随便选一个数字''本身就是一个概率模型，它对骰子的六个面的出现做了均匀分布假设。
 \begin{eqnarray}
-\textrm{P(``1'')}=\textrm{P(``2'')}=...=\textrm{P(``5'')}=\textrm{P(``6'')}=1/6
+P(``1'')=P(``2'')=...=P(``5'')=P(``6'')=1/6
 \label{eq:2-17}
 \end{eqnarray}
 \vspace{-0.5em}
 \parinterval 但是这个游戏没有人规定骰子是均匀的（有些被坑了的感觉）。如果骰子的六个面不均匀呢？这里可以用一种更加``聪明''的方式定义一种新的模型，即定义骰子的每一个面都以一定的概率出现，而不是相同的概率。描述如下：
 \begin{eqnarray}
-\textrm{P(``1'')} &=&\theta_1 \nonumber \\
+P(``1'') &=&\theta_1 \nonumber \\
-\textrm{P(``2'')} &=&\theta_2 \nonumber \\
+P(``2'') &=&\theta_2 \nonumber \\
-\textrm{P(``3'')} &=&\theta_3 \nonumber \\
+P(``3'') &=&\theta_3 \nonumber \\
-\textrm{P(``4'')} &=&\theta_4 \nonumber \\
+P(``4'') &=&\theta_4 \nonumber \\
-\textrm{P(``5'')} &=&\theta_5 \nonumber \\
+P(``5'') &=&\theta_5 \nonumber \\
-\textrm{P(``6'')} &=&1-\sum_{1 \leq i \leq 5}\theta_i \qquad \lhd \textrm {归一性}
+P(``6'') &=&1-\sum_{1 \leq i \leq 5}\theta_i \qquad \lhd \textrm {归一性}
 \label{eq:2-18}
 \end{eqnarray}
 \noindent 这里，$\theta_1 \sim \theta_5$可以被看作是模型的参数，因此这个模型的自由度是5。对于这样的模型，参数确定了，模型也就确定了。但是，新的问题来了，在定义骰子每个面的概率后，如何求出具体的概率值呢？一种常用的方法是，从大量实例中学习模型参数，这个方法也是常说的{\small\bfnew{参数估计}}\index{参数估计}（Parameter Estimation）\index{Parameter Estimation}。可以将这个不均匀的骰子先实验性地掷很多次，这可以被看作是独立同分布的若干次采样，比如$X$ 次，发现``1'' 出现$X_1$ 次，``2'' 出现$X_2$ 次，以此类推，得到了各个面出现的次数。假设掷骰子中每个面出现的概率符合多项式分布，通过简单的概率论知识可以知道每个面出现概率的极大似然估计为：
 \begin{eqnarray}
-\textrm{P(``i'')}=\frac {X_i}{X}
+P(``i'')=\frac {X_i}{X}
 \label{eq:2-19}
 \end{eqnarray}
@@ -382,7 +382,7 @@ F(x)=\int_{-\infty}^x f(x)dx
 \end{figure}
 %-------------------------------------------
-\parinterval {\small\sffamily\bfseries{上帝是不公平的}}，上面这个掷骰子游戏也是如此。在``公平''的世界中，没有任何一个模型可以学到有价值的事情。从机器学习的角度来看，所谓的``不公平''实际上这是客观事物中蕴含的一种{\small\sffamily\bfseries{偏置}}\index{偏置}（Bias）\index{Bias}，也就是很多事情天然就有对某些情况有倾向。而图像处理、自然语言处理等问题中绝大多数都存在着偏置。比如，当翻译一个英文单词的时候，它最可能的翻译结果往往就是那几个词。设计统计模型的目的正是要学习这种偏置，之后利用这种偏置对新的问题做出足够好的决策。
+\parinterval {\small\sffamily\bfseries{世界是不公平的}}{\red 此处将上帝改成了世界}，上面这个掷骰子游戏也是如此。在``公平''的世界中，没有任何一个模型可以学到有价值的事情。从机器学习的角度来看，所谓的``不公平''实际上这是客观事物中蕴含的一种{\small\sffamily\bfseries{偏置}}\index{偏置}（Bias）\index{Bias}，也就是很多事情天然就有对某些情况有倾向。而图像处理、自然语言处理等问题中绝大多数都存在着偏置。比如，当翻译一个英文单词的时候，它最可能的翻译结果往往就是那几个词。设计统计模型的目的正是要学习这种偏置，之后利用这种偏置对新的问题做出足够好的决策。
 \parinterval 在处理语言问题时，为了评价哪些词更容易在一个句子中出现，或者哪些句子在某些语境下更合理，常常也会使用统计方法对词或句子出现的可能性建模。与掷骰子游戏类似，词出现的概率可以这样理解：每个单词的出现就好比掷一个巨大的骰子，与前面的例子中有所不同的是：
@@ -440,7 +440,7 @@ F(x)=\int_{-\infty}^x f(x)dx
 \parinterval 通过这个学习过程，就可以得到每个词出现的概率，成功使用统计方法对``单词的频率''这个问题进行建模。
-\parinterval 那么又该如何计算一个句子的概率呢？在自然语言处理领域中，句子可以被看作是由单词组成的序列，因而句子的概率可以被建模为若干单词的联合概率，即$\textrm{P}(w_1 w_2 w_3...w_m)$。
+\parinterval 那么又该如何计算一个句子的概率呢？在自然语言处理领域中，句子可以被看作是由单词组成的序列，因而句子的概率可以被建模为若干单词的联合概率，即$P(w_1 w_2 w_3...w_m)$。
 \parinterval 其中，$w$表示句子中的一个单词。此时仍可以使用掷骰子的方式，将骰子的每个面看作一个句子，然后用统计词汇概率的方式统计句子的概率。但是这里有一个问题，一个句子在指定文本中出现的次数一定比词汇在文本出现的次数低得多，此时通过统计的方式求句子的频率会由于样本数太少，导致无法准确的求出句子的概率，因此对句子的统计建模仍需要更好的方式。
@@ -451,7 +451,7 @@ F(x)=\int_{-\infty}^x f(x)dx
 \sectionnewpage
 \section{$n$-gram语言模型}
-\parinterval 在骰子游戏中，可以通过一种统计的方式，估计出在文本中词和句子出现的概率。但是在计算句子概率时往往会因为句子的样本过少而无法正确估计出句子出现的频率，为了能够准确地衡量句子出现的频率，本章引入了计算整个单词序列概率$\textrm{P}(w_1 w_2 w_3...w_m)$的方法---统计语言模型的概念。并且本章进一步介绍更加通用的n-gram语言模型，它在机器翻译及其他自然语言处理任务中有更加广泛的应用。
+\parinterval 在骰子游戏中，可以通过一种统计的方式，估计出在文本中词和句子出现的概率。但是在计算句子概率时往往会因为句子的样本过少而无法正确估计出句子出现的频率，为了能够准确地衡量句子出现的频率，本章引入了计算整个单词序列概率$P(w_1 w_2 w_3...w_m)$的方法---统计语言模型的概念。并且本章进一步介绍更加通用的n-gram语言模型，它在机器翻译及其他自然语言处理任务中有更加广泛的应用。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -459,27 +459,27 @@ F(x)=\int_{-\infty}^x f(x)dx
 \subsection{建模}
-\parinterval {\small\sffamily\bfseries{语言模型}}\index{语言模型}（Language Model）\index{Language Model}的目的是描述文字序列出现的规律。这个对问题建模的过程被称作{\small\sffamily\bfseries{语言建模}}\index{语言建模}（Language Modeling）\index{Language Modeling}。如果使用统计建模的方式，语言模型可以被定义为计算$\textrm{P}(w_1 w_2...w_m)$的问题，也就是计算整个词序列$w_1 w_2...w_m$出现的可能性大小。具体定义如下，
+\parinterval {\small\sffamily\bfseries{语言模型}}\index{语言模型}（Language Model）\index{Language Model}的目的是描述文字序列出现的规律。这个对问题建模的过程被称作{\small\sffamily\bfseries{语言建模}}\index{语言建模}（Language Modeling）\index{Language Modeling}。如果使用统计建模的方式，语言模型可以被定义为计算$P(w_1 w_2...w_m)$的问题，也就是计算整个词序列$w_1 w_2...w_m$出现的可能性大小。具体定义如下，
 %----------------------------------------------
 % 定义3.1
 \vspace{0.5em}
 \begin{definition}[]
-词汇表V上的语言模型是一个函数$\textrm{P}(w_1 w_2...w_m)$，它表示$V^+$上的一个概率分布。其中，对于任何词串$w_1 w_2...w_m\in{V^+}$，有$\textrm{P}(w_1 w_2...w_m)\geq{0}$。而且对于所有的词串，函数满足归一化条件$\sum{_{w_1 w_2...w_m\in{V^+}}\textrm{P}(w_1 w_2...w_m)}=1$。
+词汇表V上的语言模型是一个函数$P(w_1 w_2...w_m)$，它表示$V^+$上的一个概率分布。其中，对于任何词串$w_1 w_2...w_m\in{V^+}$，有$P(w_1 w_2...w_m)\geq{0}$。而且对于所有的词串，函数满足归一化条件$\sum{_{w_1 w_2...w_m\in{V^+}}P(w_1 w_2...w_m)}=1$。
 \end{definition}
 %-------------------------------------------
-\parinterval 直接求$\textrm{P}(w_1 w_2...w_m)$并不简单，因为如果把整个词串$w_1 w_2...w_m$作为一个变量，模型的参数量会非常大。$w_1 w_2...w_m$有$|V|^m$种可能性，这里$|V|$表示词汇表大小。显然，当$m$ 增大时，模型的复杂度会急剧增加，甚至都无法进行存储和计算。既然把$w_1 w_2...w_m$作为一个变量不好处理，就可以考虑对这个序列的生成过程进行分解。使用链式法则，很容易得到
+\parinterval 直接求$P(w_1 w_2...w_m)$并不简单，因为如果把整个词串$w_1 w_2...w_m$作为一个变量，模型的参数量会非常大。$w_1 w_2...w_m$有$|V|^m$种可能性，这里$|V|$表示词汇表大小。显然，当$m$ 增大时，模型的复杂度会急剧增加，甚至都无法进行存储和计算。既然把$w_1 w_2...w_m$作为一个变量不好处理，就可以考虑对这个序列的生成过程进行分解。使用链式法则，很容易得到
 \begin{eqnarray}
-\textrm{P}(w_1 w_2...w_m)=\textrm{P}(w_1)\textrm{P}(w_2|w_1)\textrm{P}(w_3|w_1 w_2)...\textrm{P}(w_m|w_1 w_2...w_{m-1})
+P(w_1 w_2...w_m)=P(w_1)P(w_2|w_1)P(w_3|w_1 w_2)...P(w_m|w_1 w_2...w_{m-1})
 \label{eq:2-20}
 \end{eqnarray}
-这样，$w_1 w_2...w_m$的生成可以被看作是逐个生成每个单词的过程，即首先生成$w_1$，然后根据$w_1$再生成$w_2$，然后根据$w_1 w_2$再生成$w_3$，以此类推，直到根据所有前$m-1$个词生成序列的最后一个单词$w_m$。这个模型把联合概率$\textrm{P}(w_1 w_2...w_m)$分解为多个条件概率的乘积，虽然对生成序列的过程进行了分解，但是模型的复杂度和以前是一样的，比如，$\textrm{P}(w_m|w_1 w_2...w_{m-1})$ 仍然不好计算。
+这样，$w_1 w_2...w_m$的生成可以被看作是逐个生成每个单词的过程，即首先生成$w_1$，然后根据$w_1$再生成$w_2$，然后根据$w_1 w_2$再生成$w_3$，以此类推，直到根据所有前$m-1$个词生成序列的最后一个单词$w_m$。这个模型把联合概率$P(w_1 w_2...w_m)$分解为多个条件概率的乘积，虽然对生成序列的过程进行了分解，但是模型的复杂度和以前是一样的，比如，$P(w_m|w_1 w_2...w_{m-1})$ 仍然不好计算。
-\parinterval 换一个角度看，$\textrm{P}(w_m|w_1 w_2...w_{m-1})$体现了一种基于``历史''的单词生成模型，也就是把前面生成的所有单词作为``历史''，并参考这个``历史''生成当前单词。但是这个``历史''的长度和整个序列长度是相关的，也是一种长度变化的历史序列。为了化简问题，一种简单的想法是使用定长历史，比如，每次只考虑前面$n-1$个历史单词来生成当前单词，这就是$n$-gram语言模型。这个模型的数学描述如下：
+\parinterval 换一个角度看，$P(w_m|w_1 w_2...w_{m-1})$体现了一种基于``历史''的单词生成模型，也就是把前面生成的所有单词作为``历史''，并参考这个``历史''生成当前单词。但是这个``历史''的长度和整个序列长度是相关的，也是一种长度变化的历史序列。为了化简问题，一种简单的想法是使用定长历史，比如，每次只考虑前面$n-1$个历史单词来生成当前单词，这就是$n$-gram语言模型。这个模型的数学描述如下：
 \begin{eqnarray}
-\textrm{P}(w_m|w_1 w_2...w_{m-1}) \approx \textrm{P}(w_m|w_{m-n+1}...w_{m-1})
+P(w_m|w_1 w_2...w_{m-1}) \approx P(w_m|w_{m-n+1}...w_{m-1})
 \label{eq:2-21}
 \end{eqnarray}
@@ -492,13 +492,13 @@ F(x)=\int_{-\infty}^x f(x)dx
 \begin{tabular}{l|l|l l|l}
 链式法则 & 1-gram & 2-gram & $...$ & $n$-gram\\
 \hline
-\rule{0pt}{10pt} $\textrm{P}(w_1 w_2...w_m)$ = & $\textrm{P}(w_1 w_2...w_m)$ = & $\textrm{P}(w_1 w_2...w_m)$ = & $...$ & $\textrm{P}(w_1 w_2...w_m)$ = \\
+\rule{0pt}{10pt} $P(w_1 w_2...w_m)$ = & $P(w_1 w_2...w_m)$ = & $P(w_1 w_2...w_m)$ = & $...$ & $P(w_1 w_2...w_m)$ = \\
-\rule{0pt}{10pt} $\textrm{P}(w_1)\times$ & $\textrm{P}(w_1)\times$ & $\textrm{P}(w_1)\times$  & $...$ & $\textrm{P}(w_1)\times$ \\
+\rule{0pt}{10pt} $P(w_1)\times$ & $P(w_1)\times$ & $P(w_1)\times$  & $...$ & $P(w_1)\times$ \\
-\rule{0pt}{10pt} $\textrm{P}(w_2|w_1)\times$ & $\textrm{P}(w_2)\times$ & $\textrm{P}(w_2|w_1)\times$ & $...$ & $\textrm{P}(w_2|w_1)\times$\\
+\rule{0pt}{10pt} $P(w_2|w_1)\times$ & $P(w_2)\times$ & $P(w_2|w_1)\times$ & $...$ & $P(w_2|w_1)\times$\\
-\rule{0pt}{10pt} $\textrm{P}(w_3|w_1 w_2)\times$ & $\textrm{P}(w_3)\times$ & $\textrm{P}(w_3|w_2)\times$ & $...$ & $\textrm{P}(w_3|w_1 w_2)\times$ \\
+\rule{0pt}{10pt} $P(w_3|w_1 w_2)\times$ & $P(w_3)\times$ & $P(w_3|w_2)\times$ & $...$ & $P(w_3|w_1 w_2)\times$ \\
-\rule{0pt}{10pt} $\textrm{P}(w_4|w_1 w_2 w_3)\times$ & $\textrm{P}(w_4)\times$ & $\textrm{P}(w_4|w_3)\times$ & $...$ & $\textrm{P}(w_4|w_1 w_2 w_3)\times$ \\
+\rule{0pt}{10pt} $P(w_4|w_1 w_2 w_3)\times$ & $P(w_4)\times$ & $P(w_4|w_3)\times$ & $...$ & $P(w_4|w_1 w_2 w_3)\times$ \\
 \rule{0pt}{10pt} $...$ & $...$ & $...$ & $...$ & $...$ \\
-\rule{0pt}{10pt} $\textrm{P}(w_m|w_1 ... w_{m-1})$ & $\textrm{P}(w_m)$ & $\textrm{P}(w_m|w_{m-1})$ & $...$ & $\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$
+\rule{0pt}{10pt} $P(w_m|w_1 ... w_{m-1})$ & $P(w_m)$ & $P(w_m|w_{m-1})$ & $...$ & $P(w_m|w_{m-n+1} ... w_{m-1})$
 \end{tabular}
 }
 \end{center}
@@ -507,15 +507,15 @@ F(x)=\int_{-\infty}^x f(x)dx
 \parinterval 可以看到，1-gram语言模型只是$n$-gram语言模型的一种特殊形式。基于独立性假设，1-gram假定当前词出现与否与任何历史都无关，这种方法大大化简了求解句子概率的复杂度。但是，实际上句子中的词汇并非完全相互独立的，这种语言模型并不能完美的描述客观世界的问题。如果需要更精确地获取句子的概率，就需要使用$n$-gram语言模型。
-\parinterval $n$-gram的优点在于，它所使用的历史信息是有限的，即$n-1$个单词。这种性质也反映了经典的马尔可夫链的思想\cite{liuke-markov-2004}\cite{resnick1992adventures}，有时也被称作马尔可夫假设或者马尔可夫属性。因此$n$-gram也可以被看作是变长序列上的一种马尔可夫模型，比如，2-gram语言模型对应着1阶马尔可夫模型，3-gram语言模型对应着2阶马尔可夫模型，以此类推。
+\parinterval $n$-gram的优点在于，它所使用的历史信息是有限的，即$n-1$个单词。这种性质也反映了经典的马尔可夫链的思想\upcite{liuke-markov-2004}\upcite{resnick1992adventures}，有时也被称作马尔可夫假设或者马尔可夫属性。因此$n$-gram也可以被看作是变长序列上的一种马尔可夫模型，比如，2-gram语言模型对应着1阶马尔可夫模型，3-gram语言模型对应着2阶马尔可夫模型，以此类推。
-\parinterval 那么，如何计算$\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$呢？有很多种选择，比如：
+\parinterval 那么，如何计算$P(w_m|w_{m-n+1} ... w_{m-1})$呢？有很多种选择，比如：
 \begin{itemize}
 \vspace{0.5em}
-\item {\small\bfnew{极大似然估计}}\index{极大似然估计}。直接利用词序列在训练数据中出现的频度计算出$\textrm{P}(w_m|w_{m-n+1}$\\$... w_{m-1})$
+\item {\small\bfnew{极大似然估计}}\index{极大似然估计}。直接利用词序列在训练数据中出现的频度计算出$P(w_m|w_{m-n+1}$\\$... w_{m-1})$
 \begin{eqnarray}
-\textrm{P}(w_m|w_{m-n+1}...w_{m-1})=\frac{\textrm{count}(w_{m-n+1}...w_m)}{\textrm{count}(w_{m-n+1}...w_{m-1})}
+P(w_m|w_{m-n+1}...w_{m-1})=\frac{\textrm{count}(w_{m-n+1}...w_m)}{\textrm{count}(w_{m-n+1}...w_{m-1})}
 \label{eq:2-22}
 \vspace{0.5em}
 \end{eqnarray}
@@ -523,17 +523,17 @@ F(x)=\int_{-\infty}^x f(x)dx
 其中，$\textrm{count}(\cdot)$是在训练数据中统计频次的函数。
 \vspace{0.5em}
-\item {\small\bfnew{人工神经网络方法}}\index{人工神经网络方法}。构建一个人工神经网络估计$\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$的值，比如，可以构建一个前馈神经网络来对$n$-gram进行建模。
+\item {\small\bfnew{人工神经网络方法}}\index{人工神经网络方法}。构建一个人工神经网络估计$P(w_m|w_{m-n+1} ... w_{m-1})$的值，比如，可以构建一个前馈神经网络来对$n$-gram进行建模。
 \end{itemize}
 \vspace{0.5em}
-\parinterval 极大似然估计方法和前面介绍的统计分词中的方法是一致的，它的核心是使用$n$-gram出现的频度进行参数估计，因此也是自然语言处理中一类经典的$n$-gram方法。基于人工神经网络的方法在近些年也非常受关注，它直接利用多层神经网络对问题的输入$(w_{m-n+1}...w_{m-1})$和输出$\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$进行建模，而模型的参数通过网络中神经元之间连接的权重进行体现。严格意义上了来说，基于人工神经网络的方法并不算基于$n$-gram的方法，或者说它并没有显性记录$n$-gram的生成概率，也不依赖$n$-gram的频度进行参数估计。为了保证内容的连贯性，本章将仍以传统$n$-gram语言模型为基础进行讨论，基于人工神经网络的方法将会在{\chapternine}和{\chapterten}进行详细介绍。
+\parinterval 极大似然估计方法和前面介绍的统计分词中的方法是一致的，它的核心是使用$n$-gram出现的频度进行参数估计，因此也是自然语言处理中一类经典的$n$-gram方法。基于人工神经网络的方法在近些年也非常受关注，它直接利用多层神经网络对问题的输入$(w_{m-n+1}...w_{m-1})$和输出$P(w_m|w_{m-n+1} ... w_{m-1})$进行建模，而模型的参数通过网络中神经元之间连接的权重进行体现。严格意义上了来说，基于人工神经网络的方法并不算基于$n$-gram的方法，或者说它并没有显性记录$n$-gram的生成概率，也不依赖$n$-gram的频度进行参数估计。为了保证内容的连贯性，本章将仍以传统$n$-gram语言模型为基础进行讨论，基于人工神经网络的方法将会在{\chapternine}和{\chapterten}进行详细介绍。
 \parinterval $n$-gram语言模型的使用非常简单。可以直接用它来对词序列出现的概率进行计算。比如，可以使用一个2-gram语言模型计算一个分词序列的概率：
 \begin{eqnarray}
- & &\textrm{P}_{2-gram}{(\textrm{``确实}/\textrm{现在}/\textrm{数据}/\textrm{很}/\textrm{多''})} \nonumber \\
+ & &P_{2-gram}{(\textrm{``确实}/\textrm{现在}/\textrm{数据}/\textrm{很}/\textrm{多''})} \nonumber \\
-&= & \textrm{P}(\textrm{``确实''}) \times\textrm{P}(\textrm{``现在''}|\textrm{``确实''})\times\textrm{P}(\textrm{``数据''}|\textrm{``现在''}) \times \nonumber \\
+&= & P(\textrm{``确实''}) \times P(\textrm{``现在''}|\textrm{``确实''})\times P(\textrm{``数据''}|\textrm{``现在''}) \times \nonumber \\
-&  & \textrm{P}(\textrm{``很''}|\textrm{``数据''})\times\textrm{P}(\textrm{``多''}|\textrm{``很''})
+&  & P(\textrm{``很''}|\textrm{``数据''})\times P(\textrm{``多''}|\textrm{``很''})
 \label{eq:2-23}
 \end{eqnarray}
@@ -547,7 +547,7 @@ F(x)=\int_{-\infty}^x f(x)dx
 \parinterval 在式\ref{eq:2-23}所示的例子中，如果语料中从没有``确实''和``现在''两个词连续出现的情况，那么使用2-gram计算切分``确实/现在/数据/很/多''的概率时，会出现如下情况
 \begin{eqnarray}
-\textrm{P}(\textrm{``现在''}|\textrm{``确实''}) & =  & \frac{\textrm{count}(\textrm{``确实}\,\textrm{现在''})}{\textrm{count}(\textrm{``确实''})} \nonumber \\
+P(\textrm{``现在''}|\textrm{``确实''}) & =  & \frac{\textrm{count}(\textrm{``确实}\,\textrm{现在''})}{\textrm{count}(\textrm{``确实''})} \nonumber \\
                                                                     & =  & \frac{0}{\textrm{count}(\textrm{``确实''})} \nonumber \\
                                                                     & =  & 0
 \label{eq:2-24}
@@ -574,12 +574,12 @@ F(x)=\int_{-\infty}^x f(x)dx
 \subsubsection{加法平滑方法}
-\parinterval {\small\bfnew{加法平滑}}\index{加法平滑}（Additive Smoothing）\index{Additive Smoothing}是一种简单的平滑技术。本小节首先介绍这一方法，希望通过它了解平滑算法的思想。通常情况下，系统研发者会利用采集到的语料库来模拟真实的全部语料库。当然，没有一个语料库能覆盖所有的语言现象。常见的一个问题是，使用的语料无法涵盖所有的词汇。因此，直接依据这样语料所获得的统计信息来获取语言模型就会产生偏差。假设依据某语料$C$ （从未出现`` 确实 现在''二元语法），评估一个已经分好词的句子$S$ =``确实/现在/物价/很/高''的概率。当计算``确实/现在''的概率时，$\textrm{P}(S) = 0$。显然这个结果是不合理的。
+\parinterval {\small\bfnew{加法平滑}}\index{加法平滑}（Additive Smoothing）\index{Additive Smoothing}是一种简单的平滑技术。本小节首先介绍这一方法，希望通过它了解平滑算法的思想。通常情况下，系统研发者会利用采集到的语料库来模拟真实的全部语料库。当然，没有一个语料库能覆盖所有的语言现象。常见的一个问题是，使用的语料无法涵盖所有的词汇。因此，直接依据这样语料所获得的统计信息来获取语言模型就会产生偏差。假设依据某语料$C$ （从未出现`` 确实 现在''二元语法），评估一个已经分好词的句子$S$ =``确实/现在/物价/很/高''的概率。当计算``确实/现在''的概率时，$P(S) = 0$。显然这个结果是不合理的。
-\parinterval 加法平滑方法假设每个$n$-gram出现的次数比实际统计次数多$\theta$次，$0 \le \theta\le 1$。这样，计算概率的时候分子部分不会为0。重新计算$\textrm{P}(\textrm{现在}|\textrm{确实})$，可以得到：
+\parinterval 加法平滑方法假设每个$n$-gram出现的次数比实际统计次数多$\theta$次，$0 \le \theta\le 1$。这样，计算概率的时候分子部分不会为0。重新计算$P(\textrm{现在}|\textrm{确实})$，可以得到：
 \begin{eqnarray}
-\textrm{P}(\textrm{``现在''}|\textrm{``确实''}) & =  & \frac{\theta + \textrm{count}(\textrm{``确实''/``现在''})}{\sum_{w}^{|V|}(\theta + \textrm{count}(\textrm{``确实''/}w))} \nonumber \\
+P(\textrm{``现在''}|\textrm{``确实''}) & =  & \frac{\theta + \textrm{count}(\textrm{``确实''/``现在''})}{\sum_{w}^{|V|}(\theta + \textrm{count}(\textrm{``确实''/}w))} \nonumber \\
                                                             & =  & \frac{\theta + \textrm{count}(\textrm{``确实''/``现在''})}{\theta{|V|} + \textrm{count}(\textrm{``确实''})}
 \label{eq:2-25}
 \end{eqnarray}
@@ -604,7 +604,7 @@ F(x)=\int_{-\infty}^x f(x)dx
 \subsubsection{古德-图灵估计法}
 \vspace{-0.5em}
-\parinterval {\small\bfnew{古德-图灵估计法}}\index{古德-图灵估计法}（Good-Turing Estimate）\index{Good-Turing Estimate}是Alan Turing和他的助手I.J.Good开发的，作为他们在二战期间破解德国密码机Enigma所使用的方法的一部分，在1953 年I.J.Good将其发表。这一方法也是很多平滑算法的核心，其基本思路是：把非零的$n$元语法单元的概率降低匀给一些低概率$n$元语法单元，以减小最大似然估计与真实概率之间的偏离\cite{good1953population}\cite{gale1995good}。
+\parinterval {\small\bfnew{古德-图灵估计法}}\index{古德-图灵估计法}（Good-Turing Estimate）\index{Good-Turing Estimate}是Alan Turing和他的助手I.J.Good开发的，作为他们在二战期间破解德国密码机Enigma所使用的方法的一部分，在1953 年I.J.Good将其发表。这一方法也是很多平滑算法的核心，其基本思路是：把非零的$n$元语法单元的概率降低匀给一些低概率$n$元语法单元，以减小最大似然估计与真实概率之间的偏离\upcite{good1953population}\upcite{gale1995good}。
 \parinterval 假定在语料库中出现$r$次的$n$-gram有$n_r$个，特别的，出现0次的$n$-gram（即未登录词及词串）出现的次数为$n_0$个。语料库中全部词语的个数为$N$，显然
 \begin{eqnarray}
@@ -620,7 +620,7 @@ r^* = (r + 1)\frac{n_{r + 1}}{n_r}
 \parinterval 基于这个公式，就可以估计所有0次$n$-gram的频次$n_0 r^*=(r+1)n_1=n_1$。要把这个重新估计的统计数转化为概率，需要进行归一化处理：对于每个统计数为$r$的事件，其概率为
 \begin{eqnarray}
-\textrm{P}_r=\frac{r^*}{N}
+P_r=\frac{r^*}{N}
 \label{eq:2-28}
 \end{eqnarray}
@@ -634,7 +634,7 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\
 也就是说，$N$仍然为这个整个样本分布最初的计数。样本中所有事件的概率之和为：
 \begin{eqnarray}
-\textrm{P}(r>0) & = & \sum_{r>0}{\textrm{P}_r} \nonumber \\
+P(r>0) & = & \sum_{r>0}{P_r} \nonumber \\
                & = & 1 - \frac{n_1}{N} \nonumber \\
                & < & 1
 \label{eq:2-30}
@@ -650,7 +650,7 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\
 \caption{单词出现频次及古德-图灵平滑结果}
 {
 \begin{tabular}{l|lll}
-\rule{0pt}{10pt} $r$ & $n_r$ & $r^*$ & $\textrm{P}_r$\\ \hline
+\rule{0pt}{10pt} $r$ & $n_r$ & $r^*$ & $P_r$\\ \hline
 \rule{0pt}{10pt} 0 & 14 & 0.21 & 0.018 \\
 \rule{0pt}{10pt} 1 & 3 & 0.67 & 0.056 \\
 \rule{0pt}{10pt} 2 & 1 & 3 & 0.25 \\
@@ -672,11 +672,11 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\
 \subsubsection{Kneser-Ney平滑方法}
-\parinterval Kneser-Ney平滑方法是由R.Kneser和H.Ney于1995年提出的用于计算$n$元语法概率分布的方法\cite{kneser1995improved}\cite{chen1999empirical}，并被广泛认为是最有效的平滑方法。这种平滑方法改进了absolute discounting中与高阶分布相结合的低阶分布的计算方法，使不同阶分布得到充分的利用。这种算法也综合利用了其他多种平滑算法的思想。
+\parinterval Kneser-Ney平滑方法是由R.Kneser和H.Ney于1995年提出的用于计算$n$元语法概率分布的方法\upcite{kneser1995improved}\upcite{chen1999empirical}，并被广泛认为是最有效的平滑方法。这种平滑方法改进了absolute discounting中与高阶分布相结合的低阶分布的计算方法，使不同阶分布得到充分的利用。这种算法也综合利用了其他多种平滑算法的思想。
 \parinterval 首先介绍一下absolute discounting平滑算法，公式如下所示：
 \begin{eqnarray}
-\textrm{P}_{\textrm{AbsDiscount}}(w_i | w_{i-1}) = \frac{c(w_{i-1},w_i )-d}{c(w_{i-1})} + \lambda(w_{i-1})\textrm{P}(w)
+P_{\textrm{AbsDiscount}}(w_i | w_{i-1}) = \frac{c(w_{i-1},w_i )-d}{c(w_{i-1})} + \lambda(w_{i-1})P(w)
 \label{eq:2-31}
 \end{eqnarray}
@@ -692,29 +692,29 @@ I cannot see without my reading \underline{\ \ \ \ \ \ \ \ }
 \noindent 直觉上应该会猜测这个地方的词应该是``glasses''，但是在训练语料库中``Francisco''出现的频率非常高。如果在预测时仍然使用的是标准的1-gram模型，那么系统会高概率选择``Francisco''填入下划线出，这个结果明显是不合理的。当使用的是混合的插值模型时，如果``reading Francisco''这种二元语法并没有出现在语料中，就会导致1-gram对结果的影响变大，使得仍然会做出与标准1-gram模型相同的结果，犯下相同的错误。
-\parinterval 观察语料中的2-gram发现，``Francisco''的前一个词仅可能是``San''，不会出现``reading''。这个分析证实了，考虑前一个词的影响是有帮助的，比如仅在前一个词是``San''时，才给``Francisco''赋予一个较高的概率值。基于这种想法，改进原有的1-gram模型，创造一个新的1-gram模型$\textrm{P}_{\textrm{continuation}}$，简写为$\textrm{P}_{\textrm{cont}}$。这个模型可以通过考虑前一个词的影响评估当前词作为第二个词出现的可能性。
+\parinterval 观察语料中的2-gram发现，``Francisco''的前一个词仅可能是``San''，不会出现``reading''。这个分析证实了，考虑前一个词的影响是有帮助的，比如仅在前一个词是``San''时，才给``Francisco''赋予一个较高的概率值。基于这种想法，改进原有的1-gram模型，创造一个新的1-gram模型$P_{\textrm{continuation}}$，简写为$P_{\textrm{cont}}$。这个模型可以通过考虑前一个词的影响评估当前词作为第二个词出现的可能性。
-\parinterval 为了评估$\textrm{P}_{\textrm{cont}}$，统计使用当前词作为第二个词所出现二元语法的种类，二元语法种类越多，这个词作为第二个词出现的可能性越高，呈正比：
+\parinterval 为了评估$P_{\textrm{cont}}$，统计使用当前词作为第二个词所出现二元语法的种类，二元语法种类越多，这个词作为第二个词出现的可能性越高，呈正比：
 \begin{eqnarray}
-\textrm{P}_{\textrm{cont}}(w_i) \varpropto |w_{i-1}: c(w_{i-1} w_i )>0|
+P_{\textrm{cont}}(w_i) \varpropto |w_{i-1}: c(w_{i-1} w_i )>0|
 \label{eq:2-32}
 \end{eqnarray}
 通过全部的二元语法的种类做归一化可得到评估的公式
 \begin{eqnarray}
-\textrm{P}_{\textrm{cont}}(w_i) = \frac{|\{ w_{i-1}:c(w_{i-1} w_i )>0 \}|}{|\{ (w_{j-1}, w_j):c(w_{j-1}w_j )>0 \}|}
+P_{\textrm{cont}}(w_i) = \frac{|\{ w_{i-1}:c(w_{i-1} w_i )>0 \}|}{|\{ (w_{j-1}, w_j):c(w_{j-1}w_j )>0 \}|}
 \label{eq:2-33}
 \end{eqnarray}
 \parinterval 基于分母的变化还有另一种形式
 \begin{eqnarray}
-\textrm{P}_{\textrm{cont}}(w_i) = \frac{|\{ w_{i-1}:c(w_{i-1} w_i )>0 \}|}{\sum_{w^{\prime}}|\{ w_{i-1}^{\prime}:c(w_{i-1}^{\prime} w_i^{\prime} )>0 \}|}
+P_{\textrm{cont}}(w_i) = \frac{|\{ w_{i-1}:c(w_{i-1} w_i )>0 \}|}{\sum_{w^{\prime}}|\{ w_{i-1}^{\prime}:c(w_{i-1}^{\prime} w_i^{\prime} )>0 \}|}
 \label{eq:2-34}
 \end{eqnarray}
 结合基础的absolute discounting计算公式，从而得到了Kneser-Ney平滑方法的公式
 \begin{eqnarray}
-\textrm{P}_{\textrm{KN}}(w_i|w_{i-1}) = \frac{\max(c(w_{i-1},w_i )-d,0)}{c(w_{i-1})}+ \lambda(w_{i-1})\textrm{P}_{\textrm{cont}}(w_i)
+P_{\textrm{KN}}(w_i|w_{i-1}) = \frac{\max(c(w_{i-1},w_i )-d,0)}{c(w_{i-1})}+ \lambda(w_{i-1})P_{\textrm{cont}}(w_i)
 \label{eq:2-35}
 \end{eqnarray}
@@ -724,12 +724,12 @@ I cannot see without my reading \underline{\ \ \ \ \ \ \ \ }
 \label{eq:2-36}
 \end{eqnarray}
-\noindent 这里$\max(\cdot)$保证了分子部分为不小0的数，原始1-gram更新成$\textrm{P}_{\textrm{cont}}$概率分布，$\lambda$是正则化项。
+\noindent 这里$\max(\cdot)$保证了分子部分为不小0的数，原始1-gram更新成$P_{\textrm{cont}}$概率分布，$\lambda$是正则化项。
 \parinterval 为了更具普适性，不仅局限为2-gram和1-gram的插值模型，利用递归的方式可以得到更通用的Kneser-Ney平滑公式
 \begin{eqnarray}
-\textrm{P}_{\textrm{KN}}(w_i|w_{i-n+1} ...w_{i-1}) & = & \frac{\max(c_{\textrm{KN}}(w_{i-n+1}...w_{i-1})-d,0)}{c_{\textrm{KN}}(w_{i-n+1}...w_{i-1})} + \nonumber \\
+P_{\textrm{KN}}(w_i|w_{i-n+1} ...w_{i-1}) & = & \frac{\max(c_{\textrm{KN}}(w_{i-n+1}...w_{i-1})-d,0)}{c_{\textrm{KN}}(w_{i-n+1}...w_{i-1})} + \nonumber \\
-                                                   &   &  \lambda(w_{i-n+1}...w_{i-1})\textrm{P}_{\textrm{KN}}(w_i|w_{i-n+2}...w_{i-1})
+                                                   &   &  \lambda(w_{i-n+1}...w_{i-1})P_{\textrm{KN}}(w_i|w_{i-n+2}...w_{i-1})
 \label{eq:2-37}
 \end{eqnarray}
 \begin{eqnarray}
@@ -745,7 +745,7 @@ c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}
 \end{eqnarray}
 \noindent 其中catcount$(\cdot)$表示的是基于某个单个词作为第$n$个词的$n$-gram的种类数目。
-\parinterval Kneser-Ney平滑是很多语言模型工具的基础\cite{wang-etal-2018-niutrans}\cite{heafield-2011-kenlm}\cite{stolcke2002srilm}。还有很多以此为基础衍生出来的算法，感兴趣的读者可以通过参考文献自行了解\cite{parsing2009speech}\cite{ney1994structuring}\cite{chen1999empirical}。
+\parinterval Kneser-Ney平滑是很多语言模型工具的基础\upcite{wang-etal-2018-niutrans}\upcite{heafield-2011-kenlm}\upcite{stolcke2002srilm}。还有很多以此为基础衍生出来的算法，感兴趣的读者可以通过参考文献自行了解\upcite{parsing2009speech}\upcite{ney1994structuring}\upcite{chen1999empirical}。
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
@@ -764,17 +764,17 @@ c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}
 \subsection{搜索问题的建模}
-\parinterval 具体来说，基于语言模型的序列生成问题的本质是在无数任意排列的单词序列中搜索出最合理、最流畅的``最优解''。这里单词序列$w = w_1 w_2...w_m$的合理性和流畅性可以通过语言模型的打分$\textrm{P}(w)$衡量。因此在序列生成中，基于语言模型的搜索问题可以被建模为如下形式：
+\parinterval 具体来说，基于语言模型的序列生成问题的本质是在无数任意排列的单词序列中搜索出最合理、最流畅的``最优解''。这里单词序列$w = w_1 w_2...w_m$的合理性和流畅性可以通过语言模型的打分$P(w)$衡量。因此在序列生成中，基于语言模型的搜索问题可以被建模为如下形式：
 \begin{eqnarray}
-w^{'} = \argmax_{w \in \chi}\textrm{P}(w)
+w^{'} = \argmax_{w \in \chi}P(w)
 \label{eq:2-40}
 \end{eqnarray}
-\parinterval 这里arg即argument，$\argmax_{w \in \chi}\textrm{P}(w)$表示想要找到使语言模型得分$\textrm{P}(w)$达到最大的单词序列$w$。$\chi$是搜索问题的解空间 \footnote[1]{解空间，是一个算法执行后，所得到的所有解构成的集合。}，在这里是所有可能的单词序列$w$的集合。$w^{'}$可以被看做该搜索问题中的``最优解''，即``出现概率最大的单词序列''。
+\parinterval 这里arg即argument，$\argmax_{w \in \chi}P(w)$表示想要找到使语言模型得分$P(w)$达到最大的单词序列$w$。$\chi$是搜索问题的解空间 \footnote[1]{解空间，是一个算法执行后，所得到的所有解构成的集合。}，在这里是所有可能的单词序列$w$的集合。$w^{'}$可以被看做该搜索问题中的``最优解''，即``出现概率最大的单词序列''。
 \parinterval 在序列生成问题中，最简单的策略就是对词表中的词汇进行任意组合，通过这种枚举的方式得到全部可能的序列。但是，很多时候并没有预先指定序列的长度，比如，机器翻译中译文的长度是无法预先知道的。那么怎样判断一个序列何时完成了生成过程呢？回顾人类书写文字的过程可以发现，句子的生成首先从一片空白开始，然后从左到右逐词生成，除了第一个单词，所有单词的生成都依赖于前面已经生成的单词。为了方便计算机实现，通常定义单词序列从一个特殊的单词<sos>后开始生成。同样地，一个单词序列的结束也用一个特殊的单词<eos>来表示。
+\parinterval 对于一个序列$<$sos$>$\ \ I\ \ agree\ \ $<$eos$>$，图\ref{fig:2-13}展示语言模型视角该序列的生成过程。该过程通过在序列的末尾不断附加词表中的单词来逐渐扩展序列，直到这段序列结束。这种生成单词序列的过程被称作{\small\bfnew{自左向右生成}}\index{自左向右生成}（Left-To-Right Generation）\index{Left-To-Right Generation}。
 %----------------------------------------------
 \begin{figure}[htp]
@@ -785,9 +785,7 @@ w^{'} = \argmax_{w \in \chi}\textrm{P}(w)
 \end{figure}
 %-------------------------------------------
-\parinterval 对于一个序列$<$sos$>$\ \ I\ \ agree\ \ $<$eos$>$，图\ref{fig:2-13}展示语言模型视角该序列的生成过程。该过程通过在序列的末尾不断附加词表中的单词来逐渐扩展序列，直到这段序列结束。这种生成单词序列的过程被称作{\small\bfnew{自左向右生成}}\index{自左向右生成}（Left-To-Right Generation）\index{Left-To-Right Generation}。
+\parinterval 在这种序列生成方式的基础上，实现对候选序列的搜索过程通常有两种方法\ \dash\ 深度优先遍历和宽度优先遍历\upcite{cormen1990introduction}。在深度优先遍历中，每次从词表中可重复地选择一个单词，然后从左至右地生成序列，直到<eos>被选择，此时一个完整的单词序列被生成出来。然后从<eos>回退到上一个单词，选择之前没有被选择到的候选单词代替<eos>，并继续挑选下一个单词直到<eos>被选到，如果上一个单词的所有可能都被枚举过，那么回退到上上一个单词继续枚举，直到回退到<sos>，这时候枚举结束。在宽度优先遍历中，每次不是只选择一个单词而是枚举所有单词。一个简单的例子是一个只有两个单词\{a, b\}的词表，从<sos>开始枚举所有单词，可以生成：
-\parinterval 在这种序列生成方式的基础上，实现对候选序列的搜索过程通常有两种方法\ \dash\ 深度优先遍历和宽度优先遍历\cite{cormen1990introduction}。在深度优先遍历中，每次从词表中可重复地选择一个单词，然后从左至右地生成序列，直到<eos>被选择，此时一个完整的单词序列被生成出来。然后从<eos>回退到上一个单词，选择之前没有被选择到的候选单词代替<eos>，并继续挑选下一个单词直到<eos>被选到，如果上一个单词的所有可能都被枚举过，那么回退到上上一个单词继续枚举，直到回退到<sos>，这时候枚举结束。在宽度优先遍历中，每次不是只选择一个单词而是枚举所有单词。一个简单的例子是一个只有两个单词\{a, b\}的词表，从<sos>开始枚举所有单词，可以生成：
 \begin{eqnarray}
 \text{\{<sos> a, <sos> b, <sos> <eos>\}} \nonumber
 \end{eqnarray}
@@ -833,6 +831,8 @@ w^{'} = \argmax_{w \in \chi}\textrm{P}(w)
 \parinterval 此时上述生成策略虽然可以满足完备性和最优性，但其仍然算不上是优秀的生成策略，因为这两种算法在时间复杂度和空间复杂度上的表现很差，如表\ref{tab:2-3}所示。其中$|V|$为词表大小，$m$为序列长度，$\ast$表示``当且仅当在所有可能的单词序列数目有限下成立''。值得注意的是，在之前的遍历过程中，除了在序列开头一定会挑选<sos>之外，其他位置每次可挑选的单词并不只有词表中的单词，还有结束符号<eos>，因此实际上生成过程中每个位置的单词候选数量为$|V|+1$。
+\parinterval 那么是否能改进枚举策略使得它更高效呢？答案是肯定的。首先从图\ref{fig:2-14}可以看到，对于一个限制序列长度为4的搜索过程，生成某个单词序列的过程实际上就是访问解空间树\footnote[2]{解空间树是搜索路径的树型表示，它包含了搜索过程中可生成的全部序列。该树的根节点恒为$<$sos$>$，代表序列均从$<$sos$>$开始。该树结构中非叶子节点的兄弟节点有$|V|$个，由词表和结束符号$<$eos$>$构成。}中从根节点<sos>开始一直到叶子节点<eos>结束的某条路径，而这条的路径上节点按顺序组成了一段独特的单词序列。此时对所有可能单词序列的枚举就变成了对解空间树的遍历。并且枚举的过程与语言模型打分的过程也是一致的，每枚举一个词$i$也就是在上图选择$w_i$一列的一个节点，语言模型就可以为当前的树节点$w_i$给出一个分值，即$P(w_i | w_1 w_2...w_{i-1})$。
 %----------------------------------------------
 \begin{figure}[htp]
    \centering
@@ -842,7 +842,14 @@ w^{'} = \argmax_{w \in \chi}\textrm{P}(w)
 \end{figure}
 %-------------------------------------------
-\parinterval 那么是否能改进枚举策略使得它更高效呢？答案是肯定的。首先从图\ref{fig:2-14}可以看到，对于一个限制序列长度为4的搜索过程，生成某个单词序列的过程实际上就是访问解空间树\footnote[2]{解空间树是搜索路径的树型表示，它包含了搜索过程中可生成的全部序列。该树的根节点恒为$<$sos$>$，代表序列均从$<$sos$>$开始。该树结构中非叶子节点的兄弟节点有$|V|$个，由词表和结束符号$<$eos$>$构成。}中从根节点<sos>开始一直到叶子节点<eos>结束的某条路径，而这条的路径上节点按顺序组成了一段独特的单词序列。此时对所有可能单词序列的枚举就变成了对解空间树的遍历。并且枚举的过程与语言模型打分的过程也是一致的，每枚举一个词$i$也就是在上图选择$w_i$一列的一个节点，语言模型就可以为当前的树节点$w_i$给出一个分值，即$\textrm{P}(w_i | w_1 w_2...w_{i-1})$。
+\parinterval 从这个角度来看，可以很自然地引入语言模型打分来对枚举的解空间树的遍历进行增广：在解空间树中引入节点的权重\ \dash\ 将当前节点$i$的得分重设为语言模型打分$\log P(w_i | w_1 w_2...w_{i-1})$，其中$w_1 w_2...w_{i-1}$是该节点的全部祖先。与先前不同的是，由于在使用语言模型打分时，词的概率通常小于1，因此句子很长时概率会非常小，容易造成浮点误差,所以这里使用概率的对数形式$\log P(w_i | w_1 w_2...w_{i-1})$代替原始的$P(w_i | w_1 w_2...w_{i-1})$。此时对于图中一条包含<eos>的完整序列来说，它的最终得分为$\log P(w_1 w_2...w_m) = \sum_{i=1}^{m}\log P(w_i | w_1 w_2...w_{i-1})$，如图\ref{fig:2-15}所示，可知红线所示单词序列``<sos>\ I\ agree\ <eos>''的得分为：
+\begin{eqnarray}
+&&\textrm{score(``<sos>\ I\ agree\ <eos>'')}   \nonumber \\
+& = & \log P(\textrm{I} | \textrm{<sos>}) + \log P(\textrm{agree} | \textrm{<sos>\ I}) + \log P(\textrm{<sos>}| \textrm{<sos>\ I\ agree})   \nonumber \\
+& = & -0.5-0.2-0.8   \nonumber \\
+& = & -1.5
+\label{eq:2-41}
+\end{eqnarray}
 %----------------------------------------------
 \begin{figure}[htp]
@@ -853,15 +860,6 @@ w^{'} = \argmax_{w \in \chi}\textrm{P}(w)
 \end{figure}
 %-------------------------------------------
-\parinterval 从这个角度来看，可以很自然地引入语言模型打分来对枚举的解空间树的遍历进行增广：在解空间树中引入节点的权重\ \dash\ 将当前节点$i$的得分重设为语言模型打分$\log\textrm{P}(w_i | w_1 w_2...w_{i-1})$，其中$w_1 w_2...w_{i-1}$是该节点的全部祖先。与先前不同的是，由于在使用语言模型打分时，词的概率通常小于1，因此句子很长时概率会非常小，容易造成浮点误差,所以这里使用概率的对数形式$\log\textrm{P}(w_i | w_1 w_2...w_{i-1})$代替原始的$\textrm{P}(w_i | w_1 w_2...w_{i-1})$。此时对于图中一条包含<eos>的完整序列来说，它的最终得分为$\log\textrm{P}(w_1 w_2...w_m) = \sum_{i=1}^{m}\log\textrm{P}(w_i | w_1 w_2...w_{i-1})$，如图\ref{fig:2-15}所示，可知红线所示单词序列``<sos>\ I\ agree\ <eos>''的得分为：
-\begin{eqnarray}
-&&\textrm{score(``<sos>\ I\ agree\ <eos>'')}   \nonumber \\
-& = & \log\textrm{P}(\textrm{I} | \textrm{<sos>}) + \log\textrm{P}(\textrm{agree} | \textrm{<sos>\ I}) + \log\textrm{P}(\textrm{<sos>}| \textrm{<sos>\ I\ agree})   \nonumber \\
-& = & -0.5-0.2-0.8   \nonumber \\
-& = & -1.5
-\label{eq:2-41}
-\end{eqnarray}
 \parinterval 现在已经把枚举过程跟语言模型打分过程统一起来，变成解空间树的遍历问题。而单词序列生成的问题即可定义为这样一个搜索问题：寻找所有单词序列组成的解空间树中权重总和最大的一条路径。前面提到的两种枚举的实现方式就是经典搜索里{\small\bfnew{深度优先搜索}}\index{深度优先搜索}（Depth-First Search）\index{Depth-First Search}和{\small\bfnew{宽度优先搜索}}\index{宽度优先搜索}（Breadth-First Search）\index{Breadth-First Search}的雏形。在后面的内容中可以看到，从遍历解空间树的角度出发，可以对原始的枚举策略的效率进行优化。
 %----------------------------------------------------------------------------------------
@@ -878,6 +876,8 @@ w^{'} = \argmax_{w \in \chi}\textrm{P}(w)
 \parinterval 上述搜索过程中，在每次对当前节点进行扩展的时候，可以借助语言模型计算从当前节点的权重。因此很自然的一个想法是：在单词序列的生成过程中使用权重信息可以帮助系统更快找到合适的解。
+\parinterval 在深度优先搜索中，每次总是先挑选一个单词，等枚举完当前单词全部子节点构成的序列后，才会选择下一个兄弟节点继续进行搜索。但是在挑选过程中先枚举词表中的哪个词是未定义的，也就是先选择哪个兄弟节点进行搜索是随机的。既然最终目标是寻找权重之和最大的路径，那么可以优先挑选分数较高的单词进行枚举。因为在路径长度有限的情况下，权重和最大的路径上每个节点的权重也会比较大，而先尝试分数大的单词可以让系统更快地找到最优解。如图\ref{fig:2-16}所示，红色线表示了第一次搜索的路径。这是对深度优先搜索的一个自然的扩展。
 %----------------------------------------------
 \begin{figure}[htp]
    \centering
@@ -887,7 +887,7 @@ w^{'} = \argmax_{w \in \chi}\textrm{P}(w)
 \end{figure}
 %-------------------------------------------
-\parinterval 在深度优先搜索中，每次总是先挑选一个单词，等枚举完当前单词全部子节点构成的序列后，才会选择下一个兄弟节点继续进行搜索。但是在挑选过程中先枚举词表中的哪个词是未定义的，也就是先选择哪个兄弟节点进行搜索是随机的。既然最终目标是寻找权重之和最大的路径，那么可以优先挑选分数较高的单词进行枚举。因为在路径长度有限的情况下，权重和最大的路径上每个节点的权重也会比较大，而先尝试分数大的单词可以让系统更快地找到最优解。如图\ref{fig:2-16}所示，红色线表示了第一次搜索的路径。这是对深度优先搜索的一个自然的扩展。
+\parinterval 类似的思想也可以应用于宽度优先搜索，由于宽度优先搜索每次都选择了所有的单词，因此简单使用节点的权重来选择单词是不可行的。重新回顾宽度优先搜索的过程：它维护了一个未结束单词序列的集合，每次扩展单词序列后根据长度往集合里面加入单词序列。而搜索问题关心的是单词序列的得分而非其长度。因此可以在搜索过程中维护未结束的单词序列集合里每个单词序列的得分，然后优先扩展该集合中得分最高的单词序列，使得扩展过程中未结束的单词序列集合包含的单词序列分数逐渐变高。如图\ref{fig:2-17}所示，由于``<sos>\ I''在图右侧的5条路径中分数最高，因此下一步将要扩展$w_2$一列``I''节点后的全部后继。图中绿色节点表示下一步将要扩展的节点。普通宽度优先搜索中，扩展后生成的单词序列长度相同，但是分数却参差不齐。而改造后的宽度优先搜索则不同，它会优先生成得分较高的单词序列，这种宽度优先搜索也叫做{\small\bfnew{一致代价搜索}}\index{一致代价搜索}（Uniform-Cost Search）\index{Uniform-Cost Search}\upcite{russell2003artificial}。
 %----------------------------------------------
 \begin{figure}[htp]
@@ -898,9 +898,7 @@ w^{'} = \argmax_{w \in \chi}\textrm{P}(w)
 \end{figure}
 %-------------------------------------------
-\parinterval 类似的思想也可以应用于宽度优先搜索，由于宽度优先搜索每次都选择了所有的单词，因此简单使用节点的权重来选择单词是不可行的。重新回顾宽度优先搜索的过程：它维护了一个未结束单词序列的集合，每次扩展单词序列后根据长度往集合里面加入单词序列。而搜索问题关心的是单词序列的得分而非其长度。因此可以在搜索过程中维护未结束的单词序列集合里每个单词序列的得分，然后优先扩展该集合中得分最高的单词序列，使得扩展过程中未结束的单词序列集合包含的单词序列分数逐渐变高。如图\ref{fig:2-17}所示，由于``<sos>\ I''在图右侧的5条路径中分数最高，因此下一步将要扩展$w_2$一列``I''节点后的全部后继。图中绿色节点表示下一步将要扩展的节点。普通宽度优先搜索中，扩展后生成的单词序列长度相同，但是分数却参差不齐。而改造后的宽度优先搜索则不同，它会优先生成得分较高的单词序列，这种宽度优先搜索也叫做{\small\bfnew{一致代价搜索}}\index{一致代价搜索}（Uniform-Cost Search）\index{Uniform-Cost Search}\cite{russell2003artificial}。
+\parinterval 上面描述的两个改进后的搜索方法属于无信息搜索策略\upcite{sahni1978fundamentals}，因为他们依赖的信息仍然来源于问题本身而不是问题以外。改进后的方法虽然有机会更快寻找到分数最高的单词序列，也就是最优解。但是由于没有一个通用的办法来判断当前找到的解是否为最优解，这种策略不会在找到最优解后自动停止，因此最终仍然需要枚举所有可能的单词序列，寻找最优解需要的时间复杂度没有产生任何改变。尽管如此，如果只是需要一个相对好的解而不是最优解，改进后的搜索策略仍然是比原始枚举策略更优秀的算法。
-\parinterval 上面描述的两个改进后的搜索方法属于无信息搜索策略\cite{sahni1978fundamentals}，因为他们依赖的信息仍然来源于问题本身而不是问题以外。改进后的方法虽然有机会更快寻找到分数最高的单词序列，也就是最优解。但是由于没有一个通用的办法来判断当前找到的解是否为最优解，这种策略不会在找到最优解后自动停止，因此最终仍然需要枚举所有可能的单词序列，寻找最优解需要的时间复杂度没有产生任何改变。尽管如此，如果只是需要一个相对好的解而不是最优解，改进后的搜索策略仍然是比原始枚举策略更优秀的算法。
 \parinterval 此外，由于搜索过程中将语言模型的打分作为搜索树的节点权重，另一种改进思路是：能否借助语言模型的特殊性质来对搜索树进行{\small\bfnew{剪枝}}\index{剪枝}（Pruning）\index{Pruning}，从而避免在搜索空间中访问一些不可能产生比当前解更好的结果的区域，提高搜索策略在实际运用当中的效率。简单来说，剪枝是一种可以缩小搜索空间的手段，比如，在搜索的过程中，动态的``丢弃''一些搜索路径，从而减少搜索的总代价。剪枝的程度在一定范围内影响了搜索系统的效率，剪枝越多搜索效率越高，一般找到最优解的可能性也越低；反之，搜索效率越低，但是找到最优解的可能性越大。在{\chapterten}中介绍的贪婪搜索和束搜索都可以被看作是剪枝方法的一种特例。
@@ -912,9 +910,9 @@ w^{'} = \argmax_{w \in \chi}\textrm{P}(w)
 \parinterval 在搜索问题中，一个单词序列的生成可以分为两部分：已生成部分和未生成部分。既然最终目标是使得一个完整的单词序列得分最高，那么关注未生成部分的得分也许能为现有搜索策略的改进提供思路。
-\parinterval 但是，问题在于未生成部分来自搜索树中未被搜索过的区域，直接得到其得分并不现实。既然仅依赖于问题本身的信息无法得到未生成部分的得分，那么是否可以通过一些外部信息来估计未生成部分得分$\textrm{h}(w_1 w_2...w_m)$呢？在前面所提到的剪枝技术中，借助语言模型的特性可以使得搜索变得高效。与其类似，利用语言模型的其他特性也可以实现对未生成部分得分的估计。这个对未生成部分得分的估计通常被称为{\small\bfnew{启发式函数}}\index{启发式函数}（Heuristic Function）\index{Heuristic Function}。在扩展假设过程中，可以优先挑选当前得分$\log\textrm{P}(w_1 w_2...w_m)$和启发式函数值$\textrm{h}(w_1 w_2...w_m)$最大的候选进行扩展，从而大大提高搜索的效率。这种基于启发式函数的一致代价搜索通常也被称为$\textrm{A}^{\ast}$搜索或{\small\bfnew{启发式搜索}}\index{启发式搜索}（Heuristically Search）\index{Heuristically Search}\cite{DBLP:journals/tssc/HartNR68}。
+\parinterval 但是，问题在于未生成部分来自搜索树中未被搜索过的区域，直接得到其得分并不现实。既然仅依赖于问题本身的信息无法得到未生成部分的得分，那么是否可以通过一些外部信息来估计未生成部分得分$\textrm{h}(w_1 w_2...w_m)$呢？在前面所提到的剪枝技术中，借助语言模型的特性可以使得搜索变得高效。与其类似，利用语言模型的其他特性也可以实现对未生成部分得分的估计。这个对未生成部分得分的估计通常被称为{\small\bfnew{启发式函数}}\index{启发式函数}（Heuristic Function）\index{Heuristic Function}。在扩展假设过程中，可以优先挑选当前得分$\log P(w_1 w_2...w_m)$和启发式函数值$\textrm{h}(w_1 w_2...w_m)$最大的候选进行扩展，从而大大提高搜索的效率。这种基于启发式函数的一致代价搜索通常也被称为$\textrm{A}^{\ast}$搜索或{\small\bfnew{启发式搜索}}\index{启发式搜索}（Heuristically Search）\index{Heuristically Search}\upcite{DBLP:journals/tssc/HartNR68}。
-\parinterval 通常可以把启发式函数看成是计算当前状态跟最优解的距离的一种方法，并把关于最优解的一些性质的猜测放到启发式函数里。比如，在序列生成中，一般认为最优序列应该在某个特定的长度附近，那么就可以把启发式函数定义成该长度与当前单词序列长度的差值。这样，在搜索过程中，启发式函数会引导搜索倾向于先生成当前得分高且序列长度接近预设长度的单词序列。此外除了手工设计启发式函数，还可以借助强化学习的手段，学习关于未来得分的估计\cite{DBLP:conf/nips/HeLXQ0L17}。
+\parinterval 通常可以把启发式函数看成是计算当前状态跟最优解的距离的一种方法，并把关于最优解的一些性质的猜测放到启发式函数里。比如，在序列生成中，一般认为最优序列应该在某个特定的长度附近，那么就可以把启发式函数定义成该长度与当前单词序列长度的差值。这样，在搜索过程中，启发式函数会引导搜索倾向于先生成当前得分高且序列长度接近预设长度的单词序列。此外除了手工设计启发式函数，还可以借助强化学习的手段，学习关于未来得分的估计\upcite{DBLP:conf/nips/HeLXQ0L17}。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -932,6 +930,8 @@ w^{'} = \argmax_{w \in \chi}\textrm{P}(w)
 \parinterval {\small\bfnew{贪婪搜索}}\index{贪婪搜索}（Greedy Search）\index{Greedy Search}基于一种假设，当一个问题可以拆分为多个子问题时，如果一直选择子问题的最优解就能得到原问题的最优解。基于这种假设，它每次都优先挑选得分最高的词进行扩展，这一点与改进过的深度优先搜索类似。但是它们的区别在于，贪婪搜索在搜索到一个完整的序列，也就是搜索到<eos>即停止，而改进的深度优先搜索会遍历整个解空间。因此贪婪搜索非常高效，其时间和空间复杂度仅为$\textrm{O}(m)$，这里$m$为单词序列的长度。
+\parinterval 由于贪婪搜索并没有遍历解空间，所以该方法不保证一定能找到最优解。比如对于如图\ref{fig:2-18}所示的一个搜索结构，贪婪搜索将选择红线所示的序列，该序列的最终得分是-1.7。但是，对比图\ref{fig:2-16}可以发现，在另一条路径上有得分更高的序列``<sos>\ I\ agree\ <eos>''，它的得分为-1.5。此时贪婪搜索并没有找到最优解，由于贪婪搜索选择的单词是当前步骤得分最高的，但是最后生成的单词序列的得分取决于它未生成部分的得分。因此当得分最高的单词的子树中未生成部分的得分远远小于其他子树时，贪婪搜索提供的解的质量会非常差。同样的问题可以出现在使用贪婪搜索的任意时刻。
 %----------------------------------------------
 \begin{figure}[htp]
    \centering
@@ -941,8 +941,6 @@ w^{'} = \argmax_{w \in \chi}\textrm{P}(w)
 \end{figure}
 %-------------------------------------------
-\parinterval 由于贪婪搜索并没有遍历解空间，所以该方法不保证一定能找到最优解。比如对于如图\ref{fig:2-18}所示的一个搜索结构，贪婪搜索将选择红线所示的序列，该序列的最终得分是-1.7。但是，对比图\ref{fig:2-16}可以发现，在另一条路径上有得分更高的序列``<sos>\ I\ agree\ <eos>''，它的得分为-1.5。此时贪婪搜索并没有找到最优解，由于贪婪搜索选择的单词是当前步骤得分最高的，但是最后生成的单词序列的得分取决于它未生成部分的得分。因此当得分最高的单词的子树中未生成部分的得分远远小于其他子树时，贪婪搜索提供的解的质量会非常差。同样的问题可以出现在使用贪婪搜索的任意时刻。
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------
@@ -951,6 +949,8 @@ w^{'} = \argmax_{w \in \chi}\textrm{P}(w)
 \parinterval 贪婪搜索会产生质量比较差的解是由于当前单词的错误选择造成的。既然每次只挑选一个单词可能会产生错误，那么可以通过同时考虑更多候选单词来缓解这个问题，也就是对于一个位置，可以同时将其扩展到若干个节点。这样就扩大了搜索的范围，进而使得优质解被找到的概率增大。
+\parinterval 常见的做法是每一次生成新单词的时候都挑选得分最高的前$B$个单词，然后扩展这$B$个单词的$V$个孩子节点，得到$BV$条新路径，最后保留其中得分最高的$B$条路径。从另外一个角度理解，它相当于比贪婪搜索看到了更多的假设，因而它更有可能找到好的解。这个方法通常被称为{\small\bfnew{束搜索}}\index{束搜索}（Beam Search）\index{Beam Search}。图\ref{fig:2-19}展示了一个束大小为3的例子，其中束大小代表每次选择单词时保留的词数。比起贪婪搜索，束搜索在实际表现中非常优秀，而它的时间、空间复杂度仅为贪婪搜索的常数倍，也就是$\textrm{O}(Bm)$。
 %----------------------------------------------
 \begin{figure}[htp]
    \centering
@@ -960,9 +960,7 @@ w^{'} = \argmax_{w \in \chi}\textrm{P}(w)
 \end{figure}
 %-------------------------------------------
-\parinterval 常见的做法是每一次生成新单词的时候都挑选得分最高的前$B$个单词，然后扩展这$B$个单词的$V$个孩子节点，得到$BV$条新路径，最后保留其中得分最高的$B$条路径。从另外一个角度理解，它相当于比贪婪搜索看到了更多的假设，因而它更有可能找到好的解。这个方法通常被称为{\small\bfnew{束搜索}}\index{束搜索}（Beam Search）\index{Beam Search}。图\ref{fig:2-19}展示了一个束大小为3的例子，其中束大小代表每次选择单词时保留的词数。比起贪婪搜索，束搜索在实际表现中非常优秀，而它的时间、空间复杂度仅为贪婪搜索的常数倍，也就是$\textrm{O}(Bm)$。
+\parinterval 束搜索也有很多的改进版本。比如，在无信息搜索策略中可以使用剪枝技术来提升搜索的效率。而实际上，束搜索本身也是一种剪枝方法。因此有时也把束搜索称作{\small\bfnew{束剪枝}}\index{束剪枝}（Beam Pruning）\index{Beam Pruning}。在这里有很多其它的剪枝策略可供选择，例如可以只保留与当前最佳路径得分相差在$\theta$之内的路径，也就是搜索只保留得分差距在一定范围内的路径，这种方法也被称作{\small\bfnew{直方图剪枝}}\index{直方图剪枝}（Histogram Pruning）\index{Histogram Pruning}。对于语言模型来说，当进行搜索时正在搜索的多个路径中最高得分比当前搜索到的最好的解的得分低之后也可以立刻停止搜索，因为此时序列越长语言模型得分$\log P(w_1 w_2...w_m)$会越低，因此继续扩展这些路径不会产生更好的结果。这个技术通常也被称为{\small\bfnew{最佳停止条件}}\index{最佳停止条件}（Optimal Stopping Criteria）\index{Optimal Stopping Criteria}。
-\parinterval 束搜索也有很多的改进版本。比如，在无信息搜索策略中可以使用剪枝技术来提升搜索的效率。而实际上，束搜索本身也是一种剪枝方法。因此有时也把束搜索称作{\small\bfnew{束剪枝}}\index{束剪枝}（Beam Pruning）\index{Beam Pruning}。在这里有很多其它的剪枝策略可供选择，例如可以只保留与当前最佳路径得分相差在$\theta$之内的路径，也就是搜索只保留得分差距在一定范围内的路径，这种方法也被称作{\small\bfnew{直方图剪枝}}\index{直方图剪枝}（Histogram Pruning）\index{Histogram Pruning}。对于语言模型来说，当进行搜索时正在搜索的多个路径中最高得分比当前搜索到的最好的解的得分低之后也可以立刻停止搜索，因为此时序列越长语言模型得分$\log\textrm{P}(w_1 w_2...w_m)$会越低，因此继续扩展这些路径不会产生更好的结果。这个技术通常也被称为{\small\bfnew{最佳停止条件}}\index{最佳停止条件}（Optimal Stopping Criteria）\index{Optimal Stopping Criteria}。
 \parinterval 总的来说，虽然局部搜索由于没有遍历完整的解空间，使得这类方法无法保证找到最优解。但是，局部搜索算法大大降低了搜索过程的时间、空间复杂度。因此在语言模型生成和机器翻译的解码过程中常常使用局部搜索算法。在{\chapterseven}、{\chapterten}、{\chaptereleven}中还将介绍这些算法的具体应用。
@@ -975,16 +973,16 @@ w^{'} = \argmax_{w \in \chi}\textrm{P}(w)
 \parinterval 本章重点介绍了如何对自然语言处理问题进行统计建模，并从数据中自动学习统计模型的参数，最终使用学习到的模型对新的问题进行处理。之后，本章将这种思想应用到语言建模这个自然语言处理任务中，它也和机器翻译有着紧密的联系。通过系统化的建模，可以发现：经过适当的假设和化简，统计模型可以很好的描述复杂的自然语言处理问题。相关概念和方法也会在后续章节的内容中被广泛使用。
-\parinterval 由于本章重点介绍如何用统计的思想对自然语言处理任务进行建模，因此并没有对具体的问题展开深入讨论。关于不同语言模型的对比和分析可以进一步参考相关综述\cite{Joshua2001A,jing2019survey}。此外，有几方面内容，读者可以继续关注：
+\parinterval 由于本章重点介绍如何用统计的思想对自然语言处理任务进行建模，因此并没有对具体的问题展开深入讨论。关于不同语言模型的对比和分析可以进一步参考相关综述\upcite{Joshua2001A,jing2019survey}。此外，有几方面内容，读者可以继续关注：
 \begin{adjustwidth}{1em}{}
 \begin{itemize}
 \vspace{0.5em}
-\item 在建模方面，本章介绍的语言建模采用的是基于人工先验知识进行模型设计的思路。也就是，问题所表达的现象被``一步一步''生成出来。这是一种典型的生成式建模思想，它把要解决的问题看作一些观测结果的隐含变量（比如，句子是观测结果，分词结果是隐含在背后的变量），之后通过对隐含变量生成观测结果的过程进行建模，以达到对问题进行数学描述的目的。这类模型一般需要依赖一些独立性假设，假设的合理性对最终的性能有较大影响。相对于{\small\sffamily\bfseries{生成模型}}\index{生成模型}（Generative Model）\index{Generative Model}，另一类方法是{\small\sffamily\bfseries{判别模型}}\index{判别模型}（Discriminative Model）\index{Discriminative Model}，它直接描述了从隐含变量生成观测结果的过程，这样对问题的建模更加直接，同时这类模型可以更加灵活地引入不同的特征\cite{DBLP:conf/acl/OchN02}。判别模型在自然语言处理中也有广泛应用\cite{shannon1948mathematical}\cite{ng2002discriminative}。 在本书的第四章也会使用到判别式模型。
+\item 在建模方面，本章介绍的语言建模采用的是基于人工先验知识进行模型设计的思路。也就是，问题所表达的现象被``一步一步''生成出来。这是一种典型的生成式建模思想，它把要解决的问题看作一些观测结果的隐含变量（比如，句子是观测结果，分词结果是隐含在背后的变量），之后通过对隐含变量生成观测结果的过程进行建模，以达到对问题进行数学描述的目的。这类模型一般需要依赖一些独立性假设，假设的合理性对最终的性能有较大影响。相对于{\small\sffamily\bfseries{生成模型}}\index{生成模型}（Generative Model）\index{Generative Model}，另一类方法是{\small\sffamily\bfseries{判别模型}}\index{判别模型}（Discriminative Model）\index{Discriminative Model}，它直接描述了从隐含变量生成观测结果的过程，这样对问题的建模更加直接，同时这类模型可以更加灵活地引入不同的特征\upcite{DBLP:conf/acl/OchN02}。判别模型在自然语言处理中也有广泛应用\upcite{shannon1948mathematical}\upcite{ng2002discriminative}。 在本书的第四章也会使用到判别式模型。
 \vspace{0.5em}
-\item 从现在自然语言处理的前沿看，基于端到端学习的深度学习方法在很多任务中都取得了领先的性能。语言模型同样可以使用这些方法，而且在近些年取得了巨大成功\cite{DBLP:conf/nips/BengioDV00}。关于神经语言模型的内容，会在{\chapternine}进行进一步介绍。这里更多地关注了语言模型的基本问题和求解思路，因为对问题的建模是自然语言处理的基础，对问题的本质刻画并不会因为方法的改变而改变。在后续章节还将看到，这里所使用的生成序列的建模方法会作为机器翻译最基本的范式。
+\item 从现在自然语言处理的前沿看，基于端到端学习的深度学习方法在很多任务中都取得了领先的性能。语言模型同样可以使用这些方法，而且在近些年取得了巨大成功\upcite{DBLP:conf/nips/BengioDV00}。关于神经语言模型的内容，会在{\chapternine}进行进一步介绍。这里更多地关注了语言模型的基本问题和求解思路，因为对问题的建模是自然语言处理的基础，对问题的本质刻画并不会因为方法的改变而改变。在后续章节还将看到，这里所使用的生成序列的建模方法会作为机器翻译最基本的范式。
 \vspace{0.5em}
-\item 此外，本章结合序列生成任务对搜索技术进行了介绍。而搜索问题也是语言建模和机器翻译中的最基本问题之一。在这些任务中，搜索空间往往较大，因此枚举与大多数全局搜索方法是不可行的。但是，由于启发式搜索不仅具有完备性，并且兼顾了搜索效率，因此也有研究尝试使用启发式搜索\cite{DBLP:conf/acl/OchUN01,DBLP:conf/acl/WangW97}。同时现在许多基于强化学习的方法本质上也是一种对启发式搜索的引申\cite{DBLP:conf/nips/HeLXQ0L17}。对于局部搜索算法，除了经常在翻译任务中使用的束搜索\cite{DBLP:journals/corr/LiMJ16}以外还有模拟退火搜索。他们都可以被理解为是对贪婪搜索的一种改进，并且遗传算法作为随机束搜索的变形也常常被使用。最后，在机器翻译任务中，搜索技术也被应用于结构搜索。其中常用的方法包括使用强化学习的方法\cite{DBLP:conf/iclr/ZophL17,DBLP:conf/iclr/SchrimpfM0S18}或使用遗传算法搜索网络结构。由于整个模型结构的表示空间巨大，因此在搜索过程中也往往采用束搜索等方式对结构空间进行裁剪，以达到在有限算力条件下搜索到最佳模型结构的目的。
+\item 此外，本章结合序列生成任务对搜索技术进行了介绍。而搜索问题也是语言建模和机器翻译中的最基本问题之一。在这些任务中，搜索空间往往较大，因此枚举与大多数全局搜索方法是不可行的。但是，由于启发式搜索不仅具有完备性，并且兼顾了搜索效率，因此也有研究尝试使用启发式搜索\upcite{DBLP:conf/acl/OchUN01,DBLP:conf/acl/WangW97}。同时现在许多基于强化学习的方法本质上也是一种对启发式搜索的引申\upcite{DBLP:conf/nips/HeLXQ0L17}。对于局部搜索算法，除了经常在翻译任务中使用的束搜索\upcite{DBLP:journals/corr/LiMJ16}以外还有模拟退火搜索。他们都可以被理解为是对贪婪搜索的一种改进，并且遗传算法作为随机束搜索的变形也常常被使用。最后，在机器翻译任务中，搜索技术也被应用于结构搜索。其中常用的方法包括使用强化学习的方法\upcite{DBLP:conf/iclr/ZophL17,DBLP:conf/iclr/SchrimpfM0S18}或使用遗传算法搜索网络结构。由于整个模型结构的表示空间巨大，因此在搜索过程中也往往采用束搜索等方式对结构空间进行裁剪，以达到在有限算力条件下搜索到最佳模型结构的目的。
 \vspace{0.5em}
 \end{itemize}
 \end{adjustwidth}
--- a/bibliography.bib
+++ b/bibliography.bib
@@ -685,10 +685,10 @@
  year ={2016},
  publisher ={清华大学出版社}
 }
-@book{李航2012统计学习方法,
+@book{李航2019统计学习方法,
  title ={统计学习方法},
  author ={李航},
-  year ={2012},
+  year ={2019},
  publisher ={清华大学出版社}
 }
 @book{宗成庆2013统计自然语言处理,
@@ -1355,6 +1355,15 @@
  biburl    = {https://dblp.org/rec/conf/nips/BengioDV00.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
 }
+@article{Chomsky1957Syntactic,
+  title={Syntactic Structures},
+  author={Chomsky, Noam},
+  journal={Language},
+  volume={33},
+  number={3},
+  year={1957},
+}
 %%%%% chapter 2------------------------------------------------------
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%