合并分支 'caorunzhe' 到 'shanweiqiao'

Caorunzhe 查看合并请求 !1049

合并分支 'caorunzhe' 到 'shanweiqiao'
Caorunzhe 查看合并请求 !1049
8c226cd2 · 单韦乔 · ce3e85ca · c9955b2e · 8c226cd2 · 8c226cd2
Commit 8c226cd2 authored Mar 07, 2021 by 单韦乔
--- a/Chapter10/Figures/figure-encoder-decoder-with-attention.tex
+++ b/Chapter10/Figures/figure-encoder-decoder-with-attention.tex
@@ -82,7 +82,7 @@

 \draw [->,thick] ([yshift=3em]s6.north) -- ([yshift=4em]s6.north) -- ([yshift=4em]t1.north) node [pos=0.5,fill=green!30,inner sep=2pt] (c1) {\scriptsize{表示$\mathbi{C}_1$}} -- ([yshift=3em]t1.north) ;
 \draw [->,thick] ([yshift=3em]s5.north) -- ([yshift=5.3em]s5.north) -- ([yshift=5.3em]t2.north) node [pos=0.5,fill=green!30,inner sep=2pt] (c2) {\scriptsize{表示$\mathbi{C}_2$}} -- ([yshift=3em]t2.north) ;
-\draw [->,thick] ([yshift=3.5em]s3.north) -- ([yshift=6.6em]s3.north) -- ([yshift=6.6em]t4.north) node [pos=0.5,fill=green!30,inner sep=2pt] (c3) {\scriptsize{表示$\mathbi{C}_i$}} -- ([yshift=3.5em]t4.north) ;
+\draw [->,thick] ([yshift=3.5em]s3.north) -- ([yshift=6.6em]s3.north) -- ([yshift=6.6em]t4.north) node [pos=0.5,fill=green!30,inner sep=2pt] (c3) {\scriptsize{表示$\mathbi{C}_j$}} -- ([yshift=3.5em]t4.north) ;
 \node [anchor=north] (smore) at ([yshift=3.5em]s3.north) {...};
 \node [anchor=north] (tmore) at ([yshift=3.5em]t4.north) {...};


--- a/Chapter10/chapter10.tex
+++ b/Chapter10/chapter10.tex
--- a/Chapter11/chapter11.tex
+++ b/Chapter11/chapter11.tex
--- a/Chapter12/chapter12.tex
+++ b/Chapter12/chapter12.tex
--- a/Chapter14/chapter14.tex
+++ b/Chapter14/chapter14.tex
@@ -211,7 +211,7 @@ b &=& \omega_{\textrm{high}}\cdot |\seq{x}| \label{eq:14-4}

 \parinterval 针对这些问题，研究人员设计了很多新的方法。比如，可以在束搜索中使用启发性信息让搜索尽可能早地停止，同时保证搜索结果是“最优的”\upcite{DBLP:conf/emnlp/HuangZM17}。也可以将束搜索建模为优化问题\upcite{Wiseman2016SequencetoSequenceLA,DBLP:conf/emnlp/Yang0M18}，进而设计出新的终止条件\upcite{Ma2019LearningTS}。很多开源机器翻译系统也都使用了简单有效的终止条件，比如，在OpenNMT 系统中当搜索束中当前最好的假设生成了完整的译文搜索就会停止\upcite{KleinOpenNMT}，在RNNSearch系统中当找到预设数量的译文时搜索就会停止，同时在这个过程中会不断减小搜索束的大小\upcite{bahdanau2014neural}。

-\parinterval 实际上，设计搜索终止条件反映了搜索时延和搜索精度的一种折中\upcite{Eisner2011LearningST,Jiang2012LearnedPF}。在很多应用中，这个问题会非常关键。比如，在同声传译中，对于输入的长文本，何时开始翻译、何时结束翻译都是十分重要的\upcite{Zheng2020OpportunisticDW,Ma2019STACLST}。在很多线上翻译应用中，翻译结果的响应不能超过一定的时间，这时就需要一种{\small\sffamily\bfseries{时间受限的搜索}}\index{时间受限的搜索}（Time-constrained Search）\index{Time-constrained Search}策略\upcite{DBLP:conf/emnlp/StahlbergHSB17}。
+\parinterval 实际上，设计搜索终止条件反映了搜索时延和搜索精度的一种折中\upcite{Eisner2011LearningST,Jiang2012LearnedPF}。在很多应用中，这个问题会非常关键。比如，在同声传译中，对于输入的长文本，何时开始翻译、何时结束翻译都是十分重要的\upcite{Zheng2020OpportunisticDW,Ma2019STACLST}。在很多线上翻译应用中，翻译结果的响应不能超过一定的时间，这时就需要一种{\small\sffamily\bfseries{时间受限搜索}}\index{时间受限搜索}（Time-constrained Search）\index{Time-constrained Search}策略\upcite{DBLP:conf/emnlp/StahlbergHSB17}。

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -401,7 +401,7 @@ b &=& \omega_{\textrm{high}}\cdot |\seq{x}| \label{eq:14-4}
 \footnotetext{表中比较了几种通用数据类型的乘法运算速度，不同硬件和架构上不同类型的数据的计算速度略有不同。总体来看整型数据类型和浮点型数据相比具有显著的计算速度优势，INT4相比于FP32数据类型的计算最高能达到8倍的速度提升。}
 %--------------------------------------

-\parinterval 实际上，低精度运算的另一个好处是可以减少模型存储的体积。比如，如果要把机器翻译模型作为软件的一部分打包存储，这时可以考虑用低精度的方式保存模型参数，使用时再恢复成原始精度的参数。值得注意的是，参数的离散化表示（比如整型表示）的一个极端例子是{\small\sffamily\bfseries{二值网络}}\index{二值网络}（Binarized Neural Networks）\index{Binarized Neural Networks}\upcite{DBLP:conf/nips/HubaraCSEB16}，即只用−1和+1 表示神经网络的每个参数\footnote{也存在使用0或1表示神经网络参数的二值网络。}。二值化可以被看作是一种极端的量化手段。不过，这类方法还没有在机器翻译中得到大规模验证。
+\parinterval 实际上，低精度运算的另一个好处是可以减少模型存储的体积。比如，如果要把机器翻译模型作为软件的一部分打包存储，这时可以考虑用低精度的方式保存模型参数，使用时再恢复成原始精度的参数。值得注意的是，参数的离散化表示（比如整型表示）的一个极端例子是{\small\sffamily\bfseries{二值神经网络}}\index{二值神经网络}（Binarized Neural Networks）\index{Binarized Neural Networks}\upcite{DBLP:conf/nips/HubaraCSEB16}，即只用−1和+1 表示神经网络的每个参数\footnote{也存在使用0或1表示神经网络参数的二值神经网络。}。二值化可以被看作是一种极端的量化手段。不过，这类方法还没有在机器翻译中得到大规模验证。

 %----------------------------------------------------------------------------------------
 %    NEW SECTION

--- a/Chapter16/chapter16.tex
+++ b/Chapter16/chapter16.tex
--- a/Chapter17/chapter17.tex
+++ b/Chapter17/chapter17.tex
--- a/Chapter3/chapter3.tex
+++ b/Chapter3/chapter3.tex
--- a/Chapter4/chapter4.tex
+++ b/Chapter4/chapter4.tex
--- a/Chapter5/chapter5.tex
+++ b/Chapter5/chapter5.tex
--- a/Chapter6/chapter6.tex
+++ b/Chapter6/chapter6.tex
--- a/Chapter7/chapter7.tex
+++ b/Chapter7/chapter7.tex
@@ -481,7 +481,7 @@ d & = & {(\bar{s}_{\bar{a}_1},\bar{t}_1)} \circ {(\bar{s}_{\bar{a}_2},\bar{t}_2)

 \parinterval 给定一个双语句对$(\seq{s},\seq{t})$，$c(\bar{s})$表示短语$\bar{s}$在$\seq{s}$中出现的次数，$c(\bar{s},\bar{t})$表示双语短语$(\bar{s},\bar{t})$在$(\seq{s},\seq{t})$中被抽取出来的次数。对于一个包含多个句子的语料库，$c(\bar{s})$和$c(\bar{s},\bar{t})$可以按句子进行累加。类似的，也可以用同样的方法，计算$\bar{t}$到$\bar{s}$的翻译概率，即$\funp{P}(\bar{s}|\bar{t})$。一般会同时使用$\funp{P}(\bar{t}|\bar{s})$和$\funp{P}(\bar{s}|\bar{t})$度量一个双语短语的好与坏。

-\parinterval 当遇到低频短语时，短语翻译概率的估计可能会不准确。例如，短语$\bar{s}$和$\bar{t}$在语料中只出现了一次，且在一个句子中共现，那么$\bar{s}$到$\bar{t}$的翻译概率为$\funp{P}(\bar{t}|\bar{s})=1$，这显然是不合理的，因为$\bar{s}$和$\bar{t}$的出现完全可能是偶然事件。既然直接度量双语短语的好坏会面临数据稀疏问题，一个自然的想法就是把短语拆解成单词，利用双语短语中单词翻译的好坏间接度量双语短语的好坏。为了达到这个目的，可以使用{\small\bfnew{词汇化翻译概率}}\index{词汇化翻译概率}（Lexical Translation Probability）\index{Lexical Translation Probability}。前面借助词对齐信息完成了双语短语的抽取，因此，词对齐信息本身就包含了短语内部单词之间的对应关系。因此同样可以借助词对齐来计算词汇翻译概率，公式如下：
+\parinterval 当遇到低频短语时，短语翻译概率的估计可能会不准确。例如，短语$\bar{s}$和$\bar{t}$在语料中只出现了一次，且在一个句子中共现，那么$\bar{s}$到$\bar{t}$的翻译概率为$\funp{P}(\bar{t}|\bar{s})=1$，这显然是不合理的，因为$\bar{s}$和$\bar{t}$的出现完全可能是偶然事件。既然直接度量双语短语的好坏会面临数据稀疏问题，一个自然的想法就是把短语拆解成单词，利用双语短语中单词翻译的好坏间接度量双语短语的好坏。为了达到这个目的，可以使用{\small\bfnew{词汇化翻译概率}}\index{词汇化翻译概率}（Lexical Translation Probability）\index{Lexical Translation Probability}。前面借助词对齐信息完成了双语短语的抽取，可以看出，词对齐信息本身就包含了短语内部单词之间的对应关系。因此同样可以借助词对齐来计算词汇翻译概率，公式如下：
 \begin{eqnarray}
 \funp{P}_{\textrm{lex}}(\bar{t}|\bar{s}) & = & \prod_{j=1}^{|\bar{s}|} \frac{1}{|\{j|a(j,i) = 1\}|} \sum_{\forall(j,i):a(j,i) = 1} \sigma (t_i|s_j)
 \label{eq:7-14}

--- a/Chapter8/Figures/figure-example-of-translation-use-syntactic-structure.tex
+++ b/Chapter8/Figures/figure-example-of-translation-use-syntactic-structure.tex
@@ -53,7 +53,7 @@
 {
 \node [anchor=west,minimum height=12pt,fill=red!20] (inputseg1) at (inputlabel.east) {在$_1$ };
 \node [anchor=west,minimum height=12pt,fill=blue!20] (inputseg2) at ([xshift=0.2em]inputseg1.east) {学校$_2$ 球队$_3$ 首次$_4$ 夺得$_5$ 中国$_6$ 大学生$_7$ 篮球$_8$ 联赛$_9$ 冠军$_{10}$};
-\node [anchor=west,minimum height=12pt,fill=red!20] (inputseg3) at ([xshift=0.2em]inputseg2.east) {后$_{15}$};
+\node [anchor=west,minimum height=12pt,fill=red!20] (inputseg3) at ([xshift=0.2em]inputseg2.east) {后$_{11}$};

 \path [draw,->,dashed] (inputseg1.north) .. controls +(north:0.2) and +(south:0.3) ..  ([xshift=1em]synhifstpart1.south);
 \path [draw,->,dashed] (inputseg3.north) .. controls +(north:0.2) and +(south:0.6) ..  ([xshift=1em]synhifstpart1.south);

--- a/Chapter8/chapter8.tex
+++ b/Chapter8/chapter8.tex
@@ -44,7 +44,7 @@
 \end{figure}
 %-------------------------------------------

-\parinterval 当然，可以使用平滑算法对长短语的概率进行估计，但是使用过长的短语在实际系统研发中仍然不现实。图\ref{fig:8-1}展示了一个汉语到英语的翻译实例。源语言的两个短语（蓝色和红色高亮）在目标语言中产生了调序。但是，这两个短语在源语言句子中横跨11个单词。如果直接使用这11个单词构成的短语进行翻译，显然会有非常严重的数据稀疏问题，因为很难期望在训练数据中见到一模一样的短语。
+\parinterval 当然，可以使用平滑算法对长短语的概率进行估计，但是使用过长的短语在实际系统研发中仍然不现实。图\ref{fig:8-1}展示了一个汉语到英语的翻译实例。源语言的两个短语（蓝色和红色高亮）在目标语言中产生了调序。但是，这两个短语在源语言句子中横跨8个单词。如果直接使用这8个单词构成的短语进行翻译，显然会有非常严重的数据稀疏问题，因为很难期望在训练数据中见到一模一样的短语。

 \parinterval 仅使用连续词串不能处理所有的翻译问题，其根本原因在于句子的表层串很难描述片段之间大范围的依赖。一个新的思路是使用句子的层次结构信息进行建模。{\chapterthree}已经介绍了句法分析基础。对于每个句子，都可以用句法树描述它的结构。

@@ -68,7 +68,7 @@
 \end{figure}
 %-------------------------------------------

-\parinterval 句法树结构可以赋予机器翻译对语言进一步抽象的能力，这样，可以不需要使用连续词串，而是通过句法结构来对大范围的译文生成和调序进行建模。图\ref{fig:8-3}是一个在翻译中融入源语言（汉语）句法信息的实例。这个例子中，介词短语“在 $...$ 后”包含12个单词，因此，使用短语很难涵盖这样的片段。这时，系统会把“在 $...$ 后”错误地翻译为“In $...$”。通过句法树，可以知道“在 $...$ 后”对应着一个完整的子树结构PP（介词短语）。因此也很容易知道介词短语中“在 $...$ 后”是一个模板（红色），而“在”和“后”之间的部分构成从句部分（蓝色）。最终得到正确的译文“After $...$”。
+\parinterval 句法树结构可以赋予机器翻译对语言进一步抽象的能力，这样，可以不需要使用连续词串，而是通过句法结构来对大范围的译文生成和调序进行建模。图\ref{fig:8-3}是一个在翻译中融入源语言（汉语）句法信息的实例。这个例子中，介词短语“在 $...$ 后”包含11个单词，因此，使用短语很难涵盖这样的片段。这时，系统会把“在 $...$ 后”错误地翻译为“In $...$”。通过句法树，可以知道“在 $...$ 后”对应着一个完整的子树结构PP（介词短语）。因此也很容易知道介词短语中“在 $...$ 后”是一个模板（红色），而“在”和“后”之间的部分构成从句部分（蓝色）。最终得到正确的译文“After $...$”。

 \parinterval 使用句法信息在机器翻译中并不新鲜。在基于规则和模板的翻译模型中，就大量使用了句法等结构信息。只是由于早期句法分析技术不成熟，系统的整体效果并不突出。在数据驱动的方法中，句法可以很好地融合在统计建模中。通过概率化的句法设计，可以对翻译过程进行很好的描述。

@@ -229,7 +229,7 @@
 \funp{X}\ &\to\ &\langle \ \text{强大},\quad \textrm{strong}\ \rangle \nonumber
 \end{eqnarray}

-\parinterval 这个文法只有一种非终结符X，因此所有的变量都可以使用任意的产生式进行推导。这就给翻译提供了更大的自由度，也就是说，规则可以被任意使用，进行自由组合。这也符合基于短语的模型中对短语进行灵活拼接的思想。基于此，层次短语系统中也使用这种并不依赖语言学句法标记的文法。在本章的内容中，如果没有特殊说明，把这种没有语言学句法标记的文法称作{\small\bfnew{基于层次短语的文法}}\index{基于层次短语的文法}（Hierarchical Phrase-based Grammar）\index{Hierarchical Phrase-based Grammar}，或简称层次短语文法。
+\parinterval 这个文法只有一种非终结符X，因此所有的变量都可以使用任意的产生式进行推导。这就给翻译提供了更大的自由度，也就是说，规则可以被任意使用，进行自由组合。这也符合基于短语的模型中对短语进行灵活拼接的思想。基于此，层次短语系统中也使用这种并不依赖语言学句法标记的文法。在本章的内容中，如果没有特殊说明，把这种没有语言学句法标记的文法称作{\small\bfnew{基于层次短语的文法}}\index{基于层次短语的文法或层次短语文法}（Hierarchical Phrase-based Grammar）\index{Hierarchical Phrase-based Grammar}，或简称层次短语文法。

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -468,7 +468,7 @@ span\textrm{[2,4]}&=&\textrm{“吃} \quad \textrm{鱼”} \nonumber \\
 span\textrm{[0,4]}&=&\textrm{“猫} \quad \textrm{喜欢} \quad \textrm{吃} \quad \textrm{鱼”} \nonumber
 \end{eqnarray}

-\parinterval CKY方法是按跨度由小到大的次序执行的，这也对应了一种{\small\bfnew{自下而上的分析}}\index{自下而上的分析}（Top-Down Parsing）\index{Top-Down Parsing}过程。对于每个跨度，检查：
+\parinterval CKY方法是按跨度由小到大的次序执行的，这也对应了一种{\small\bfnew{自下而上的分析}}\index{自下而上的分析}（Bottom-Up Parsing）\index{Bottom-Up Parsing}过程。对于每个跨度，检查：

 \begin{itemize}
 \vspace{0.5em}
@@ -750,7 +750,7 @@ span\textrm{[0,4]}&=&\textrm{“猫} \quad \textrm{喜欢} \quad \textrm{吃} \q

 \subsection{基于树结构的文法}

-\parinterval 基于句法的翻译模型的一个核心问题是要对树结构进行建模，进而完成树之间或者树和串之间的转换。在计算机领域中，所谓树就是由一些节点组成的层次关系的集合。计算机领域的树和自然世界中的树没有任何关系，只是借用了相似的概念，因为这种层次结构很像一棵倒过来的树。在使用树时，经常会把树的层次结构转化为序列结构，称为树结构的{\small\bfnew{序列化}}\index{序列化}或者{\small\bfnew{线性化}}\index{线性化}（Linearization）\index{Linearization}。
+\parinterval 基于句法的翻译模型的一个核心问题是要对树结构进行建模，进而完成树之间或者树和串之间的转换。在计算机领域中，所谓树就是由一些节点组成的层次关系的集合。计算机领域的树和自然世界中的树没有任何关系，只是借用了相似的概念，因为这种层次结构很像一棵倒过来的树。在使用树时，经常会把树的层次结构转化为序列结构，称为树结构的{\small\bfnew{序列化}}\index{序列化或线性化}或者{\small\bfnew{线性化}}（Linearization）\index{Linearization}。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -1494,7 +1494,7 @@ d_1 & = & {d'} \circ {r_5}
 }\end{table}
 %-------------------------------------------

-\parinterval 这里需要注意的是，不论是基于串的解码还是基于树的解码都是使用句法模型的方法，在翻译过程中都会生成翻译推导和树结构。二者的本质区别在于，基于树的解码把句法树作为显性的输入，而基于串的解码把句法树看作是翻译过程中的隐含变量。图\ref{fig:8-40}进一步解释了这个观点。
+\parinterval 这里需要注意的是，不论是基于串的解码还是基于树的解码都是使用句法模型的方法，在翻译过程中都会生成翻译推导和树结构。二者的本质区别在于，基于树的解码把句法树作为显式输入，而基于串的解码把句法树看作是翻译过程中的隐含变量。图\ref{fig:8-40}进一步解释了这个观点。

 %----------------------------------------------
 \begin{figure}[htp]

--- a/Chapter9/Figures/figure-four-layers-of-neural-network.tex
+++ b/Chapter9/Figures/figure-four-layers-of-neural-network.tex
@@ -31,7 +31,7 @@
 \node [anchor=west] (layer01label) at ([xshift=1em]layer01.east) {\footnotesize{第1层}};
 }
 {
-\node [anchor=west] (layer01label2) at (layer01label.east) {\footnotesize{（{隐层}）}};
+\node [anchor=west] (layer01label2) at (layer01label.east) {\footnotesize{（{隐藏层}）}};
 }

 %%% layer 2
@@ -57,7 +57,7 @@

 \node [anchor=west] (layer02label) at ([xshift=5em]layer02.east) {\footnotesize{第2层}};
 {
-\node [anchor=west] (layer02label2) at (layer02label.east) {\footnotesize{（{隐层}）}};
+\node [anchor=west] (layer02label2) at (layer02label.east) {\footnotesize{（{隐藏层}）}};
 }
 }


--- a/Chapter9/Figures/figure-softmax.tex
+++ b/Chapter9/Figures/figure-softmax.tex
@@ -6,7 +6,7 @@
  ytick={0,0.5,1},
  xlabel={\small{$x$}},
  ylabel={\small{Softmax($x$)}},
-  xlabel style={xshift=3.0cm,yshift=1cm},
+  xlabel style={xshift=4.0cm,yshift=1cm},
  axis y line=middle,
  ylabel style={xshift=-2.4cm,yshift=-0.2cm},
  x axis line style={->},

--- a/Chapter9/Figures/figure-weather-forward.tex
+++ b/Chapter9/Figures/figure-weather-forward.tex
@@ -22,7 +22,7 @@
 \node [anchor=west,minimum width=2.0em,minimum height=1.5em] (part5-4) at ([xshift=2.0em,yshift=0.0em]part5-3.east) {\footnotesize {$ b^{[2]}$}};
 \draw[-,thick](part4.south)--([xshift=-0.5em]part5-3.north);
 \draw[-,thick](part3.south)--(part5-4.north);
-\node [anchor=south,minimum width=1.5em,minimum height=1.5em] (part5-3-1) at ([xshift=1.1em,yshift=-0.45em]part5-3.north) {\scriptsize {$1\times 2$}};
+\node [anchor=south,minimum width=1.5em,minimum height=1.5em] (part5-3-1) at ([xshift=1.1em,yshift=-0.45em]part5-3.north) {\scriptsize {$2\times 1$}};
 \node [anchor=south,minimum width=1.5em,minimum height=1.5em] (part5-4-1) at ([xshift=1.1em,yshift=-0.45em]part5-4.north) {\scriptsize {$1\times1$}};
 %%%%%%%%%%%%%%%%%%%%%%%%%%
 \node [anchor=north,minimum width=1.5em,minimum height=1.5em] (part5-2) at ([xshift=-1.2em,yshift=-0.2em]part5.south) {\scriptsize {$1\times 2$}};

--- a/Chapter9/chapter9.tex
+++ b/Chapter9/chapter9.tex
--- a/ChapterPreface/Figures/figure-preface.tex
+++ b/ChapterPreface/Figures/figure-preface.tex
@@ -52,7 +52,7 @@
 \node [secnode,anchor=south west,fill=cyan!20,minimum width=14.0em,align=center] (sec13) at ([yshift=0.5em,xshift=0.5em]part4.south west) {第十三章\hspace{1em} 神经机器翻译模型训练};
 \node [secnode,anchor=west,fill=cyan!20,minimum width=14.0em,align=center] (sec14) at ([xshift=0.6em]sec13.east) {第十四章\hspace{1em} 神经机器翻译模型推断};
 \node [secnode,anchor=south west,fill=green!30,minimum width=9em,minimum height=4.5em,align=center] (sec15) at ([yshift=0.8em]sec13.north west) {第十五章\\ 神经机器翻译 \\ 结构优化};
-\node [secnode,anchor=south west,fill=green!30,minimum width=9em,minimum height=4.5em,align=center] (sec16) at ([xshift=0.8em]sec15.south east) {第十六章\\ 低资源 \\ 神经机器翻译};
+\node [secnode,anchor=south west,fill=green!30,minimum width=9em,minimum height=4.5em,align=center] (sec16) at ([xshift=0.8em]sec15.south east) {第十六章\\ 低资源神经 \\ 机器翻译};
 \node [secnode,anchor=south west,fill=green!30,minimum width=9em,minimum height=4.5em,align=center] (sec17) at ([xshift=0.8em]sec16.south east) {第十七章\\ 多模态、多层次 \\ 机器翻译};
 \node [secnode,anchor=south west,fill=amber!25,minimum width=28.7em,align=center] (sec18) at ([yshift=0.8em]sec15.north west) {第十八章\hspace{1em} 机器翻译应用技术};
 \node [rectangle,draw,dotted,thick,inner sep=0.1em,fill opacity=1] [fit = (sec13) (sec14)] (nmtbasebox) {};

--- a/ChapterPreface/chapterpreface.tex
+++ b/ChapterPreface/chapterpreface.tex
@@ -99,7 +99,7 @@

 \vspace{0.5em}

-其中，第一部分是本书的基础知识部分，包含统计建模、语言分析、机器翻译评价等。在第一章对机器翻译的历史及现状进行介绍之后，第二章通过语言建模任务将统计建模的思想阐述出来，同时这部分内容也会作为后续机器翻译模型及方法的基础。第三章重点介绍机器翻译所涉及的词法和句法分析方法，旨在为后续相关概念的使用进行铺垫，同时进一步展示统计建模思想在相关问题上的应用。第四章相对独立，系统地介绍了机器翻译结果的评价方法，这部分内容也是机器翻译建模及系统设计所需的前置知识。
+其中，第一部分是本书的基础知识部分，包含统计建模、语言分析、机器翻译评价等。在第一章对机器翻译的历史及现状进行介绍之后，第二章通过语言建模任务将统计建模的思想阐述出来，同时这部分内容也会作为后续机器翻译模型及方法的基础。第三章重点介绍机器翻译所涉及的词法和语法分析方法，旨在为后续相关概念的使用进行铺垫，同时进一步展示统计建模思想在相关问题上的应用。第四章相对独立，系统地介绍了机器翻译结果的评价方法，这部分内容也是机器翻译建模及系统设计所需的前置知识。

 本书的第二部分主要介绍统计机器翻译的基本模型。第五章是整个机器翻译建模的基础。第六章进一步对扭曲度和产出率两个概念进行介绍，同时给出相关的翻译模型，这些模型在后续章节的内容中都有涉及。第七章和第八章分别介绍了基于短语和句法的模型。它们都是统计机器翻译的经典模型，其思想也构成了机器翻译成长过程中最精华的部分。