合并分支 'caorunzhe' 到 'master'

Caorunzhe 查看合并请求 !1088

合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求 !1088
37f58a80 · 曹润柘 · a28a2abf · 0f80c20e · 37f58a80 · 37f58a80
Commit 37f58a80 authored May 09, 2021 by 曹润柘
--- a/Chapter1/chapter1.tex
+++ b/Chapter1/chapter1.tex
@@ -461,9 +461,9 @@
 \vspace{0.5em}
 \item 规则系统需要人工书写规则并维护，人工代价较高。统计和神经网络方法仅需要设计特征或者神经网络结构，对人工依赖较少（语言相关的）。
 \vspace{0.5em}
-\item 基于实例、统计和神经网络的方法都需要依赖语料库（数据），其中统计和神经网络方法具有一定的抗噪能力，因此也更适合大规模数据情况下的机器翻译系统研发。
+\item 基于实例、统计和神经网络的方法都需要依赖语料库（数据），其中统计和神经网络方法具有一定的抗噪声能力，因此也更适合具有大规模数据的机器翻译系统的研发。
 \vspace{0.5em}
-\item 基于规则和基于实例的方法在受限场景下有较好的精度，但是在开放领域的翻译上统计和神经网络方法更具优势。
+\item 基于规则和基于实例的方法在受限领域下有较好的精度，但是在通用领域的翻译上统计和神经网络方法更具优势。
 \vspace{0.5em}
 \end{itemize}


--- a/Chapter13/chapter13.tex
+++ b/Chapter13/chapter13.tex
@@ -651,7 +651,7 @@ R(\mathbi{w}) & = & ({\Vert{\mathbi{w}}\Vert}_2)^2 \\

 \parinterval 理想的机器翻译系统应该是品质好、速度快、存储占用少。不过，为了追求更好的翻译品质，往往需要更大的模型，但是相应的翻译速度会降低，模型的体积会变大。在很多场景下，这样的模型无法直接使用。比如，Transformer-Big等“大”模型通常在专用服务器上运行，在手机等受限环境下仍很难应用。

-\parinterval 但是，直接训练“小”模型的效果往往并不理想，其翻译品质与“大”模型相比仍有比较明显的差距。既然直接训练小模型无法达到很好的效果，一种有趣的想法是把“大”模型的知识传递给“小”模型。这类似于，教小孩子学习数学，是请一个权威数学家（即数据中的标准答案）进行教学，而是会请一个小学数学教师（即“大”模型）来教小孩子。这就是知识蒸馏的基本思想。
+\parinterval 但是，直接训练“小”模型的效果往往并不理想，其翻译品质与“大”模型相比仍有比较明显的差距。既然直接训练小模型无法达到很好的效果，一种有趣的想法是把“大”模型的知识传递给“小”模型。这类似于，教小孩子学习数学，不是请一个权威数学家（即数据中的标准答案）进行教学，而是会请一个小学数学教师（即“大”模型）来教小孩子。这就是知识蒸馏的基本思想。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION

--- a/Chapter2/chapter2.tex
+++ b/Chapter2/chapter2.tex
@@ -258,7 +258,7 @@ F(x)=\int_{-\infty}^x f(x)\textrm{d}x
 \label{eq:2-14}
 \end{eqnarray}

-\parinterval 一个分布的信息熵也就是从该分布中得到的一个事件的期望信息量。比如，$a$、$b$、$c$、$d$四支球队，四支队伍夺冠的概率分别是$\funp{P}_1$、$\funp{P}_2$、$\funp{P}_3$、$\funp{P}_4$，某个人对比赛不感兴趣但是又想知道哪只球队夺冠，使用2次二分法就能确定哪支球队夺冠了。但假设这四只球队中$c$的实力可以碾压其他球队，那么猜1次就可以确定。所以对于前面这种情况，哪只球队夺冠的信息量较高，信息熵也相对较高；对于后面这种情况，因为结果是容易猜到的，信息量和信息熵也就相对较低。因此可以得知：分布越尖锐熵越低，分布越均匀熵越高。
+\parinterval 一个分布的信息熵也就是从该分布中得到的一个事件的期望信息量。比如，$a$、$b$、$c$、$d$四支球队，四支队伍夺冠的概率分别是$\funp{P}_1$、$\funp{P}_2$、$\funp{P}_3$、$\funp{P}_4$，假设四只队伍的实力未知或者实力相当，那么人们就很难对比赛结果做出预测。但是，如果这四只球队中某一支球队的实力可以碾压其他球队，那么人们对比赛结果的预测就会很明确。所以对于前面这种情况，预测球队夺冠的问题的信息量较高，信息熵也相对较高；对于后面这种情况，因为结果是容易猜到的，信息量和信息熵也就相对较低。因此可以得知：分布越尖锐熵越低，分布越均匀熵越高。

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION