合并分支 'shanweiqiao' 到 'caorunzhe'

13章文字修改查看合并请求 !1087

合并分支 'shanweiqiao' 到 'caorunzhe'
13章文字修改查看合并请求 !1087
0f80c20e · 单韦乔 · ee39e876 · dc656b46 · 0f80c20e
Commit 0f80c20e authored Apr 30, 2021 by 单韦乔
--- a/Chapter13/chapter13.tex
+++ b/Chapter13/chapter13.tex
@@ -651,7 +651,7 @@ R(\mathbi{w}) & = & ({\Vert{\mathbi{w}}\Vert}_2)^2 \\

 \parinterval 理想的机器翻译系统应该是品质好、速度快、存储占用少。不过，为了追求更好的翻译品质，往往需要更大的模型，但是相应的翻译速度会降低，模型的体积会变大。在很多场景下，这样的模型无法直接使用。比如，Transformer-Big等“大”模型通常在专用服务器上运行，在手机等受限环境下仍很难应用。

-\parinterval 但是，直接训练“小”模型的效果往往并不理想，其翻译品质与“大”模型相比仍有比较明显的差距。既然直接训练小模型无法达到很好的效果，一种有趣的想法是把“大”模型的知识传递给“小”模型。这类似于，教小孩子学习数学，是请一个权威数学家（即数据中的标准答案）进行教学，而是会请一个小学数学教师（即“大”模型）来教小孩子。这就是知识蒸馏的基本思想。
+\parinterval 但是，直接训练“小”模型的效果往往并不理想，其翻译品质与“大”模型相比仍有比较明显的差距。既然直接训练小模型无法达到很好的效果，一种有趣的想法是把“大”模型的知识传递给“小”模型。这类似于，教小孩子学习数学，不是请一个权威数学家（即数据中的标准答案）进行教学，而是会请一个小学数学教师（即“大”模型）来教小孩子。这就是知识蒸馏的基本思想。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION