kd文字修改

130da04f · 单韦乔 · f5d2ac54 · 130da04f
Commit 130da04f authored Jul 09, 2021 by 单韦乔
--- a/Chapter13/chapter13.tex
+++ b/Chapter13/chapter13.tex
@@ -706,7 +706,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\seq{y}} | \seq{x})
 \label{eq:13-24}
 \end{eqnarray}

-这样的损失函数最直接的好处是，知识蒸馏的流程会非常简单。因为只需要利用教师模型将训练数据（源语言）翻译一遍，之后把它的输出替换为训练数据的目标语言部分。之后，利用新得到的双语数据训练学生模型即可。图\ref{fig:13-12}对比了词级和序列级知识蒸馏方法。
+这样的损失函数最直接的好处是，知识蒸馏的流程会非常简单。因为只需要利用教师模型将训练数据（源语言）翻译一遍，之后把它的输出作为训练数据的目标语言部分构造出新的双语数据。之后，利用新得到的双语数据训练学生模型即可。图\ref{fig:13-12}对比了词级和序列级知识蒸馏方法。
 \vspace{0.5em}
 \end{itemize}