修改第四章，第七章textbf为matbf

fe17fa55 · 单韦乔 · 38c4e680 · fe17fa55 · fe17fa55
Commit fe17fa55 authored May 12, 2020 by 单韦乔
--- a/Book/Chapter4/chapter4.tex
+++ b/Book/Chapter4/chapter4.tex
--- a/Book/Chapter7/Chapter7.tex
+++ b/Book/Chapter7/Chapter7.tex
@@ -1678,23 +1678,23 @@ p_l=\frac{l}{2L}\cdot \varphi

 \begin{itemize}
 \vspace{0.5em}
-\item {\small\bfnew{基于单词的知识精炼}}\index{基于单词的知识精炼}（Word-level Knowledge Distillation）\index{Word-level Knowledge Distillation}。该方法的目标是使得学生模型的预测（分布）尽可能逼近教师模型的预测（分布）。令$\textbf{x}=\{x_1,\ldots,x_m\}$和$\textbf{y}=\{y_1,\ldots,y_n\}$分别表示输入和输出（数据中的答案）序列，$V$表示目标语言词表，$n$表示译文序列的长度，则基于单词的知识精炼的损失函数被定义为：
+\item {\small\bfnew{基于单词的知识精炼}}\index{基于单词的知识精炼}（Word-level Knowledge Distillation）\index{Word-level Knowledge Distillation}。该方法的目标是使得学生模型的预测（分布）尽可能逼近教师模型的预测（分布）。令$\mathbf{x}=\{x_1,\ldots,x_m\}$和$\mathbf{y}=\{y_1,\ldots,y_n\}$分别表示输入和输出（数据中的答案）序列，$V$表示目标语言词表，$n$表示译文序列的长度，则基于单词的知识精炼的损失函数被定义为：
 \begin{eqnarray}
-L_{\textrm{word}} = - \sum_{j=1}^n \sum_{y_j \in V} \textrm{P}_{\textrm{t}} (y_{\textrm{j}}|\textbf{x})\textrm{logP}_{\textrm{s}}(y_j|\textbf{x})
+L_{\textrm{word}} = - \sum_{j=1}^n \sum_{y_j \in V} \textrm{P}_{\textrm{t}} (y_{\textrm{j}}|\mathbf{x})\textrm{logP}_{\textrm{s}}(y_j|\mathbf{x})
 \label{eq:7-28}
 \end{eqnarray}

-这里， $\textrm{P}_{\textrm{s}}(y_j|\textbf{x})$和$\textrm{P}_{\textrm{t}} (y_i|\textbf{x})$分别表示学生模型和教师模型在$j$位置的输出的概率。公式\ref{eq:7-28}实际上在最小化教师模型和学生模型输出分布之间的交叉熵。
+这里， $\textrm{P}_{\textrm{s}}(y_j|\mathbf{x})$和$\textrm{P}_{\textrm{t}} (y_i|\mathbf{x})$分别表示学生模型和教师模型在$j$位置的输出的概率。公式\ref{eq:7-28}实际上在最小化教师模型和学生模型输出分布之间的交叉熵。
 \vspace{0.5em}
 \item {\small\bfnew{基于序列的知识精炼}}\index{基于序列的知识精炼}（Sequence-level Knowledge Distillation）\index{Sequence-level Knowledge Distillation}。除了单词一级的拟合，基于序列的知识精炼希望在序列整体上进行拟合。其损失函数被定义为：
 \begin{eqnarray}
-L_{\textrm{seq}} = - \sum_{\textrm{y}}\textrm{P}_{\textrm{t}} (\textbf{y}|\textbf{x})\textrm{logP}_{\textrm{s}}(\textbf{y}|\textbf{x})
+L_{\textrm{seq}} = - \sum_{\textrm{y}}\textrm{P}_{\textrm{t}} (\mathbf{y}|\mathbf{x})\textrm{logP}_{\textrm{s}}(\mathbf{y}|\mathbf{x})
 \label{eq:7-29}
 \end{eqnarray}

-公式\ref{eq:7-29}要求遍历所有可能的译文序列，并进行求和，当词表大小为$V$，序列长度为$L$时则可能的序列的数量有$V$的$L$次幂，这么多的译文将消耗大量的计算资源。因此，会考虑用教师模型的真实输出序列$\hat{\textbf{y}}$来代替整个空间，即假设$\textrm{P}_{\textrm{t}}(\hat{\textbf{y}}|\textbf{x})=1$。于是，目标函数变为：
+公式\ref{eq:7-29}要求遍历所有可能的译文序列，并进行求和，当词表大小为$V$，序列长度为$L$时则可能的序列的数量有$V$的$L$次幂，这么多的译文将消耗大量的计算资源。因此，会考虑用教师模型的真实输出序列$\hat{\mathbf{y}}$来代替整个空间，即假设$\textrm{P}_{\textrm{t}}(\hat{\mathbf{y}}|\mathbf{x})=1$。于是，目标函数变为：
 \begin{eqnarray}
-L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\textbf{y}} | \textbf{x})
+L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\mathbf{y}} | \mathbf{x})
 \label{eq:7-30}
 \end{eqnarray}