更新 Chapter6.tex

9c18d503 · 曹润柘 · 23f04d07 · 9c18d503
Commit 9c18d503 authored Apr 05, 2020 by 曹润柘
--- a/Book/Chapter6/Chapter6.tex
+++ b/Book/Chapter6/Chapter6.tex
@@ -15,7 +15,7 @@
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \chapter{神经机器翻译模型}

-\parinterval \textbf{神经机器翻译}（Neural Machine Translation）是机器翻译的前沿方法。近几年，随着深度学习技术的发展和在各领域中的深入应用，基于端到端表示学习的方法正在改变着我们处理自然语言的方式，神经机器翻译在这种趋势下应运而生。一方面，神经机器翻译仍然延续着统计建模和基于数据驱动的思想，因此在基本问题的定义上与前人的研究是一致的；另一方面，神经机器翻译脱离了统计机器翻译中对隐含翻译结构的假设，同时使用分布式表示来对文字序列进行建模，这使得它可以从一个全新的视角看待翻译问题。现在，神经机器翻译已经成为了机器翻译研究及应用的热点，译文质量得到了巨大的提升。在本章中，我们将对神经机器翻译的基础模型和方法进行介绍。
+\parinterval {\small\sffamily\bfseries{神经机器翻译}}（Neural Machine Translation）是机器翻译的前沿方法。近几年，随着深度学习技术的发展和在各领域中的深入应用，基于端到端表示学习的方法正在改变着我们处理自然语言的方式，神经机器翻译在这种趋势下应运而生。一方面，神经机器翻译仍然延续着统计建模和基于数据驱动的思想，因此在基本问题的定义上与前人的研究是一致的；另一方面，神经机器翻译脱离了统计机器翻译中对隐含翻译结构的假设，同时使用分布式表示来对文字序列进行建模，这使得它可以从一个全新的视角看待翻译问题。现在，神经机器翻译已经成为了机器翻译研究及应用的热点，译文质量得到了巨大的提升。在本章中，我们将对神经机器翻译的基础模型和方法进行介绍。
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{神经机器翻译的发展简史}\index{Chapter6.1}%Index的作用，目前不清晰

@@ -428,11 +428,11 @@ NMT                     & $ 21.7^{\ast}$          & $18.7^{\ast}$           & -1
 \parinterval 求解$\textrm{P}(y_j | \mathbf{y}_{<j},\mathbf{x})$有三个关键问题（图\ref{fig:6-10}）：

 \begin{itemize}
-\item	如何对$\mathbf{x}$和$\mathbf{y}_{<j }$进行分布式表示，即\textbf{词嵌入}（Word Embedding）。首先，将由one-hot向量表示的源语言单词，即由0,1表示的离散化向量表示，转化为实数向量。我们把这个过程记为$\textrm{e}_x (\cdot)$。类似的，可以把目标语序列$\mathbf{y}_{<j }$中的每个单词用同样的方式进行表示，记为$\textrm{e}_y (\cdot)$。
+\item	如何对$\mathbf{x}$和$\mathbf{y}_{<j }$进行分布式表示，即{\small\sffamily\bfseries{词嵌入}}（Word Embedding）。首先，将由one-hot向量表示的源语言单词，即由0,1表示的离散化向量表示，转化为实数向量。我们把这个过程记为$\textrm{e}_x (\cdot)$。类似的，可以把目标语序列$\mathbf{y}_{<j }$中的每个单词用同样的方式进行表示，记为$\textrm{e}_y (\cdot)$。

-\item	如何在词嵌入的基础上获取整个序列的表示，即句子的\textbf{表示学习}（Representation Learning）。我们可以把词嵌入的序列作为循环神经网络的输入，循环神经网络最后一个时刻的输出向量便是整个句子的表示结果。如图\ref{fig:6-10}中，编码器最后一个循环单元的输出$\mathbf{h}_m$被看作是一种包含了源语句子信息的表示结果，记为$\mathbf{C}$。
+\item	如何在词嵌入的基础上获取整个序列的表示，即句子的{\small\sffamily\bfseries{表示学习}}（Representation Learning）。我们可以把词嵌入的序列作为循环神经网络的输入，循环神经网络最后一个时刻的输出向量便是整个句子的表示结果。如图\ref{fig:6-10}中，编码器最后一个循环单元的输出$\mathbf{h}_m$被看作是一种包含了源语句子信息的表示结果，记为$\mathbf{C}$。

-\item	如何得到每个目标语单词的概率，即译文单词\textbf{生成}（Generation）。与神经语言模型一样，我们可以用一个Softmax输出层来获取当前时刻所有单词的分布，即利用Softmax函数计算目标语词表中每个单词的概率。令目标语序列$j$时刻的循环神经网络的输出向量（或状态）为$\mathbf{s}_j$。根据循环神经网络的性质，$ y_j$的生成只依赖前一个状态$\mathbf{s}_{j-1}$和当前时刻的输入（即词嵌入$\textrm{e}_y (y_{j-1})$）。同时考虑源语言信息$\mathbf{C}$，$\textrm{P}(y_j  | \mathbf{y}_{<j},\mathbf{x})$可以被重新定义为：
+\item	如何得到每个目标语单词的概率，即译文单词{\small\sffamily\bfseries{生成}}（Generation）。与神经语言模型一样，我们可以用一个Softmax输出层来获取当前时刻所有单词的分布，即利用Softmax函数计算目标语词表中每个单词的概率。令目标语序列$j$时刻的循环神经网络的输出向量（或状态）为$\mathbf{s}_j$。根据循环神经网络的性质，$ y_j$的生成只依赖前一个状态$\mathbf{s}_{j-1}$和当前时刻的输入（即词嵌入$\textrm{e}_y (y_{j-1})$）。同时考虑源语言信息$\mathbf{C}$，$\textrm{P}(y_j  | \mathbf{y}_{<j},\mathbf{x})$可以被重新定义为：
 \begin{eqnarray}
 \textrm{P} (y_j | \mathbf{y}_{<j},\mathbf{x}) \equiv \textrm{P} ( {y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}} )
 \label{eqC6.4}
@@ -503,11 +503,11 @@ $\textrm{P}({y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}})$由Softmax实现，Sof

 \parinterval 输出层的构造很简单，对于输入的向量$\mathbf{s}_j$经过一个线性变换之后再经过Softmax\\函数，即可得到一个$V$上的分布，具体描述如下：
 \begin{eqnarray}
-\mathbf{o}_j=\textrm{Softmax}( \mathbf{s}_j \mathbf{W_o})
+\mathbf{o}_j=\textrm{Softmax}( \mathbf{s}_j \mathbf{W}_o)
 \label{eqC6.7}
 \end{eqnarray}

-\noindent 其中，$\mathbf{W_o}$是线性变换的参数矩阵，矩阵的大小为$d \times |V|$，也就是$d$维的向量会变为$|V|$维的向量；$\mathbf{o}_j$表示输出的结果向量，$\mathbf{o}_j$的每一维$\mathbf{o}_{jk}$表示，在时刻$j$词表$V$中一个第$k$个单词出现的概率。这里我们把$\mathbf{o}_j(y_j)$记作目标语单词$y_j$的生成概率，显然有
+\noindent 其中，$\mathbf{W_o} $是线性变换的参数矩阵，矩阵的大小为$d \times |V|$，也就是$d$维的向量会变为$|V|$维的向量；$\mathbf{o}_j$表示输出的结果向量，$\mathbf{o}_j$的每一维$\mathbf{o}_{jk}$表示，在时刻$j$词表$V$中一个第$k$个单词出现的概率。这里我们把$\mathbf{o}_j(y_j)$记作目标语单词$y_j$的生成概率，显然有
 \begin{eqnarray}
 \textrm{P} (y_j| \mathbf{y}_{<j},\mathbf{x})=\mathbf{o}_j(y_j)
 \label{eqC6.8}
@@ -589,7 +589,7 @@ $\textrm{P}({y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}})$由Softmax实现，Sof
 \parinterval LSTM的结构主要分为三个部分：

 \begin{itemize}
-\item \textbf{遗忘}。顾名思义，遗忘的目的是忘记一些历史，在LSTM中通过遗忘门实现，其结构如图\ref{fig:6-14}（a）所示。$\mathbf{x}_{t}$表示时刻$t$的输入向量，$\mathbf{h}_{t-1}$是时刻$t-1$的循环单元的输出，$\mathbf{x}_{t}$和$\mathbf{h}_{t-1}$都作为$t$时刻循环单元的输入。$\sigma$将对$\mathbf{x}_{t}$和$\mathbf{h}_{t-1}$进行筛选，以决定遗忘的信息，其计算公式如下：
+\item {\small\sffamily\bfseries{遗忘}}。顾名思义，遗忘的目的是忘记一些历史，在LSTM中通过遗忘门实现，其结构如图\ref{fig:6-14}（a）所示。$\mathbf{x}_{t}$表示时刻$t$的输入向量，$\mathbf{h}_{t-1}$是时刻$t-1$的循环单元的输出，$\mathbf{x}_{t}$和$\mathbf{h}_{t-1}$都作为$t$时刻循环单元的输入。$\sigma$将对$\mathbf{x}_{t}$和$\mathbf{h}_{t-1}$进行筛选，以决定遗忘的信息，其计算公式如下：
 \begin{eqnarray}
 \mathbf{f}_t=\sigma(\mathbf{W}_f [\mathbf{h}_{t-1},\mathbf{x}_{t}] + \mathbf{b}_f )
 \label{eqC6.12}
@@ -597,7 +597,7 @@ $\textrm{P}({y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}})$由Softmax实现，Sof

 这里，$\mathbf{W}_f$是权值，$\mathbf{b}_f$是偏置，$[\mathbf{h}_{t-1},\mathbf{x}_{t}]$表示两个向量的拼接。该公式可以解释为，对$[\mathbf{h}_{t-1},\mathbf{x}_{t}]$进行变换，并得到一个 的实数向量$\mathbf{f}_t$。$\mathbf{f}_t$的每一维都可以被理解为一个``门''，它决定可以有多少信息被留下（或遗忘）。

-\item \textbf{记忆更新}。首先，要生成当前时刻需要新增加的信息，该部分由输入门完成，其结构如图\ref{fig:6-14}（b）红色线部分，图中``$\bigotimes$''表示进行点乘操作。输入门的计算分为两部分，首先利用$\sigma$决定门控参数$\mathbf{i}_t$，然后通过Tanh函数得到新的信息$\hat{\mathbf{c}}_t$，具体公式如下：
+\item {\small\sffamily\bfseries{记忆更新}}。首先，要生成当前时刻需要新增加的信息，该部分由输入门完成，其结构如图\ref{fig:6-14}（b）红色线部分，图中``$\bigotimes$''表示进行点乘操作。输入门的计算分为两部分，首先利用$\sigma$决定门控参数$\mathbf{i}_t$，然后通过Tanh函数得到新的信息$\hat{\mathbf{c}}_t$，具体公式如下：
 \begin{eqnarray}
 \mathbf{i}_t = \sigma (\mathbf{W}_i [\mathbf{h}_{t-1},\mathbf{x}_{t}] + \mathbf{b}_i )
 \label{eqC6.13}
@@ -614,7 +614,7 @@ $\textrm{P}({y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}})$由Softmax实现，Sof
 \label{eqC6.15}
 \end{eqnarray}

-\item \textbf{输出}。该部分使用输出门计算最终的输出信息$\mathbf{h}_t$，其结构如图\ref{fig:6-14}（d）红色线部分所示。在输出门中，首先将$\mathbf{x}_t$和$\mathbf{h}_{t-1}$通过$\sigma$函数变换得到$\mathbf{o}_t$。其次，将上一步得到的新记忆信息$\mathbf{c}_t$通过Tanh函数进行变换，得到值范围在[-1，1]的向量。最后将这两部分进行点乘，具体公式如下：
+\item {\small\sffamily\bfseries{输出}}。该部分使用输出门计算最终的输出信息$\mathbf{h}_t$，其结构如图\ref{fig:6-14}（d）红色线部分所示。在输出门中，首先将$\mathbf{x}_t$和$\mathbf{h}_{t-1}$通过$\sigma$函数变换得到$\mathbf{o}_t$。其次，将上一步得到的新记忆信息$\mathbf{c}_t$通过Tanh函数进行变换，得到值范围在[-1，1]的向量。最后将这两部分进行点乘，具体公式如下：
 \begin{eqnarray}
 \mathbf{o}_t = \sigma (\mathbf{W}_o [\mathbf{h}_{t-1},\mathbf{x}_{t}] + \mathbf{b}_o )
 \label{eqC6.16}
@@ -787,7 +787,7 @@ $\textrm{P}({y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}})$由Softmax实现，Sof
 \label{eqC6.22}
 \end{eqnarray}

-\noindent 其中，$\alpha_{i,j}$是\textbf{注意力权重}，它表示目标语第$j$个位置与源语第$i$个位置之间的相关性大小。这里，我们将每个时间步编码器的输出$\mathbf{h}_i$看作源语言位置$i$的表示结果。进行翻译时，解码端可以根据当前的位置$j$，通过控制不同$\mathbf{h}_i$的权重得到$\mathbf{C}_j$，使得对目标语位置$j$贡献大的$\mathbf{h}_i$对$\mathbf{C}_j$的影响增大。也就是说，$\mathbf{C}_j$实际上就是\{${\mathbf{h}_1, \mathbf{h}_2,…,\mathbf{h}_m}$\}的一种组合，只不过不同的$\mathbf{h}_i$会根据对目标端的贡献给予不同的权重。图\ref{fig:6-22}展示了上下文向量$\mathbf{C}_j$的计算过程。
+\noindent 其中，$\alpha_{i,j}$是{\small\sffamily\bfseries{注意力权重}}，它表示目标语第$j$个位置与源语第$i$个位置之间的相关性大小。这里，我们将每个时间步编码器的输出$\mathbf{h}_i$看作源语言位置$i$的表示结果。进行翻译时，解码端可以根据当前的位置$j$，通过控制不同$\mathbf{h}_i$的权重得到$\mathbf{C}_j$，使得对目标语位置$j$贡献大的$\mathbf{h}_i$对$\mathbf{C}_j$的影响增大。也就是说，$\mathbf{C}_j$实际上就是\{${\mathbf{h}_1, \mathbf{h}_2,…,\mathbf{h}_m}$\}的一种组合，只不过不同的$\mathbf{h}_i$会根据对目标端的贡献给予不同的权重。图\ref{fig:6-22}展示了上下文向量$\mathbf{C}_j$的计算过程。

 %----------------------------------------------
 % 图3.10
@@ -810,11 +810,11 @@ $\textrm{P}({y_j | \mathbf{s}_{j-1} ,y_{j-1},\mathbf{C}})$由Softmax实现，Sof

 $\textrm{a}(\cdot)$可以被看作是目标语表示和源语言表示的一种``统一化''，即把源语和目标语表示映射在同一个语义空间，进而语义相近的内容有更大的相似性。该函数有多种计算方式，比如，向量乘、向量夹角、单词神经网络等，如下：
 \begin{eqnarray}
-\textrm{a} (\textbf{s},\textbf{h}) =  \left\{ \begin{array}{ll}
-    \textbf{s} \textbf{h}^{\textrm{T}} & \textrm{向量乘} \\
-    \textrm{cos}(\textbf{s}, \textbf{h}) & \textrm{向量夹角} \\
-    \textbf{s} \textbf{W} \textbf{h}^{\textrm{T}} & \textrm{线性模型} \\
-    \textrm{TanH}(\textbf{W}[\textbf{s},\textbf{h}])\textbf{v}^{\textrm{T}} & \textrm{拼接}[\textbf{s},\textbf{h}]+\textrm{单层网络}
+\textrm{a} (\mathbf{s},\mathbf{h}) =  \left\{ \begin{array}{ll}
+    \mathbf{s} \mathbf{h}^{\textrm{T}} & \textrm{向量乘} \\
+    \textrm{cos}(\mathbf{s}, \mathbf{h}) & \textrm{向量夹角} \\
+    \mathbf{s} \mathbf{W} \mathbf{h}^{\textrm{T}} & \textrm{线性模型} \\
+    \textrm{TanH}(\mathbf{W}[\mathbf{s},\mathbf{h}])\mathbf{v}^{\textrm{T}} & \textrm{拼接}[\mathbf{s},\mathbf{h}]+\textrm{单层网络}
    \end{array}
    \right.
 \label{eqC6.24}
@@ -1249,7 +1249,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{
 \caption{ RNN、CNN、Transformer的对比\cite{NIPS2017_7181}  }
 \label{tab:rnn vs cnn vs trf}
 \begin{tabular}{l | l l l}
-%\rule{0pt}{20pt} \textbf{Layer Type} &\parbox{5em}{\textbf{Complexity per Layer} }&\parbox{6em}{\textbf{Sequential Operations} } &\parbox{6em}{\textbf{Maximum Path Length}}\\ \hline
+%\rule{0pt}{20pt} {\small\sffamily\bfseries{Layer Type}} &\parbox{5em}{\small\sffamily\bfseries{Complexity per Layer} }&\parbox{6em}{\small\sffamily\bfseries{Sequential Operations} } &\parbox{6em}{\small\sffamily\bfseries{Maximum Path Length}}\\ \hline
 \rule{0pt}{20pt} Layer Type & \begin{tabular}[l]{@{}l@{}}Complexity\\ per Layer\end{tabular} & \begin{tabular}[l]{@{}l@{}}Sequential\\ Operations\end{tabular} & \begin{tabular}[l]{@{}l@{}}Maximum\\ Path Length\end{tabular} \\ \hline
 \rule{0pt}{13pt}Self-Attention &$O(n^2\cdot d)$	&$O(1)$	&$O(1)$       \\
 \rule{0pt}{13pt}Recurrent &$O(n \cdot d^2)$		&$O(n)$	&$O(n)$ 	\\
@@ -1274,7 +1274,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{
 \multicolumn{1}{l|}{GNMT+RL}             & 24.6            & 39.92           & 1.4$\times 10^{20}$                   \\
 \multicolumn{1}{l|}{ConvS2S}             & 25.16           & 40.46           & 1.5$\times 10^{20}$                   \\
 \multicolumn{1}{l|}{MoE}                 & 26.03           & 40.56           & 1.2$\times 10^{20}$                   \\
-\multicolumn{1}{l|}{Transformer(Big)}    & \textbf{28.4}   & \textbf{41.8}   & 2.3$\times 10^{19}$                   \\
+\multicolumn{1}{l|}{Transformer(Big)}    & {\small\sffamily\bfseries{28.4}}   & {\small\sffamily\bfseries{41.8}}   & 2.3$\times 10^{19}$                   \\
 %\multicolumn{4}{l}{Transformer versus previous state-of-the-art models}
 \end{tabular}
 \end{table}
@@ -1296,7 +1296,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{
 \end{figure}
 %----------------------------------------------

-\parinterval 那么能否摆脱这种顺序传递信息的方式，直接对不同位置单词之间的关系进行建模，即将信息传递的距离拉近为1？\textbf{自注意力机制}（Self-Attention）的提出便有效解决了这个问题\cite{DBLP:journals/corr/LinFSYXZB17}。图\ref{fig:6-35}给出了自注意力机制对序列进行建模的示例。对于单词$w_m$，自注意力机制直接建立它与前$m-1$个单词之间的关系。也就是说，$w_m$与序列中所有其它单词的距离都是1。这种方式很好的解决了长距离依赖问题，同时由于单词之间的联系都是相互独立的，因此也大大提高了模型的并行度。
+\parinterval 那么能否摆脱这种顺序传递信息的方式，直接对不同位置单词之间的关系进行建模，即将信息传递的距离拉近为1？{\small\sffamily\bfseries{自注意力机制}}（Self-Attention）的提出便有效解决了这个问题\cite{DBLP:journals/corr/LinFSYXZB17}。图\ref{fig:6-35}给出了自注意力机制对序列进行建模的示例。对于单词$w_m$，自注意力机制直接建立它与前$m-1$个单词之间的关系。也就是说，$w_m$与序列中所有其它单词的距离都是1。这种方式很好的解决了长距离依赖问题，同时由于单词之间的联系都是相互独立的，因此也大大提高了模型的并行度。

 %----------------------------------------------
 % 图3.10
@@ -1332,7 +1332,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{

 \parinterval 同理，也可以用同样的方法处理这个句子中的其它单词。可以看出，在注意力机制中，我们并不是使用类似于循环神经网络的记忆能力去访问历史信息。序列中所有单词之间的信息都是通过同一种操作（$\mathrm{query}$和$\mathrm{key}$的相关度）进行处理。这样，表示结果$\tilde{\mathbf{h}} (\textrm{``你''})$在包含``你''这个单词的信息的同时，也包含了序列中其它词的信息。也就是，序列中每一个位置的表示结果中，都包含了其它位置的信息。从这个角度说，$\tilde{\mathbf{h}} (\textrm{``你''})$已经不再是单词''你''自身的表示结果，而是一种在单词``你''的位置上的全局信息的表示。

-\parinterval 通常，也把生成\{ $\tilde{\mathbf{h}}(\mathbf{w}_i)$ \}的过程称为\textbf{特征提取}，而实现这个过程的模型被称为特征提取器。循环神经网络、自注意力模型都是典型的特征提取器。特征提取是神经机器翻译系统的关键步骤，在随后的内容中可以看到自注意力模型是一个非常适合机器翻译任务的特征提取器。
+\parinterval 通常，也把生成\{ $\tilde{\mathbf{h}}(\mathbf{w}_i)$ \}的过程称为{\small\sffamily\bfseries{特征提取}}，而实现这个过程的模型被称为特征提取器。循环神经网络、自注意力模型都是典型的特征提取器。特征提取是神经机器翻译系统的关键步骤，在随后的内容中可以看到自注意力模型是一个非常适合机器翻译任务的特征提取器。

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsection{Transformer架构}\index{Chapter6.4.2}
@@ -1340,18 +1340,18 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{
 \parinterval 图\ref{fig:6-38}展示了经典的Transformer结构。解码器由若干层组成（绿色虚线框就代表一层）。每一层（layer）的输入都是一个向量序列，输出是同样大小的向量序列，而Transformer层的作用是对输入进行进一步的抽象，得到新的表示结果。不过这里的层并不是指单一的神经网络结构，它里面由若干不同的模块组成，包括：

 \begin{itemize}
-\item \textbf{自注意力子层}（self-attention sub-layer）：使用自注意力机制对输入的序列进行新的表示
+\item {\small\sffamily\bfseries{自注意力子层}}（self-attention sub-layer）：使用自注意力机制对输入的序列进行新的表示

-\item \textbf{前馈神经网络子层}（feed forward sub-layer）：使用全连接的前馈神经网络对输入向量序列进行进一步变换
+\item {\small\sffamily\bfseries{前馈神经网络子层}}（feed forward sub-layer）：使用全连接的前馈神经网络对输入向量序列进行进一步变换

-\item \textbf{残差连接}（residual connection，标记为``Add''）：对于自注意力子层和前馈神经网络子层，都有一个从输入直接到输出的额外连接，也就是一个跨子层的直连。残差连接可以使深层网络的信息传递更为有效。
+\item {\small\sffamily\bfseries{残差连接}}（residual connection，标记为``Add''）：对于自注意力子层和前馈神经网络子层，都有一个从输入直接到输出的额外连接，也就是一个跨子层的直连。残差连接可以使深层网络的信息传递更为有效。

-\item \textbf{层正则化}（layer normalization）：自注意力子层和前馈神经网络子层进行最终输出之前，会对输出的向量进行层正则化，规范结果向量取值范围，这样易于后面进一步的处理。
+\item {\small\sffamily\bfseries{层正则化}}（layer normalization）：自注意力子层和前馈神经网络子层进行最终输出之前，会对输出的向量进行层正则化，规范结果向量取值范围，这样易于后面进一步的处理。
 \end{itemize}

 \parinterval 以上操作就构成了Transformer的一层，各个模块执行的顺序可以简单描述为：Self-Attention -> Residual Connection -> Layer Normalization -> Feed Forward Network -> Residual Connection -> Layer Normalization。编码器可以包含多个这样的层，比如，我们可以构建一个六层编码器，每层都只执行上面的操作。最上层的结果作为整个编码的结果，会被传入解码器。

-\parinterval 解码器的结构与编码器十分类似。它也是由若干层组成，每一层包含编码器中的所有结构，即：自注意力子层、前馈神经网络子层、残差连接和层正则化模块。此外，为了捕捉源语言的信息，解码器又引入了一个额外的\textbf{编码-解码注意力子层}（encoder-decoder attention sub-layer）。这个新的子层，可以帮助模型使用源语言句子的表示信息生成目标语不同位置的表示。编码-解码注意力子层仍然基于自注意力机制，因此它和自注意力子层的结构是相同的，只是$\mathrm{query}$、$\mathrm{key}$、$\mathrm{value}$的定义不同。比如，在解码端，自注意力子层的$\mathrm{query}$、$\mathrm{key}$、$\mathrm{value}$是相同的，它们都等于解码端每个位置的表示。而在编码-解码注意力子层中，$\mathrm{query}$是解码端每个位置的表示，而$\mathrm{key}$和$\mathrm{value}$是相同的，等于编码端每个位置的表示。图\ref{fig:6-37}给出了这两种不同注意力子层输入的区别。
+\parinterval 解码器的结构与编码器十分类似。它也是由若干层组成，每一层包含编码器中的所有结构，即：自注意力子层、前馈神经网络子层、残差连接和层正则化模块。此外，为了捕捉源语言的信息，解码器又引入了一个额外的{\small\sffamily\bfseries{编码-解码注意力子层}}（encoder-decoder attention sub-layer）。这个新的子层，可以帮助模型使用源语言句子的表示信息生成目标语不同位置的表示。编码-解码注意力子层仍然基于自注意力机制，因此它和自注意力子层的结构是相同的，只是$\mathrm{query}$、$\mathrm{key}$、$\mathrm{value}$的定义不同。比如，在解码端，自注意力子层的$\mathrm{query}$、$\mathrm{key}$、$\mathrm{value}$是相同的，它们都等于解码端每个位置的表示。而在编码-解码注意力子层中，$\mathrm{query}$是解码端每个位置的表示，而$\mathrm{key}$和$\mathrm{value}$是相同的，等于编码端每个位置的表示。图\ref{fig:6-37}给出了这两种不同注意力子层输入的区别。

 %----------------------------------------------
 % 图3.30
@@ -1520,7 +1520,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{
 \end{itemize}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsection{多头注意力}\index{Chapter6.4.6}
-\parinterval Transformer中使用的另一项重要技术是\textbf{多头注意力机制}（Multi-head attention）。``多头''可以理解成将原来的$\mathbf{Q}$、$\mathbf{K}$、$\mathbf{V}$按照隐层维度平均切分成多份。假设切分$h$份，那么最终我们会得到$\mathbf{Q} = \{ \mathbf{q}_1, \mathbf{q}_2,...,\mathbf{q}_h \}$，$\mathbf{K}=\{ \mathbf{k}_1,\mathbf{k}_2,...,\mathbf{k}_h \}$，$\mathbf{V}=\{ \mathbf{v}_1, \mathbf{v}_2,...,\mathbf{v}_h \}$。多头注意力机制就是用每一个切分得到的$\mathbf{q}$，$\mathbf{k}$，$\mathbf{v}$独立的进行注意力计算。即第$i$个头的注意力计算结果$\mathbf{head}_i = \textrm{Attention}(\mathbf{q}_i,\mathbf{k}_i, \mathbf{v}_i)$。
+\parinterval Transformer中使用的另一项重要技术是{\small\sffamily\bfseries{多头注意力机制}}（Multi-head attention）。``多头''可以理解成将原来的$\mathbf{Q}$、$\mathbf{K}$、$\mathbf{V}$按照隐层维度平均切分成多份。假设切分$h$份，那么最终我们会得到$\mathbf{Q} = \{ \mathbf{q}_1, \mathbf{q}_2,...,\mathbf{q}_h \}$，$\mathbf{K}=\{ \mathbf{k}_1,\mathbf{k}_2,...,\mathbf{k}_h \}$，$\mathbf{V}=\{ \mathbf{v}_1, \mathbf{v}_2,...,\mathbf{v}_h \}$。多头注意力机制就是用每一个切分得到的$\mathbf{q}$，$\mathbf{k}$，$\mathbf{v}$独立的进行注意力计算。即第$i$个头的注意力计算结果$\mathbf{head}_i = \textrm{Attention}(\mathbf{q}_i,\mathbf{k}_i, \mathbf{v}_i)$。

 \parinterval 下面我们根据如图\ref{fig:6-46}详细介绍多头注意力的计算过程：

@@ -1555,7 +1555,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{
 \subsection{残差网络和层正则化}\index{Chapter6.4.7}
 \parinterval Transformer编码器、解码器分别由多层网络组成（通常为6层），每层网络又包含多个子层（自注意力网络、前馈神经网络）。因此Transformer实际上是一个很深的网络结构。再加上前面介绍的点乘注意力机制，包含很多线性和非线性变换；另外，注意力函数Attention($\cdot$)的计算也涉及多层网络，整个网络的信息传递非常复杂。从反向传播的角度来看，每次回传的梯度都会经过若干步骤，容易产生梯度爆炸或者消失。

-\parinterval 解决这个问题的一种办法就是使用\textbf{残差连接}\cite{DBLP:journals/corr/HeZRS15}。残差连接是一种用来训练深层网络的技术，其结构如图\ref{fig:6-47}，即在子层之前通过增加直接连接的方式，将底层信息直接传递给上层。
+\parinterval 解决这个问题的一种办法就是使用{\small\sffamily\bfseries{残差连接}}\cite{DBLP:journals/corr/HeZRS15}。残差连接是一种用来训练深层网络的技术，其结构如图\ref{fig:6-47}，即在子层之前通过增加直接连接的方式，将底层信息直接传递给上层。

 %----------------------------------------------
 % 图3.10
@@ -1682,7 +1682,7 @@ lrate = d_{model}^{-0.5} \cdot \textrm{min} (step^{-0.5} , step \cdot warmup\_st
 \end{figure}
 %----------------------------------------------

-\item Dropout：由于Transformer模型网络结构过于复杂，参数过多，具有很强的学习能力，导致过度拟合训练数据，从而对未见数据的预测结果变差。这种现象也被称作\textbf{过拟合}（over fitting）。为了避免这种现象，Transformer加入了Dropout操作\cite{JMLR:v15:srivastava14a}。Transformer中这四个地方用到了Dropout：词嵌入和位置编码、残差连接、注意力操作和前馈神经网络。Dropout比例通常设置为0.1。
+\item Dropout：由于Transformer模型网络结构过于复杂，参数过多，具有很强的学习能力，导致过度拟合训练数据，从而对未见数据的预测结果变差。这种现象也被称作{\small\sffamily\bfseries{过拟合}}（over fitting）。为了避免这种现象，Transformer加入了Dropout操作\cite{JMLR:v15:srivastava14a}。Transformer中这四个地方用到了Dropout：词嵌入和位置编码、残差连接、注意力操作和前馈神经网络。Dropout比例通常设置为0.1。

 \item 标签平滑（Label Smoothing）：在计算损失的过程中，需要用预测概率去拟合真实概率。在分类任务中，往往使用one-hot向量代表真实概率，即真实答案位置那一维对应的概率为1，其余维为0，而拟合这种概率分布会造成两个问题：1)无法保证模型的泛化能力，容易造成过拟合；2) 1和0概率鼓励所属类别和其它类别之间的差距尽可能加大，会造成模型过于相信预测的类别。因此Transformer里引入标签平滑\cite{Szegedy_2016_CVPR}来缓解这种现象，简单的说就是给正确答案以外的类别分配一定的概率，而不是采用非0即1的概率。这样，可以学习一个比较平滑的概率分布，从而提升泛化能力，防止过拟合。\\
 \end{itemize}
@@ -1735,7 +1735,7 @@ Transformer Deep(48层) & 30.2            & 43.1            & 194$\times 10^{6}$
 %----------------------------------------------
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{序列到序列问题及应用}\index{Chapter6.5}
-\parinterval 虽然翻译的目的是进行自然语言文字的转化，但是我们并不需要限制机器翻译只能进行两种语言之间的转换。从某种意义上讲，一个输入序列转化到一个输出序列的过程都可以被看作``翻译''。这类问题通常被称作\textbf{序列到序列}的转换/生成问题（sequence to sequence problem）。而机器翻译模型也是一种典型的序列到序列模型。
+\parinterval 虽然翻译的目的是进行自然语言文字的转化，但是我们并不需要限制机器翻译只能进行两种语言之间的转换。从某种意义上讲，一个输入序列转化到一个输出序列的过程都可以被看作``翻译''。这类问题通常被称作{\small\sffamily\bfseries{序列到序列}}的转换/生成问题（sequence to sequence problem）。而机器翻译模型也是一种典型的序列到序列模型。

 \parinterval 实际上，很多自然语言处理问题都可以被看作是序列到序列的任务。比如，在自动问答中，可以把问题看作是输入序列，把回答看作是输出序列；在自动对联生成中，可以把上联看作是输入序列，把下联看作是输出序列。这样的例子还有很多。对于这类问题，我们都可以使用神经机器翻译来进行建模。比如，使用编码器-解码器框架对输入和输出的序列进行建模。下面我们就来看几个序列到序列的问题，以及如何使用神经机器翻译类似的思想对它们进行求解。
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%