wording (sec 15)

1a00414a · xiaotong · 48922b48 · 1a00414a · 1a00414a
Commit 1a00414a authored Jan 08, 2021 by xiaotong
--- a/Chapter15/Figures/figure-layer-fusion-method.tex
+++ b/Chapter15/Figures/figure-layer-fusion-method.tex
@@ -27,15 +27,15 @@
 \node [anchor=north,rectangle,minimum height=1.5em,minimum width=2.5em,rounded corners=5pt] (n10) at ([xshift=0em,yshift=-0.2em]n9.south) {$\mathbi{y}_{<j}$};
-\node [anchor=west,decnode,draw=ublue,fill=blue!10] (n11) at ([xshift=1.5em,yshift=0em]n10.east) {$\mathbi{s}_j^0$};
+\node [anchor=west,decnode,draw=ublue,fill=blue!10] (n11) at ([xshift=1.5em,yshift=0em]n10.east) {$\mathbi{s}_{0,j}$};
-\node [anchor=west,decnode,draw=ublue,fill=blue!10] (n12) at ([xshift=1.5em,yshift=0em]n11.east) {$\mathbi{s}_j^1$};
+\node [anchor=west,decnode,draw=ublue,fill=blue!10] (n12) at ([xshift=1.5em,yshift=0em]n11.east) {$\mathbi{s}_{1,j}$};
-\node [anchor=west,decnode,draw=ublue,fill=blue!10] (n13) at ([xshift=1.5em,yshift=0em]n12.east) {$\mathbi{s}_j^2$};
+\node [anchor=west,decnode,draw=ublue,fill=blue!10] (n13) at ([xshift=1.5em,yshift=0em]n12.east) {$\mathbi{s}_{2,j}$};
 \node [anchor=west,rectangle,minimum height=1.5em,minimum width=2.5em,rounded corners=5pt] (n14) at ([xshift=1em,yshift=0em]n13.east) {$\ldots$};
-\node [anchor=west,decnode,draw=ublue,fill=blue!10] (n15) at ([xshift=1em,yshift=0em]n14.east) {$\mathbi{s}_j^{M-1}$};
+\node [anchor=west,decnode,draw=ublue,fill=blue!10] (n15) at ([xshift=1em,yshift=0em]n14.east) {$\mathbi{s}_{M-1,j}$};
 \node [anchor=west,rectangle,minimum height=1.5em,minimum width=2.5em,rounded corners=5pt] (n16) at ([xshift=1.5em,yshift=0em]n15.east) {$\mathbi{y}_{j}$};

--- a/Chapter15/chapter15.tex
+++ b/Chapter15/chapter15.tex
@@ -310,33 +310,33 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 \subsection{高效的自注意力模型}
-\parinterval 除了机器翻译，Transformer模型同样被广泛应用于自然语言理解、图像处理、语音处理等任务。但是，自注意力机制的时间复杂度是序列长度$N$的平方项，同时其对内存（显存）的消耗巨大，尤其当处理较长序列的文本时，问题尤为严重。因此如何提高Transformer模型的效率也是广泛关注的方向之一。
+\parinterval 除了机器翻译，Transformer模型同样被广泛应用于自然语言理解、图像处理、语音处理等任务。但是，自注意力机制的时间复杂度是序列长度$N$的平方项，同时其对内存（显存）的消耗巨大，尤其当处理较长序列的文本时，问题尤为严重。因此如何提高Transformer模型的效率也是广泛关注的方向之一。{\chapterfourteen}已经从模型推断的角度介绍了Transformer系统加速的方法，这里重点讨论一些高效的Transformer变种模型。
 \parinterval 自注意力机制的时间复杂度较高，正是因为其需要对序列中的每一个位置计算与其他所有位置的相关性。因此一个自然的想法就是限制自注意力机制的作用范围，大体上可以分为如下几种方式：
 \begin{itemize}
 \vspace{0.5em}
-\item 分块注意力：顾名思义，就是将序列划分为固定大小的片段，在注意力模型只在对应的片段内执行。这样，每一个片段内的注意力计算成本是固定的，可以大大降低处理长序列时的总体计算时间\upcite{DBLP:conf/emnlp/QiuMLYW020,DBLP:conf/iclr/LiuSPGSKS18}{\red（文献格式错误？）}。
+\item 分块注意力：顾名思义，就是将序列划分为固定大小的片段，注意力模型只在对应的片段内执行。这样，每一个片段内的注意力计算成本是固定的，可以大大降低处理长序列时的总体计算时间\upcite{DBLP:conf/emnlp/QiuMLYW020,DBLP:conf/iclr/LiuSPGSKS18}{\red（文献格式错误？）}。
 \vspace{0.5em}
-\item 跨步注意力：该模式是一种稀疏的注意力机制，通常会设置一个固定的间隔，也就是说在计算注意力表示时，每隔固定数量的词后将下一个词纳入所需考虑的范围内，参与注意力的计算\upcite{DBLP:journals/corr/abs-2004-05150}{\red（文献格式错误？）}。和分片段进行注意力类似，假设最终参与注意力计算的序列长度为$B$，共需要执行$N/B$次注意力计算，可以将计算复杂度从$O(N^2)$缩减为$O(NB)$。
+\item 跨步注意力：该模型是一种稀疏的注意力机制，通常会设置一个固定的间隔，也就是说在计算注意力表示时，每隔固定数量的词后将下一个词纳入所需考虑的范围内，参与注意力的计算\upcite{DBLP:journals/corr/abs-2004-05150}{\red（文献格式错误？）}。和分片段进行注意力计算类似，假设最终参与注意力计算的{\color{red} 间隔长度？}为$B$，共需要执行$N/B$次注意力计算，可以将计算复杂度从$O(N^2)$缩减为$O(NB)$。
 \vspace{0.5em}
-\item 内存压缩注意力：这种方式的主要的思想是使用一些操作，如卷积、池化等对序列进行下采样，来缩短序列长度。例如，使用{\small\bfnew{跨步卷积}}\index{跨步卷积}（Stride Convolution）\index{Stride Convolution}来减少Key和Value的数量，即减少表示序列长度的维度的大小，Query的数量保持不变，从而减少了注意力矩阵计算时的复杂度\upcite{DBLP:conf/iclr/LiuSPGSKS18}。其具体的计算复杂度取决于跨步卷积时步幅的大小$K$，形式上可以理解为每$K$个单元做一次特征融合后，将关注的目标缩减为$N/K$，整体的计算复杂度为$N^2/K$。相比于前两种方式的对局部进行注意力计算，该方式仍是对全局的建模。
+\item 内存压缩注意力：这种方式的主要的思想是使用一些操作，如卷积、池化等对序列进行下采样，来缩短序列长度。例如，使用{\small\bfnew{跨步卷积}}\index{跨步卷积}（Stride Convolution）\index{Stride Convolution}来减少Key和Value的数量，即减少表示序列长度的维度的大小，Query的数量保持不变，从而减少了注意力权重计算时的复杂度\upcite{DBLP:conf/iclr/LiuSPGSKS18}。其具体的计算复杂度取决于跨步卷积时步幅的大小$K$，形式上可以理解为每$K$个单元做一次特征融合后，将关注的目标缩减为$N/K$，整体的计算复杂度为$N^2/K$。相比于前两种方式的对局部进行注意力计算，该方式仍是对全局的建模。
 \vspace{0.5em}
 \end{itemize}
-\parinterval 在不同的任务中，可以根据不同的需求使用不同的注意力模型，甚至可以采用多种注意力模型的结合，比如，对分类任务中的某些特殊标签，如BERT中的<CLS>，需要对全局信息进行整合，因此可以使用全局的注意力模式。而对于其他位置，则可以使用局部注意力提高计算效率。同样的，也可以针对多头机制中的不同注意力头采用不同的计算方式，或者对不同的头设置不同的局部窗口的大小，以此来增大感受野，在提高模型计算效率的同时使模型保留全局建模能力。
+\parinterval 在不同的任务中，可以根据不同的需求使用不同的注意力模型，甚至可以采用多种注意力模型的结合，比如，对分类任务中的某些特殊标签，如BERT中的<CLS>，需要对全局信息进行整合，因此可以使用全局注意力。而对于其他位置，则可以使用局部注意力提高计算效率。同样的，也可以针对多头机制中的不同注意力头采用不同的计算方式，或者对不同的头设置不同的局部窗口的大小，以此来增大感受野，在提高模型计算效率的同时使模型保留全局建模能力。
-\parinterval 在上述介绍的方法中都是基于预先设定好的超参来限制注意力机制的作用范围，可以称这些方法是静态的。除此之外还有以数据驱动的，通过模型来学习注意力机制的作用范围。比如，可以将序列分块，并对序列中的不同单元进行排序或者聚类，之后采用稀疏注意力的计算。下面对部分相关的模型进行简单的介绍：
+\parinterval 在上述方法都是基于预先设定好的超参来限制注意力机制的作用范围，可以称这些方法是静态的。除此之外还有以数据驱动的，通过模型来学习注意力机制的作用范围。比如，可以将序列分块，并对序列中的不同单元进行排序或者聚类，之后采用稀疏注意力的计算。下面对部分相关的模型进行介绍：
 \begin{itemize}
 \vspace{0.5em}
-\item Reformer模型在计算Key和Value时使用相同的线性映射，共享Key和Value的值\upcite{Kitaev2020ReformerTE}{\red（文献格式错误？）}。在实际实验中发现，这种模式并不会影响Transformer模型的性能。其次，Reformer 中为了降低自注意力机制的复杂度，引入了一种{\small\bfnew{局部哈希敏感注意力机制}}\index{局部哈希敏感注意力机制}（LSH Attention）\index{LSH Attention}，其提高效率的方式和固定模式（{\color{red} 啥是固定模式？}）中的局部建模一致，减少注意力机制的计算范围。对于每一个Query，通过局部哈希敏感机制找出和其较为相关的Key，并进行注意力的计算。其基本思路就是距离相近的向量以很大的概率被哈希分配到一个桶内，距离较远的向量被分配到一个桶内的概率则较低。哈希的散列函数为：{\red （下面公式不对）}
+\item Reformer模型在计算Key和Value时使用相同的线性映射，共享Key和Value的值\upcite{Kitaev2020ReformerTE}{\red（文献格式错误？）}。其次，为了降低自注意力机制的复杂度，Reformer引入了一种{\small\bfnew{局部哈希敏感注意力机制}}\index{局部哈希敏感注意力机制}（LSH Attention）\index{LSH Attention}，其提高效率的方式和固定模式（{\color{red} 啥是固定模式？}）中的局部建模一致，减少注意力机制的计算范围。对于每一个Query，通过局部哈希敏感机制找出和其较为相关的Key，并进行注意力的计算。其基本思路就是距离相近的向量以较大的概率被哈希分配到一个桶内，距离较远的向量被分配到一个桶内的概率则较低。哈希的散列函数为：{\red （下面公式不对）{\color{blue} 看代码确认一下！}}
 \begin{eqnarray}
 \mathbi{h}(\mathbi{x}) &=& \arg\max([\mathbi{x}\mathbi{R};-\mathbi{x}\mathbi{R}])
 \label{eq:15-21}
 \end{eqnarray}
-\noindent 其中，$\mathbi{R}$为随机的矩阵，$[;]$代表拼接操作。当$\mathbi{h}(\textrm{Query}_i) = \mathbi{h}(\textrm{Key}_j )$，$i$和$j$为序列中不同位置单词的下标，也就是说当两个词的Query和Key落在同一个散列桶时，对其进行注意力的计算。此外，Reformer中还采用了一种{\small\bfnew{可逆残差网络结构}}\index{可逆残差网络结构}（The Reversible Residual Network）\index{The Reversible Residual Network}和分块计算前馈神经网络层机制，即将前馈层的隐层维度拆分多个块后独立计算，最后进行拼接操作，得到前馈层的输出。这种方式大幅度减少了内存（显存）占用，但由于在反向过程中需要重复计算某些节点，牺牲了一定的计算时间。
+\noindent 其中，$\mathbi{R}$为随机矩阵（{\color{red} 这块儿有些没看懂，为啥要用随机矩阵？上面的公式物理意义是啥？}），$[;]$代表拼接操作。当$\mathbi{h}(\textrm{Query}_i) = \mathbi{h}(\textrm{Key}_j )$，$i$和$j$ 为序列中不同位置单词的下标，也就是说当两个词的Query 和Key落在同一个散列桶时，对其进行注意力的计算。此外，Reformer中还采用了一种{\small\bfnew{可逆残差网络结构}}\index{可逆残差网络结构}（The Reversible Residual Network）\index{The Reversible Residual Network}和分块计算前馈神经网络层机制，即将前馈层的隐层维度拆分多个块后独立计算，最后进行拼接操作，得到前馈层的输出。这种方式大幅度减少了内存（显存）占用，但由于在反向过程中需要重复计算某些节点，牺牲了一定的计算时间。
 \vspace{0.5em}
 \item Routing Transformer通过聚类算法对序列中的不同单元进行分组，分别在组内进行自注意力机制的计算\upcite{DBLP:journals/corr/abs-2003-05997}{\red（文献格式错误？）}。首先是将Query和Key映射到聚类矩阵$\mathbi{S}$：
@@ -357,7 +357,7 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 \label{eq:15-23}
 \end{eqnarray}
-\parinterval 由于Softmax函数的存在，首先要进行$\mathbi{Q}\mathbi{K}^{\textrm{T}}$的计算得到$N \times N$的矩阵，在对维度为$N \times d_k$的Value进行加权求和时，其时间复杂度便是$O(N^2)$。假设能够移除Softmax操作，便可以将注意力机制的计算调整为$\mathbi{Q}\mathbi{K}^{\textrm{T}}\mathbi{V}$，由于矩阵的运算满足结合律，可以先进行$\mathbi{K}^{\textrm{T}}\mathbi{V}$ 的运算，得到$d_k \times d_k$的矩阵，再左乘$\mathbi{Q}$。在长文本处理中，由于多头机制的存在，一般有$d_k \ll N$，所以最终的计算复杂度便可以近似为$O(N)$，从而将注意力机制简化为线性模型\upcite{Katharopoulos2020TransformersAR,DBLP:journals/corr/abs-2009-14794}{\red（文献格式错误？）}。
+\parinterval 由于Softmax函数的存在，首先要进行$\mathbi{Q}\mathbi{K}^{\textrm{T}}$的计算得到$N \times N$的矩阵，在对维度为$N \times d_k$的Value进行加权求和时，其（{\color{red} 谁的？}）时间复杂度便是$O(N^2)$。 假设能够移除Softmax操作，便可以将注意力机制的计算调整为$\mathbi{Q}\mathbi{K}^{\textrm{T}}\mathbi{V}$，由于矩阵的运算满足结合律，可以先进行$\mathbi{K}^{\textrm{T}}\mathbi{V}$ 的运算，得到$d_k \times d_k$的矩阵，再左乘$\mathbi{Q}$。在长文本处理中，由于多头机制的存在，一般有$d_k \ll N$，所以最终的计算复杂度便可以近似为$O(N)$，从而将注意力机制简化为线性模型\upcite{Katharopoulos2020TransformersAR,DBLP:journals/corr/abs-2009-14794}{\red（文献格式错误？）}。
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
@@ -366,10 +366,9 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 \sectionnewpage
 \section{神经网络连接优化及深层模型}
-\parinterval 除了对Transformer模型中的局部组件进行改进，改进不同层之间的连接方式也十分重要。常见的做法是融合编码/解码的中间层表示得到更丰富的编码/解码输出\upcite{Wang2018MultilayerRF,Wang2019ExploitingSC,Dou2018ExploitingDR,Dou2019DynamicLA}。{\red（文献格式错误？）}同时，可以利用稠密连接等更丰富的层间连接方式来强化或替换残差连接，这类方法在图像识别、机器翻译
+\parinterval 除了对Transformer模型中的局部组件进行改进，改进不同层之间的连接方式也十分重要。常见的做法是融合编码/解码的中间层表示得到更丰富的编码/解码输出\upcite{Wang2018MultilayerRF,Wang2019ExploitingSC,Dou2018ExploitingDR,Dou2019DynamicLA}。{\red（文献格式错误？）}同时，可以利用稠密连接等更丰富的层间连接方式来强化或替换残差连接。
-等任务上取得了很好的效果。
-\parinterval 与此同时，宽网络（如Transformer-Big）在机器翻译、语言模型等任务上表现十分出色，但伴随而来的是快速增长的参数量与更大的训练代价。同时受限于任务的复杂度与计算设备的算力，进一步探索更宽的网络显然不是特别高效的手段。因此研究人员普遍选择增加神经网络的深度来对句子进行更充分的表示。但是，简单地堆叠很多层Transformer网络并不能带来性能上的提升，反而会面临更加严重的梯度消失/梯度爆炸的问题。这是由于伴随神经网络变深，梯度无法有效地从输出层回传到底层网络，造成网络浅层部分的参数无法得到充分训练\upcite{Bapna2018TrainingDN,WangLearning,DBLP:journals/corr/abs-2002-04745,DBLP:conf/emnlp/LiuLGCH20}{\red（文献格式错误？）}。针对这些问题，已经有研究人员开始尝试求解，并取得了很好的效果。比如，设计更有利于深层信息传递的网络连接和恰当的参数初始化方法等。
+\parinterval 与此同时，宽网络（如Transformer-Big）在机器翻译、语言模型等任务上表现十分出色，但伴随而来的是快速增长的参数量与更大的训练代价。同时受限于任务的复杂度与计算设备的算力，进一步探索更宽的神经网络显然不是特别高效的手段。因此研究人员普遍选择增加神经网络的深度来对句子进行更充分的表示。但是，简单地堆叠很多层的Transformer模型并不能带来性能上的提升，反而会面临更加严重的梯度消失/梯度爆炸的问题。这是由于伴随神经网络变深，梯度无法有效地从输出层回传到底层神经网络，造成浅层部分的参数无法得到充分训练\upcite{Bapna2018TrainingDN,WangLearning,DBLP:journals/corr/abs-2002-04745,DBLP:conf/emnlp/LiuLGCH20}{\red（文献格式错误？）}。针对这些问题，可以设计更有利于深层信息传递的神经网络连接和恰当的参数初始化方法等。
 \parinterval 但是，如何设计一个足够“深”的机器翻译模型仍然是业界关注的热点问题之一。此外，伴随着神经网络的继续变深，将会面临一些新的问题，例如，如何加速深层神经网络的训练，如何解决深层神经网络的过拟合问题等。下面将会对以上问题展开讨论。首先对Transformer模型的内部信息流进行分析，之后分别从模型结构和参数初始化两个角度求解为什么深层网络难以训练，并介绍相应的解决手段。
@@ -380,7 +379,7 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 \subsection{Post-Norm vs Pre-Norm}
 \label{sec:post-pre-norm}
-\parinterval 为了探究为何深层的Transformer模型很难直接训练，首先对Transformer的模型结构进行简单的回顾，详细内容可以参考{\chaptertwelve}。以Transformer的编码端为例，在多头自注意力网络和前馈神经网络中间，Transformer模型利用残差连接\upcite{DBLP:journals/corr/HeZRS15}和层标准化操作\upcite{Ba2016LayerN}{\red（文献格式错误？）}来提高信息的传递效率。Transformer模型大致分为图\ref{fig:15-9}中两种结构\ \dash \ 后作方式的残差单元（Post-Norm）和前作方式的残差单元（Pre-Norm）。
+\parinterval 为了探究为何深层Transformer模型很难直接训练，首先对Transformer的模型结构进行简单的回顾，详细内容可以参考{\chaptertwelve}。以Transformer的编码端为例，在多头自注意力和前馈神经网络中间，Transformer模型利用残差连接\upcite{DBLP:journals/corr/HeZRS15}和层标准化操作\upcite{Ba2016LayerN}{\red（文献格式错误？）}来提高信息的传递效率。Transformer模型大致分为图\ref{fig:15-9}中的两种结构\ \dash \ 后作方式的残差单元（Post-Norm）和前作方式的残差单元（Pre-Norm）。
 %----------------------------------------------
 \begin{figure}[htp]
@@ -391,7 +390,7 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 \end{figure}
 %-------------------------------------------
-\parinterval 令$\mathbi{x}_l$和$\mathbi{x}_{l+1}$表示第$l$个子层的输入和输出\footnote[3]{这里沿用Transformer中的定义，每一层（Layer）包含多个子层（Sub-layer）。比如，对于Transformer编码器，每一层包含一个自注意力子层和一个前馈神经网络子层。所有子层都需要进行层标准化和残差连接。}，$\mathbi{y}_l$表示中间的临时输出；$\textrm{LN}(\cdot)$表示层标准化操作，帮助减少子层输出的方差，从而让训练变得更稳定；$F(\cdot)$表示子层所对应的函数，比如前馈神经网络、自注意力网络等。下面分别对Post-Norm和Pre-Norm进行简单的描述。
+\parinterval 令$\mathbi{x}_l$和$\mathbi{x}_{l+1}$表示第$l$个子层的输入和输出\footnote[3]{这里沿用Transformer中的定义，每一层（Layer）包含多个子层（Sub-layer）。比如，对于Transformer编码器，每一层包含一个自注意力子层和一个前馈神经网络子层。所有子层都需要进行层标准化和残差连接。}，$\mathbi{y}_l$表示中间的临时输出；$\textrm{LN}(\cdot)$表示层标准化操作，帮助减少子层输出的方差，从而让训练变得更稳定；$F(\cdot)$表示子层所对应的函数，比如前馈神经网络、自注意力等。下面分别对Post-Norm和Pre-Norm进行简单的描述。
 \begin{itemize}
 \vspace{0.5em}
 \item Post-Norm：早期的Transformer遵循的是Post-Norm结构\upcite{vaswani2017attention}。也就是层标准化作用于每一子层的输入和输出的残差结果上，如图\ref{fig:15-9}(a)所示。可以表示如下：
@@ -411,7 +410,7 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 \parinterval 从上述公式中可以发现，在前向传播过程中，Pre-Norm结构可以通过残差路径将底层神经网络的输出直接暴露给上层神经网络。此外，在反向传播过程中，使用Pre-Norm结构也可以使得顶层网络的梯度更容易地反馈到底层网络。这里以一个含有$L$个子层的结构为例，令$Loss$表示整个神经网络输出上的损失，$\mathbi{x}_L$为顶层的输出。对于Post-Norm结构，根据链式法则，损失$Loss$相对于$\mathbi{x}_l$ 的梯度可以表示为：
 \begin{eqnarray}
-\frac{\partial Loss}{\partial \mathbi{x}_l} &=& \frac{\partial Loss}{\partial \mathbi{x}_L} \times \prod_{k=l}^{L-1}\frac{\partial \textrm{LN}(\mathbi{y}_k)}{\partial \mathbi{y}_k} \times \prod_{k=l}^{L-1}(1+\frac{\partial F(\mathbi{x}_k;{\bm \theta_k})}{\partial \mathbi{x}_k})
+\frac{\partial Loss}{\partial \mathbi{x}_l} &=& \frac{\partial Loss}{\partial \mathbi{x}_L} \times \prod_{k=l}^{L-1}\frac{\partial \textrm{LN}(\mathbi{y}_k)}{\partial \mathbi{y}_k} \times \prod_{k=l}^{L-1}\big(1+\frac{\partial F(\mathbi{x}_k;{\bm \theta_k})}{\partial \mathbi{x}_k} \big)
 \label{eq:15-26}
 \end{eqnarray}
@@ -419,15 +418,15 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 \parinterval 类似的，也能得到Pre-Norm结构的梯度计算结果，如下：
 \begin{eqnarray}
-\frac{\partial Loss}{\partial \mathbi{x}_l} &=& \frac{\partial Loss}{\partial \mathbi{x}_L} \times (1+\sum_{k=l}^{L-1}\frac{\partial F(\textrm{LN}(\mathbi{x}_k);{\bm \theta_k})}{\partial \mathbi{x}_l})
+\frac{\partial Loss}{\partial \mathbi{x}_l} &=& \frac{\partial Loss}{\partial \mathbi{x}_L} \times \big(1+\sum_{k=l}^{L-1}\frac{\partial F(\textrm{LN}(\mathbi{x}_k);{\bm \theta_k})}{\partial \mathbi{x}_l} \big)
 \label{eq:15-27}
 \end{eqnarray}
-\parinterval 对比公式\eqref{eq:15-26}和公式\eqref{eq:15-27}可以看出，Pre-Norm结构直接把顶层的梯度$\frac{\partial Loss}{\partial \mathbi{x}_L}$传递给下层，并且如果将公式\eqref{eq:15-27}右侧进行展开，可以发现$\frac{\partial Loss}{\partial \mathbi{x}_l}$中直接含有$\frac{\partial Loss}{\partial \mathbi{x}_L}$部分。这个性质弱化了梯度计算对模型深度$L$的依赖；而如公式\eqref{eq:15-26}右侧所示，Post-Norm结构会导致一个与$L$相关的多项导数的积，伴随着$L$的增大更容易发生梯度消失和梯度爆炸问题。因此，Pre-Norm结构更适于堆叠多层神经网络的情况。比如，使用Pre-Norm 结构可以很轻松地训练一个30层（60个子层）编码器的Transformer网络，并带来可观的BLEU提升。这个结果相当于标准Transformer编码器深度的6倍，相对的，用Pre-Norm结构训练深层网络的时候，训练结果很不稳定，当编码器深度超过12层后很难完成有效训练\upcite{WangLearning}，尤其是在低精度设备环境下损失函数出现发散情况。这里把使用Pre-Norm的深层Transformer称为Transformer-Deep。
+\parinterval 对比公式\eqref{eq:15-26}和公式\eqref{eq:15-27}可以看出，Pre-Norm结构直接把顶层的梯度$\frac{\partial Loss}{\partial \mathbi{x}_L}$传递给下层，并且如果将公式\eqref{eq:15-27}右侧进行展开，可以发现$\frac{\partial Loss}{\partial \mathbi{x}_l}$中直接含有$\frac{\partial Loss}{\partial \mathbi{x}_L}$部分。这个性质弱化了梯度计算对模型深度$L$的依赖；而如公式\eqref{eq:15-26}右侧所示，Post-Norm结构会导致一个与$L$相关的多项导数的积，伴随着$L$的增大更容易发生梯度消失和梯度爆炸问题。因此，Pre-Norm结构更适于堆叠多层神经网络的情况。比如，使用Pre-Norm 结构可以很轻松地训练一个30层（60个子层）编码器的Transformer网络，并带来可观的BLEU提升。这个结果相当于标准Transformer编码器深度的6倍，相对的，用Pre-Norm结构训练深层网络的时候，训练结果很不稳定，当编码器深度超过12层后很难完成有效训练\upcite{WangLearning}，尤其是在低精度设备环境下损失函数出现发散情况。这里把使用Pre-Norm的深层Transformer模型称为Transformer-Deep。
-\parinterval 另一个有趣的发现是，使用深层网络后，网络可以更有效地利用较大的学习率和较大的批量训练，大幅度缩短了模型达到收敛状态的时间。相比于Transformer-Big等宽网络，Transformer-Deep并不需要太大的隐藏层维度就可以取得更优的翻译品质\upcite{WangLearning}。也就是说，Transformer-Deep是一个更“窄”更“深”的网络。这种结构的参数量比Transformer-Big少，系统运行效率更高。
+\parinterval 另一个有趣的发现是，使用深层网络后，网络可以更有效地利用较大的学习率和较大的批量训练，大幅度缩短了模型达到收敛状态的时间。相比于Transformer-Big等宽网络，Transformer-Deep并不需要太大的隐藏层维度就可以取得更优的翻译品质\upcite{WangLearning}。也就是说，Transformer-Deep是一个更“窄”更“深”的神经网络。这种结构的参数量比Transformer-Big少，系统运行效率更高。
-\parinterval 此外研究人员发现当编码端使用深层网络之后，解码端使用更浅的网络依然能够维持很好的翻译品质。这是由于解码端也会对源语言信息进行加工和抽象，当编码器变深之后，解码器对源语言的加工就不那么重要了，因此可以减少解码器的深度。这样做的一个直接好处是：可以通过减少解码器的深度加快翻译速度。对于一些延时敏感的场景，这种架构是极具潜力的\upcite{DBLP:journals/corr/abs-2006-10369}（{\color{red} Learning Light-Weight Translation Models from Deep Transformer}）。
+\parinterval 此外研究人员发现当编码端使用深层模型之后，解码端使用更浅的模型依然能够维持很好的翻译品质。这是由于解码端也会对源语言信息进行加工和抽象，当编码器变深之后，解码器对源语言的加工就不那么重要了，因此可以减少解码器的深度。这样做的一个直接好处是：可以通过减少解码器的深度提高翻译速度。对于一些翻译延时敏感的场景，这种架构是极具潜力的\upcite{DBLP:journals/corr/abs-2006-10369} （{\color{red} Learning Light-Weight Translation Models from Deep Transformer}）{\color{blue} 还有胡驰的GNMT论文}。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -435,11 +434,11 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 \subsection{高效信息传递}
-\parinterval 尽管使用Pre-Norm结构可以很容易地训练深层Transformer模型，但从信息传递的角度看，Transformer模型中第$l$层的输入仅仅依赖于前一层的输出。虽然残差连接可以跨层传递信息，但是对于很深的网络，整个模型的输入和输出之间仍需要经过很多次残差连接。
+\parinterval 尽管使用Pre-Norm结构可以很容易地训练深层Transformer模型，但从信息传递的角度看，Transformer模型中第$l$层的输入仅仅依赖于前一层的输出。虽然残差连接可以跨层传递信息，但是对于很深的模型，整个模型的输入和输出之间仍需要经过很多次残差连接。
-\parinterval 为了使上层的网络可以更加方便地访问下层网络的信息，最简单的方法是引入更多的跨层连接。一种方法是直接将所有层的输出都连接到最上层，达到聚合多层信息的目的\upcite{Bapna2018TrainingDN,Wang2018MultilayerRF,Dou2018ExploitingDR}。另一种更加有效的方式是在网络前向计算的过程中建立当前层表示与之前层表示之间的关系，例如{\small\bfnew{动态线性聚合网络}}\upcite{WangLearning}\index{动态线性聚合网络}（Dynamic Linear Combination of Layers，DLCL）\index{Dynamic Linear Combination of Layers}和动态层聚合方法\upcite{Dou2019DynamicLA}。
+\parinterval 为了使上层的神经网络可以更加方便地访问下层神经网络的信息，最简单的方法是引入更多的跨层连接。一种方法是直接将所有层的输出都连接到最上层，达到聚合多层信息的目的\upcite{Bapna2018TrainingDN,Wang2018MultilayerRF,Dou2018ExploitingDR}。
-\parinterval 两者的共性在于，在每一层的输入中不仅考虑前一层的输出，同时将前面所有层的中间结果（包括词嵌入表示）进行聚合，本质上利用稠密的层间连接提高了网络中信息传递的效率（前向计算和反向梯度计算）。而前者利用线性的层融合手段来保证计算的时效性，主要应用于深层网络任务的训练，理论上等价于常微分方程中的高阶求解方法\upcite{WangLearning}。此外，为了进一步增强上层网络对底层表示的利用，研究人员从多尺度的角度对深层的编码器网络进行分块，并使用GRU网络来捕获不同块之间的联系，得到更高层次的表示。该方法可以看作是对动态线性聚合网络的延伸。接下来分别对上述几种改进方法展开讨论。
+\parinterval 另一种更加有效的方式是在网络前向计算的过程中建立当前层表示与之前层表示之间的关系，例如{\small\bfnew{动态线性聚合网络}}\upcite{WangLearning}\index{动态线性聚合网络}（Dynamic Linear Combination of Layers，DLCL）\index{Dynamic Linear Combination of Layers}和动态层聚合方法\upcite{Dou2019DynamicLA}。这些方法的共性在于，在每一层的输入中不仅考虑前一层的输出，同时将前面所有层的中间结果（包括词嵌入表示）进行聚合，本质上利用稠密的层间连接提高了网络中信息传递的效率（前向计算和反向梯度计算）。而前者利用线性的层融合手段来保证计算的时效性，主要应用于深层神经网络的训练，理论上等价于常微分方程中的高阶求解方法\upcite{WangLearning}。此外，为了进一步增强上层神经网络对底层表示的利用，研究人员从多尺度的角度对深层的编码器进行分块，并使用GRU来捕获不同块之间的联系，得到更高层次的表示。该方法可以看作是对动态线性聚合网络的延伸。接下来分别对上述几种改进方法展开讨论。
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -447,7 +446,7 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 \subsubsection{1. 使用更多的跨层连接}
-\parinterval 图\ref{fig:15-10}描述了引入了更多跨层连接的结构。在网络的前向计算过程中，假设编码端总层数为$L$，当完成编码端$L$层的逐层计算后，通过线性平均、加权平均等机制对网络的中间层表示进行融合，得到蕴含所有层信息的表示\mathbi{g}，作为编码-解码注意力机制的输入，与总共有$M$层的解码器共同处理解码信息。
+\parinterval 图\ref{fig:15-10}描述了引入了更多跨层连接的结构。在模型的前向计算过程中，假设编码端总层数为$L$，当完成编码端$L$层的逐层计算后，通过线性平均、加权平均等机制对模型的中间层表示进行融合，得到蕴含所有层信息的表示\mathbi{g}，作为编码-解码注意力机制的输入，与总共有$M$层的解码器共同处理解码信息。
 %----------------------------------------------
 \begin{figure}[htp]
@@ -458,7 +457,7 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 \end{figure}
 %-------------------------------------------
-\parinterval 这里，令$\mathbi{h}_i$是编码器第$i$层的输出，$\mathbi{s}_j^k$是解码器生成第$j$个单词时第$k$层的输出。层融合机制可以大致划分为如下几种：
+\parinterval 这里，令$\mathbi{h}_i$是编码器第$i$层的输出，$\mathbi{s}_{k,j}$是解码器生成第$j$个单词时第$k$层的输出。层融合机制可以大致划分为如下几种：
 \begin{itemize}
 \vspace{0.5em}
@@ -469,7 +468,7 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 \end{eqnarray}
 \vspace{0.5em}
-\item 权重平均。在线性平均的基础上，赋予每一个中间层表示相应的权重。权重的值通常采用可学习的参数矩阵$\mathbi{W}$表示，通过反向传播来不断调整每一层的权重比例，通常会略优于线性平均方法。可以用如下方式描述：
+\item 权重平均。在线性平均的基础上，赋予每一个中间层表示相应的权重。权重的值通常采用可学习的参数矩阵$\mathbi{W}$表示。这种方法通常会略优于线性平均方法。可以用如下方式描述：
 \begin{eqnarray}
 \mathbi{g} &=& \sum_{l=1}^{L}{\mathbi{W}_l\mathbi{h}_l}
 \label{eq:15-29}