wording (sec 15)

48922b48 · xiaotong · 1f54c3fc · 48922b48 · 48922b48
Commit 48922b48 authored Jan 07, 2021 by xiaotong
--- a/Chapter15/Figures/figure-attention-distribution-based-on-gaussian-distribution.tex
+++ b/Chapter15/Figures/figure-attention-distribution-based-on-gaussian-distribution.tex
@@ -102,7 +102,7 @@
 \draw[-,very thick] ([xshift=1.2em,yshift=2.2em]b6.north)--([xshift=1.7em,yshift=2.2em]b6.north);
 \draw[-,very thick] ([xshift=1.2em,yshift=1.9em]b6.north)--([xshift=1.7em,yshift=1.9em]b6.north);
-\node [anchor=south] (t1) at ([xshift=0em,yshift=6.7em]n4.north){$D$};
+\node [anchor=south] (t1) at ([xshift=0em,yshift=6.7em]n4.north){$D_i$};
 \draw[->] ([xshift=0em,yshift=0em]t1.west)--([xshift=-1em,yshift=0em]t1.west);
 \draw[->] ([xshift=0em,yshift=0em]t1.east)--([xshift=1em,yshift=0em]t1.east);
 \draw[-] ([xshift=1em,yshift=-0.5em]t1.east)--([xshift=1em,yshift=0.5em]t1.east);

--- a/Chapter15/chapter15.tex
+++ b/Chapter15/chapter15.tex
@@ -34,7 +34,7 @@
 \sectionnewpage
 \section{注意力机制的改进}
-\parinterval 注意力机制是神经机器翻译成功的关键。以Transformer为例，由于其使用自注意力机制，该模型展现出高并行计算与全局建模的能力，这也使得Transformer在机器翻译、语言建模等任务上表现十分突出。但是该模型上仍存在许多亟待解决的问题，例如，在处理长文本序列时（假设文本长度为$N$），自注意力模型的时间复杂度为$O(N^2)$，在$N$过大时翻译速度很低。此外，尽管Transformer模型的输入中包含了绝对位置编码表示，但是现有的自注意力机制仍然无法显性捕获局部窗口下不同位置之间的关系。而且注意力机制需要更多样的手段进行特征提取，例如，采用多头或者多分支结构对不同空间特征进行提取。针对以上问题，本节将介绍注意力机制的优化策略，并重点讨论Transformer模型中自注意力模型的若干改进方法。
+\parinterval 注意力机制是神经机器翻译成功的关键。以Transformer模型为例，由于使用了自注意力机制，该模型展现出较高的训练并行性，在机器翻译、语言建模等任务上也取得了很好的表现。但是Transformer模型仍存在许多亟待解决的问题，例如，在处理长文本序列时（假设文本长度为$N$），自注意力机制的时间复杂度为$O(N^2)$，当$N$过大时翻译速度很低。此外，尽管Transformer模型的输入中包含了绝对位置编码表示，但是现有的自注意力机制仍然无法显性捕获局部窗口下不同位置之间的关系。而且注意力机制也需要更多样的手段进行特征提取，例如，采用多头或者多分支结构对不同空间特征进行提取。针对以上问题，本节将介绍注意力机制的优化策略，并重点讨论Transformer模型的若干改进方法。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -42,11 +42,11 @@
 \subsection{局部信息建模}\label{subsec-15.1.1}
-\parinterval 使用循环神经网络进行序列建模时，每一个时刻的计算都依赖于上一时刻的隐层状态。这种模式天然具有一定的时序性，且具有{\small\bfnew{归纳偏置}}\index{归纳偏置}（Inductive Bias）\index{Inductive Bias}的特性\upcite{DBLP:journals/corr/abs-1806-01261}{\red（文献格式错误？）}，即我们使用了一个假设：每一时刻的状态仅仅基于当前时刻的输入和前一时刻状态。这种归纳偏置的好处在于，模型可以很容易处理任意长序列，即使测试样本显著长于训练样本，因为模型并不需要对绝对位置建模。
+\parinterval 使用循环神经网络进行序列建模时，每一个时刻的计算都依赖于上一时刻循环单元的状态。这种模式天然具有一定的时序性，同时具有{\small\bfnew{归纳偏置}}\index{归纳偏置}（Inductive Bias）\index{Inductive Bias}的特性\upcite{DBLP:journals/corr/abs-1806-01261}{\red（文献格式错误？）}，即每一时刻的状态仅仅基于当前时刻的输入和前一时刻的状态。这种归纳偏置的好处在于，模型可以很容易处理任意长度的序列，即使测试样本显著长于训练样本，因为模型并不需要对绝对位置进行建模。
-\parinterval 但是，Transformer模型中的自注意力机制本身并不具有这种性质。由于自注意力机制直接对当前单词与序列中全部单词进行建模，因此忽略了单词之间的位置关系，缺少了类似于循环或卷积神经网络中局部窗口内的依赖关系。虽然，为了区分单词之间的位置关系，Transformer中引入了正余弦函数作为绝对位置编码（见{\chaptertwelve}），但是该方法仍然无法显性区分局部依赖与长距离依赖。这里，局部依赖指代当前位置的词与局部的相邻词之间的联系。
+\parinterval 但是，Transformer模型中的自注意力机制本身并不具有这种性质，而且直接忽略了输入单元之间的位置关系。虽然，Transformer中引入了基于正余弦函数的绝对位置编码（见{\chaptertwelve}），但是该方法仍然无法显性区分局部依赖与长距离依赖\footnote[1]{局部依赖指当前位置与局部的相邻位置之间的联系。}。
-\parinterval 针对上述问题，研究人员设计了“相对位置”编码，对原有的“绝对位置”编码进行补充，强化了局部依赖\upcite{Dai2019TransformerXLAL,Shaw2018SelfAttentionWR}{\red（文献格式错误？）}。此外，由于模型中每一层均存在自注意力机制计算，因此模型捕获位置信息的能力也逐渐减弱，这种现象在深层网络建模中尤为明显。而利用相对位置编码能够有效地强化深层神经网络中局部位置的表示，并显著地提升模型性能\upcite{li2020shallow}{\red（文献格式错误？）}。
+\parinterval 针对上述问题，研究人员设计了“相对位置”编码，对原有的“绝对位置”编码进行补充，强化了局部依赖\upcite{Dai2019TransformerXLAL,Shaw2018SelfAttentionWR}{\red（文献格式错误？）}。此外，由于模型中每一层均存在自注意力机制计算，因此模型捕获位置信息的能力也逐渐减弱，这种现象在深层模型中尤为明显。而利用相对位置编码能够把位置信息显性加入到每一层注意力机制的计算中，进而强化深层模型中局部位置的表示能力\upcite{li2020shallow}{\red（文献格式错误？）}。{\color{red} 图XXX对比了Transformer中相对位置编码和绝对位置编码方法。}
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -54,7 +54,7 @@
 \subsubsection{1. 位置编码}\label{subsubsec-15.1.1}
-\parinterval 对于一个序列，位置编码描述了不同位置的偏置信息{\red （没理解）}。常见的技术手段为：在模型的输入中显性加入统计偏置信息，如正余弦函数\upcite{vaswani2017attention}{\red（文献格式错误？）}, 或在模型每层神经网络中加入偏置信息。在介绍相对位置编码之前，首先简要回顾一下自注意力机制的计算流程（见{\chaptertwelve}）。对于Transformer模型中的某一层神经网络，可以定义：
+\parinterval 在介绍相对位置编码之前，首先简要回顾一下自注意力机制的计算流程（见{\chaptertwelve}）。对于Transformer模型中的某一层神经网络，可以定义：
 \begin{eqnarray}
 \mathbi{Q} & = & \mathbi{x} \mathbi{W}_Q \\
@@ -62,20 +62,20 @@
 \mathbi{V} & = & \mathbi{x} \mathbi{W}_V
 \end{eqnarray}
-\noindent 其中，$\mathbi{x}$为上一层的输出\footnote[1]{这里，$\mathbi{K}$、$\mathbi{Q}$、$\mathbi{V}$的定义与{\chaptertwelve}略有不同，因为在这里的$\mathbi{K}$、$\mathbi{Q}$、$\mathbi{V}$ 是指对注意力模型输入进行线性变换后的结果，而{\chaptertwelve}中$\mathbi{K}$、$\mathbi{Q}$、$\mathbi{V}$直接表示输入。但是，这两种描述方式本质上是一样的，区别仅仅在于对输入的线性变化是放在输入自身中描述，还是作为输入之后的一个额外操作。}，$\mathbi{W}_Q$、$\mathbi{W}_V$、$\mathbi{W}_K$均为模型参数，他们可以通过自动学习得到。此时，对于整个模型输入的向量序列$\seq{x}=\{\mathbi{x}_1,\mathbi{x}_2,\ldots,\mathbi{x}_m\}$，通过点乘计算，可以得到当前位置$i$和序列中所有位置间的关系：
+\noindent 其中，$\mathbi{x}$为上一层的输出\footnote{这里，$\mathbi{K}$、$\mathbi{Q}$、$\mathbi{V}$的定义与{\chaptertwelve}略有不同，因为在这里的$\mathbi{K}$、$\mathbi{Q}$、$\mathbi{V}$ 是指对注意力模型输入进行线性变换后的结果，而{\chaptertwelve}中$\mathbi{K}$、$\mathbi{Q}$、$\mathbi{V}$直接表示输入。但是，这两种描述方式本质上是一样的，区别仅仅在于对输入的线性变化是放在输入自身中描述，还是作为输入之后的一个额外操作。}，$\mathbi{W}_Q$、$\mathbi{W}_V$、$\mathbi{W}_K$为模型参数，它们可以通过自动学习得到。此时，对于整个模型输入的向量序列$\seq{x}=\{\mathbi{x}_1,\mathbi{x}_2,\ldots,\mathbi{x}_m\}$，通过点乘计算，可以得到当前位置$i$和序列中所有位置间的关系，记为$\mathbi{z}_{i} $，计算公式如下：
 \begin{eqnarray}
 \mathbi{z}_{i} &=& \sum_{j=1}^m \alpha_{ij}(\mathbi{x}_j \mathbi{W}_V)
 \label{eq:15-1}
 \end{eqnarray}
-\noindent 其中，$\mathbi{z}_{i}$可以被看做是输入序列的线性加权表示结果。权重$\alpha_{ij}$通过Softmax函数得到：
+\noindent 这里，$\mathbi{z}_{i}$可以被看做是输入序列的线性加权表示结果。权重$\alpha_{ij}$通过Softmax函数得到：
 \begin{eqnarray}
 \alpha_{ij} &=& \frac{\exp \mathbi{e}_{ij}}{\sum_{k=1}^{m} \mathbi{e}_{ik}}
 \label{eq:15-2}
 \end{eqnarray}
-\noindent 这里$\mathbi{e}_{ij}$被定义为：
+\noindent 进一步，$\mathbi{e}_{ij}$被定义为：
 \begin{eqnarray}
 \mathbi{e}_{ij} &=& \frac{(\mathbi{x}_i \mathbi{W}_Q){(\mathbi{x}_j \mathbi{W}_K)}^{T}}{\sqrt{d_k}}
 \label{eq:15-3}
@@ -87,7 +87,7 @@
 \begin{itemize}
 \vspace{0.5em}
-\item {\small\bfnew{相对位置编码}}\index{相对位置编码}（Relative Positional Representation）\index{Relative Positional Representation}\upcite{Shaw2018SelfAttentionWR}。核心思想是在能够捕获全局依赖的自注意力机制中引入相对位置信息。该方法可以有效补充绝对位置编码的不足，甚至完全取代绝对位置编码。假设，$\mathbi{x}_i$和$\mathbi{x}_j$是输入序列中位置$i$和$j$的向量，二者的联系可以通过向量$\mathbi{a}_{ij}^V$ 和$\mathbi{a}_{ij}^K$来表示，定义如下：
+\item {\small\bfnew{相对位置编码}}\index{相对位置编码}（Relative Positional Representation）\index{Relative Positional Representation}\upcite{Shaw2018SelfAttentionWR}。核心思想是在能够捕获全局依赖的自注意力机制中引入相对位置信息。该方法可以有效补充绝对位置编码的不足，甚至完全取代绝对位置编码。对于Transformer模型中的任意一层，假设$\mathbi{x}_i$和$\mathbi{x}_j$是位置$i$和$j$的输入向量（也就是来自上一层位置$i$和$j$的输出向量），二者的联系可以通过向量$\mathbi{a}_{ij}^V$ 和$\mathbi{a}_{ij}^K$来表示，定义如下：
 \begin{eqnarray}
 \mathbi{a}_{ij}^K &=& \mathbi{w}^K_{\textrm{clip}(j-i,k)} \label{eq:15-7} \\
 \mathbi{a}_{ij}^V &=& \mathbi{w}^V_{\textrm{clip}(j-i,k)} \label{eq:15-8} \\
@@ -100,15 +100,17 @@
 \label{eq:15-4}
 \end{eqnarray}
-\parinterval 相比于公式\eqref{eq:15-1}，公式\eqref{eq:15-4}在计算$\mathbi{z}_i$时引入了额外的向量$\mathbi{a}_{ij}^V$，用它来表示位置$i$与位置$j$之间的相对位置信息。同时在计算注意力权重时对$\mathbi{K}$进行修改，同样引入了$\mathbi{a}_{ij}^K$向量表示位置$i$与位置$j$之间的相对位置。在公式\eqref{eq:15-3}的基础上，注意力权重的计算方式调整为：
+\noindent 相比于公式\eqref{eq:15-1}，公式\eqref{eq:15-4}在计算$\mathbi{z}_i$时引入了额外的向量$\mathbi{a}_{ij}^V$，用它来表示位置$i$与位置$j$之间的相对位置信息。同时在计算注意力权重时对$\mathbi{K}$进行修改，同样引入了$\mathbi{a}_{ij}^K$向量表示位置$i$与位置$j$之间的相对位置。在公式\eqref{eq:15-3}的基础上，注意力权重的计算方式调整为：
 \begin{eqnarray}
 \mathbi{e}_{ij} &=& \frac{\mathbi{x}_i \mathbi{W}_Q{(\mathbi{x}_j \mathbi{W}_K + \mathbi{a}_{ij}^K )}^{T}}{\sqrt{d_k}} \nonumber \\
 &=& \frac{\mathbi{x}_i \mathbi{W}_Q{(\mathbi{x}_j \mathbi{W}_K)}^{T} + \mathbi{x}_i \mathbi{W}_Q{(\mathbi{a}_{ij}^K )}^{T}}{\sqrt{d_k}}
 \label{eq:15-6}
 \end{eqnarray}
+\noindent 可以注意到，公式\eqref{eq:15-4}和公式\eqref{eq:15-6}将位置编码信息直接暴露给每一层注意力机制的计算，而不是像标准Transformer中只将其作为整个模型的输入。
 \vspace{0.5em}
-\item Transformer-XL\upcite{Dai2019TransformerXLAL}{\red（文献格式错误？）}。由于输入特征是由词嵌入表示与绝对位置编码组成，例如，$x_i = \mathbi{E}_{x_i} + \mathbi{U}_i$，$x_j=\mathbi{E}_{x_j} + \mathbi{U}_j$，其中$\mathbi{E}_{x_i} $和$\mathbi{E}_{x_j} $表示词嵌入，$\mathbi{U}_i$和$\mathbi{U}_j$表示绝对位置编码（正余弦函数）。将其代入公式\eqref{eq:15-3}中可以得到：
+\item Transformer-XL\upcite{Dai2019TransformerXLAL}{\red（文献格式错误？）}。在Transformer中，模型的输入由词嵌入表示与绝对位置编码组成，例如，对于输入层有，$x_i = \mathbi{E}_{x_i} + \mathbi{U}_i$，$x_j=\mathbi{E}_{x_j} + \mathbi{U}_j$，其中$\mathbi{E}_{x_i} $和$\mathbi{E}_{x_j} $表示词嵌入，$\mathbi{U}_i$和$\mathbi{U}_j$表示绝对位置编码（正余弦函数）。将其代入公式\eqref{eq:15-3}中可以得到：
 \begin{eqnarray}
 \mathbi{e}_{ij} &=& \frac{(\mathbi{E}_{x_i} + \mathbi{U}_i)\mathbi{W}_Q{((\mathbi{E}_{x_j} + \mathbi{U}_j)\mathbi{W}_K)}^{T}}{\sqrt{d_k}}
 \label{eq:15-10}
@@ -117,19 +119,19 @@
 \noindent 通过将$\mathbi{e}_{ij}$展开可以得到公式\eqref{eq:15-10}的分子部分：
 \begin{eqnarray}
-A_{ij}^{abs} &=& \underbrace{\mathbi{E}_{x_i}\mathbi{W}_Q\mathbi{W}_{K}^{T}\mathbi{E}_{x_j}^{T}}_{\textrm{(a)}} + \underbrace{\mathbi{E}_{x_i}\mathbi{W}_Q\mathbi{W}_{K}^{T}\mathbi{U}_{j}^{T}}_{\textrm{(b)}} + \nonumber \\
+A_{ij}^{\rm abs} &=& \underbrace{\mathbi{E}_{x_i}\mathbi{W}_Q\mathbi{W}_{K}^{T}\mathbi{E}_{x_j}^{T}}_{\textrm{(a)}} + \underbrace{\mathbi{E}_{x_i}\mathbi{W}_Q\mathbi{W}_{K}^{T}\mathbi{U}_{j}^{T}}_{\textrm{(b)}} + \nonumber \\
 & & \underbrace{\mathbi{U}_i\mathbi{W}_Q\mathbi{W}_{K}^{T}\mathbi{E}_{x_j}^{T}}_{\textrm{(c)}} + \underbrace{\mathbi{U}_i\mathbi{W}_Q\mathbi{W}_{K}^{T}\mathbi{U}_{j}^{T}}_{\textrm{(d)}}
 \label{eq:15-11}
 \end{eqnarray}
-\noindent 这里，$\mathbi{W}_Q$与$\mathbi{W}_K$表示线性变换的权重矩阵。为了引入相对位置信息，可以将公式\eqref{eq:15-11}修改为如下形式：
+\noindent 这里，$\mathbi{W}_Q$与$\mathbi{W}_K$表示线性变换矩阵。为了引入相对位置信息，可以将公式\eqref{eq:15-11}修改为如下形式：
 \begin{eqnarray}
-A_{ij}^{rel} &=& \underbrace{\mathbi{E}_{x_i}\mathbi{W}_Q\mathbi{W}_{K}^{T}\mathbi{E}_{x_j}^{T}}_{\textrm{(a)}} + \underbrace{\mathbi{E}_{x_i}\mathbi{W}_Q\mathbi{W}_{K}^{T}\mathbi{R}_{i-j}^{T}}_{\textrm{(b)}} + \nonumber \\
+A_{ij}^{\rm rel} &=& \underbrace{\mathbi{E}_{x_i}\mathbi{W}_Q\mathbi{W}_{K}^{T}\mathbi{E}_{x_j}^{T}}_{\textrm{(a)}} + \underbrace{\mathbi{E}_{x_i}\mathbi{W}_Q\mathbi{W}_{K}^{T}\mathbi{R}_{i-j}^{T}}_{\textrm{(b)}} + \nonumber \\
 & & \underbrace{\mathbi{u}\mathbi{W}_{K,E}^{T}\mathbi{E}_{x_j}^{T}}_{\textrm{(c)}} + \underbrace{\mathbi{v}\mathbi{W}_{K,R}^{T}\mathbi{R}_{i-j}^{T}}_{\textrm{(d)}}
 \label{eq:15-12}
 \end{eqnarray}
-\noindent 其中，$A_{ij}^{rel}$为使用相对位置编码后的表示。公式中各项的含义为：(a)表示基于内容的表示（{\color{red} 啥意思没看懂，啥是基于内容？谁的内容？}），(b)表示基于内容的位置偏置，(c)表示全局内容的偏置，(d) 表示全局位置的偏置。公式\eqref{eq:15-11}中的(a)、(b)两项与前面介绍的相对位置编码一致\upcite{Shaw2018SelfAttentionWR}，并针对相对位置编码引入了额外的线性变换矩阵。同时兼顾了全局内容偏置和全局位置偏置，可以更好地利用正余弦函数的归纳偏置特性。
+\noindent 其中，$A_{ij}^{\rm rel}$为使用相对位置编码后位置$i$与$j$关系的表示结果。公式中各项的含义为：(a)表示基于内容的表示（{\color{red} 啥意思没看懂，啥是基于内容？谁的内容？}），(b)表示基于内容的位置偏置，(c)表示全局内容的偏置，(d) 表示全局位置的偏置。公式\eqref{eq:15-11}中的(a)、(b)两项与前面介绍的相对位置编码一致\upcite{Shaw2018SelfAttentionWR}，并针对相对位置编码引入了额外的线性变换矩阵。同时，这种方法兼顾了全局内容偏置和全局位置偏置，可以更好地利用正余弦函数的归纳偏置特性。
 \vspace{0.5em}
 \item {\small\bfnew{结构化位置编码}}\index{基于结构化位置编码}（Structural Position Representations）\index{Structural Position Representations}\upcite{DBLP:conf/emnlp/WangTWS19a}。 例如，可以通过对输入句子进行依存句法分析得到句法树，根据叶子结点在句法树中的深度来表示其绝对位置，并在此基础上利用相对位置编码的思想计算节点之间的相对位置信息。
@@ -156,19 +158,19 @@ A_{ij}^{rel} &=& \underbrace{\mathbi{E}_{x_i}\mathbi{W}_Q\mathbi{W}_{K}^{T}\math
 \label{eq:15-13}
 \end{eqnarray}
-\noindent 其中，$\mathbi{G} \in \mathbb{R}^{m\times m}$。$\mathbi{G}$中的每个元素$G_{ij}$表示当前单词$\mathbi{x}_j$和预测的中心位置$P_i$之间的关联程度，计算公式如下：
+\noindent 其中，$\mathbi{G} \in \mathbb{R}^{m\times m}$。$\mathbi{G}$中的每个元素$G_{ij}$表示位置$j$和预测的中心位置$P_i$之间的关联程度，计算公式如下：
 \begin{eqnarray}
 G_{ij} &=& - \frac{{(j - P_i)}^2}{2\sigma_i^2}
 \label{eq:15-14}
 \end{eqnarray}
-\noindent 其中，$\sigma_i$表示偏差，被定义为$\sigma_i = \frac{D_i}{2}$。中心位置$P_i$和局部建模窗口大小$D_i$的计算方式如下：
+\noindent 其中，$\sigma_i$表示偏差，被定义为局部建模窗口大小$D_i$的一半，即$\sigma_i = \frac{D_i}{2}$。中心位置$P_i$和$D_i$的计算方式如下：
 \begin{eqnarray}
 \begin{pmatrix} P_i \\ D_i \end{pmatrix} &=& m \cdot \textrm{Sigmoid}(\begin{pmatrix} p_i \\ v_i \end{pmatrix})
 \label{eq:15-15}
 \end{eqnarray}
-\noindent 其中，$m$表示序列长度，$p_i$和$v_i$为网络计算的中间结果，用如下方式计算：
+\noindent 其中，$m$表示序列长度，$p_i$和$v_i$为计算的中间结果，被定义为：
 \begin{eqnarray}
 p_i &=& \mathbi{I}_p^T\textrm{Tanh}(\mathbi{W}_p\mathbi{Q}_i) \\
 v_i &=& \mathbi{I}_d^T\textrm{Tanh}(\mathbi{W}_d\mathbi{Q}_i)
@@ -219,29 +221,29 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 \vspace{0.5em}
 \end{itemize}
-\parinterval 值得注意的是上述两种添加局部约束的方法都更适用于Transformer模型的底层网络，即在模型离输入更近的层更倾向于捕获局部信息，之后伴随着神经网络的加深逐渐加强全局建模的能力。类似的结论在针对BERT模型的解释性研究工作中也有所提及\upcite{Jawahar2019WhatDB,DBLP:conf/emnlp/Ethayarajh19}。
+\parinterval 值得注意的是上述两种添加局部约束的方法都更适用于Transformer模型的底层网络，即在模型离输入更近的层更倾向于捕获局部信息，之后伴随着神经网络的加深逐渐加强全局建模的能力。类似的结论在针对BERT模型的解释性研究工作中也有报道\upcite{Jawahar2019WhatDB,DBLP:conf/emnlp/Ethayarajh19}。
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------
-\subsubsection{3. 卷积vs.注意力}
+\subsubsection{3. 卷积 vs 注意力}
-\parinterval 第十一章已经提到，卷积神经网络能够很好地捕获序列中的局部信息。因此，充分地利用卷积神经网络的特性，也是进一步优化注意力模型的一种思路。常见的做法是在注意力模型中引入卷积操作，甚至用卷积操作替换自注意力模型。常见的方法有：
+\parinterval 第十一章已经提到，卷积神经网络能够很好地捕捉序列中的局部信息。因此，充分地利用卷积神经网络的特性，也是进一步优化注意力模型的一种思路。常见的做法是在注意力模型中引入卷积操作，甚至用卷积操作替换注意力模型。常见的方法有：
 \begin{itemize}
 \vspace{0.5em}
-\item 使用轻量卷积和动态卷积神经网络\upcite{Wu2019PayLA,DBLP:conf/interspeech/GulatiQCPZYHWZW20}{\red（文献格式错误？）}。卷积神经网络天然更适用于捕获输入序列不同位置间的局部依赖。这里，分别在编码端和解码端利用轻量卷积或动态卷积神经网络（见{\chapternine}）替换Transformer的自注意力机制，同时保留目标端的编码-解码注意力机制，一定程度上加强了模型对局部信息的建模能力，同时提高了计算效率。
+\item 使用轻量卷积和动态卷积神经网络\upcite{Wu2019PayLA,DBLP:conf/interspeech/GulatiQCPZYHWZW20}{\red（文献格式错误？）}。比如，分别在编码端和解码端利用轻量卷积或动态卷积神经网络（见{\chapternine}）替换Transformer的自注意力机制，同时保留解码端的编码-解码注意力机制，一定程度上加强了模型对局部信息的建模能力，同时提高了计算效率。
 \vspace{0.5em}
-\item 使用1维卷积注意力网络（图\ref{fig:15-3}(b)）。可以使用一维的卷积自注意力网络（1D-CSAN）将关注的范围限制在相近的元素窗口中。其形式上十分简单，只需预先设定好局部建模的窗口大小范围$D$，并在进行注意力权重计算和对Value值进行加权求和时，将其限制在设定好的窗口范围内即可。
+\item 使用1维卷积注意力网络（图\ref{fig:15-3}(b)）。可以使用一维的卷积自注意力网络（1D-CSAN）将关注的范围限制在相近的元素窗口中。其形式上十分简单，只需预先设定好局部建模的窗口大小$D$，并在进行注意力权重计算和对Value值进行加权求和时，将其限制在设定好的窗口范围内即可。
 \vspace{0.5em}
-\item 使用2维卷积注意力网络（图\ref{fig:15-3}(c)）。在1维卷积注意力网络的基础上对多个注意力头之间的信息进行了交互建模，打破了注意力头之间的界限。 1D-CDAN的关注区域为$1\times D$，当将其扩展为2维矩形$(N\times D)$，长和宽分别为局部窗口的大小和参与建模的自注意力头的个数。这样，模型可以计算某个头中的第$i$个元素和另一个头中的第$j$个元素之间的相关性系数。实现了对不同子空间之间关系的建模，所得到的注意力分布表示了头之间的依赖关系。
+\item 使用2维卷积注意力网络（图\ref{fig:15-3}(c)）。在1维卷积注意力网络的基础上对多个注意力头之间的信息进行了交互建模，打破了注意力头之间的界限。 1D-CDAN的关注区域为$1\times D$，当将其扩展为2维矩形$D \times N$，长和宽分别为局部窗口的大小和参与建模的自注意力头的个数。这样，模型可以计算某个头中的第$i$个元素和另一个头中的第$j$个元素之间的相关性系数。实现了对不同子空间之间关系的建模，所得到的注意力分布表示了头之间的依赖关系。
 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter15/Figures/figure-convolutional-attention-network}
-\caption{原始卷积注意力模型示意图{\red{原图，要引用}}}
+\caption{卷积注意力模型示意图{\red{原图，要引用}}}
 \label{fig:15-3}
 \end{figure}
 %-------------------------------------------
@@ -253,17 +255,17 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 \subsection{多分支结构}
-\parinterval 在神经网络模型中，可以使用多个平行的组件用来捕捉输入中不同角度所表现出来特征，这种结构被称为{\small\bfnew{多分支}}\index{多分支}（Multi-branch）\index{Multi-branch}结构。多分支结构在图像领域被广泛应用\upcite{DBLP:conf/cvpr/XieGDTH17}{\red（文献格式错误？）}，在许多人工设计或者自动搜索获得的网络结构中都有它的身影\upcite{DBLP:conf/icml/SoLL19,DBLP:conf/emnlp/YanMZ20,DBLP:journals/corr/abs-2006-10270}{\red（文献格式错误？）}。
+\parinterval 在神经网络模型中，可以使用多个平行的组件从不同角度捕捉输入的特征，这种结构被称为{\small\bfnew{多分支}}\index{多分支}（Multi-branch）\index{Multi-branch}结构。多分支结构在图像处理领域被广泛应用\upcite{DBLP:conf/cvpr/XieGDTH17}{\red（文献格式错误？）}，在许多人工设计或者自动搜索获得的神经网络结构中也有它的身影\upcite{DBLP:conf/icml/SoLL19,DBLP:conf/emnlp/YanMZ20,DBLP:journals/corr/abs-2006-10270}{\red（文献格式错误？）}。
-\parinterval 在自然语言处理领域，多分支结构同样也有很多应用。比如，{\chapterten}介绍过模型中，为了更好地对源语言进行表示，编码端可以采用双向循环神经网络。这种模型就可以被看作一个两分支的结构，分别用来建模正向序列和反向序列的表示，之后将这两种表示进行拼接得到更丰富的表示。另一个典型的例子是{\chaptertwelve}介绍的多头注意力机制。在Transformer 模型中，多头注意力将输入空间表示分割成多个独立的表示，然后分别进行点积注意力的计算，最后再将多个输出表示拼接后通过线性变化进行不同子空间信息的融合。在这个过程中，多个不同的头对应着不同的特征空间，可以捕捉到不同的特征信息。
+\parinterval 在自然语言处理领域，多分支结构同样也有很多应用。比如，{\chapterten}介绍过，为了更好地对源语言进行表示，编码端可以采用双向循环神经网络。这种模型就可以被看作一个两分支的结构，分别用来建模正向序列和反向序列的表示，之后将这两种表示进行拼接得到更丰富的序列表示结果。另一个典型的例子是{\chaptertwelve}介绍的多头注意力机制。在Transformer 模型中，多头注意力将输入向量分割成多个子向量，然后分别进行点乘注意力的计算，最后再将多个输出的子向量拼接后通过线性变换进行不同子空间信息的融合。在这个过程中，多个不同的头对应着不同的特征空间，可以捕捉到不同的特征信息。
-\parinterval 近几年，在Transformer的结构基础上，研究人员探索了更为丰富的多分支结构。下面介绍几种在Transformer网络中引入多分支结构的方法：
+\parinterval 近几年，在Transformer的结构基础上，研究人员探索了更为丰富的多分支结构。下面介绍几种在Transformer模型中引入多分支结构的方法：
 \begin{itemize}
 \vspace{0.5em}
-\item Weighted Transformer\upcite{DBLP:journals/corr/abs-1711-02132}{\red（文献格式错误？）}。其主要思想是在多头自注意力机制的基础上保留不同表示空间的特征。传统方法使用级联操作并通过线性映射矩阵来融合不同头之间的信息，而Weighted Transformer直接利用线性映射矩阵$\mathbi{W} \in \mathbb{R}^{d_k \times d_{model}}$将维度为$d_k$ 的向量表示映射到$d_{model}$维的向量，并赋予适当的权重。之后分别送入每个分支中的前馈神经网络，对得到的不同分支输出进行线性加权。但是，这个模型的计算复杂度要大于标准的Transformer模型。
+\item Weighted Transformer\upcite{DBLP:journals/corr/abs-1711-02132}{\red（文献格式错误？）}。其主要思想是在多头自注意力机制的基础上保留不同表示空间的特征。传统方法使用级联操作并通过线性映射矩阵来融合不同头之间的信息，而Weighted Transformer直接利用线性映射将维度为$d_k$ 的向量表示映射到$d_{\rm model}$维的向量。之后，将这个$d_{\rm model}$维向量分别送入每个分支中的前馈神经网络，最后对不同分支的输出进行线性加权。但是，这个模型的计算复杂度要大于标准的Transformer模型。
 \vspace{0.5em}
-\item 多分支注意力模型\upcite{DBLP:journals/corr/abs-2006-10270}。相比于Weighted Transformer模型，多分支注意力模型直接利用每个分支独立地进行自注意力模型的计算（图\ref{fig:15-6}）。同时为了避免结构相同的多个多头注意力机制之间的协同适应，使用基于分支的Dropout方法在训练过程中以一定的概率随机地丢弃一些分支。
+\item 多分支注意力模型\upcite{DBLP:journals/corr/abs-2006-10270}。不同于Weighted Transformer模型，多分支注意力模型直接利用每个分支独立地进行自注意力模型的计算（图\ref{fig:15-6}）。同时为了避免结构相同的多个多头注意力机制之间的协同适应，这种模型使用Dropout方法在训练过程中以一定的概率随机地丢弃一些分支。
 %----------------------------------------------
 \begin{figure}[htp]
@@ -275,17 +277,17 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 %-------------------------------------------
 \vspace{0.5em}
-\item 多模型集成。例如，为了进一步加强不同分支的作用，基于多单元的Transformer模型\upcite{DBLP:conf/emnlp/YanMZ20}进行了序列不同位置表示的交换，或使用不同的掩码策略对不同分支的输入进行扰动，保证分支间的多样性与互补性。本质上，所谓的多单元思想与集成学习十分相似，类似于在训练过程中同时训练多个编码器。此外，通过增大子单元之间的结构差异性也能够进一步增大分支之间的多样性\upcite{李北2019面向神经机器翻译的集成学习方法分析}。
+\item 多模型集成。例如，为了进一步加强不同分支的作用，基于多单元的Transformer模型进行了序列不同位置表示结果的交换，或使用不同的掩码策略对不同分支的输入进行扰动，保证分支间的多样性与互补性\upcite{DBLP:conf/emnlp/YanMZ20}。本质上，所谓的多单元思想与集成学习十分相似，类似于在训练过程中同时训练多个编码器。此外，通过增大子单元之间的结构差异性也能够进一步增大分支之间的多样性\upcite{李北2019面向神经机器翻译的集成学习方法分析}。
 \vspace{0.5em}
 \end{itemize}
-\parinterval 此外，在\ref{subsec-15.1.1}节中曾提到过，利用卷积神经网络可以与自注意力机制形成互补。类似的想法在多分支结构中也有体现。如图\ref{fig:15-8}所示，可以使用自注意力机制和卷积神经网络分别提取全局和局部两种依赖关系\upcite{DBLP:conf/iclr/WuLLLH20}。具体的做法是将输入的特征向量切分成等同维度的两部分，之后分别送入两个分支进行计算。其中，全局信息使用自注意力机制进行提取，局部信息使用轻量卷积进行提取\upcite{Wu2019PayLA}{\red（文献格式错误？）}。此外，由于每个分支的维度只有原始的一半，采用并行计算方式可以显著缩短模型的运行时间。
+\parinterval 此外，在\ref{subsec-15.1.1}节中曾提到过，利用卷积神经网络可以与自注意力机制形成互补。类似的想法在多分支结构中也有体现。如图\ref{fig:15-8}所示，可以使用自注意力机制和卷积神经网络分别提取全局和局部两种依赖关系\upcite{DBLP:conf/iclr/WuLLLH20}。具体的做法是将输入的特征向量切分成等同维度的两部分，之后分别送入两个分支进行计算。其中，全局信息使用自注意力机制进行提取，局部信息使用轻量卷积进行提取\upcite{Wu2019PayLA}{\red（文献格式错误？）}。此外，由于每个分支的维度只有原始的一半，采用并行计算方式可以显著提升系统的运行速度。
 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter15/Figures/figure-light-weight-transformer-module}
-\caption{基于自注意力和卷积神经网络的多分支结构}
+\caption{基于自注意力和卷积神经网络的2分支结构}
 \label{fig:15-8}
 \end{figure}
 %-------------------------------------------
@@ -296,9 +298,9 @@ C(\mathbi{x}_j \mathbi{W}_K,\omega) &=& (\mathbi{x}_{j-\omega},\ldots,\mathbi{x}
 \subsection{引入循环机制}
-\parinterval Transformer模型完全摒弃了循环单元与卷积单元，仅通过绝对位置编码来区分序列中的不同位置。另一方面，由于循环神经网络也非常适用于处理序列结构，且其结构成熟、易于优化。因此，将其与Transformer模型融合，一方面发挥循环神经网络简单高效的特点，另一方面发挥Transformer模型在特征提取方面的优势，也是一种非常值得探索的思路\upcite{Chen2018TheBO}。
+\parinterval Transformer模型完全摒弃了循环单元与卷积单元，仅通过位置编码来区分序列中的不同位置。另一方面，由于循环神经网络也非常适用于处理序列结构，且其结构成熟、易于优化。因此，将其与Transformer模型融合，一方面发挥循环神经网络简单高效的特点，另一方面发挥Transformer模型在特征提取方面的优势，也是一种非常值得探索的思路\upcite{Chen2018TheBO}。
-\parinterval 一种方法是，对深层网络的不同层使用循环机制。早在残差网络提出时，研究人员已经开始尝试探讨残差网络成功背后的原因\upcite{DBLP:conf/nips/VeitWB16,DBLP:journals/corr/GreffSS16,DBLP:conf/iclr/ChangMHTB18}。本质上，在卷积神经网络中引入残差连接后，网络从深度上隐性地利用循环的特性。也就是，多层Transformer本身的不同层本身也可以被看作是一个处理序列，只是序列中不同位置（对应不同层）的模型参数独立，而非共享。Transformer编码器与解码器分别由$N$个相同结构但参数独立的块堆叠而成，其中编码块与解码块中分别包含2和3个子层。同时，子层之间引入了残差连接保证了网络信息传递的高效性。因此，一个自然的想法是通过共享不同块之间的参数，引入循环神经网络中的归纳偏置\upcite{DBLP:conf/iclr/DehghaniGVUK19}。其中每层的权重是共享的，并引入了基于时序的编码向量用于显著区分不同深度下的时序信息。之后，在训练大容量预训练模型时同样也采取了共享层间参数的方式\upcite{Lan2020ALBERTAL}{\red（文献格式错误？）}。
+\parinterval 一种方法是，对深层网络的不同层使用循环机制。早在残差网络提出时，研究人员已经开始尝试探讨残差网络成功背后的原因\upcite{DBLP:conf/nips/VeitWB16,DBLP:journals/corr/GreffSS16,DBLP:conf/iclr/ChangMHTB18}。本质上，在卷积神经网络中引入残差连接后，神经网络从深度上隐性地利用循环的特性。也就是，多层Transformer的不同层本身也可以被看作是一个处理序列，只是序列中不同位置（对应不同层）的模型参数独立，而非共享。Transformer编码器与解码器分别由$N$个相同结构但参数独立的块堆叠而成，其中编码块与解码块中分别包含2和3个子层。同时，子层之间引入了残差连接保证了网络信息传递的高效性。因此，一个自然的想法是通过共享不同块之间的参数，引入循环神经网络中的归纳偏置\upcite{DBLP:conf/iclr/DehghaniGVUK19}。其中每层的权重是共享的，并引入了基于时序的编码向量用于显著区分不同深度下的时序信息，{\color{red} 如图XXX所示}。在训练大容量预训练模型时同样也采取了共享层间参数的方式\upcite{Lan2020ALBERTAL}{\red（文献格式错误？）}。
 \parinterval 另一种方法是，利用循环神经网络对输入序列进行编码，之后通过门控机制将得到的结果与Transformer进行融合\upcite{DBLP:conf/naacl/HaoWYWZT19}。融合机制可以采用串行计算或并行计算。