11

e28a67e9 · zengxin · 694e6360 · e28a67e9 · e28a67e9 · e28a67e9
Commit e28a67e9 authored Nov 13, 2020 by zengxin
--- a/Chapter11/Figures/figure-dimension-transformation.tex
+++ b/Chapter11/Figures/figure-dimension-transformation.tex
@@ -43,7 +43,7 @@
 \node[num] at (2.4,3){2};
 \node[num] at (3,3){1};
-\node[minimum width = 1.8cm,minimum height = 1.8cm,draw=teal,line width=0.1cm] at (0.6,2.4) {};
+\node[minimum width = 1.8cm,minimum height = 1.8cm,draw=purple!40,line width=0.08cm,fill=purple!40,fill opacity=0.4] at (0.6,2.4) {};
 %\fill (4,1.5) circle (2pt);
 \node [] at (4,1.5) {*};
@@ -83,7 +83,7 @@
 \node[num] at (10.2,2.4){8};
 \node[num] at (10.8,2.4){7};
-\node[minimum width = 0.6cm,minimum height = 0.6cm,draw=teal,line width=0.1cm] at (9,2.4) {};
+\node[minimum width = 0.6cm,minimum height = 0.6cm,draw=purple!40,line width=0.08cm,fill=purple!40,fill opacity=0.4] at (9,2.4) {};
 \node[] (in) at (1.5,-1) {\small{输入：6$\times$6}};
 \node[] at (5.7,-1) {\small{卷积核：3$\times$3}};

--- a/Chapter11/Figures/figure-padding-and-conv.tex
+++ b/Chapter11/Figures/figure-padding-and-conv.tex
@@ -74,8 +74,8 @@
 \node[pad] at (3,3.6){0};
 \node[pad] at (3.6,3.6){0};
-\node[minimum width = 1.8cm,minimum height = 1.8cm,draw=purple!40,line width=0.08cm,fill=purple!40,fill opacity=0.5,align=center] at (0,3) {};
+\node[minimum width = 1.8cm,minimum height = 1.8cm,draw=purple!40,line width=0.08cm,fill=purple!40,fill opacity=0.4] at (0,3) {};
-\node[minimum width = 1.8cm,minimum height = 1.8cm,draw=orange!40,line width=0.08cm,fill=orange!40,fill opacity=0.5] at (0.6,2.4) {};
+\node[minimum width = 1.8cm,minimum height = 1.8cm,draw=orange!40,line width=0.08cm,fill=orange!40,fill opacity=0.4] at (0.6,2.4) {};
 %\fill (4.55,1.5) circle (2pt);
 \node [] at (4.55,1.5) {*};
@@ -138,8 +138,8 @@
 \node[num] at (10.8,3){2};
 \node[num] at (11.4,3){4};
-\node[minimum width = 0.6cm,minimum height = 0.6cm,draw=purple!40,line width=0.08cm,fill=purple!40,fill opacity=0.5] at (8.4,3) {0};
+\node[minimum width = 0.6cm,minimum height = 0.6cm,draw=purple!40,line width=0.08cm,fill=purple!40,fill opacity=0.4] at (8.4,3) {0};
-\node[minimum width = 0.6cm,minimum height = 0.6cm,draw=orange!40,line width=0.08cm,fill=orange!40,fill opacity=0.5] at (9,2.4) {1};
+\node[minimum width = 0.6cm,minimum height = 0.6cm,draw=orange!40,line width=0.08cm,fill=orange!40,fill opacity=0.4] at (9,2.4) {1};
 %\draw (1.5,-1.5)node{\small{输入：8$\times$8（填充后）}};
 %\draw (5.7,-1.5)node{\small{卷积核：3$\times$3}};

--- a/Chapter11/chapter11.tex
+++ b/Chapter11/chapter11.tex
@@ -247,9 +247,9 @@
 \subsection{位置编码}
-\parinterval 和基于循环神经网络的翻译模型类似，基于卷积神经网络的翻译模型同样采用词嵌入来进行输入序列的表示，该模型首先将语言序列$\seq{w}=\{w_1,w_2,...,w_m\}$表示为维度大小为$m \times d$的矩阵，其中$m$为序列长度，$d$为词嵌入向量维度。和循环神经网络不同的是，基于卷积神经网络的模型需要对每个输入单词位置进行表示。这是由于，在卷积神经网络中，受限于卷积核的大小，单层的卷积神经网络只能捕捉序列局部的相对位置信息。虽然多层的卷积神经网络可以扩大感受野，但是对全局的位置表示并不充分。而相较于基于卷积神经网络的模型，基于循环神经网络的模型按时间步对输入的序列进行建模，这样间接的对位置信息进行了建模。而词序又是自然语言处理任务中重要信息，因此这里需要单独考虑。
+\parinterval 和基于循环神经网络的翻译模型类似，基于卷积神经网络的翻译模型同样采用词嵌入来进行输入序列的表示，对于模型语言序列$\seq{w}=\{\mathbi{w}_1,\mathbi{w}_2,...,\mathbi{w}_m\}$，序列$\seq{w}$是维度大小为$m \times d$的矩阵，第$i$个单词$\mathbi{w}_i$是维度为$d$的向量，其中$m$为序列长度，$d$为词嵌入向量维度。和循环神经网络不同的是，基于卷积神经网络的模型需要对每个输入单词位置进行表示。这是由于，在卷积神经网络中，受限于卷积核的大小，单层的卷积神经网络只能捕捉序列局部的相对位置信息。虽然多层的卷积神经网络可以扩大感受野，但是对全局的位置表示并不充分。而相较于基于卷积神经网络的模型，基于循环神经网络的模型按时间步对输入的序列进行建模，这样间接的对位置信息进行了建模。而词序又是自然语言处理任务中重要信息，因此这里需要单独考虑。
-\parinterval 为了更好地引入序列的词序信息，该模型引入了位置编码$\seq{p}=\{p_1,p_2,...,p_m\}$，其中$p_i$的维度大小为$d$，一般和词嵌入维度相等，其中具体数值作为网络可学习的参数。简单来说，位置编码的作用就是对位置信息进行表示，不同序列中的相同位置都对应一个唯一的向量表示。之后将词嵌入矩阵和位置编码进行相加，得到模型的输入向量序列矩阵$\seq{e}=\{w_1+p_1,w_2+p_2,...,w_m+p_m\}$。  实际上也有研究人员发现卷积神经网络本身具备一定的编码位置信息的能力\upcite{Islam2020HowMP}，而这里的额外的位置编码模块可以被看作是对卷积神经网络位置编码能力的一种补充。
+\parinterval 为了更好地引入序列的词序信息，该模型引入了位置编码$\seq{p}=\{\mathbi{p}_1,\mathbi{p}_2,...,\mathbi{p}_m\}$，其中$\mathbi{p}_i$的维度大小为$d$，一般和词嵌入维度相等，其中具体数值作为网络可学习的参数。简单来说，位置编码的作用就是对位置信息进行表示，不同序列中的相同位置都对应一个唯一的向量表示。之后将词嵌入矩阵和位置编码进行相加，得到模型的输入序列$\seq{e}=\{\mathbi{w}_1+\mathbi{p}_1,\mathbi{w}_2+\mathbi{p}_2,...,\mathbi{w}_m+\mathbi{p}_m\}$。  实际上也有研究人员发现卷积神经网络本身具备一定的编码位置信息的能力\upcite{Islam2020HowMP}，而这里的额外的位置编码模块可以被看作是对卷积神经网络位置编码能力的一种补充。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -330,15 +330,16 @@
 \parinterval 残差连接从广义上讲也叫{\small\bfnew{短连接}}\index{短连接}（Short-cut Connection）\index{Short-cut Connection}，指的是这种短距离的连接。它的思想很简单，就是把层和层之间的距离拉近，进而提高信息传递的效率。如图\ref{fig:11-15}所示，子层1 通过残差连接跳过了子层2，直接和子层3 进行信息传递。使信息传递变得更高效，有效解决了深层网络训练过程中容易出现的梯度消失/爆炸问题，使得深层网络的训练更加容易。其计算公式为：
 \begin{eqnarray}
-x_{l+1} = x_l + F (x_l)
+\mathbi{h}^{l+1} = F (\mathbi{h}^l) + \mathbi{h}^l
 \label{eq:11-3}
 \end{eqnarray}
-\noindent 其中，$x_l$表示$l$层网络的输入向量，${F} (x_l)$是子层运算。如果$l=2$，那么公式\eqref{eq:11-3}可以解释为，第3层的输入（$x_3$）等于第2层的输出（${F}(x_2)$）加上第二层的输入（$x_2$）。
+\noindent 其中，$\mathbi{h}^l$表示$l$层网络的输入向量，${F} (\mathbi{h}^l)$是子层运算。如果$l=2$，那么公式\eqref{eq:11-3}可以解释为，第3层的输入（$\mathbi{h}^3$）等于第2层的输出（${F}(\mathbi{h}^2)$）加上第二层的输入（$\mathbi{h}^2$）。
 \parinterval 在ConvS2S中残差连接主要应用于门控卷积网络和多跳自注意力机制中。为了堆叠更多的卷积网络，在每个卷积网络的输入和输出之间增加残差连接，具体的数学描述如下：
 \begin{eqnarray}
-\mathbi{h}_i^l = \funp{v} (\mathbi{W}^l [\mathbi{h}_{i-\frac{k}{2}}^{l-1},...,\mathbi{h}_{i+\frac{k}{2}}^{l-1}] + b_{\mathbi{W}}^l ) + \mathbi{h}_i^{l-1}
+%\mathbi{h}_i^l = \funp{v} (\mathbi{W}^l [\mathbi{h}_{i-\frac{k}{2}}^{l-1},...,\mathbi{h}_{i+\frac{k}{2}}^{l-1}] + b_{\mathbi{W}}^l ) + \mathbi{h}_i^{l-1}
+\mathbi{h}^{l+1} = \mathbi{A}^{l} \otimes \sigma ( \mathbi{B}^{l} ) + \mathbi{h}^{l}
 \label{eq:11-4}
 \end{eqnarray}
@@ -370,7 +371,7 @@ x_{l+1} = x_l + F (x_l)
 \noindent 其中$\mathbi{h}_i$表示源语端第$i$个位置的隐层状态，$\mathbi{s}_j$表示目标端第$j$个位置的隐层状态。给定$\mathbi{s}_j$和$\mathbi{h}_i$，注意力机制通过函数a($\cdot$)计算目标语言表示$\mathbi{s}_j$与源语言表示$\mathbi{h}_i$之间的注意力权重$\alpha_{i,j}$，通过加权平均得到当前目标端位置所需的上下文表示$\mathbi{C}_j$。其中a($\cdot$)的具体计算方式在{\chapterten}已经详细讨论。
-\parinterval 对比基于循环神经网络的机器翻译模型(GNMT)仅在解码端的最底层采用注意力机制，在ConvS2S模型中，解码端的每一层中都分别引入了注意力机制，同时通过残差连接的方式将结果作用于上层网络的计算，因此称之为{\small\bfnew{ 多跳注意力}}（Multi-step Attention）。  其中ConvS2S模型选取向量乘的方式作为a($\cdot$)函数具体的数学描述为：
+\parinterval 对比基于循环神经网络的机器翻译模型(GNMT)仅在解码端的最底层采用注意力机制，在ConvS2S模型中，解码端的每一层中都分别引入了注意力机制，同时通过残差连接的方式将结果作用于上层网络的计算，因此称之为{\small\bfnew{ 多跳注意力}}（Multi-step Attention）。 ConvS2S模型选取向量乘的方式作为a($\cdot$)函数具体的数学描述为：
 \begin{eqnarray}
 \alpha_{ij}^l = \frac{ \textrm{exp} (\mathbi{d}_{j}^l,\mathbi{h}_i) }{\sum_{t=1}^m \textrm{exp} (\mathbi{d}_{j}^l,\mathbi{h}_{i})}
 \label{eq:11-6-1}
@@ -392,7 +393,7 @@ x_{l+1} = x_l + F (x_l)
 \parinterval 当得到上下文向量$\mathbi{C}_j^l$后，将其与$\mathbi{s}_j^l$相加后送入下一层计算，这种机制也被称为多跳机制，具体的数学描述如下：
 \begin{eqnarray}
-\mathbi{C}_j^{l+1} = \mathbi{C}_j^l + \mathbi{s}_j^l
+\mathbi{s}_j^{l+1} = \mathbi{C}_j^l + \mathbi{s}_j^l
 \label{eq:11-8}
 \end{eqnarray}
@@ -408,12 +409,12 @@ x_{l+1} = x_l + F (x_l)
 \parinterval ConvS2S同样有针对性的应用了很多工程方面的调整，主要包括：
 \begin{itemize}
-\item ConvS2S使用了{\small\bfnew{Nesterov加速梯度下降法}}（Nesterov Accelerated Gradient,NAG），动量累计的系数设置为0.99，当梯度范数超过0.1时重新进行规范化\upcite{Sutskever2013OnTI}；
+\item ConvS2S使用了{\small\bfnew{Nesterov加速梯度下降法}}（Nesterov Accelerated Gradient，NAG），动量累计的系数设置为0.99，当梯度范数超过0.1时重新进行规范化\upcite{Sutskever2013OnTI}；
 \item ConvS2S中设置学习率为0.25，每当模型在校验集上的困惑度不再下降时，便在每轮的训练后将学习率降低一个数量级，直至学习率小于一定的阈值（如0.0004）。
 \end{itemize}
-\parinterval Nesterov加速梯度下降法和{\chapternine}介绍的Momentum梯度下降法类似，都使用了历史梯度信息，区别在于使用的梯度不是来自于当前参数位置，而是按照之前梯度方向更新一小步的位置。这种方式可以更好的“预测未来”，提前调整更新速率，具体如下：
+\parinterval Nesterov加速梯度下降法和{\chapternine}介绍的Momentum梯度下降法类似，都使用了历史梯度信息，首先回忆一下Momentum梯度下降法，公式如下：
 \begin{eqnarray}
 \textrm{Momentum：} \mathbi{v}_t = \beta \mathbi{v}_{t-1} + (1-\beta)\frac{\partial J(\mathbi{w})}{\partial \mathbi{w}_t} \\
 \textrm{参数更新：} \mathbi{w}_{t+1} = \mathbi{w} - \alpha \mathbi{v}_t \ \   \ \   \ \   \ \   \ \   \ \
@@ -422,13 +423,13 @@ x_{l+1} = x_l + F (x_l)
 \noindent 其中$\mathbi{w}_t$表示第$t$步更新时的模型参数；$J(\mathbi{w})$表示损失函数均值期望的估计；$\frac{\partial J(\mathbi{w})}{\partial \mathbi{w}_t}$将指向$J(\mathbi{w})$在$\mathbi{w}$处变化最大的方向，即梯度方向；$\alpha$ 为学习率。$\mathbi{v}_t$则为损失函数在前$t-1$步更新中累积的梯度动量，利用超参数$\beta$控制累积的范围。
-\parinterval 在Nesterov加速梯度下降法中，使用的梯度不是来自于当前参数位置，而是按照之前梯度方向更新一小步的位置，以便于更好的“预测未来”，提前调整更新速率，因此，其动量的更新方式为：
+\parinterval 而在Nesterov加速梯度下降法中，使用的梯度不是来自于当前参数位置，而是按照之前梯度方向更新一小步的位置，以便于更好的“预测未来”，提前调整更新速率，因此，其动量的更新方式为：
 \begin{eqnarray}
 \textrm{Nesterov：} \mathbi{v}_t = \beta \mathbi{v}_{t-1} + (1-\beta)\frac{\partial J(\mathbi{w})}{\partial (\mathbi{w}_{t} -\alpha \beta \mathbi{v}_{t-1} )}
 \label{eq:11-10}
 \end{eqnarray}
-\parinterval 在数学本质上，NAG其实是利用了二阶导数的信息，因此可以做到“向前看”，加速收敛过程\upcite{Bengio2013AdvancesIO}。为了模型的稳定训练。ConvS2S也采用了一些网络正则化和参数初始化的策略，使得模型在前向计算和反向计算过程中方差尽可能保持一致。
+\parinterval 在数学本质上，Nesterov加速梯度下降法其实是利用了二阶导数的信息，因此可以做到“向前看”，加速收敛过程\upcite{Bengio2013AdvancesIO}。为了模型的稳定训练。ConvS2S也采用了一些网络正则化和参数初始化的策略，使得模型在前向计算和反向计算过程中方差尽可能保持一致。
 \parinterval 此外，ConvS2S为了进一步提升模型的训练效率及性能，还使用了小批量训练，即每次从样本中选择出一小部分数据进行训练。同时，ConvS2S模型中也使用了Dropout方法\upcite{JMLR:v15:srivastava14a}。除了在词嵌入层和解码器输出层应用Dropout外，ConvS2S还对卷积块的输入层应用了Dropout。
@@ -463,7 +464,7 @@ x_{l+1} = x_l + F (x_l)
 \parinterval 深度可分离卷积\upcite{Sifre2013RotationSA}由深度卷积和逐点卷积两部分结合而成。图\ref{fig:11-17}展示了标准卷积、深度卷积和逐点卷积的对比，为了方便显示，图中只画出了部分连接。
-\parinterval 给定输入序列表示$\seq{X} = \{ \mathbi{x}_1,\mathbi{x}_2,...,\mathbi{x}_m \}$，其中$m$为序列长度，$\mathbi{x}_i \in \mathbb{R}^{O} $ ，$O$ 即输入序列的通道数。为了获得与输入序列长度相同的卷积输出结果，首先需要进行填充。为了方便描述，这里在输入序列尾部填充 $K-1$ 个元素，其对应的卷积结果为$\seq{Z} = \{ \mathbi{z}_1,\mathbi{z}_2,...,\mathbi{z}_m \}$。在标准卷积中，$ \mathbi{z}_i^\textrm{std} \in \mathbb{R}^N$ （std是standard的缩写），N为卷积核的个数，也就是标准卷积输出序列的通道数。针对$ \mathbi{z}_i^\textrm{std} $ 中的第$n$个通道$ \mathbi{z}_{i,n}^\textrm{std}$，标准卷积具体计算方式如下：
+\parinterval 给定输入序列表示$\seq{X} = \{ \mathbi{x}_1,\mathbi{x}_2,...,\mathbi{x}_m \}$，其中$m$为序列长度，$\mathbi{x}_i \in \mathbb{R}^{O} $ ，$O$ 即输入序列的通道数。为了获得与输入序列长度相同的卷积输出结果，首先需要进行填充。为了方便描述，这里在输入序列尾部填充 $K-1$ 个元素（$K$为卷积核窗口的长度），其对应的卷积结果为$\seq{Z} = \{ \mathbi{z}_1,\mathbi{z}_2,...,\mathbi{z}_m \}$。在标准卷积中，$ \mathbi{z}_i^\textrm{std} \in \mathbb{R}^N$ ，std是standard的缩写，N为卷积核的个数，也就是标准卷积输出序列的通道数。针对$ \mathbi{z}_i^\textrm{std} $ 中的第$n$个通道$ \mathbi{z}_{i,n}^\textrm{std}$，标准卷积具体计算方式如下：
 \begin{eqnarray}
 \mathbi{z}_{i,n}^\textrm{std} = \sum_{o=1}^{O} \sum_{k=0}^{K-1} \mathbi{W}_{k,o,n}^\textrm{std} \mathbi{x}_{i+k,o}
 \label{eq:11-11}
@@ -471,21 +472,23 @@ x_{l+1} = x_l + F (x_l)
 \noindent 其中 $\mathbi{W}^\textrm{std} \in \mathbb{R}^{K \times O \times N} $ 为标准卷积的参数。可以看出，标准卷积中每个输出元素需要考虑卷积核尺度内所有词的所有特征，参数量相对较多，对应图\ref{fig:11-17}中的连接数也最多。
-\parinterval 相应的，深度卷积只考虑不同词之间的依赖性，而不考虑不同通道之间的关系，相当于使用$O$个卷积核逐个通道对不同的词进行卷积操作。因此深度卷积不改变输出的表示维度，输出序列表示的通道数与输入序列一致，其计算方式如下（dw是depth wise的缩写）：
+\parinterval 相应的，深度卷积只考虑不同词之间的依赖性，而不考虑不同通道之间的关系，相当于使用$O$个卷积核逐个通道对不同的词进行卷积操作。因此深度卷积不改变输出的表示维度，输出序列表示的通道数与输入序列一致，其计算方式如下：
 \begin{eqnarray}
 \mathbi{z}_{i,o}^\textrm{dw} = \sum_{k=0}^{K-1} \mathbi{W}_{k,o}^\textrm{dw} \mathbi{x}_{i+k,o}
 \label{eq:11-12}
 \end{eqnarray}
-\noindent 其中 $\mathbi{z}_i^\textrm{dw} \in \mathbb{R}^{O}$ ，$\mathbi{W}^\textrm{dw} \in \mathbb{R}^{K \times O}$，参数量只涉及卷积核大小及输入表示维度。
+\noindent 其中dw是depth wise的缩写，$\mathbi{z}_i^\textrm{dw} \in \mathbb{R}^{O}$ ，$\mathbi{W}^\textrm{dw} \in \mathbb{R}^{K \times O}$，参数量只涉及卷积核大小及输入表示维度。
-\parinterval 与深度卷积互为补充的是，逐点卷积只考虑不同通道之间的依赖性，而不考虑不同词之间的依赖。换句话说，逐点卷积对每个词表示做了一次线性变换，将输入表示从 $\mathbb{R}^{O}$ 的空间映射到 $\mathbb{R}^{N}$的空间，计算方式如下（pw是position wise的缩写）：
+\parinterval 与深度卷积互为补充的是，逐点卷积只考虑不同通道之间的依赖性，而不考虑不同词之间的依赖。换句话说，逐点卷积对每个词表示做了一次线性变换，将输入表示$\mathbi{x}_i$从 $\mathbb{R}^{O}$ 的空间映射到 $\mathbb{R}^{N}$的空间，计算方式如下（pw是position wise的缩写）：
 \begin{eqnarray}
-\mathbi{z}_{i,n}^\textrm{pw} &=& \sum\nolimits_{o=1}^{O} \mathbi{W}_{o,n}^\textrm{pw} \mathbi{x}_{i,o} \nonumber \\
+\mathbi{z}_{i,n}^\textrm{pw} &=& \sum\nolimits_{o=1}^{O} \mathbi{x}_{i,o} \mathbi{W}_{o,n}^\textrm{pw} \nonumber \\
                      &=& \mathbi{x}_i \mathbi{W}^\textrm{pw}
 \label{eq:11-13}
 \end{eqnarray}
+\noindent 其中$\mathbi{z}_{i}^\textrm{pw} \in  \mathbb{R}^{N}$，$\mathbi{W}^\textrm{pw} \in \mathbb{R}^{O \times N}$。
 \parinterval 表\ref{tab:11-1}展示了这几种不同类型卷积的参数量，深度可分离卷积通过将标准卷积进行分解，降低了整体模型的参数量。在相同参数量的情况下，深度可分离卷积可以采用更大的卷积窗口，考虑序列中更大范围的依赖关系。因此相比于标准卷积，深度可分离卷积具有更强的表示能力，在机器翻译任务中也能获得更好的性能。
 %----------------------------------------------
@@ -518,7 +521,7 @@ x_{l+1} = x_l + F (x_l)
 \parinterval 在序列建模的模型中，一个很重要的模块就是对序列中不同位置信息的提取，如ConvS2S中的卷积网络等。虽然考虑局部上下文的卷积神经网络只在序列这一维度进行操作，具有线性的复杂度，但是由于标准卷积操作中考虑了不同通道的信息交互，整体复杂度依旧较高。一种简化的策略就是采取通道独立的卷积操作，也就是\ref{sec:11.3.1}节中介绍的深度卷积。
-\parinterval 在神经机器翻译模型中，多层表示的维度通常一致，即$O=N=d$。因此，深度卷积可以使得卷积网络参数量从 $d^2K$ 降到$dK$（参考表\ref{tab:11-1}）。从形式上来看，深度卷积和注意力很类似，区别在于注意力机制考虑了序列全局上下文信息，权重来自于当前位置对其他位置的“注意力”，而深度卷积中仅考虑了局部的上下文信息，权重采用了在不同通道上独立的固定参数。为了进一步降低参数量，轻量卷积共享了部分通道的卷积参数。如图\ref{fig:11-18}所示，深度卷积中4种颜色的连接代表了4个通道上独立的卷积核，而轻量卷积中，第一和第三通道，第二和第四通道采用了共享的卷积核参数。通过共享，可以将参数量压缩到$mK$，其中压缩比例为$d/m$。
+\parinterval 在神经机器翻译模型中，多层表示的维度通常一致，即$O=N=d$。因此，深度卷积可以使得卷积网络参数量从 $d^2K$ 降到$dK$（参考表\ref{tab:11-1}）。从形式上来看，深度卷积和注意力很类似，区别在于注意力机制考虑了序列全局上下文信息，权重来自于当前位置对其他位置的“注意力”，而深度卷积中仅考虑了局部的上下文信息，权重采用了在不同通道上独立的固定参数。为了进一步降低参数量，轻量卷积共享了部分通道的卷积参数。如图\ref{fig:11-18}所示，深度卷积中4种颜色的连接代表了4个通道上独立的卷积核，而轻量卷积中，第一和第三通道，第二和第四通道采用了共享的卷积核参数。通过共享，可以将参数量压缩到$aK$，其中压缩比例为$d/a$（$a$压缩后保留的共享通道数）。
 %----------------------------------------------
 % 图18.
@@ -530,28 +533,28 @@ x_{l+1} = x_l + F (x_l)
 \end{figure}
 %----------------------------------------------
-\parinterval 此外，和标准卷积不同的是，卷积之前需要先对卷积参数进行归一化，具体计算过程如下（lw是Lightweight的缩写）：
+\parinterval 此外，和标准卷积不同的是，卷积之前需要先对卷积参数进行归一化，具体计算过程如下：
 \begin{eqnarray}
-\mathbi{z}_{i,o}^\textrm{lw} &=& \sum_{k=0}^{K-1} \textrm{Softmax}(\mathbi{W}^\textrm{lw})_{k,[\frac{oh}{d}]} \mathbi{x}_{i+k,o}
+\mathbi{z}_{i,o}^\textrm{lw} &=& \sum_{k=0}^{K-1} \textrm{Softmax}(\mathbi{W}^\textrm{lw})_{k,[\frac{oa}{d}]} \mathbi{x}_{i+k,o}
 \label{eq:11-14}
 \end{eqnarray}
-\noindent 其中$\mathbi{z}_i^\textrm{lw} \in \mathbb{R}^d $，$\mathbi{W}^\textrm{lw} \in \mathbb{R}^{K\times h}$。在这里，轻量卷积用来捕捉相邻词的特征，通过Softmax可以在保证关注到不同词的同时，对输出大小进行限制。
+\noindent 其中lw是Lightweight的缩写，$\mathbi{z}_i^\textrm{lw} \in \mathbb{R}^d $，$\mathbi{W}^\textrm{lw} \in \mathbb{R}^{K\times a}$。在这里，轻量卷积用来捕捉相邻词的特征，通过Softmax可以在保证关注到不同词的同时，对输出大小进行限制。
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------
 \subsubsection{2. 动态卷积}
-\parinterval 轻量卷积和动态卷积的概念最早都是在图像领域被提出，大大减少的卷积网络模型中的参数和计算量\upcite{726791,Taigman2014DeepFaceCT,Chen2015LocallyconnectedAC}。虽然轻量卷积在存储和速度上具有优势，但其参数量的减少也导致了其表示能力的下降，损失了一部分模型性能。为此，研究人员提出了动态卷积，旨在不增加网络深度和宽度的情况下来增强模型的表示能力，其思想就是根据输入来动态地生成卷积参数\upcite{Wu2019PayLA,Chen2020DynamicCA}。
+\parinterval 轻量卷积和动态卷积的概念最早都是在图像领域被提出，大大减少了卷积网络模型中的参数和计算量\upcite{726791,Taigman2014DeepFaceCT,Chen2015LocallyconnectedAC}。虽然轻量卷积在存储和速度上具有优势，但其参数量的减少也导致了其表示能力的下降，损失了一部分模型性能。为此，研究人员提出了动态卷积，旨在不增加网络深度和宽度的情况下来增强模型的表示能力，其思想就是根据输入来动态地生成卷积参数\upcite{Wu2019PayLA,Chen2020DynamicCA}。
-\parinterval 在轻量卷积中，模型使用的卷积参数是静态的，与序列位置无关， 维度大小为$m\times k$；而在动态卷积中，为了增强模型的表示能力，卷积参数来自于当前位置输入的变换，具体如下：
+\parinterval 在轻量卷积中，模型使用的卷积参数是静态的，与序列位置无关， 维度大小为$a\times k$；而在动态卷积中，为了增强模型的表示能力，卷积参数来自于当前位置输入的变换，具体如下：
 \begin{eqnarray}
-\funp{f} (\mathbi{X}_i) = \sum_{c=1}^d \mathbi{W}_{:.:.c}\mathbi{X}_{i,c}
+\funp{f} (\mathbi{X}_{i}) = \sum_{c=1}^d \mathbi{W}_{:,:,c} \odot \mathbi{X}_{i,c}
 \label{eq:11-15}
 \end{eqnarray}
-\parinterval 这里采用了最简单的线性变换，其中$\mathbi{X}$为二维的序列表示，$i$和$c$分别对应序列中不同的位置以及不同的通道，$\mathbi{W} \in \mathbb{R}^{m \times k \times d}$为变换矩阵，最后生成的$\funp{f} (\mathbi{X}_i)$就是与输入相关的卷积核参数。通过这种方式，模型可以根据不同位置的表示来确定如何关注其他位置信息的“权重”，更好地提取序列信息。同时，相比于注意力机制中两两位置确定出来的注意力权重，动态卷积线性复杂度的做法具有更高的计算效率。
+\parinterval 这里采用了最简单的线性变换，其中$\odot$表示矩阵的点乘（详见第九章介绍），$\mathbi{X}$是序列表示，$d$为通道数，$i$和$c$分别对应序列中不同的位置以及不同的通道，$\mathbi{W} \in \mathbb{R}^{a \times k \times d}$为变换矩阵，$\mathbi{W}_{:,:,c}$表示其只在$d$这一维进行计算，最后生成的$\funp{f} (\mathbi{X}_i)\in \mathbb{R}^{a \times k}$就是与输入相关的卷积核参数。通过这种方式，模型可以根据不同位置的表示来确定如何关注其他位置信息的“权重”，更好地提取序列信息。同时，相比于注意力机制中两两位置确定出来的注意力权重，动态卷积线性复杂度的做法具有更高的计算效率。