15章公式

f0a3b11d · 单韦乔 · a751182a · f0a3b11d
Commit f0a3b11d authored Jan 29, 2021 by 单韦乔
--- a/Chapter15/chapter15.tex
+++ b/Chapter15/chapter15.tex
@@ -217,8 +217,8 @@ v_i &=& \mathbi{I}_d^T\textrm{Tanh}(\mathbi{W}_d\mathbi{Q}_i)
 \label{fig:15-4}
 \end{figure}
 %-------------------------------------------
-
-\noindent {\red 于是，在计算第$i$个词对第$j$个词的相关系数时，通过超参数$\omega$控制实际的感受野为$j-\omega,\ldots,j+\omega$，注意力计算中$\mathbi{e}_{ij}$的计算方式与公式\eqref{eq:15-6}相同，权重$\alpha_{ij}$的具体计算公式为：
+{\red 
+\noindent 于是，在计算第$i$个词对第$j$个词的相关系数时，通过超参数$\omega$控制实际的感受野为$j-\omega,\ldots,j+\omega$，注意力计算中$\mathbi{e}_{ij}$的计算方式与公式\eqref{eq:15-6}相同，权重$\alpha_{ij}$的具体计算公式为：
 \begin{eqnarray}
 \alpha_{ij} &=& \frac{\exp (\mathbi{e}_{ij})}{\sum_{k=j-\omega}^{j+\omega}\exp (\mathbi{e}_{ik})}
 \label{eq:15-20}
@@ -231,28 +231,7 @@ v_i &=& \mathbi{I}_d^T\textrm{Tanh}(\mathbi{W}_d\mathbi{Q}_i)
 \end{eqnarray}

 \noindent 其中，约束的具体作用范围会根据实际句长进行一定的裁剪，通过对不同的头设置不同的超参数来控制感受野的大小，最终实现多尺度局部建模。
-
-\parinterval 值得注意的是上述两种添加局部约束的方法都更适用于Transformer模型的底层网络。这是由于模型离输入更近的层更倾向于捕获局部信息\upcite{Jawahar2019WhatDB,Yang2018ModelingLF}，伴随着神经网络的加深，模型更倾向于逐渐加强全局建模的能力。类似的结论在针对BERT模型的解释性研究工作中也有论述\upcite{Jawahar2019WhatDB,DBLP:conf/emnlp/Ethayarajh19}。
-
 }
-\noindent 于是，注意力每个头的计算过程如下：
-\begin{eqnarray}
-{\red \mathbi{e}_{i\cdot}} &=& \frac{(\mathbi{x}_i \mathbi{W}_Q){({\red C_j(\mathbi{x}} \mathbi{W}_K,\omega))}^{T}}{\sqrt{d_k}}
-\label{eq:15-20}
-\end{eqnarray}
-
-\noindent 其中，{\red $\mathbi{e}_{i\cdot}$表示第$i$个词与以第$j$个词为中心的$2\omega+1$个词的注意力权重}，${\red C_j(\mathbi{x}} \mathbi{W}_K,\omega)$表示根据超参数$\omega$自适应的Key：
-\begin{eqnarray}
-{\red C_j(\mathbi{x}} \mathbi{W}_K,\omega) &=& (\mathbi{K}_{j-\omega},\ldots,\mathbi{K}_{j+\omega})
-\label{eq:15-21}
-\end{eqnarray}
-
-\noindent {\red 其中，$\mathbi{K}=\mathbi{x} \mathbi{W}_K$，$\mathbi{K}_{j}$表示第$j$个词对应的key。}之后在计算注意力输出时同样利用上述思想进行局部约束：
-\begin{eqnarray}
-\mathbi{z}_i &=& \sum_{j=1}^m \alpha_{ij}{\red C_j(\mathbi{x}} \mathbi{W}_V,\omega)
-\label{eq:15-22}
-\end{eqnarray}
-
 \vspace{0.5em}
 \end{itemize}