Commit f0a3b11d by 单韦乔

15章公式

parent a751182a
......@@ -217,8 +217,8 @@ v_i &=& \mathbi{I}_d^T\textrm{Tanh}(\mathbi{W}_d\mathbi{Q}_i)
\label{fig:15-4}
\end{figure}
%-------------------------------------------
\noindent {\red 于是,在计算第$i$个词对第$j$个词的相关系数时,通过超参数$\omega$控制实际的感受野为$j-\omega,\ldots,j+\omega$,注意力计算中$\mathbi{e}_{ij}$的计算方式与公式\eqref{eq:15-6}相同,权重$\alpha_{ij}$的具体计算公式为:
{\red
\noindent 于是,在计算第$i$个词对第$j$个词的相关系数时,通过超参数$\omega$控制实际的感受野为$j-\omega,\ldots,j+\omega$,注意力计算中$\mathbi{e}_{ij}$的计算方式与公式\eqref{eq:15-6}相同,权重$\alpha_{ij}$的具体计算公式为:
\begin{eqnarray}
\alpha_{ij} &=& \frac{\exp (\mathbi{e}_{ij})}{\sum_{k=j-\omega}^{j+\omega}\exp (\mathbi{e}_{ik})}
\label{eq:15-20}
......@@ -231,28 +231,7 @@ v_i &=& \mathbi{I}_d^T\textrm{Tanh}(\mathbi{W}_d\mathbi{Q}_i)
\end{eqnarray}
\noindent 其中,约束的具体作用范围会根据实际句长进行一定的裁剪,通过对不同的头设置不同的超参数来控制感受野的大小,最终实现多尺度局部建模。
\parinterval 值得注意的是上述两种添加局部约束的方法都更适用于Transformer模型的底层网络。这是由于模型离输入更近的层更倾向于捕获局部信息\upcite{Jawahar2019WhatDB,Yang2018ModelingLF},伴随着神经网络的加深,模型更倾向于逐渐加强全局建模的能力。类似的结论在针对BERT模型的解释性研究工作中也有论述\upcite{Jawahar2019WhatDB,DBLP:conf/emnlp/Ethayarajh19}
}
\noindent 于是,注意力每个头的计算过程如下:
\begin{eqnarray}
{\red \mathbi{e}_{i\cdot}} &=& \frac{(\mathbi{x}_i \mathbi{W}_Q){({\red C_j(\mathbi{x}} \mathbi{W}_K,\omega))}^{T}}{\sqrt{d_k}}
\label{eq:15-20}
\end{eqnarray}
\noindent 其中,{\red $\mathbi{e}_{i\cdot}$表示第$i$个词与以第$j$个词为中心的$2\omega+1$个词的注意力权重}${\red C_j(\mathbi{x}} \mathbi{W}_K,\omega)$表示根据超参数$\omega$自适应的Key:
\begin{eqnarray}
{\red C_j(\mathbi{x}} \mathbi{W}_K,\omega) &=& (\mathbi{K}_{j-\omega},\ldots,\mathbi{K}_{j+\omega})
\label{eq:15-21}
\end{eqnarray}
\noindent {\red 其中,$\mathbi{K}=\mathbi{x} \mathbi{W}_K$$\mathbi{K}_{j}$表示第$j$个词对应的key。}之后在计算注意力输出时同样利用上述思想进行局部约束:
\begin{eqnarray}
\mathbi{z}_i &=& \sum_{j=1}^m \alpha_{ij}{\red C_j(\mathbi{x}} \mathbi{W}_V,\omega)
\label{eq:15-22}
\end{eqnarray}
\vspace{0.5em}
\end{itemize}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论