合并分支 'shanweiqiao' 到 'caorunzhe'

15章index 查看合并请求 !1028

合并分支 'shanweiqiao' 到 'caorunzhe'
15章index 查看合并请求 !1028
cff31851 · 单韦乔 · 3d41130d · 79e6a07e · cff31851
Commit cff31851 authored Feb 22, 2021 by 单韦乔
--- a/Chapter15/chapter15.tex
+++ b/Chapter15/chapter15.tex
@@ -500,7 +500,7 @@ v_i &=& \mathbi{I}_d^{\textrm{T}}\textrm{Tanh}(\mathbi{W}_d\mathbi{Q}_i)

 \noindent 其中，$[\cdot]$表示级联操作。这种方式具有比权重平均更强的拟合能力。
 \vspace{0.5em}
-\item {\small\bfnew{基于多跳的自注意力机制}}。如图\ref{fig:15-11}所示，其做法与前馈神经网络类似，首先将不同层的表示拼接成2维的句子级矩阵表示\upcite{DBLP:journals/corr/LinFSYXZB17}。之后利用类似于前馈神经网络的思想将维度为$\mathbb{R}^{d_{\textrm{model}} \times L}$的矩阵映射到维度为$\mathbb{R}^{d_{\textrm{model}} \times n_{\rm hop}}$的矩阵，如下：
+\item {\small\bfnew{基于多跳注意力}}\index{多跳注意力}（Multi-hop Attention）\index{Multi-hop Self-attention}{\small\bfnew{机制}}。如图\ref{fig:15-11}所示，其做法与前馈神经网络类似，首先将不同层的表示拼接成2维的句子级矩阵表示\upcite{DBLP:journals/corr/LinFSYXZB17}。之后利用类似于前馈神经网络的思想将维度为$\mathbb{R}^{d_{\textrm{model}} \times L}$的矩阵映射到维度为$\mathbb{R}^{d_{\textrm{model}} \times n_{\rm hop}}$的矩阵，如下：
 \begin{eqnarray}
 \mathbi{o} &=& \sigma ([\mathbi{h}^1,\ldots,\mathbi{h}^L]^{\textrm{T}} \cdot \mathbi{W}_1)\mathbi{W}_2
 \label{eq:15-33}