12

1fba0e16 · zengxin · 00d629b3 · 1fba0e16
Commit 1fba0e16 authored Nov 07, 2020 by zengxin
--- a/Chapter12/chapter12.tex
+++ b/Chapter12/chapter12.tex
@@ -58,7 +58,8 @@
 \parinterval 自注意力机制也可以被看做是一个序列表示模型。比如，对于每个目标位置$j$，都生成一个与之对应的源语句子表示，它的形式为：
 \begin{eqnarray}
-\mathbi{C}_j & = & \sum_i \alpha_{i,j}\vectorn{\emph{h}}_i \label{eq:12-4201}
+\mathbi{C}_j & = & \sum_i \alpha_{i,j}\vectorn{\emph{h}}_i 
+\label{eq:12-4201}
 \end{eqnarray}
 \noindent 其中，$\vectorn{\emph{h}}_i$ 为源语句子每个位置的表示结果，$\alpha_{i,j}$是目标位置$j$对$\vectorn{\emph{h}}_i$的注意力权重。而自注意力机制不仅可以处理两种语言句子之间的对应，它也可以对单语句子进行表示。以源语句子为例，自注意力机制将序列中每个位置的表示$\vectorn{\emph{h}}_i$看作$\mathrm{query}$（查询），并且将所有位置的表示看作$\mathrm{key}$（键）和$\mathrm{value}$ （值）。自注意力模型通过计算当前位置与所有位置的匹配程度，也就是在注意力机制中提到的注意力权重，来对各个位置的$\mathrm{value}$进行加权求和。得到的结果可以被看作是在这个句子中当前位置的抽象表示。这个过程，可以叠加多次，形成多层注意力模型，对输入序列中各个位置进行更深层的表示。