合并分支 'caorunzhe' 到 'master'

Caorunzhe 查看合并请求 !345

合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求 !345
ef167b14 · 曹润柘 · 7d05e01f · 5a7d0eb4 · ef167b14 · ef167b14
Commit ef167b14 authored Nov 06, 2020 by 曹润柘
--- a/Chapter10/chapter10.tex
+++ b/Chapter10/chapter10.tex
--- a/Chapter12/chapter12.tex
+++ b/Chapter12/chapter12.tex
@@ -58,7 +58,7 @@

 \parinterval 自注意力机制也可以被看做是一个序列表示模型。比如，对于每个目标位置$j$，都生成一个与之对应的源语句子表示，它的形式为：
 \begin{eqnarray}
-\vectorn{\emph{C}}_j = \sum_i \alpha_{i,j}\vectorn{\emph{h}}_i
+\mathbi{C}}_j = \sum_i \alpha_{i,j}\vectorn{\emph{h}}_i
 \label{eq:12-4201}
 \end{eqnarray}

@@ -561,7 +561,7 @@ Transformer Deep（48层） & 30.2            & 43.1            & 194$\times 10^

 \section{推断}

-\parinterval Transformer解码器生成译文词序列的过程和其它神经机器翻译系统类似，都是从左往右生成，且下一个单词的预测依赖已经生成的单词。其具体推断过程如图\ref{fig:12-56}所示，其中$\vectorn{\emph{C}}_i$是编码-解码注意力的结果，解码器首先根据“<eos>”和$\vectorn{\emph{C}}_1$生成第一个单词“how”，然后根据“how”和$\vectorn{\emph{C}}_2$生成第二个单词“are”，以此类推，当解码器生成“<eos>”时结束推断。
+\parinterval Transformer解码器生成译文词序列的过程和其它神经机器翻译系统类似，都是从左往右生成，且下一个单词的预测依赖已经生成的单词。其具体推断过程如图\ref{fig:12-56}所示，其中$\mathbi{C}}_i$是编码-解码注意力的结果，解码器首先根据“<eos>”和$\mathbi{C}}_1$生成第一个单词“how”，然后根据“how”和$\mathbi{C}}_2$生成第二个单词“are”，以此类推，当解码器生成“<eos>”时结束推断。

 \parinterval 但是，Transformer在推断阶段无法对所有位置进行并行化操作，因为对于每一个目标语单词都需要对前面所有单词进行注意力操作，因此它推断速度非常慢。可以采用的加速手段有：低精度\upcite{DBLP:journals/corr/CourbariauxB16}、Cache（缓存需要重复计算的变量）\upcite{DBLP:journals/corr/abs-1805-00631}、共享注意力网络等\upcite{Xiao2019SharingAW}。关于Transformer模型的推断加速方法将会在{\chapterfourteen}进一步深入讨论。


--- a/Chapter9/chapter9.tex
+++ b/Chapter9/chapter9.tex