合并分支 'zengxin' 到 'caorunzhe'

12 查看合并请求 !495

合并分支 'zengxin' 到 'caorunzhe'
12 查看合并请求 !495
7e6bba70 · zengxin · f511ce6f · 92200683 · 7e6bba70
Commit 7e6bba70 authored Nov 27, 2020 by zengxin
--- a/Chapter12/chapter12.tex
+++ b/Chapter12/chapter12.tex
@@ -184,7 +184,7 @@

 \parinterval 在进行更详细的介绍前，先利用图\ref{fig:12-39}简单了解一下Transformer模型是如何进行翻译的。首先，Transformer将源语言句子“我/很/好”的词嵌入融合位置编码后作为输入。然后，编码器对输入的源语句子进行逐层抽象，得到包含丰富的上下文信息的源语表示并传递给解码器。解码器的每一层，使用自注意力子层对输入解码端的表示进行加工，之后再使用编码-解码注意力子层融合源语句子的表示信息。就这样逐词生成目标语译文单词序列。解码器每个位置的输入是当前单词（比如，“I”），而这个位置的输出是下一个单词（比如，“am”），这个设计和标准的神经语言模型是完全一样的。

-\parinterval 当然，这里可能还有很多疑惑，比如，什么是位置编码？Transformer的自注意力机制具体是怎么进行计算的，其结构是怎样的？层归一化又是什么？等等。下面就一一展开介绍。
+\parinterval 当然，这里可能还有很多疑惑，比如，什么是位置编码？Transformer的自注意力机制具体是怎么进行计算的，其结构是怎样的？层正则化又是什么？等等。下面就一一展开介绍。

 %----------------------------------------------------------------------------------------
 %    NEW SECTION