合并分支 'caorunzhe' 到 'master'

Caorunzhe 查看合并请求 !498

合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求 !498
492094e5 · 曹润柘 · 62f94404 · 29f25ec5 · 492094e5 · 492094e5
Commit 492094e5 authored Nov 27, 2020 by 曹润柘
--- a/Chapter12/chapter12.tex
+++ b/Chapter12/chapter12.tex
@@ -184,7 +184,7 @@
 \parinterval 在进行更详细的介绍前，先利用图\ref{fig:12-39}简单了解一下Transformer模型是如何进行翻译的。首先，Transformer将源语言句子“我/很/好”的词嵌入融合位置编码后作为输入。然后，编码器对输入的源语句子进行逐层抽象，得到包含丰富的上下文信息的源语表示并传递给解码器。解码器的每一层，使用自注意力子层对输入解码端的表示进行加工，之后再使用编码-解码注意力子层融合源语句子的表示信息。就这样逐词生成目标语译文单词序列。解码器每个位置的输入是当前单词（比如，“I”），而这个位置的输出是下一个单词（比如，“am”），这个设计和标准的神经语言模型是完全一样的。
-\parinterval 当然，这里可能还有很多疑惑，比如，什么是位置编码？Transformer的自注意力机制具体是怎么进行计算的，其结构是怎样的？层归一化又是什么？等等。下面就一一展开介绍。
+\parinterval 当然，这里可能还有很多疑惑，比如，什么是位置编码？Transformer的自注意力机制具体是怎么进行计算的，其结构是怎样的？层正则化又是什么？等等。下面就一一展开介绍。
 %----------------------------------------------------------------------------------------
 %    NEW SECTION

--- a/Chapter9/chapter9.tex
+++ b/Chapter9/chapter9.tex
--- a/bibliography.bib
+++ b/bibliography.bib