合并分支 'master' 到 'caorunzhe'

Master 查看合并请求 !352

合并分支 'master' 到 'caorunzhe'
Master 查看合并请求 !352
00d629b3 · 曹润柘 · b5e4df5e · 21d3ed48 · 00d629b3 · 00d629b3
Commit 00d629b3 authored Nov 07, 2020 by 曹润柘
--- a/Chapter12/chapter12.tex
+++ b/Chapter12/chapter12.tex
@@ -58,8 +58,7 @@

 \parinterval 自注意力机制也可以被看做是一个序列表示模型。比如，对于每个目标位置$j$，都生成一个与之对应的源语句子表示，它的形式为：
 \begin{eqnarray}
-\mathbi{C}}_j = \sum_i \alpha_{i,j}\vectorn{\emph{h}}_i
-\label{eq:12-4201}
+\mathbi{C}_j & = & \sum_i \alpha_{i,j}\vectorn{\emph{h}}_i \label{eq:12-4201}
 \end{eqnarray}

 \noindent 其中，$\vectorn{\emph{h}}_i$ 为源语句子每个位置的表示结果，$\alpha_{i,j}$是目标位置$j$对$\vectorn{\emph{h}}_i$的注意力权重。而自注意力机制不仅可以处理两种语言句子之间的对应，它也可以对单语句子进行表示。以源语句子为例，自注意力机制将序列中每个位置的表示$\vectorn{\emph{h}}_i$看作$\mathrm{query}$（查询），并且将所有位置的表示看作$\mathrm{key}$（键）和$\mathrm{value}$ （值）。自注意力模型通过计算当前位置与所有位置的匹配程度，也就是在注意力机制中提到的注意力权重，来对各个位置的$\mathrm{value}$进行加权求和。得到的结果可以被看作是在这个句子中当前位置的抽象表示。这个过程，可以叠加多次，形成多层注意力模型，对输入序列中各个位置进行更深层的表示。
@@ -561,7 +560,7 @@ Transformer Deep（48层） & 30.2            & 43.1            & 194$\times 10^

 \section{推断}

-\parinterval Transformer解码器生成译文词序列的过程和其它神经机器翻译系统类似，都是从左往右生成，且下一个单词的预测依赖已经生成的单词。其具体推断过程如图\ref{fig:12-56}所示，其中$\mathbi{C}}_i$是编码-解码注意力的结果，解码器首先根据“<eos>”和$\mathbi{C}}_1$生成第一个单词“how”，然后根据“how”和$\mathbi{C}}_2$生成第二个单词“are”，以此类推，当解码器生成“<eos>”时结束推断。
+\parinterval Transformer解码器生成译文词序列的过程和其它神经机器翻译系统类似，都是从左往右生成，且下一个单词的预测依赖已经生成的单词。其具体推断过程如图\ref{fig:12-56}所示，其中$\mathbi{C}_i$是编码-解码注意力的结果，解码器首先根据“<eos>”和$\mathbi{C}_1$生成第一个单词“how”，然后根据“how”和$\mathbi{C}_2$生成第二个单词“are”，以此类推，当解码器生成“<eos>”时结束推断。

 \parinterval 但是，Transformer在推断阶段无法对所有位置进行并行化操作，因为对于每一个目标语单词都需要对前面所有单词进行注意力操作，因此它推断速度非常慢。可以采用的加速手段有：低精度\upcite{DBLP:journals/corr/CourbariauxB16}、Cache（缓存需要重复计算的变量）\upcite{DBLP:journals/corr/abs-1805-00631}、共享注意力网络等\upcite{Xiao2019SharingAW}。关于Transformer模型的推断加速方法将会在{\chapterfourteen}进一步深入讨论。


--- a/Chapter9/Figures/figure-embedding-matrix.tex
+++ b/Chapter9/Figures/figure-embedding-matrix.tex
@@ -8,7 +8,7 @@
 \node [rectangle,inner sep=0.4em,draw,fill=blue!20!white] [fit = (e) (c)] (box) {};
 \end{pgfonlayer}

-\draw [->,thick] ([yshift=-1em]box.south)--([yshift=-0.1em]box.south) node [pos=0,below] (bottom1) {\small{单词$w$的one-hot表示}};
+\draw [->,thick] ([yshift=-1em]box.south)--([yshift=-0.1em]box.south) node [pos=0,below] (bottom1) {\small{单词$w$的One-hot表示}};
 \draw [->,thick] ([yshift=0.1em]box.north)--([yshift=1em]box.north) node [pos=1,above] (top1) {\scriptsize{$\mathbi{e}$=(8,.2,-1,.9,...,1)}};
 \node [anchor=north] (bottom2) at ([yshift=0.3em]bottom1.south) {\scriptsize{$\mathbi{o}$=(0,0,1,0,...,0)}};
 \node [anchor=south] (top2) at ([yshift=-0.3em]top1.north) {\small{单词$w$的分布式表示}};

--- a/Chapter9/chapter9.tex
+++ b/Chapter9/chapter9.tex
--- a/ChapterPreface/Figures/figure-preface.tex
+++ b/ChapterPreface/Figures/figure-preface.tex
@@ -53,7 +53,7 @@
 \node [secnode,anchor=south west,fill=green!30,minimum width=9em,minimum height=4.5em,align=center] (sec15) at ([yshift=0.8em]sec13.north west) {第十五章\\ 神经机器翻译 \\ 结构优化};
 \node [secnode,anchor=south west,fill=green!30,minimum width=9em,minimum height=4.5em,align=center] (sec16) at ([xshift=0.8em]sec15.south east) {第十六章\\ 低资源 \\ 机器翻译};
 \node [secnode,anchor=south west,fill=green!30,minimum width=9em,minimum height=4.5em,align=center] (sec17) at ([xshift=0.8em]sec16.south east) {第十七章\\ 多模态、多层次 \\ 机器翻译};
-\node [secnode,anchor=south west,fill=amber!25,minimum width=28.7em,align=center] (sec18) at ([yshift=0.8em]sec15.north west) {第十八章\hspace{1em} 机器翻译工业实践};
+\node [secnode,anchor=south west,fill=amber!25,minimum width=28.7em,align=center] (sec18) at ([yshift=0.8em]sec15.north west) {第十八章\hspace{1em} 机器翻译应用技术};
 \node [rectangle,draw,dotted,thick,inner sep=0.1em,fill opacity=1] [fit = (sec13) (sec14)] (nmtbasebox) {};
 \draw [->,very thick] ([yshift=-0.7em]sec15.south) -- ([yshift=-0.1em]sec15.south);
 \draw [->,very thick] ([yshift=-0.7em]sec16.south) -- ([yshift=-0.1em]sec16.south);

--- a/ChapterPreface/chapterpreface.tex
+++ b/ChapterPreface/chapterpreface.tex
@@ -93,7 +93,7 @@
    \item 第十五章\ 神经机器翻译结构优化
    \item 第十六章\ 低资源机器翻译
    \item 第十七章\ 多模态、多层次机器翻译
-    \item 第十八章\ 机器翻译工业实践
+    \item 第十八章\ 机器翻译应用技术
    \end{itemize}
 \end{itemize}

@@ -105,7 +105,7 @@

 本书的第三部分主要介绍神经机器翻译模型，该模型也是近些年机器翻译的热点。第九章介绍了神经网络和深度学习的基础知识以保证本书知识体系的完备性。同时，第九章也介绍了基于神经网络的语言模型，其建模思想在神经机器翻译中被大量使用。第十、十一、十二章分别对三种经典的神经机器翻译模型进行介绍，以模型提出的时间为序，从最初的基于循环网络的模型，到最新的Transformer模型均有涉及。其中也会对编码器-解码器框架、注意力机制等经典方法和技术进行介绍。

-本书的第四部分会进一步对机器翻译的前沿技术进行讨论，以神经机器翻译为主。第十三、十四、十五章是神经机器翻译研发的三个主要方面，也是近几年机器翻译领域讨论最多的几个方向。第十六章也是机器翻译的热门方向之一，包括无监督翻译等主题都会在这里被讨论。第十六章会对语音、图像翻译等多模态方法以及篇章级翻译等方法进行介绍，它们可以被看作是机器翻译在更多任务上的扩展。第十七章会结合笔者在各种机器翻译比赛和机器翻译产品研发的经验，对机器翻译系统搭建的具体流程和一些常见技术进行讨论，包括调优方法、前后处理等，都是机器翻译工业应用中的常见问题。
+本书的第四部分会进一步对机器翻译的前沿技术进行讨论，以神经机器翻译为主。第十三、十四、十五章是神经机器翻译研发的三个主要方面，也是近几年机器翻译领域讨论最多的几个方向。第十六章也是机器翻译的热门方向之一，包括无监督翻译等主题都会在这里被讨论。第十六章会对语音、图像翻译等多模态方法以及篇章级翻译等方法进行介绍，它们可以被看作是机器翻译在更多任务上的扩展。第十七章会结合笔者在各种机器翻译比赛和机器翻译产品研发的经验，对机器翻译的应用技术进行讨论。

 %-------------------------------------------
 \begin{figure}[htp]

--- a/mt-book-xelatex.tex
+++ b/mt-book-xelatex.tex
@@ -139,10 +139,10 @@
 %\include{Chapter6/chapter6}
 %\include{Chapter7/chapter7}
 %\include{Chapter8/chapter8}
-%\include{Chapter9/chapter9}
+\include{Chapter9/chapter9}
 \include{Chapter10/chapter10}
-%\include{Chapter11/chapter11}
-%\include{Chapter12/chapter12}
+\include{Chapter11/chapter11}
+\include{Chapter12/chapter12}
 %\include{Chapter13/chapter13}
 %\include{Chapter14/chapter14}
 %\include{Chapter15/chapter15}