new pages

fbcf3b9f · xiaotong · 7edb503e · fbcf3b9f · fbcf3b9f
Commit fbcf3b9f authored Nov 16, 2019 by xiaotong
--- a/Section06-Neural-Machine-Translation/section06-test.tex
+++ b/Section06-Neural-Machine-Translation/section06-test.tex
@@ -28,6 +28,7 @@

 \usetikzlibrary{calc,intersections}
 \usetikzlibrary{matrix}
+\usetikzlibrary{patterns}
 \usetikzlibrary{arrows,decorations.pathreplacing}
 \usetikzlibrary{shadows} % LATEX and plain TEX when using Tik Z
 \usetikzlibrary{shadows.blur}
@@ -144,34 +145,21 @@
 \subsection{注意力机制}

 %%%------------------------------------------------------------------------------------------------------------
-%%% 如何定义注意力函数
-\begin{frame}{计算注意力权重 - 注意力函数}
+%%% 解码
+\begin{frame}{推断}
 \begin{itemize}
-\item 再来看一下注意力权重的定义。这个过程实际上是对$a(\cdot,\cdot)$做指数归一化：\\
-\vspace{-0.3em}
+\item 使用NMT时，对于源语言句子$\textbf{x}$，需要得到最优译文$\hat{\textbf{y}}$
+
+\vspace{-1.5em}
 \begin{displaymath}
-\alpha_{i,j} = \frac{\exp(a(s_{i-1}, h_j))}{\sum_{j'} \exp(a(s_{i-1}, h_{j'}))}
+\hat{\textbf{y}} = \argmax_{\textbf{y}} \log\textrm{P}(\textbf{y}|\textbf{x}) = \argmax_{\textbf{y}} \sum_{j=1}^{n} \log\textrm{P}(y_j|\textbf{y}_{<j}, \textbf{x})
 \end{displaymath}

-\item<2-> 注意力函数$a(s,h)$的目的是捕捉$s$和$h$之间的\alert{相似性}，这也可以被看作是目标语表示和源语言表示的一种``统一化''，即把源语言和目标语表示在同一个语义空间，进而语义相近的内容有更大的相似性。\visible<3->{定义$a(s,h)$的方式：}
-    
-    \visible<3->{
-    \begin{displaymath}
-    a(s,h) =  \left\{ \begin{array}{ll}
-    s h^T & \textrm{向量乘} \\
-    \textrm{cos}(s, h) & \textrm{向量夹角} \\
-    s \textbf{W} h^T & \textrm{线性模型} \\
-    \textrm{TanH}(\textbf{W}[s,h])\textbf{v}^T & \textrm{拼接}
-    \end{array}
-    \right.
-    \end{displaymath}
-    $\textbf{W}$和$\textbf{v}$是可学习参数
-    }
+\item 由于生成$y_i$需要依赖$y_{i-1}$因此，无法同时生成${y_1,...,y_n}$。常用的方法是
+
 \end{itemize}
 \end{frame}

-
-
 %%%------------------------------------------------------------------------------------------------------------
 \section{Transformer}


--- a/Section06-Neural-Machine-Translation/section06.tex
+++ b/Section06-Neural-Machine-Translation/section06.tex