Merge branch 'master' into jiangyufan

c6facf66 · Lee · 8c083c20 · 7e80636a · c6facf66
Commit c6facf66 authored Dec 20, 2019 by Lee
--- a/Section06-Neural-Machine-Translation/section06.tex
+++ b/Section06-Neural-Machine-Translation/section06.tex
@@ -1133,7 +1133,9 @@ NLP问题的隐含结构假设 & 无隐含结构假设，端到端学习 \\
 %%% 词嵌入
 \begin{frame}{模块1：词嵌入层}
 \begin{itemize}
-\item 词嵌入
+\item 把输入的词转换成唯一对应的词表大小的0-1向量
+\item 根据0-1向量，从词嵌入矩阵中取出对应的词嵌入$e_y$
+\item 取出的词嵌入$e_y$作为循环神经网络的输入
 \end{itemize}
 %%% 图
 \begin{center}
@@ -1250,7 +1252,9 @@ NLP问题的隐含结构假设 & 无隐含结构假设，端到端学习 \\
 %%% 输出
 \begin{frame}{模块2：输出层}
 \begin{itemize}
-\item Softmax
+\item 循环网络输出$s$经过权重矩阵$W$变换成词表大小的向量
+\item 获得的向量经过Softmax变换得到不同词作为输出的概率
+\item 一般选取概率最高的词作为模型最终的输出
 \end{itemize}
 %%% 图
 \begin{center}
@@ -1387,9 +1391,16 @@ NLP问题的隐含结构假设 & 无隐含结构假设，端到端学习 \\
 %%%------------------------------------------------------------------------------------------------------------
 %%% LSTM
 \begin{frame}{模块3：循环单元 - 长短时记忆模型(LSTM)}
-\begin{itemize}
-\item LSTM
-\end{itemize}
+\only<1>{遗忘门根据输入的$x_t$和$h_t$决定保留多大比例的$c_t$\\[5pt]}
+\only<2>{输入门根据$x_t$和$h_t$计算需要保存的记忆$\hat{c}_t$和其比例\\[5pt]}
+\only<3>{把$c_t$和$\hat{c}_t$组合得到新的记忆$c_{t+1}$\\[5pt]}
+\only<4>{输出门根据$x_t$，$h_t$和$c_{t+1}$得到新的隐藏状态$h_{t+1}$\\[5pt]}
+\only<5>{如此反复，不断更新$c$和$h$直到不再有新的$x$输入\\[5pt]}
+{\scriptsize\begin{tabular}{rl}
+    *$x_t$:&上一层的输出\\
+    *$h_t$:&同一层上一时刻的隐藏状态\\
+    *$c_t$:&同一层上一时刻的记忆
+\end{tabular}}
 %%% 图
 \begin{center}
    \begin{tikzpicture}
@@ -3002,9 +3013,9 @@ $\textrm{``you''} = \argmax_{y} \textrm{P}(y|\textbf{s}_1, \alert{\textbf{C}})$ 
    \item 对$\textrm{P}(y_j|\textbf{y}_{<j},\textbf{x})$进行乘积会导致长句的概率很低
    \item 模型本身并没有考虑每个源语言单词被使用的程度，比如一个单词可能会被翻译了很多``次''
    \end{itemize}
-\item<2-> 因此，解码时会使用其它特征与$\textrm{P}(\textbf{y}|\textbf{x})$一起组成模型得分$score(\textbf{y},\textbf{x})$，$score(\textbf{y},\textbf{x})$也作为beam search的排序依据
+\item<2-> 因此，解码时会使用其它特征与$\textrm{P}(\textbf{y}|\textbf{x})$一起组成模型得分$\textrm{score}(\textbf{y},\textbf{x})$，$\textrm{score}(\textbf{y},\textbf{x})$也作为beam search 的排序依据
    \begin{eqnarray}
-    score(\textbf{y},\textbf{x}) & = & \textrm{P}(\textbf{y}|\textbf{x})/\textrm{lp}(\textbf{y}) + \textrm{cp}(\textbf{y},\textbf{x}) \nonumber \\
+    \textrm{score}(\textbf{y},\textbf{x}) & = & \textrm{P}(\textbf{y}|\textbf{x})/\textrm{lp}(\textbf{y}) + \textrm{cp}(\textbf{y},\textbf{x}) \nonumber \\
    \textrm{lp}(\textbf{y})      & = & \frac{(5 + |\textbf{y}|)^\alpha}{(5 + 1)^\alpha} \nonumber \\
    \textrm{cp}(\textbf{y},\textbf{x}) & = & \beta \cdot \sum\nolimits_{i=1}^{|\textbf{x}|} \log (\min(\sum\nolimits_{j}^{|\textbf{y}|} a_{ij}, 1))) \nonumber
    \end{eqnarray}
@@ -4649,7 +4660,7 @@ x_{l+1} = x_l+\mathcal{F}(x_l)

 \item 由于自回归性，Transformer在推断阶段无法进行并行化操作，导致推断速度非常慢！

-\item<2-> 加速手段：Cache(缓存需要重复计算的变量) 、Average Attention Network、Share Attention Network
+\item<2-> 加速手段：低精度、Cache(缓存需要重复计算的变量) 、Average Attention Network、Share Attention Network

 \end{itemize}