Commit 60746946 by Lee

Update RNN training

parent aac18f84
......@@ -2669,14 +2669,36 @@ $\textrm{``you''} = \argmax_{y} \textrm{P}(y|\textbf{s}_1, \alert{\textbf{C}})$
%%% 训练
\begin{frame}{训练 - 整体流程}
\begin{itemize}
\item 有了一个NMT模型,我们应该怎么使用梯度下降算法来训练一个``聪明''的翻译模型呢?
\begin{enumerate}[1]
\item 参数初始化
\item 优化器选择
\item 学习率调度
\item 多设备加速
\end{enumerate}
\item 有了一个NMT模型,我们应该怎么使用梯度下降算法来训练一个翻译模型呢? 或者说哪些因素会对RNN训练产生影响?
\end{itemize}
\begin{beamerboxesrounded}[upper=uppercolblue,lower=lowercolblue,shadow=true]{\small{\textbf{参数初始化}}}
{\footnotesize
\begin{spacing}{0.9}
给定模型结构,初始化的好坏决定了模型最后的性能。
\end{spacing}
}
\end{beamerboxesrounded}
\begin{beamerboxesrounded}[upper=uppercolblue,lower=lowercolblue,shadow=true]{\small{\textbf{优化器选择}}}
{\footnotesize
\begin{spacing}{0.9}
选择不同的优化器需要对使用的便利性与效果进行权衡。
\end{spacing}
}
\end{beamerboxesrounded}
\begin{beamerboxesrounded}[upper=uppercolblue,lower=lowercolblue,shadow=true]{\small{\textbf{学习率调度}}}
{\footnotesize
\begin{spacing}{0.9}
合适的学习率调度方案可以让训练过程又好又快。
\end{spacing}
}
\end{beamerboxesrounded}
\begin{beamerboxesrounded}[upper=uppercolblue,lower=lowercolblue,shadow=true]{\small{\textbf{多设备加速}}}
{\footnotesize
\begin{spacing}{0.9}
当训练非常缓慢的时候,可以使用多个设备并行计算加速。
\end{spacing}
}
\end{beamerboxesrounded}
\end{frame}
\begin{frame}{训练 - 初始化}
......@@ -2737,7 +2759,7 @@ $\textrm{``you''} = \argmax_{y} \textrm{P}(y|\textbf{s}_1, \alert{\textbf{C}})$
ylabel style={yshift=-2.5em},xlabel style={yshift=1.5em},
legend style={yshift=-6pt, legend plot pos=right,font=\scriptsize,cells={anchor=west}}
]
\addplot[orange,line width=1.25pt] coordinates {(0,0) (4,0.7) (5,0.63) (6,0.57) (7,0.525) (8,0.49) (9,0.465) (10,0.44) (11,0.42) (12,0.4)};
\addplot[orange,line width=1.25pt] coordinates {(329,0.000045) (447,0.000078) (540,0.00012) (661,0.0002) (752,0.00032) (856,0.00051) (975,0.00089) (996,0.001) (6599,0.001) (6624,0.0005) (7200,0.0005) (7218,0.00025) (7784,0.00025) (7821,0.000125) (8398,0.000125)};
\end{axis}
}
\end{tikzpicture}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论