Commit 178205a4 by xiaotong

new pages

parent f147c823
...@@ -116,25 +116,29 @@ ...@@ -116,25 +116,29 @@
\subsection{参数学习 - 反向传播} \subsection{参数学习 - 反向传播}
%%%------------------------------------------------------------------------------------------------------------ %%%------------------------------------------------------------------------------------------------------------
%%% 关于梯度下降的改进 %%% 如何计算梯度
\begin{frame}{一些改进} \begin{frame}{如何计算梯度?}
\begin{itemize} \begin{itemize}
\item \textbf{变种和改进}:提高基于梯度的方法的收敛速度、训练稳定性等,可以google一下 \item \textbf{还有一个核心问题}:如何计算梯度
\begin{itemize} \begin{displaymath}
\item Momentum, Adagrad, Adadelta, RMSprop, Adam, AdaMax, Nadam, AMSGrad等等 \frac{\partial L(\textbf{w})}{\partial \textbf{w}} = ?
\item \footnotesize{\url{http://ruder.io/optimizing-gradient-descent}} \end{displaymath}
\end{itemize}
\item<2-> \textbf{并行化}:大规模数据处理需要分布式计算,梯度更新的策略需要设计 \vspace{0.5em}
\begin{itemize}
\item \textbf{同步更新}:所有计算节点完成计算后,统一汇总并更新参数。效果稳定,但是并行度低 \item<2-> \textbf{数值微分} - 简单粗暴的方法
\item \textbf{异步更新}:每个节点可以随时更新。并行度高,但是由于节点间参数可能不同步,方法不十分稳定 \begin{displaymath}
\end{itemize} \frac{\partial L(\textbf{w})}{\partial \textbf{w}} = \lim_{\Delta \textbf{w} \to 0} \frac{L(\textbf{w} + \Delta \textbf{w}) - L(\textbf{w} - \Delta \textbf{w}) }{2\Delta \textbf{w}}
\item<3-> \textbf{其它} \end{displaymath}
最基本的微分公式,我们可以将$\textbf{w}$变化一点儿(用$\Delta \textbf{w}$表示),之后看$L(\cdot)$的变化。
\begin{itemize} \begin{itemize}
\item 深度网络梯度爆炸的问题,使用梯度裁剪、残差链接 \item<3-> \textbf{优点很明显}:方法真的非常简单,易于实现
\item 引入正则化因子,可以对外部知识建模,比如引入噪声让训练更稳定 \item<3-> \textbf{缺点也和明显}:效率太低,对于复杂网络、参数量稍微大一些的模型基本上无法使用
\end{itemize} \end{itemize}
\end{itemize} \end{itemize}
\end{frame} \end{frame}
......
...@@ -3024,12 +3024,40 @@ J(\textbf{w}_t) = \frac{1}{m} \sum_{i=j}^{j+m} L(\textbf{x}_i,\hat{\textbf{y}}_i ...@@ -3024,12 +3024,40 @@ J(\textbf{w}_t) = \frac{1}{m} \sum_{i=j}^{j+m} L(\textbf{x}_i,\hat{\textbf{y}}_i
\end{itemize} \end{itemize}
\item<3-> \textbf{其它} \item<3-> \textbf{其它}
\begin{itemize} \begin{itemize}
\item 深度网络梯度消失和爆炸的问题,使用梯度裁剪、残差链接 \item 深度网络梯度消失和爆炸的问题,使用梯度裁剪、残差链接
\item 引入正则化因子,可以对外部知识建模,比如引入噪声让训练更稳定 \item 引入正则化因子,可以对外部知识建模,比如引入噪声让训练更稳定
\end{itemize} \end{itemize}
\end{itemize} \end{itemize}
\end{frame} \end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 如何计算梯度
\begin{frame}{如何计算梯度?}
\begin{itemize}
\item \textbf{还有一个核心问题}:如何计算梯度
\begin{displaymath}
\frac{\partial L(\textbf{w})}{\partial \textbf{w}} = ?
\end{displaymath}
\vspace{0.5em}
\item<2-> \textbf{数值微分} - 简单粗暴的方法
\begin{displaymath}
\frac{\partial L(\textbf{w})}{\partial \textbf{w}} = \lim_{\Delta \textbf{w} \to 0} \frac{L(\textbf{w} + \Delta \textbf{w}) - L(\textbf{w} - \Delta \textbf{w}) }{2\Delta \textbf{w}}
\end{displaymath}
最基本的微分公式,我们可以将$\textbf{w}$变化一点儿(用$\Delta \textbf{w}$表示),之后看$L(\cdot)$的变化。
\begin{itemize}
\item<3-> \textbf{优点很明显}:方法真的非常简单,易于实现
\item<3-> \textbf{缺点也和明显}:效率太低,对于复杂网络、参数量稍微大一些的模型基本上无法使用
\end{itemize}
\end{itemize}
\end{frame}
\end{CJK} \end{CJK}
\end{document} \end{document}
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论