Commit 178205a4 by xiaotong

new pages

parent f147c823
......@@ -116,25 +116,29 @@
\subsection{参数学习 - 反向传播}
%%%------------------------------------------------------------------------------------------------------------
%%% 关于梯度下降的改进
\begin{frame}{一些改进}
%%% 如何计算梯度
\begin{frame}{如何计算梯度?}
\begin{itemize}
\item \textbf{变种和改进}:提高基于梯度的方法的收敛速度、训练稳定性等,可以google一下
\begin{itemize}
\item Momentum, Adagrad, Adadelta, RMSprop, Adam, AdaMax, Nadam, AMSGrad等等
\item \footnotesize{\url{http://ruder.io/optimizing-gradient-descent}}
\end{itemize}
\item<2-> \textbf{并行化}:大规模数据处理需要分布式计算,梯度更新的策略需要设计
\begin{itemize}
\item \textbf{同步更新}:所有计算节点完成计算后,统一汇总并更新参数。效果稳定,但是并行度低
\item \textbf{异步更新}:每个节点可以随时更新。并行度高,但是由于节点间参数可能不同步,方法不十分稳定
\end{itemize}
\item<3-> \textbf{其它}
\item \textbf{还有一个核心问题}:如何计算梯度
\begin{displaymath}
\frac{\partial L(\textbf{w})}{\partial \textbf{w}} = ?
\end{displaymath}
\vspace{0.5em}
\item<2-> \textbf{数值微分} - 简单粗暴的方法
\begin{displaymath}
\frac{\partial L(\textbf{w})}{\partial \textbf{w}} = \lim_{\Delta \textbf{w} \to 0} \frac{L(\textbf{w} + \Delta \textbf{w}) - L(\textbf{w} - \Delta \textbf{w}) }{2\Delta \textbf{w}}
\end{displaymath}
最基本的微分公式,我们可以将$\textbf{w}$变化一点儿(用$\Delta \textbf{w}$表示),之后看$L(\cdot)$的变化。
\begin{itemize}
\item 深度网络梯度爆炸的问题,使用梯度裁剪、残差链接
\item 引入正则化因子,可以对外部知识建模,比如引入噪声让训练更稳定
\item<3-> \textbf{优点很明显}:方法真的非常简单,易于实现
\item<3-> \textbf{缺点也和明显}:效率太低,对于复杂网络、参数量稍微大一些的模型基本上无法使用
\end{itemize}
\end{itemize}
\end{frame}
......
......@@ -3024,12 +3024,40 @@ J(\textbf{w}_t) = \frac{1}{m} \sum_{i=j}^{j+m} L(\textbf{x}_i,\hat{\textbf{y}}_i
\end{itemize}
\item<3-> \textbf{其它}
\begin{itemize}
\item 深度网络梯度消失和爆炸的问题,使用梯度裁剪、残差链接
\item 深度网络梯度消失和爆炸的问题,使用梯度裁剪、残差链接
\item 引入正则化因子,可以对外部知识建模,比如引入噪声让训练更稳定
\end{itemize}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 如何计算梯度
\begin{frame}{如何计算梯度?}
\begin{itemize}
\item \textbf{还有一个核心问题}:如何计算梯度
\begin{displaymath}
\frac{\partial L(\textbf{w})}{\partial \textbf{w}} = ?
\end{displaymath}
\vspace{0.5em}
\item<2-> \textbf{数值微分} - 简单粗暴的方法
\begin{displaymath}
\frac{\partial L(\textbf{w})}{\partial \textbf{w}} = \lim_{\Delta \textbf{w} \to 0} \frac{L(\textbf{w} + \Delta \textbf{w}) - L(\textbf{w} - \Delta \textbf{w}) }{2\Delta \textbf{w}}
\end{displaymath}
最基本的微分公式,我们可以将$\textbf{w}$变化一点儿(用$\Delta \textbf{w}$表示),之后看$L(\cdot)$的变化。
\begin{itemize}
\item<3-> \textbf{优点很明显}:方法真的非常简单,易于实现
\item<3-> \textbf{缺点也和明显}:效率太低,对于复杂网络、参数量稍微大一些的模型基本上无法使用
\end{itemize}
\end{itemize}
\end{frame}
\end{CJK}
\end{document}
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论