new pages

178205a4 · xiaotong · f147c823 · 178205a4 · 178205a4
Commit 178205a4 authored Oct 08, 2019 by xiaotong
--- a/Section05-Neural-Networks-and-Language-Modeling/section05-test.tex
+++ b/Section05-Neural-Networks-and-Language-Modeling/section05-test.tex
@@ -116,25 +116,29 @@
 \subsection{参数学习 - 反向传播}
 %%%------------------------------------------------------------------------------------------------------------
-%%% 关于梯度下降的改进
+%%% 如何计算梯度
-\begin{frame}{一些改进}
+\begin{frame}{如何计算梯度?}
 \begin{itemize}
-\item \textbf{变种和改进}：提高基于梯度的方法的收敛速度、训练稳定性等，可以google一下
+\item \textbf{还有一个核心问题}：如何计算梯度
-    \begin{itemize}
+\begin{displaymath}
-    \item Momentum, Adagrad, Adadelta, RMSprop, Adam, AdaMax, Nadam, AMSGrad等等
+\frac{\partial L(\textbf{w})}{\partial \textbf{w}} = ?
-    \item \footnotesize{\url{http://ruder.io/optimizing-gradient-descent}}
+\end{displaymath}
-    \end{itemize}
-\item<2-> \textbf{并行化}：大规模数据处理需要分布式计算，梯度更新的策略需要设计
+\vspace{0.5em}
-    \begin{itemize}
-    \item \textbf{同步更新}：所有计算节点完成计算后，统一汇总并更新参数。效果稳定，但是并行度低
+\item<2-> \textbf{数值微分} - 简单粗暴的方法
-    \item \textbf{异步更新}：每个节点可以随时更新。并行度高，但是由于节点间参数可能不同步，方法不十分稳定
+\begin{displaymath}
-    \end{itemize}
+\frac{\partial L(\textbf{w})}{\partial \textbf{w}} = \lim_{\Delta \textbf{w} \to 0} \frac{L(\textbf{w} + \Delta \textbf{w}) - L(\textbf{w} - \Delta \textbf{w}) }{2\Delta \textbf{w}}
-\item<3-> \textbf{其它}
+\end{displaymath}
+最基本的微分公式，我们可以将$\textbf{w}$变化一点儿（用$\Delta \textbf{w}$表示），之后看$L(\cdot)$的变化。
    \begin{itemize}
-    \item 深度网络梯度爆炸的问题，使用梯度裁剪、残差链接
+    \item<3-> \textbf{优点很明显}：方法真的非常简单，易于实现
-    \item 引入正则化因子，可以对外部知识建模，比如引入噪声让训练更稳定
+    \item<3-> \textbf{缺点也和明显}：效率太低，对于复杂网络、参数量稍微大一些的模型基本上无法使用
    \end{itemize}
 \end{itemize}
 \end{frame}

--- a/Section05-Neural-Networks-and-Language-Modeling/section05.tex
+++ b/Section05-Neural-Networks-and-Language-Modeling/section05.tex
@@ -3024,12 +3024,40 @@ J(\textbf{w}_t) = \frac{1}{m} \sum_{i=j}^{j+m} L(\textbf{x}_i,\hat{\textbf{y}}_i
    \end{itemize}
 \item<3-> \textbf{其它}
    \begin{itemize}
-    \item 深度网络梯度消失和爆炸的问题，使用梯度裁剪、残差链接
+    \item 深度网络梯度消失和爆炸的问题，使用梯度裁剪、残差链接等
    \item 引入正则化因子，可以对外部知识建模，比如引入噪声让训练更稳定
    \end{itemize}
 \end{itemize}
 \end{frame}
+%%%------------------------------------------------------------------------------------------------------------
+%%% 如何计算梯度
+\begin{frame}{如何计算梯度?}
+\begin{itemize}
+\item \textbf{还有一个核心问题}：如何计算梯度
+\begin{displaymath}
+\frac{\partial L(\textbf{w})}{\partial \textbf{w}} = ?
+\end{displaymath}
+\vspace{0.5em}
+\item<2-> \textbf{数值微分} - 简单粗暴的方法
+\begin{displaymath}
+\frac{\partial L(\textbf{w})}{\partial \textbf{w}} = \lim_{\Delta \textbf{w} \to 0} \frac{L(\textbf{w} + \Delta \textbf{w}) - L(\textbf{w} - \Delta \textbf{w}) }{2\Delta \textbf{w}}
+\end{displaymath}
+最基本的微分公式，我们可以将$\textbf{w}$变化一点儿（用$\Delta \textbf{w}$表示），之后看$L(\cdot)$的变化。
+    \begin{itemize}
+    \item<3-> \textbf{优点很明显}：方法真的非常简单，易于实现
+    \item<3-> \textbf{缺点也和明显}：效率太低，对于复杂网络、参数量稍微大一些的模型基本上无法使用
+    \end{itemize}
+\end{itemize}
+\end{frame}
 \end{CJK}
 \end{document}