Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
178205a4
Commit
178205a4
authored
Oct 08, 2019
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
new pages
parent
f147c823
隐藏空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
48 行增加
和
16 行删除
+48
-16
Section05-Neural-Networks-and-Language-Modeling/section05-test.tex
+19
-15
Section05-Neural-Networks-and-Language-Modeling/section05.tex
+29
-1
没有找到文件。
Section05-Neural-Networks-and-Language-Modeling/section05-test.tex
查看文件 @
178205a4
...
@@ -116,25 +116,29 @@
...
@@ -116,25 +116,29 @@
\subsection
{
参数学习 - 反向传播
}
\subsection
{
参数学习 - 反向传播
}
%%%------------------------------------------------------------------------------------------------------------
%%%------------------------------------------------------------------------------------------------------------
%%%
关于梯度下降的改进
%%%
如何计算梯度
\begin{frame}
{
一些改进
}
\begin{frame}
{
如何计算梯度?
}
\begin{itemize}
\begin{itemize}
\item
\textbf
{
变种和改进
}
:提高基于梯度的方法的收敛速度、训练稳定性等,可以google一下
\item
\textbf
{
还有一个核心问题
}
:如何计算梯度
\begin{itemize}
\begin{displaymath}
\item
Momentum, Adagrad, Adadelta, RMSprop, Adam, AdaMax, Nadam, AMSGrad等等
\frac
{
\partial
L(
\textbf
{
w
}
)
}{
\partial
\textbf
{
w
}}
= ?
\item
\footnotesize
{
\url
{
http://ruder.io/optimizing-gradient-descent
}}
\end{displaymath}
\end{itemize}
\item
<2->
\textbf
{
并行化
}
:大规模数据处理需要分布式计算,梯度更新的策略需要设计
\vspace
{
0.5em
}
\begin{itemize}
\item
\textbf
{
同步更新
}
:所有计算节点完成计算后,统一汇总并更新参数。效果稳定,但是并行度低
\item
<2->
\textbf
{
数值微分
}
- 简单粗暴的方法
\item
\textbf
{
异步更新
}
:每个节点可以随时更新。并行度高,但是由于节点间参数可能不同步,方法不十分稳定
\begin{displaymath}
\end{itemize}
\frac
{
\partial
L(
\textbf
{
w
}
)
}{
\partial
\textbf
{
w
}}
=
\lim
_{
\Delta
\textbf
{
w
}
\to
0
}
\frac
{
L(
\textbf
{
w
}
+
\Delta
\textbf
{
w
}
) - L(
\textbf
{
w
}
-
\Delta
\textbf
{
w
}
)
}{
2
\Delta
\textbf
{
w
}}
\item
<3->
\textbf
{
其它
}
\end{displaymath}
最基本的微分公式,我们可以将
$
\textbf
{
w
}$
变化一点儿(用
$
\Delta
\textbf
{
w
}$
表示),之后看
$
L
(
\cdot
)
$
的变化。
\begin{itemize}
\begin{itemize}
\item
深度网络梯度爆炸的问题,使用梯度裁剪、残差链接
\item
<3->
\textbf
{
优点很明显
}
:方法真的非常简单,易于实现
\item
引入正则化因子,可以对外部知识建模,比如引入噪声让训练更稳定
\item
<3->
\textbf
{
缺点也和明显
}
:效率太低,对于复杂网络、参数量稍微大一些的模型基本上无法使用
\end{itemize}
\end{itemize}
\end{itemize}
\end{itemize}
\end{frame}
\end{frame}
...
...
Section05-Neural-Networks-and-Language-Modeling/section05.tex
查看文件 @
178205a4
...
@@ -3024,12 +3024,40 @@ J(\textbf{w}_t) = \frac{1}{m} \sum_{i=j}^{j+m} L(\textbf{x}_i,\hat{\textbf{y}}_i
...
@@ -3024,12 +3024,40 @@ J(\textbf{w}_t) = \frac{1}{m} \sum_{i=j}^{j+m} L(\textbf{x}_i,\hat{\textbf{y}}_i
\end{itemize}
\end{itemize}
\item
<3->
\textbf
{
其它
}
\item
<3->
\textbf
{
其它
}
\begin{itemize}
\begin{itemize}
\item
深度网络梯度消失和爆炸的问题,使用梯度裁剪、残差链接
\item
深度网络梯度消失和爆炸的问题,使用梯度裁剪、残差链接
等
\item
引入正则化因子,可以对外部知识建模,比如引入噪声让训练更稳定
\item
引入正则化因子,可以对外部知识建模,比如引入噪声让训练更稳定
\end{itemize}
\end{itemize}
\end{itemize}
\end{itemize}
\end{frame}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 如何计算梯度
\begin{frame}
{
如何计算梯度?
}
\begin{itemize}
\item
\textbf
{
还有一个核心问题
}
:如何计算梯度
\begin{displaymath}
\frac
{
\partial
L(
\textbf
{
w
}
)
}{
\partial
\textbf
{
w
}}
= ?
\end{displaymath}
\vspace
{
0.5em
}
\item
<2->
\textbf
{
数值微分
}
- 简单粗暴的方法
\begin{displaymath}
\frac
{
\partial
L(
\textbf
{
w
}
)
}{
\partial
\textbf
{
w
}}
=
\lim
_{
\Delta
\textbf
{
w
}
\to
0
}
\frac
{
L(
\textbf
{
w
}
+
\Delta
\textbf
{
w
}
) - L(
\textbf
{
w
}
-
\Delta
\textbf
{
w
}
)
}{
2
\Delta
\textbf
{
w
}}
\end{displaymath}
最基本的微分公式,我们可以将
$
\textbf
{
w
}$
变化一点儿(用
$
\Delta
\textbf
{
w
}$
表示),之后看
$
L
(
\cdot
)
$
的变化。
\begin{itemize}
\item
<3->
\textbf
{
优点很明显
}
:方法真的非常简单,易于实现
\item
<3->
\textbf
{
缺点也和明显
}
:效率太低,对于复杂网络、参数量稍微大一些的模型基本上无法使用
\end{itemize}
\end{itemize}
\end{frame}
\end{CJK}
\end{CJK}
\end{document}
\end{document}
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论