Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
fb20e813
Commit
fb20e813
authored
Nov 25, 2020
by
孟霞
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
更新 chapter9.tex
parent
6fb21feb
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
3 行增加
和
3 行删除
+3
-3
Chapter9/chapter9.tex
+3
-3
没有找到文件。
Chapter9/chapter9.tex
查看文件 @
fb20e813
...
@@ -1564,9 +1564,9 @@ z_t&=&\gamma z_{t-1}+(1-\gamma) \frac{\partial J}{\partial {\theta}_t} \cdot \f
...
@@ -1564,9 +1564,9 @@ z_t&=&\gamma z_{t-1}+(1-\gamma) \frac{\partial J}{\partial {\theta}_t} \cdot \f
\parinterval
为了使神经网络模型训练更加稳定,通常还会考虑其他策略。
\parinterval
为了使神经网络模型训练更加稳定,通常还会考虑其他策略。
\begin{itemize}
\begin{itemize}
\item
{
\small\bfnew
{
批量
归一化
}}
\index
{
批量归一化
}
(Batch Normalization)
\index
{
Batch Normalization
}
。批量归一化,顾名思义,是以进行学习时的小批量样本为单位进行归一化
\upcite
{
ioffe2015batch
}
。具体而言,就是对神经网络隐层输出的每一个维度,沿着批次的方向进行均值为0、方差为1的归一化。在深层神经网络中,每一层网络都可以使用批量归一
化操作。这样使神经网络任意一层的输入不至于过大或过小,从而防止隐层中异常值导致模型状态的巨大改变。
\item
{
\small\bfnew
{
批量
标准化
}}
\index
{
批量标准化
}
(Batch Normalization)
\index
{
Batch Normalization
}
。批量标准化,顾名思义,是以进行学习时的小批量样本为单位进行归一化
\upcite
{
ioffe2015batch
}
。具体而言,就是对神经网络隐层输出的每一个维度,沿着批次的方向进行均值为0、方差为1的归一化。在深层神经网络中,每一层网络都可以使用批量标准
化操作。这样使神经网络任意一层的输入不至于过大或过小,从而防止隐层中异常值导致模型状态的巨大改变。
\item
{
\small\bfnew
{
层
归一化
}}
\index
{
层归一化
}
(Layer Normalization)
\index
{
Layer Normalization
}
。类似的,层归一化更多是针对自然语言处理这种序列处理任务
\upcite
{
Ba2016LayerN
}
,它和批量归一
化的原理是一样的,只是归一化操作是在序列上同一层网络的输出结果上进行的,也就是归一化操作沿着序列方向进行。这种方法可以很好的避免序列上不同位置神经网络输出结果的不可比性。同时由于归一化后所有的结果都转化到一个可比的范围,使得隐层状态可以在不同层之间进行自由组合。
\item
{
\small\bfnew
{
层
标准化
}}
\index
{
层标准化
}
(Layer Normalization)
\index
{
Layer Normalization
}
。类似的,层标准化更多是针对自然语言处理这种序列处理任务
\upcite
{
Ba2016LayerN
}
,它和批量标准
化的原理是一样的,只是归一化操作是在序列上同一层网络的输出结果上进行的,也就是归一化操作沿着序列方向进行。这种方法可以很好的避免序列上不同位置神经网络输出结果的不可比性。同时由于归一化后所有的结果都转化到一个可比的范围,使得隐层状态可以在不同层之间进行自由组合。
\item
{
\small\bfnew
{
残差网络
}}
\index
{
残差网络
}
(Residual Networks)
\index
{
Residual Networks
}
。最初,残差网络是为了解决神经网络持续加深时的模型退化问题
\upcite
{
DBLP:journals/corr/HeZRS15
}
,但是残差结构对解决梯度消失和梯度爆炸问题也有所帮助。有了残差结构,可以很轻松的构建几十甚至上百层的神经网络,而不用担心层数过深造成的梯度消失问题。残差网络的结构如图
\ref
{
fig:9-51
}
所示。图
\ref
{
fig:9-51
}
中右侧的曲线叫做
{
\small\bfnew
{
跳接
}}
\index
{
跳接
}
(Skip Connection)
\index
{
Skip Connection
}
,通过跳接在激活函数前,将上一层(或几层)之前的输出与本层计算的输出相加,将求和的结果输入到激活函数中作为本层的输出。假设残差结构的输入为
$
{
\mathbi
{
x
}}_
l
$
,输出为
$
{
\mathbi
{
x
}}_{
l
+
1
}
$
,则有
\item
{
\small\bfnew
{
残差网络
}}
\index
{
残差网络
}
(Residual Networks)
\index
{
Residual Networks
}
。最初,残差网络是为了解决神经网络持续加深时的模型退化问题
\upcite
{
DBLP:journals/corr/HeZRS15
}
,但是残差结构对解决梯度消失和梯度爆炸问题也有所帮助。有了残差结构,可以很轻松的构建几十甚至上百层的神经网络,而不用担心层数过深造成的梯度消失问题。残差网络的结构如图
\ref
{
fig:9-51
}
所示。图
\ref
{
fig:9-51
}
中右侧的曲线叫做
{
\small\bfnew
{
跳接
}}
\index
{
跳接
}
(Skip Connection)
\index
{
Skip Connection
}
,通过跳接在激活函数前,将上一层(或几层)之前的输出与本层计算的输出相加,将求和的结果输入到激活函数中作为本层的输出。假设残差结构的输入为
$
{
\mathbi
{
x
}}_
l
$
,输出为
$
{
\mathbi
{
x
}}_{
l
+
1
}
$
,则有
...
@@ -1593,7 +1593,7 @@ z_t&=&\gamma z_{t-1}+(1-\gamma) \frac{\partial J}{\partial {\theta}_t} \cdot \f
...
@@ -1593,7 +1593,7 @@ z_t&=&\gamma z_{t-1}+(1-\gamma) \frac{\partial J}{\partial {\theta}_t} \cdot \f
\label
{
eq:9-45
}
\label
{
eq:9-45
}
\end{eqnarray}
\end{eqnarray}
由上式可知,残差网络可以将后一层的梯度
$
\frac
{
\partial
L
}{
\partial
{
\mathbi
{
x
}}_{
l
+
1
}}
$
不经过任何乘法项直接传递到
$
\frac
{
\partial
L
}{
\partial
{
\mathbi
{
x
}}_
l
}
$
,从而缓解了梯度经过每一层后多次累乘造成的梯度消失问题。在
{
\chaptertwelve
}
中还会看到,在机器翻译中残差结构可以和层
归一
化一起使用,而且这种组合可以取得很好的效果。
由上式可知,残差网络可以将后一层的梯度
$
\frac
{
\partial
L
}{
\partial
{
\mathbi
{
x
}}_{
l
+
1
}}
$
不经过任何乘法项直接传递到
$
\frac
{
\partial
L
}{
\partial
{
\mathbi
{
x
}}_
l
}
$
,从而缓解了梯度经过每一层后多次累乘造成的梯度消失问题。在
{
\chaptertwelve
}
中还会看到,在机器翻译中残差结构可以和层
标准
化一起使用,而且这种组合可以取得很好的效果。
\end{itemize}
\end{itemize}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论