Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
b7fca58b
Commit
b7fca58b
authored
4 years ago
by
孟霞
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
更新 chapter9.tex
parent
f854e999
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
2 行增加
和
2 行删除
+2
-2
Chapter9/chapter9.tex
+2
-2
没有找到文件。
Chapter9/chapter9.tex
查看文件 @
b7fca58b
...
...
@@ -1597,11 +1597,11 @@ z_t&=&\gamma z_{t-1}+(1-\gamma) \frac{\partial J}{\partial {\theta}_t} \cdot \f
\subsection
{
过拟合
}
\label
{
sec:9.4.5
}
\parinterval
理想中,我们总是希望尽可能地拟合输入和输出之间的函数关系,即让模型尽量模拟训练数据
的
中由输入预测答案的行为。然而,在实际应用中,模型在训练数据上的表现不一定代表了其在未见数据上的表现。如果模型训练过程中过度拟合训练数据,最终可能无法对未见数据做出准确的判断,这种现象叫做
{
\small\sffamily\bfseries
{
过拟合
}}
\index
{
过拟合
}
(Overfitting)
\index
{
Overfitting
}
。随着模型复杂度增加,特别在神经网络变得更深、更宽时,过拟合问题会表现得更为突出。如果训练数据量较小,而模型又很复杂,可以“完美”地拟合这些数据,这时过拟合也很容易发生。所以在模型训练时,往往不希望去完美拟合训练数据中的每一个样本。
\parinterval
理想中,我们总是希望尽可能地拟合输入和输出之间的函数关系,即让模型尽量模拟训练数据中由输入预测答案的行为。然而,在实际应用中,模型在训练数据上的表现不一定代表了其在未见数据上的表现。如果模型训练过程中过度拟合训练数据,最终可能无法对未见数据做出准确的判断,这种现象叫做
{
\small\sffamily\bfseries
{
过拟合
}}
\index
{
过拟合
}
(Overfitting)
\index
{
Overfitting
}
。随着模型复杂度增加,特别在神经网络变得更深、更宽时,过拟合问题会表现得更为突出。如果训练数据量较小,而模型又很复杂,可以“完美”地拟合这些数据,这时过拟合也很容易发生。所以在模型训练时,往往不希望去完美拟合训练数据中的每一个样本。
\parinterval
{
\small\sffamily\bfseries
{
正则化
}}
\index
{
正则化
}
(Regularization)
\index
{
Regularization
}
是常见的缓解过拟合问题的手段,通过在损失函数中加上用来刻画模型复杂程度的正则项来惩罚过度复杂的模型,从而避免神经网络过度学习造成过拟合。引入正则化处理之后目标函数变为
$
J
(
{
\bm
\theta
}
)+
\lambda
R
(
{
\bm
\theta
}
)
$
,其中
$
J
(
{
\bm
\theta
}
)
$
是原来的代价函数,
$
R
(
{
\bm
\theta
}
)
$
即为正则项,
$
\lambda
$
用来调节正则项对结果影响的程度。
\parinterval
过拟合的模型通常会表现为部分非零参数过多或者参数的值过大。这种参数产生的原因在于模型需要复杂的参数才能匹配样本中的个别现象甚至噪声。基于此,常见的正则化方法有L1正则化和L2正则化,其命名方式是由
$
R
(
{
\bm
\theta
}
)
$
的计算形式来决定的。在L1正则化中,
$
R
(
{
\bm
\theta
}
)
$
即为参数
$
{
\bm
\theta
}
$
的
$
l
_
1
$
范数,即
$
R
(
{
\bm
\theta
}
)
=
{
\Vert
{
\bm
\theta
}
\Vert
}_
1
=
\sum\limits
_{
i
=
1
}^{
n
}{
\vert
\theta
_
i
\vert
}
$
;在L2正则化中,
$
R
(
\bm
\theta
)
$
即为参数
${
\bm
\theta
}
$
的
$
l
_
2
$
范数的平方,即
$
R
(
\bm
\theta
)
=(
{
\Vert
{
\bm
\theta
}
\Vert
}_
2
)
^
2
=
\sum\limits
_{
i
=
1
}^{
n
}{
\theta
_
i
^
2
}
$
。L1正则化中的正则项衡量了模型
权数中
的绝对值大小,倾向于生成值为0的参数,从而让参数变得更加稀疏;而L2正则化由于平方的加入,当参数中的某一项小到一定程度,比如0.001的时候,参数的平方结果已经可以忽略不计了,因此L2正则化会倾向生成很小的参数,在这种情况下,即便训练数据中含有少量随机噪音,模型也不太容易通过增加个别参数的值来对噪声进行过度拟合,即提高了模型的抗扰动能力。
\parinterval
过拟合的模型通常会表现为部分非零参数过多或者参数的值过大。这种参数产生的原因在于模型需要复杂的参数才能匹配样本中的个别现象甚至噪声。基于此,常见的正则化方法有L1正则化和L2正则化,其命名方式是由
$
R
(
{
\bm
\theta
}
)
$
的计算形式来决定的。在L1正则化中,
$
R
(
{
\bm
\theta
}
)
$
即为参数
$
{
\bm
\theta
}
$
的
$
l
_
1
$
范数,即
$
R
(
{
\bm
\theta
}
)
=
{
\Vert
{
\bm
\theta
}
\Vert
}_
1
=
\sum\limits
_{
i
=
1
}^{
n
}{
\vert
\theta
_
i
\vert
}
$
;在L2正则化中,
$
R
(
\bm
\theta
)
$
即为参数
${
\bm
\theta
}
$
的
$
l
_
2
$
范数的平方,即
$
R
(
\bm
\theta
)
=(
{
\Vert
{
\bm
\theta
}
\Vert
}_
2
)
^
2
=
\sum\limits
_{
i
=
1
}^{
n
}{
\theta
_
i
^
2
}
$
。L1正则化中的正则项衡量了模型
中参数
的绝对值大小,倾向于生成值为0的参数,从而让参数变得更加稀疏;而L2正则化由于平方的加入,当参数中的某一项小到一定程度,比如0.001的时候,参数的平方结果已经可以忽略不计了,因此L2正则化会倾向生成很小的参数,在这种情况下,即便训练数据中含有少量随机噪音,模型也不太容易通过增加个别参数的值来对噪声进行过度拟合,即提高了模型的抗扰动能力。
\parinterval
此外,在
{
\chaptertwelve
}
即将介绍的Dropout和标签平滑方法也可以被看作是一种正则化操作。它们都可以提高模型在未见数据上的泛化能力。
...
...
This diff is collapsed.
Click to expand it.
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论