Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
f200687d
Commit
f200687d
authored
Mar 27, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
updates
parent
1d66227e
隐藏空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
2 行增加
和
2 行删除
+2
-2
Book/Chapter5/chapter5.tex
+1
-1
Book/Chapter6/Chapter6.tex
+1
-1
没有找到文件。
Book/Chapter5/chapter5.tex
查看文件 @
f200687d
...
...
@@ -1611,7 +1611,7 @@ w_{t+1}&=&w_t-\frac{\eta}{\sqrt{z_t+\epsilon}} v_t
\parinterval
\textbf
{
正则化
}
(Regularization)是常见的缓解过拟合问题的手段,通过在损失函数中加上用来刻画模型复杂程度的正则项来惩罚过度复杂的模型,从而避免神经网络过度学习造成过拟合。引入正则化处理之后目标函数变为
$
J
(
\mathbf
w
)+
\lambda
R
(
\mathbf
w
)
$
,其中
$
J
(
\mathbf
w
)
$
是原来的代价函数,
$
R
(
\mathbf
w
)
$
即为正则项,
$
\lambda
$
用来调节正则项对结果影响的程度。
\parinterval
过拟合的模型通常会表现为部分非零参数过多或者参数的值过大。这种参数产生的原因在于模型需要复杂的参数才能匹配样本中的个别现象甚至噪声。基于此,常见的正则化方法有L1正则化和L2正则化,其命名方式是由
$
R
(
\mathbf
w
)
$
的计算形式来决定的。在L1正则化中,
$
R
(
\mathbf
w
)
$
即为参数
$
w
$
的
$
l
_
1
$
范数,即
$
R
(
\mathbf
w
)
=
{
\Vert
\mathbf
w
\Vert
}_
1
=
\sum
_{
i
=
1
}^{
n
}{
\vert
w
_
i
\vert
}
$
;在L2正则化中,
$
R
(
\mathbf
w
)
$
即为参数
$
w
$
的
$
l
_
2
$
范数的平方,即
$
R
(
\mathbf
w
)
=
{
\Vert
\mathbf
w
\Vert
}_
2
=
\sum
_{
i
=
1
}^{
n
}{
w
_
i
^
2
}
$
。L1正则化中的正则项衡量了模型权数中的绝对值大小,倾向于生成值为0的参数,从而让参数变得更加稀疏;而L2正则化由于平方的加入,当参数中的某一项小到一定程度,比如0.001的时候,参数的平方结果已经可以忽略不计了,因此L2正则化会倾向生成很小的参数,在这种情况下,即便训练数据中含有少量随机噪音,模型也不太容易通过增加个别参数的值来对噪声进行过渡拟合,即提高了模型的抗扰动能力。
\parinterval
过拟合的模型通常会表现为部分非零参数过多或者参数的值过大。这种参数产生的原因在于模型需要复杂的参数才能匹配样本中的个别现象甚至噪声。基于此,常见的正则化方法有L1正则化和L2正则化,其命名方式是由
$
R
(
\mathbf
w
)
$
的计算形式来决定的。在L1正则化中,
$
R
(
\mathbf
w
)
$
即为参数
$
w
$
的
$
l
_
1
$
范数,即
$
R
(
\mathbf
w
)
=
{
\Vert
\mathbf
w
\Vert
}_
1
=
\sum
_{
i
=
1
}^{
n
}{
\vert
w
_
i
\vert
}
$
;在L2正则化中,
$
R
(
\mathbf
w
)
$
即为参数
$
w
$
的
$
l
_
2
$
范数的平方,即
$
R
(
\mathbf
w
)
=
(
{
\Vert
\mathbf
w
\Vert
}_
2
)
^
2
=
\sum
_{
i
=
1
}^{
n
}{
w
_
i
^
2
}
$
。L1正则化中的正则项衡量了模型权数中的绝对值大小,倾向于生成值为0的参数,从而让参数变得更加稀疏;而L2正则化由于平方的加入,当参数中的某一项小到一定程度,比如0.001的时候,参数的平方结果已经可以忽略不计了,因此L2正则化会倾向生成很小的参数,在这种情况下,即便训练数据中含有少量随机噪音,模型也不太容易通过增加个别参数的值来对噪声进行过渡拟合,即提高了模型的抗扰动能力。
\parinterval
此外,在第六章即将介绍的Dropout和Label Smoothing方法也可以被看作是一种正则化操作。它们都可以提高模型在未见数据上的泛化能力。
%--5.4.6 反向传播---------------------
...
...
Book/Chapter6/Chapter6.tex
查看文件 @
f200687d
...
...
@@ -1552,7 +1552,7 @@ L(\mathbf{Y},\hat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\hat{
\parinterval
多头机制的好处是允许模型在不同的表示子空间里学习。在很多实验中发现,不同表示空间的头捕获的信息是不同的,比如,在使用Transformer处理自然语言时,有的头可以捕捉句法信息,有头可以捕捉词法信息。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection
{
残差和层正则化
}
\index
{
Chapter6.4.7
}
\subsection
{
残差
网络
和层正则化
}
\index
{
Chapter6.4.7
}
\parinterval
Transformer编码器、解码器分别由多层网络组成(通常为6层),每层网络又包含多个子层(自注意力网络、前馈神经网络)。因此Transformer实际上是一个很深的网络结构。再加上前面介绍的点乘注意力机制,包含很多线性和非线性变换;另外,注意力函数Attention(
$
\cdot
$
)的计算也涉及多层网络,整个网络的信息传递非常复杂。从反向传播的角度来看,每次回传的梯度都会经过若干步骤,容易产生梯度爆炸或者消失。
\parinterval
解决这个问题的一种办法就是使用
\textbf
{
残差连接
}
\cite
{
DBLP:journals/corr/HeZRS15
}
。残差连接是一种用来训练深层网络的技术,其结构如图
\ref
{
fig:6-47
}
,即在子层之前通过增加直接连接的方式,将底层信息直接传递给上层。
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论