Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
63e201e2
Commit
63e201e2
authored
4 years ago
by
孟霞
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
9错误修改
parent
02dd4e6e
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
3 行增加
和
3 行删除
+3
-3
Chapter9/chapter9.tex
+3
-3
没有找到文件。
Chapter9/chapter9.tex
查看文件 @
63e201e2
...
...
@@ -457,11 +457,11 @@ l_p({\mathbi{x}}) & = & {\Vert{\mathbi{x}}\Vert}_p \nonumber \\
\parinterval
$
l
_
2
$
范数为向量的各个元素平方和的二分之一次方:
\begin{eqnarray}
{
\Vert
{
\mathbi
{
x
}}
\Vert
}_
2
&
=
&
\sqrt
{
\sum
_{
i=1
}^{
n
}{{
x
_{
i
}}^
2
}}
\nonumber
\\
&
=
&
\sqrt
{{
\mathbi
{
x
}}^{
\textrm
T
}{
\mathbi
{
x
}
}}
&
=
&
\sqrt
{{
{
\mathbi
{
x
}}
\cdot\mathbi
{
x
}}^{
\textrm
T
}}
\label
{
eq:9-16
}
\end{eqnarray}
\parinterval
$
l
_
2
$
范数被称为
{
\small\bfnew
{
欧几里得范数
}}
\index
{
欧几里得范数
}
(Euclidean Norm)
\index
{
Euclidean Norm
}
。从几何角度,向量也可以表示为从原点出发的一个带箭头的有向线段,其
$
l
_
2
$
范数为线段的长度,也常被称为向量的模。
$
l
_
2
$
范数在机器学习中非常常用。向量
$
{
\mathbi
{
x
}}
$
的
$
l
_
2
$
范数经常简化表示为
$
\Vert
{
\mathbi
{
x
}}
\Vert
$
,可以通过点积
$
{
\mathbi
{
x
}}^{
\textrm
T
}{
\mathbi
{
x
}
}
$
进行计算。
\parinterval
$
l
_
2
$
范数被称为
{
\small\bfnew
{
欧几里得范数
}}
\index
{
欧几里得范数
}
(Euclidean Norm)
\index
{
Euclidean Norm
}
。从几何角度,向量也可以表示为从原点出发的一个带箭头的有向线段,其
$
l
_
2
$
范数为线段的长度,也常被称为向量的模。
$
l
_
2
$
范数在机器学习中非常常用。向量
$
{
\mathbi
{
x
}}
$
的
$
l
_
2
$
范数经常简化表示为
$
\Vert
{
\mathbi
{
x
}}
\Vert
$
,可以通过点积
$
{
{
\mathbi
{
x
}}
\cdot
\mathbi
{
x
}}^{
\textrm
T
}
$
进行计算。
\parinterval
$
l
_{
\infty
}
$
范数为向量的各个元素的最大绝对值:
\begin{eqnarray}
...
...
@@ -1725,7 +1725,7 @@ z_t&=&\gamma z_{t-1}+(1-\gamma) \frac{\partial J}{\partial {\theta}_t} \cdot \f
\vspace
{
0.5em
}
\item
$
\frac
{
\partial
L
}{
\partial
{
\mathbi
{
h
}}^
K
}
$
表示损失函数
$
L
$
相对网络输出
$
{
\mathbi
{
h
}}^
K
$
的梯度。比如,对于平方损失
$
L
=
\frac
{
1
}{
2
}{
\Vert
{
\mathbi
{
y
}}
-
{
\mathbi
{
h
}}^
K
\Vert
}^
2
$
,有
$
\frac
{
\partial
L
}{
\partial
{
\mathbi
{
h
}}^
K
}
=
{
\mathbi
{
y
}}
-
{
\mathbi
{
h
}}^
K
$
。计算结束后,将
$
\frac
{
\partial
L
}{
\partial
{
\mathbi
{
h
}}^
K
}
$
向前传递。
\vspace
{
0.5em
}
\item
$
\frac
{
\partial
f
^
T
(
{
\mathbi
{
s
}}^
K
)
}{
\partial
{
\mathbi
{
s
}}^
K
}
$
表示激活函数相对于其输入
$
{
\mathbi
{
s
}}^
K
$
的梯度。比如,对于Sigmoid函数
$
f
(
{
\mathbi
{
s
}}
)=
\frac
{
1
}{
1
+
{
\textrm
e
}^{
-
{
\mathbi
{
s
}}}}$
,有
$
\frac
{
\partial
f
(
{
\mathbi
{
s
}}
)
}{
\partial
{
\mathbi
{
s
}}}
=
f
(
{
\mathbi
{
s
}}
)
(
1
-
f
(
{
\mathbi
{
s
}}
))
$
\item
$
\frac
{
\partial
f
^
K
(
{
\mathbi
{
s
}}^
K
)
}{
\partial
{
\mathbi
{
s
}}^
K
}
$
表示激活函数相对于其输入
$
{
\mathbi
{
s
}}^
K
$
的梯度。比如,对于Sigmoid函数
$
f
(
{
\mathbi
{
s
}}
)=
\frac
{
1
}{
1
+
{
\textrm
e
}^{
-
{
\mathbi
{
s
}}}}$
,有
$
\frac
{
\partial
f
(
{
\mathbi
{
s
}}
)
}{
\partial
{
\mathbi
{
s
}}}
=
f
(
{
\mathbi
{
s
}}
)
(
1
-
f
(
{
\mathbi
{
s
}}
))
$
\vspace
{
0.5em
}
\end{itemize}
\end{spacing}
...
...
This diff is collapsed.
Click to expand it.
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论