Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
8fa9aebf
Commit
8fa9aebf
authored
May 12, 2020
by
zengxin
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'zengxin' 到 'caorunzhe'
chapter6 公式 查看合并请求
!142
parents
3c5aa1d8
5adff5f3
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
2 行增加
和
2 行删除
+2
-2
Book/Chapter6/Chapter6.tex
+2
-2
没有找到文件。
Book/Chapter6/Chapter6.tex
查看文件 @
8fa9aebf
...
...
@@ -1663,11 +1663,11 @@ L(\mathbf{Y},\widehat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\
\parinterval
残差连接从广义上讲也叫
{
\small\bfnew
{
短连接
}}
\index
{
短连接
}
(Short-cut Connection)
\index
{
Short-cut Connection
}
,指的是这种短距离的连接。它的思想很简单,就是把层和层之间的距离拉近。如图
\ref
{
fig:6-49
}
所示,子层1通过残差连接跳过了子层2,直接和子层3进行信息传递。使信息传递变得更高效,有效解决了深层网络训练过程中容易出现的梯度消失/爆炸问题,使得深层网络的训练更加容易。其计算公式为:
\begin{eqnarray}
x
_{
l+1
}
= x
_
l +
\
digamma
(x
_
l)
x
_{
l+1
}
= x
_
l +
\
mathcal
{
F
}
(x
_
l)
\label
{
eq:6-50
}
\end{eqnarray}
\noindent
其中
$
\
digamma
(
x
_
l
)
$
是子层运算。如果
$
l
=
2
$
,那么公式
\ref
{
eq:6-50
}
可以解释为,第3层的输出等于第2层的输出加上第二层的输入。图
\ref
{
fig:6-50
}
中的红色方框展示了Transformer中残差连接的位置。
\noindent
其中
$
\
mathcal
{
F
}
(
x
_
l
)
$
是子层运算。如果
$
l
=
2
$
,那么公式
\ref
{
eq:6-50
}
可以解释为,第3层的输出等于第2层的输出加上第二层的输入。图
\ref
{
fig:6-50
}
中的红色方框展示了Transformer中残差连接的位置。
%----------------------------------------------
\begin{figure}
[htp]
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论