Commit 8fa9aebf by zengxin

合并分支 'zengxin' 到 'caorunzhe'

chapter6 公式

查看合并请求 !142
parents 3c5aa1d8 5adff5f3
...@@ -1663,11 +1663,11 @@ L(\mathbf{Y},\widehat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\ ...@@ -1663,11 +1663,11 @@ L(\mathbf{Y},\widehat{\mathbf{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbf{y}_j,\
\parinterval 残差连接从广义上讲也叫{\small\bfnew{短连接}}\index{短连接}(Short-cut Connection)\index{Short-cut Connection},指的是这种短距离的连接。它的思想很简单,就是把层和层之间的距离拉近。如图\ref{fig:6-49}所示,子层1通过残差连接跳过了子层2,直接和子层3进行信息传递。使信息传递变得更高效,有效解决了深层网络训练过程中容易出现的梯度消失/爆炸问题,使得深层网络的训练更加容易。其计算公式为: \parinterval 残差连接从广义上讲也叫{\small\bfnew{短连接}}\index{短连接}(Short-cut Connection)\index{Short-cut Connection},指的是这种短距离的连接。它的思想很简单,就是把层和层之间的距离拉近。如图\ref{fig:6-49}所示,子层1通过残差连接跳过了子层2,直接和子层3进行信息传递。使信息传递变得更高效,有效解决了深层网络训练过程中容易出现的梯度消失/爆炸问题,使得深层网络的训练更加容易。其计算公式为:
\begin{eqnarray} \begin{eqnarray}
x_{l+1} = x_l + \digamma (x_l) x_{l+1} = x_l + \mathcal{F} (x_l)
\label{eq:6-50} \label{eq:6-50}
\end{eqnarray} \end{eqnarray}
\noindent 其中$\digamma (x_l)$是子层运算。如果$l=2$,那么公式\ref{eq:6-50}可以解释为,第3层的输出等于第2层的输出加上第二层的输入。图\ref{fig:6-50}中的红色方框展示了Transformer中残差连接的位置。 \noindent 其中$\mathcal{F} (x_l)$是子层运算。如果$l=2$,那么公式\ref{eq:6-50}可以解释为,第3层的输出等于第2层的输出加上第二层的输入。图\ref{fig:6-50}中的红色方框展示了Transformer中残差连接的位置。
%---------------------------------------------- %----------------------------------------------
\begin{figure}[htp] \begin{figure}[htp]
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论