\parinterval 那激活函数又是什么?神经元在接收到经过线性变换的结果后,通过激活函数的处理,得到最终的输出$\mathbf y $。激活函数的目的是解决实际问题中的非线性变换,线性变换只能拟合直线,而激活函数的加入,使神经网络具有了拟合曲线的能力。 特别是在实际问题中,很多现象都无法用简单的线性关系描述,这时可以使用非线性激活函数来描述更加复杂的问题。常见的非线性激活函数有Sigmoid、ReLU、Tanh等。图\ref{fig:9-15}中列举了几种激活函数的形式。
\parinterval 那激活函数又是什么?神经元在接收到经过线性变换的结果后,通过激活函数的处理,得到最终的输出$\mathbi y $。激活函数的目的是解决实际问题中的非线性变换,线性变换只能拟合直线,而激活函数的加入,使神经网络具有了拟合曲线的能力。 特别是在实际问题中,很多现象都无法用简单的线性关系描述,这时可以使用非线性激活函数来描述更加复杂的问题。常见的非线性激活函数有Sigmoid、ReLU、Tanh等。图\ref{fig:9-15}中列举了几种激活函数的形式。
\parinterval 对于第$ i $个样本$({\mathbi{x}}_i,\widetilde{\mathbi{y}}_i)$,把损失函数$ L(\widetilde{\mathbi{y}}_i,{\mathbi{y}}_i)$看作是参数$\bm\theta$的函数\footnote{为了简化描述,可以用$
\parinterval 对于第$ i $个样本$({\mathbi{x}}_i,\widetilde{\mathbi{y}}_i)$,把损失函数$ L(\widetilde{\mathbi{y}}_i,{\mathbi{y}}_i)$看作是参数$\bm\theta$的函数\footnote{为了简化描述,可以用$
author={Ashish {Vaswani} and Noam {Shazeer} and Niki {Parmar} and Jakob {Uszkoreit} and Llion {Jones} and Aidan N. {Gomez} and Lukasz {Kaiser} and Illia {Polosukhin}},
publisher={International Conference on Neural Information Processing},
pages={5998--6008},
year={2017}
}
@inproceedings{DBLP:conf/acl/LiLWJXZLL20,
@inproceedings{DBLP:conf/acl/LiLWJXZLL20,
author = {Bei Li and
author = {Bei Li and
Hui Liu and
Hui Liu and
...
@@ -4417,20 +4425,7 @@ author = {Yoshua Bengio and
...
@@ -4417,20 +4425,7 @@ author = {Yoshua Bengio and
pages = {157--166},
pages = {157--166},
year = {1994}
year = {1994}
}
}
@inproceedings{NIPS2017_7181,
author = {Ashish Vaswani and
Noam Shazeer and
Niki Parmar and
Jakob Uszkoreit and
Llion Jones and
Aidan N. Gomez and
Lukasz Kaiser and
Illia Polosukhin},
title = {Attention is All you Need},
publisher = {Conference on Neural Information Processing Systems},