\parinterval 对于一层神经网络,$\mathbf y=f(\mathbf x\cdot\mathbf w+\mathbf b)$中的$\mathbf x\cdot\mathbf w $表示对输入$\mathbf x $进行线性变换,其中$\mathbf x $是输入张量,$\mathbf w $是权重矩阵。$\mathbf x\cdot\mathbf w $表示的是矩阵乘法,需要注意的是这里是矩阵乘法而不是张量乘法。
\parinterval 张量乘以矩阵是怎样计算呢?可以先回忆一下5.2.1节的线性代数的知识。假设$\mathbf a $为$ m\times p $的矩阵,$\mathbf b $为$ p\times n $的矩阵,对$\mathbf a $和$\mathbf b $ 作矩阵乘积的结果是一个$ m\times n $的矩阵$\mathbf c $,其中矩阵$\mathbf c $中第$ i $行第$ j $列的元素可以表示为:
\parinterval 张量乘以矩阵是怎样计算呢?可以先回忆一下\ref{sec:5.2.1}节的线性代数的知识。假设$\mathbf a $为$ m\times p $的矩阵,$\mathbf b $为$ p\times n $的矩阵,对$\mathbf a $和$\mathbf b $ 作矩阵乘积的结果是一个$ m\times n $的矩阵$\mathbf c $,其中矩阵$\mathbf c $中第$ i $行第$ j $列的元素可以表示为: