\item{\small\bfnew{卷积层}}与{\small\bfnew{门控线性单元}}(Gated Linear Units, GLU\index{Gated Linear Units, GLU}):黄色背景框是卷积模块,这里使用门控线性单元作为非线性函数,之前的研究工作\upcite{Dauphin2017LanguageMW} 表明这种非线性函数更适合于序列建模任务。图中为了简化,只展示了一层卷积,但在实际中为了更好地捕获句子信息,通常使用多层卷积的叠加。
\noindent 其中,$\mathbi{A},\mathbi{B}\in\mathbb{R}^d$,$\mathbi{W}\in\mathbb{R}^{K\times d \times d}$、$\mathbi{V}\in\mathbb{R}^{K\times d \times d}$、$\mathbi{b}_\mathbi{W}$,$\mathbi{b}_\mathbi{V}\in\mathbb{R}^d $,$\mathbi{W}$、$\mathbi{V}$在此表示卷积核,$\mathbi{b}_\mathbi{W}$,$\mathbi{b}_\mathbi{V}$为偏置矩阵。在卷积操作之后,引入非线性变换:
\noindent 其中,$\mathbi{A},\mathbi{B}\in\mathbb{R}^d$,$\mathbi{W}\in\mathbb{R}^{K\times d \times d}$、$\mathbi{V}\in\mathbb{R}^{K\times d \times d}$、$\mathbi{b}_\mathbi{W}$,$\mathbi{b}_\mathbi{V}\in\mathbb{R}^d $,$\mathbi{W}$、$\mathbi{V}$在此表示卷积核,$\mathbi{b}_\mathbi{W}$,$\mathbi{b}_\mathbi{V}$为偏置矩阵。在卷积操作之后,引入非线性变换,具体计算如公式\eqref{eq:11-5}所示: