Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
8b52294d
Commit
8b52294d
authored
Feb 22, 2021
by
zengxin
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
11
parent
0728bace
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
6 行增加
和
6 行删除
+6
-6
Chapter11/chapter11.tex
+6
-6
没有找到文件。
Chapter11/chapter11.tex
查看文件 @
8b52294d
...
...
@@ -256,7 +256,7 @@
\item
{
\small\bfnew
{
残差连接
}}
\index
{
残差连接
}
(Residual Connection)
\index
{
Residual Connection
}
:源语言端和目标语言端的卷积层网络之间,都存在一个从输入到输出的额外连接,即跳接
\upcite
{
DBLP:journals/corr/HeZRS15
}
。该连接方式确保每个隐层输出都能包含输入序列中的更多信息,同时能够有效提高深层网络的信息传递效率(该部分在图
\ref
{
fig:11-12
}
中没有显示,具体结构详见
\ref
{
sec:11.2.3
}
节)。
\item
{
\small\bfnew
{
多步注意力机制
}}
\index
{
多步注意力机制
}
(Multi-step Attention)
\index
{
Multi-step Attention
}
:蓝色框内部展示了基于多
跳结构的注意力机制模块
\upcite
{
Sukhbaatar2015EndToEndMN
}
。ConvS2S模型同样使用注意力机制来捕捉两个序列之间不同位置的对应关系。区别于之前的做法,多跳
注意力在解码器端每一个层都会执行注意力操作。下面将以此模型为例对基于卷积神经网络的机器翻译模型进行介绍。
\item
{
\small\bfnew
{
多步注意力机制
}}
\index
{
多步注意力机制
}
(Multi-step Attention)
\index
{
Multi-step Attention
}
:蓝色框内部展示了基于多
步结构的注意力机制模块
\upcite
{
Sukhbaatar2015EndToEndMN
}
。ConvS2S模型同样使用注意力机制来捕捉两个序列之间不同位置的对应关系。区别于之前的做法,多步
注意力在解码器端每一个层都会执行注意力操作。下面将以此模型为例对基于卷积神经网络的机器翻译模型进行介绍。
\end{itemize}
%----------------------------------------------------------------------------------------
...
...
@@ -346,7 +346,7 @@
\noindent
其中,
$
\mathbi
{
h
}^
l
$
表示
$
l
$
层神经网络的输入向量,
${
F
}
(
\mathbi
{
h
}^
l
)
$
是
$
l
$
层神经网络的运算。如果
$
l
=
2
$
,那么公式
\eqref
{
eq:11-6
}
可以解释为:第3层的输入
$
\mathbi
{
h
}^
3
$
等于第2层的输出
${
F
}
(
\mathbi
{
h
}^
2
)
$
加上第2层的输入
$
\mathbi
{
h
}^
2
$
。
\parinterval
在ConvS2S中残差连接主要应用于门控卷积神经网络和多
跳自
注意力机制中,比如在编码器的多层门控卷积神经网络中,在每一层的输入和输出之间增加残差连接,具体的数学描述如下:
\parinterval
在ConvS2S中残差连接主要应用于门控卷积神经网络和多
步
注意力机制中,比如在编码器的多层门控卷积神经网络中,在每一层的输入和输出之间增加残差连接,具体的数学描述如下:
\begin{eqnarray}
%\mathbi{h}_i^l = \funp{v} (\mathbi{W}^l [\mathbi{h}_{i-\frac{k}{2}}^{l-1},...,\mathbi{h}_{i+\frac{k}{2}}^{l-1}] + b_{\mathbi{W}}^l ) + \mathbi{h}_i^{l-1}
\mathbi
{
h
}^{
l+1
}
&
=
&
\mathbi
{
A
}^{
l
}
\otimes
\sigma
(
\mathbi
{
B
}^{
l
}
) +
\mathbi
{
h
}^{
l
}
...
...
@@ -359,7 +359,7 @@
\subsection
{
多步注意力机制
}
\parinterval
ConvS2S模型也采用了注意力机制来获取每个目标语言位置相应的源语言上下文信息。其仍然沿用传统的点乘注意力机制
\upcite
{
DBLP:journals/corr/LuongPM15
}
,其中图
\ref
{
fig:11-16
}
蓝色框代表了多
跳自
注意力机制在模型中的位置。
\parinterval
ConvS2S模型也采用了注意力机制来获取每个目标语言位置相应的源语言上下文信息。其仍然沿用传统的点乘注意力机制
\upcite
{
DBLP:journals/corr/LuongPM15
}
,其中图
\ref
{
fig:11-16
}
蓝色框代表了多
步
注意力机制在模型中的位置。
\parinterval
在基于循环神经网络的翻译模型中,注意力机制已经被广泛使用
\upcite
{
bahdanau2014neural
}
,并用于避免循环神经网络将源语言序列压缩成一个固定维度的向量表示带来的信息损失。另一方面,注意力同样能够帮助解码器区分源语言中不同位置对当前目标语言位置的贡献度,其具体的计算过程如公式
\eqref
{
eq:11-8
}
和
\eqref
{
eq:11-9
}
所示:
...
...
@@ -375,12 +375,12 @@
\begin{figure}
[htp]
\centering
\input
{
./Chapter11/Figures/figure-fairseq-3
}
\caption
{
多
跳自
注意力机制在ConvS2S模型中的位置(蓝色背景框部分)
}
\caption
{
多
步
注意力机制在ConvS2S模型中的位置(蓝色背景框部分)
}
\label
{
fig:11-16
}
\end{figure}
%----------------------------------------------
\parinterval
在ConvS2S模型中,解码器同样采用堆叠的多层门控卷积网络来对目标语言进行序列建模。区别于编码器,解码器在每一层卷积网络之后引入了注意力机制,用来参考源语言信息。ConvS2S选用了点乘注意力,并且通过类似残差连接的方式将注意力操作的输入与输出同时作用于下一层计算,称为多
跳
注意力。其具体计算方式如下:
\parinterval
在ConvS2S模型中,解码器同样采用堆叠的多层门控卷积网络来对目标语言进行序列建模。区别于编码器,解码器在每一层卷积网络之后引入了注意力机制,用来参考源语言信息。ConvS2S选用了点乘注意力,并且通过类似残差连接的方式将注意力操作的输入与输出同时作用于下一层计算,称为多
步
注意力。其具体计算方式如下:
\begin{eqnarray}
\alpha
_{
ij
}^
l
&
=
&
\frac
{
\textrm
{
exp
}
(
\mathbi
{
d
}_{
j
}^
l
\mathbi
{
h
}_
i)
}{
\sum
_{
i
^{
'
}
=1
}^
m
\textrm
{
exp
}
(
\mathbi
{
d
}_{
j
}^
l
\mathbi
{
h
}_{
i
^{
'
}}
)
}
\label
{
eq:11-10
}
...
...
@@ -404,7 +404,7 @@
\label
{
eq:11-14
}
\end{eqnarray}
\noindent
与循环网络中的注意力机制相比,该机制能够帮助模型甄别已经考虑了哪些先前的输入。也就是说,多
跳
的注意力机制会考虑模型之前更关注哪些单词,并且之后层中执行多次注意力的“跳跃”。
\noindent
与循环网络中的注意力机制相比,该机制能够帮助模型甄别已经考虑了哪些先前的输入。也就是说,多
步
的注意力机制会考虑模型之前更关注哪些单词,并且之后层中执行多次注意力的“跳跃”。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论