Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
a194633f
Commit
a194633f
authored
Oct 09, 2020
by
zengxin
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'zengxin' 到 'caorunzhe'
Zengxin 查看合并请求
!301
parents
4da72f96
646b88e5
全部展开
隐藏空白字符变更
内嵌
并排
正在显示
3 个修改的文件
包含
7 行增加
和
7 行删除
+7
-7
Chapter10/chapter10.tex
+0
-0
Chapter12/Figures/figure-point-product-attention-model.tex
+5
-5
Chapter12/chapter12.tex
+2
-2
没有找到文件。
Chapter10/chapter10.tex
查看文件 @
a194633f
差异被折叠。
点击展开。
Chapter12/Figures/figure-point-product-attention-model.tex
查看文件 @
a194633f
...
...
@@ -27,13 +27,13 @@
{
\node
[anchor=east] (line1) at ([xshift=-4em,yshift=1em]MatMul.west)
{
\scriptsize
{
自注意力机制的Query
}}
;
\node
[anchor=north west] (line2) at ([yshift=0.3em]line1.south west)
{
\scriptsize
{
Key和Value均来自同一句
子
}}
;
\node
[anchor=north west] (line3) at ([yshift=0.3em]line2.south west)
{
\scriptsize
{
编码-解码注意力机制
}}
;
\node
[anchor=north west] (line2) at ([yshift=0.3em]line1.south west)
{
\scriptsize
{
Key和Value均来自同一句
}}
;
\node
[anchor=north west] (line3) at ([yshift=0.3em]line2.south west)
{
\scriptsize
{
子
编码-解码注意力机制
}}
;
\node
[anchor=north west] (line4) at ([yshift=0.3em]line3.south west)
{
\scriptsize
{
与前面讲的一样
}}
;
}
{
\node
[anchor=west] (line11) at ([xshift=3em,yshift=0em]MatMul.east)
{
\scriptsize
{
Query和Key的转置
}}
;
\node
[anchor=north west] (line12) at ([yshift=0.3em]line11.south west)
{
\scriptsize
{
进
行点积,得到句子内部
}}
;
\node
[anchor=west] (line11) at ([xshift=3em,yshift=0em]MatMul.east)
{
\scriptsize
{
Query和Key的转置
进
}}
;
\node
[anchor=north west] (line12) at ([yshift=0.3em]line11.south west)
{
\scriptsize
{
行点积,得到句子内部
}}
;
\node
[anchor=north west] (line13) at ([yshift=0.3em]line12.south west)
{
\scriptsize
{
各个位置的相关性
}}
;
}
...
...
@@ -57,7 +57,7 @@
\begin{pgfonlayer}
{
background
}
{
\node
[rectangle,inner sep=0.2em,rounded corners=1pt,fill=green!10,drop shadow,draw=ugreen] [fit = (line1) (line2) (line3) (line4)] (box1)
{}
;
\node
[rectangle,inner sep=0.2em,rounded corners=1pt,fill=green!10,drop shadow,draw=ugreen
,minimum width=10em
] [fit = (line1) (line2) (line3) (line4)] (box1)
{}
;
\node
[rectangle,inner sep=0.1em,rounded corners=1pt,very thick,dotted,draw=ugreen] [fit = (Q1) (K1) (V1)] (box0)
{}
;
\draw
[->,dotted,very thick,ugreen] ([yshift=-1.5em,xshift=1.2em]box1.east) -- ([yshift=-1.5em,xshift=0.1em]box1.east);
}
...
...
Chapter12/chapter12.tex
查看文件 @
a194633f
...
...
@@ -356,7 +356,7 @@
\subsection
{
掩码操作
}
\parinterval
在公式
\ref
{
eq:12-47
}
中提到了掩码(Mask),它的目的是对向量中某些值进行掩盖,避免无关位置的数值对运算造成影响。Transformer中的掩码主要应用在注意力机制中的相关性系数计算,具体方式是在相关性系数矩阵上累加一个掩码矩阵。该矩阵在需要掩码的位置的值为负无穷
$
-
$
inf(具体实现时是一个非常小的数,比如
$
-
$
1e-9),其余位置为0,这样在进行了Softmax归一化操作之后,被掩码掉的位置计算得到的权重便近似为0,也就是说对无用信息分配的权重为0,从而避免了其对结果产生影响。Transformer包含两种掩码:
\parinterval
在公式
\
eq
ref
{
eq:12-47
}
中提到了掩码(Mask),它的目的是对向量中某些值进行掩盖,避免无关位置的数值对运算造成影响。Transformer中的掩码主要应用在注意力机制中的相关性系数计算,具体方式是在相关性系数矩阵上累加一个掩码矩阵。该矩阵在需要掩码的位置的值为负无穷
$
-
$
inf(具体实现时是一个非常小的数,比如
$
-
$
1e-9),其余位置为0,这样在进行了Softmax归一化操作之后,被掩码掉的位置计算得到的权重便近似为0,也就是说对无用信息分配的权重为0,从而避免了其对结果产生影响。Transformer包含两种掩码:
\begin{itemize}
\vspace
{
0.5em
}
...
...
@@ -402,7 +402,7 @@ x_{l+1} = x_l + \mathcal{F} (x_l)
\label
{
eq:12-50
}
\end{eqnarray}
\noindent
其中,
$
x
_
l
$
表示
$
l
$
层网络的输入向量,
$
\mathcal
{
F
}
(
x
_
l
)
$
是子层运算。如果
$
l
=
2
$
,那么公式
\ref
{
eq:12-50
}
可以解释为,第3层的输入(
$
x
_
3
$
)等于第2层的输出(
$
\mathcal
{
F
}
(
x
_
2
)
$
)加上第二层的输入(
$
x
_
2
$
)。图
\ref
{
fig:12-50
}
中的红色方框展示了Transformer 中残差连接的位置。
\noindent
其中,
$
x
_
l
$
表示
$
l
$
层网络的输入向量,
$
\mathcal
{
F
}
(
x
_
l
)
$
是子层运算。如果
$
l
=
2
$
,那么公式
\
eq
ref
{
eq:12-50
}
可以解释为,第3层的输入(
$
x
_
3
$
)等于第2层的输出(
$
\mathcal
{
F
}
(
x
_
2
)
$
)加上第二层的输入(
$
x
_
2
$
)。图
\ref
{
fig:12-50
}
中的红色方框展示了Transformer 中残差连接的位置。
%----------------------------------------------
\begin{figure}
[htp]
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论