Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
ae752e46
Commit
ae752e46
authored
4 years ago
by
单韦乔
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
修改补充
parent
0815875f
隐藏空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
2 行增加
和
2 行删除
+2
-2
Chapter1/Figures/figure-four-levels-of-rbmt.tex
+1
-1
Chapter15/chapter15.tex
+1
-1
没有找到文件。
Chapter1/Figures/figure-four-levels-of-rbmt.tex
查看文件 @
ae752e46
...
...
@@ -29,7 +29,7 @@
\node
[anchor=north] (l1) at ([yshift=-2em]s4.south)
{{
\small
{
语义
\
转换
}}}
;
\node
[anchor=north] (l2) at ([yshift=-3em]l1.south)
{{
\small
{
句法
\
转换
}}}
;
\node
[anchor=north] (l3) at ([yshift=-2.5em]l2.south)
{{
\small
{
单词
\
转换
}}}
;
\node
[anchor=north] (l3) at ([yshift=-2.5em]l2.south)
{{
\small
{
词汇
\
转换
}}}
;
\node
[node5,anchor=north,draw] (st1) at ([xshift=-3em,yshift=-0.5em]l3.south)
{{
\small
{
分析部分
}}}
;
\node
[node5,anchor=north,draw] (st2) at ([xshift=3em,yshift=-0.5em]l3.south)
{{
\small
{
生成部分
}}}
;
...
...
This diff is collapsed.
Click to expand it.
Chapter15/chapter15.tex
查看文件 @
ae752e46
...
...
@@ -398,7 +398,7 @@ v_i &=& \mathbi{I}_d^{\textrm{T}}\textrm{Tanh}(\mathbi{W}_d\mathbi{Q}_i)
\subsection
{
Post-Norm vs Pre-Norm
}
\label
{
sec:post-pre-norm
}
\parinterval
为了探究为何深层Transformer模型很难直接训练,首先对Transformer的模型结构进行简单的回顾,详细内容可以参考
{
\chaptertwelve
}
。以Transformer的编码器为例,在多头自注意力和前馈神经网络中间,Transformer模型利用残差连接
\upcite
{
DBLP:journals/corr/HeZRS15
}
和层标准化操作
\upcite
{
Ba2016LayerN
}
来提高信息的传递效率。Transformer模型大致分为图
\ref
{
fig:15-9
}
中的两种结构
\ \dash
\
后作方式
的残差单元(Post-Norm)和前作方式的残差单元(Pre-Norm)
。
\parinterval
为了探究为何深层Transformer模型很难直接训练,首先对Transformer的模型结构进行简单的回顾,详细内容可以参考
{
\chaptertwelve
}
。以Transformer的编码器为例,在多头自注意力和前馈神经网络中间,Transformer模型利用残差连接
\upcite
{
DBLP:journals/corr/HeZRS15
}
和层标准化操作
\upcite
{
Ba2016LayerN
}
来提高信息的传递效率。Transformer模型大致分为图
\ref
{
fig:15-9
}
中的两种结构
\ \dash
\
后作方式
(Post-Norm)的残差单元和前作方式(Pre-Norm)的残差单元
。
%----------------------------------------------
\begin{figure}
[htp]
...
...
This diff is collapsed.
Click to expand it.
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论