Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
5c931759
Commit
5c931759
authored
May 08, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
minor updates of section 7
parent
91ad3bcb
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
4 行增加
和
4 行删除
+4
-4
Book/Chapter7/Chapter7.tex
+4
-4
没有找到文件。
Book/Chapter7/Chapter7.tex
查看文件 @
5c931759
...
...
@@ -225,7 +225,7 @@
\parinterval
中文:今天
\ \
天气
\ \
不错
\ \
。
\parinterval
英文:Let's
\ \
go
\ \
!
\parinterval
英文:Let's
\ \
go
\ \
!
\vspace
{
1em
}
...
...
@@ -521,7 +521,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsubsection
{
Layer Dropout
}
\parinterval
随时网络层数的增多,相互适应也会出现在不同层之间。特别是在引入残差网络之后,不同层的输出可以进行线性组合,因此不同层之间的相互影响用会更加直接。对于这个问题,也可以使用Dropout的思想对不同层进行屏蔽。比如,可以使用一个开关来控制一个层能否发挥作用,这个开关以概率
$
p
$
被随机关闭,即该层有为
$
p
$
的可能性不工作。图
\ref
{
fig:7-15
}
展示了Transformer多层网络引入Layer Dropout前后的情况。可以看到,使用Layer Dropout后,开关M会被随机打开或者关闭,以达到屏蔽某一层计算的目的。由于使用了残差网络,关闭每一层相当于``跳过''这一层网络,因此Layer Dropout并不会影响神经网络中数据流的传递。
\parinterval
随时网络层数的增多,相互适应也会出现在不同层之间。特别是在引入残差网络之后,不同层的输出可以进行线性组合,因此不同层之间的相互影响用会更加直接。对于这个问题,也可以使用Dropout的思想对不同层进行屏蔽。比如,可以使用一个开关来控制一个层能否发挥作用,这个开关以概率
$
p
$
被随机关闭,即该层有为
$
p
$
的可能性不工作。图
\ref
{
fig:7-15
}
展示了Transformer多层网络引入Layer Dropout
前后的情况。可以看到,使用Layer Dropout后,开关M会被随机打开或者关闭,以达到屏蔽某一层计算的目的。由于使用了残差网络,关闭每一层相当于``跳过''这一层网络,因此Layer Dropout并不会影响神经网络中数据流的传递。
%----------------------------------------------
% 图7.
...
...
@@ -989,7 +989,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsubsection
{
长度惩罚因子
}
\parinterval
最常用的方法是直接对翻译概率进行正规化,也就是用译文长度来归一化翻译概率。
令源语言句子为
$
\mathbf
{
x
}
=
\{
x
_
1
, ...,x
_
m
\}
$
,译文为
$
\mathbf
{
y
}
=
\{
y
_
1
,...,y
_
n
\}
$
,
于是翻译模型得分
$
\textrm
{
score
}
(
\mathbf
{
x
}
,
\mathbf
{
y
}
)
$
可以被定义为:
\parinterval
最常用的方法是直接对翻译概率进行正规化,也就是用译文长度来归一化翻译概率。
第六章已经对长度归一化方法进行过介绍。为了保证内容的连贯性,这里再简单回顾一下相关内容。令源语言句子为
$
\mathbf
{
x
}
=
\{
x
_
1
, ...,x
_
m
\}
$
,译文为
$
\mathbf
{
y
}
=
\{
y
_
1
,...,y
_
n
\}
$
,
于是翻译模型得分
$
\textrm
{
score
}
(
\mathbf
{
x
}
,
\mathbf
{
y
}
)
$
可以被定义为:
\begin{eqnarray}
\textrm
{
score
}
(
\mathbf
{
x
}
,
\mathbf
{
y
}
) =
\textrm
{
log
}
(
\textrm
{
P
}
(
\mathbf
{
y
}
|
\mathbf
{
x
}
))
\label
{
eq:7-8
}
...
...
@@ -1539,7 +1539,7 @@ p_l=\frac{l}{2L}\cdot \varphi
\parinterval
除了多任务学习,还有一些方法将前向模型和反向模型一起训练,在训练过程中同时使用源语言端和目标语言端的单语数据来提升模型性能,双向训练的内容会在
\ref
{
subsection-7.5.4
}
节中进行介绍。
%--7.5.3 知识精炼---------------------
\subsection
{
知识精炼
}
\subsection
{
知识精炼
}
\label
{
subsection-7.5.3
}
\parinterval
理想的机器翻译系统应该是品质好、速度块、存储占用少。不过现实的机器翻译系统往往需要用运行速度和存储空间来换取翻译品质,比如,
\ref
{
subsection-7.3.2
}
节提到的增大模型容量的方法就是通过增加模型参数量来达到更好的函数拟合效果,但是这也导致系统变得更加笨拙。在很多场景下,这样的模型甚至无法使用。比如,Transformer-Big等``大''模型通常在专用GPU服务器上运行,在手机等受限环境下仍很难应用。
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论