Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
84429641
Commit
84429641
authored
May 21, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
更新 Chapter7.tex
parent
71c95d98
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
6 行增加
和
7 行删除
+6
-7
Book/Chapter7/Chapter7.tex
+6
-7
没有找到文件。
Book/Chapter7/Chapter7.tex
查看文件 @
84429641
...
@@ -407,7 +407,7 @@
...
@@ -407,7 +407,7 @@
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SECTION
% NEW SECTION
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\vspace
{
-0.5em
}
\sectionnewpage
\sectionnewpage
\section
{
建模与训练
}
\section
{
建模与训练
}
...
@@ -462,7 +462,7 @@ y = f(x)
...
@@ -462,7 +462,7 @@ y = f(x)
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUBSUB-SECTION
% NEW SUBSUB-SECTION
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\vspace
{
-0.5em
}
\subsubsection
{
L1/L2正则化
}
\subsubsection
{
L1/L2正则化
}
\parinterval
L1/L2正则化是常用的正则化方法。它们分别对应正则项是L1和L2范数的情况。具体来说,L1正则化是指
\parinterval
L1/L2正则化是常用的正则化方法。它们分别对应正则项是L1和L2范数的情况。具体来说,L1正则化是指
...
@@ -572,7 +572,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
...
@@ -572,7 +572,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
% NEW SUB-SECTION
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\vspace
{
-0.5em
}
\subsection
{
增大模型容量
}
\subsection
{
增大模型容量
}
\label
{
subsection-7.3.2
}
\label
{
subsection-7.3.2
}
...
@@ -591,13 +591,12 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
...
@@ -591,13 +591,12 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
\item
增加网络的整体层数:即增加网络深度,利用更多的线性和非线性变换来获得更复杂的特征抽取能力。
\item
增加网络的整体层数:即增加网络深度,利用更多的线性和非线性变换来获得更复杂的特征抽取能力。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
增大输入层和输出层的维度:即增强模型对词表中每个词的表示能力。
\item
增大输入层和输出层的维度:即增强模型对词表中每个词的表示能力。
\vspace
{
0.5em
}
\end{itemize}
\end{itemize}
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUBSUB-SECTION
% NEW SUBSUB-SECTION
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\vspace
{
-0.5em
}
\subsubsection
{
宽网络
}
\subsubsection
{
宽网络
}
\parinterval
宽网络通常指隐藏层维度更大的网络,目前在图像处理领域和自然语言处理领域被广泛地使用。第五章已经验证了包含足够多神经元的多层前馈神经网络可以无限逼近任意复杂的连续函数
\cite
{
Hornic1989Multilayer
}
,这也在一定程度上说明了神经网络建模中神经元数目的重要性。
\parinterval
宽网络通常指隐藏层维度更大的网络,目前在图像处理领域和自然语言处理领域被广泛地使用。第五章已经验证了包含足够多神经元的多层前馈神经网络可以无限逼近任意复杂的连续函数
\cite
{
Hornic1989Multilayer
}
,这也在一定程度上说明了神经网络建模中神经元数目的重要性。
...
@@ -709,7 +708,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
...
@@ -709,7 +708,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
\end{figure}
\end{figure}
%----------------------------------------------
%----------------------------------------------
\parinterval
此外,前人工作表明,使用大批量训练复杂网络结构时要配合略大一些的学习率,加快模型在梯度方向上的更新速度,进而达到更优的翻译性能
\cite
{
DBLP:conf/wmt/OttEGA18
}
。例如,深层网络也需要对学习率进行适当的调整才能发挥较好的性能。表
\ref
{
tab:7-3
}
展示了30层网络在不同批次大小和学习率峰值的条件下的BLEU值(WMT14 En-De)
\footnote
{
学习率峰值是指Transformer模型训练的预热阶段,学习率所到达的最高值。
}
。可以发现,在固定学习率峰值的条件下增大批次大小并不能带来性能上的增益,必须同时调整学习率的峰值。也有研究团队验证了Transformer-Big模型在128张GPU上进行分布式训练时,适当的增大学习率会带来明显的BLEU提升
\cite
{
DBLP:conf/wmt/OttEGA18
}
。
\parinterval
此外,前人工作表明,使用大批量训练复杂网络结构时要配合略大一些的学习率,加快模型在梯度方向上的更新速度,进而达到更优的翻译性能
\cite
{
DBLP:conf/wmt/OttEGA18
}
。例如,深层网络也需要对学习率进行适当的调整才能发挥较好的性能。表
\ref
{
tab:7-3
}
展示了30层网络在不同批次大小和学习率峰值的条件下的BLEU值(WMT14 En-De)
\footnote
{
学习率峰值是指Transformer模型训练的预热阶段,学习率所到达的最高值。
}
。可以发现,在固定学习率峰值的条件下增大批次大小并不能带来性能上的增益,必须同时调整学习率的峰值。也有研究团队验证了Transformer-Big模型在128张GPU上进行分布式训练时,适当的增大学习率会带来明显的BLEU提升
\cite
{
DBLP:conf/wmt/OttEGA18
}
。
\\
\\
\\
%----------------------------------------------
%----------------------------------------------
\begin{table}
[htp]
\begin{table}
[htp]
...
@@ -1261,7 +1260,7 @@ b &=& \omega_{\textrm{high}}\cdot |\mathbf{x}|
...
@@ -1261,7 +1260,7 @@ b &=& \omega_{\textrm{high}}\cdot |\mathbf{x}|
\parinterval
\ref
{
subsection-7.3.2
}
节已经指出:增加神经网络的深度有助于对句子进行更充分的表示、同时增加模型的容量。但是,简单地堆叠很多层Transformer网络并不能带来性能上的提升,反而会面临更加严重的梯度消失/梯度爆炸的问题。这是由于伴随神经网络变深,梯度无法有效地从输出层回传到底层网络,造成网络浅层部分的参数无法得到充分训练
\cite
{
WangLearning,DBLP:conf/cvpr/YuYR18
}
。针对这些问题,已经有研究者开始尝试进行求解,并取得了很好的效果。比如,设计更有利于深层信息传递的网络连接和恰当的参数初始化方法等
\cite
{
DBLP:conf/emnlp/BapnaCFCW18,WangLearning,DBLP:conf/emnlp/ZhangTS19
}
。
\parinterval
\ref
{
subsection-7.3.2
}
节已经指出:增加神经网络的深度有助于对句子进行更充分的表示、同时增加模型的容量。但是,简单地堆叠很多层Transformer网络并不能带来性能上的提升,反而会面临更加严重的梯度消失/梯度爆炸的问题。这是由于伴随神经网络变深,梯度无法有效地从输出层回传到底层网络,造成网络浅层部分的参数无法得到充分训练
\cite
{
WangLearning,DBLP:conf/cvpr/YuYR18
}
。针对这些问题,已经有研究者开始尝试进行求解,并取得了很好的效果。比如,设计更有利于深层信息传递的网络连接和恰当的参数初始化方法等
\cite
{
DBLP:conf/emnlp/BapnaCFCW18,WangLearning,DBLP:conf/emnlp/ZhangTS19
}
。
\parinterval
但是,如何设计一个足够``深''的机器翻译模型仍然是业界关注的热点问题之一。此外,伴随着网络的继续变深,将会面临一些新的问题,例如,如何加速深层网络的训练,如何解决深层网络的过拟合问题等。下面将会对以上问题展开讨论。
\\
\\
\parinterval
但是,如何设计一个足够``深''的机器翻译模型仍然是业界关注的热点问题之一。此外,伴随着网络的继续变深,将会面临一些新的问题,例如,如何加速深层网络的训练,如何解决深层网络的过拟合问题等。下面将会对以上问题展开讨论。
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUBSUB-SECTION
% NEW SUBSUB-SECTION
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论