Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
4dd93ed1
Commit
4dd93ed1
authored
Sep 21, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求
!240
parents
4807f165
e4761b13
显示空白字符变更
内嵌
并排
正在显示
3 个修改的文件
包含
28 行增加
和
4 行删除
+28
-4
Chapter10/chapter10.tex
+1
-1
Chapter12/chapter12.tex
+2
-2
bibliography.bib
+25
-1
没有找到文件。
Chapter10/chapter10.tex
查看文件 @
4dd93ed1
...
...
@@ -1255,7 +1255,7 @@ L(\vectorn{\emph{Y}},\widehat{\vectorn{\emph{Y}}}) = \sum_{j=1}^n L_{\textrm{ce}
\vspace
{
0.5em
}
\item
循环神经网络有很多变种结构。比如,除了RNN、LSTM、GRU,还有其他改进的循环单元结构,如LRN
\upcite
{
DBLP:journals/corr/abs-1905-13324
}
、SRU
\upcite
{
Lei2017TrainingRA
}
、ATR
\upcite
{
Zhang2018SimplifyingNM
}
。
\vspace
{
0.5em
}
\item
注意力机制的使用是机器翻译乃至整个自然语言处理近几年获得成功的重要因素之一
\upcite
{
bahdanau2014neural,DBLP:journals/corr/LuongPM15
}
。早期,有研究者尝试将注意力机制和统计机器翻译的词对齐进行统一
\upcite
{
WangNeural,He2016ImprovedNM,li-etal-2019-word
}
。(
{
\color
{
red
}
如果前面的内容比较少(RNN+attention),可以说一下,attention在其它人任务中的一些应用
}
)
\item
注意力机制的使用是机器翻译乃至整个自然语言处理近几年获得成功的重要因素之一
\upcite
{
bahdanau2014neural,DBLP:journals/corr/LuongPM15
}
。早期,有研究者尝试将注意力机制和统计机器翻译的词对齐进行统一
\upcite
{
WangNeural,He2016ImprovedNM,li-etal-2019-word
}
,注意力机制也被应用到文本分类
\upcite
{
yang-etal-2016-hierarchical
}
等任务中。
\vspace
{
0.5em
}
\item
一般来说,神经机器翻译的计算过程是没有人工干预的,翻译流程也无法用人类的知识直接进行解释,因此一个有趣的方向是在神经机器翻译中引入先验知识,使得机器翻译的行为更“像”人。比如,可以使用句法树来引入人类的语言学知识
\upcite
{
Yang2017TowardsBH,Wang2019TreeTI
}
,基于句法的神经机器翻译也包含大量的树结构的神经网络建模
\upcite
{
DBLP:journals/corr/abs-1809-01854,DBLP:journals/corr/abs-1808-09374
}
。此外,也可以把用户定义的词典或者翻译记忆加入到翻译过程来
\upcite
{
DBLP:journals/corr/ZhangZ16c,zhang-etal-2017-prior,duan-etal-2020-bilingual,cao-xiong-2018-encoding
}
,使得用户的约束可以直接反映到机器翻译的结果上来。先验知识的种类还有很多,包括词对齐
\upcite
{
li-etal-2019-word
}
、 篇章信息
\upcite
{
Werlen2018DocumentLevelNM,DBLP:journals/corr/abs-1805-10163
}
等等,都是神经机器翻译中能够使用的信息。
\end{itemize}
...
...
Chapter12/chapter12.tex
查看文件 @
4dd93ed1
...
...
@@ -118,7 +118,7 @@
\end{table}
%----------------------------------------------
\parinterval
Transformer在被提出之后,很快就席卷了整个自然语言处理领域。实际上,Transformer也可以当作一种表示模型,因此也被大量地使用在自然语言处理的其他领域,甚至图像处理和语音处理中也能看到它的影子。比如,目前非常流行的BERT等预训练模型就是基于Transformer
(
{
\color
{
red
}
参考文献!
}
)
。表
\ref
{
tab:12-12
}
展示了Transformer在WMT英德和英法机器翻译任务上的性能。它能用更少的计算量(FLOPS)达到比其他模型更好的翻译品质
\footnote
{
FLOPS = floating-point operations per second,即每秒浮点运算次数。它是度量计算机运算规模的常用单位
}
。
\parinterval
Transformer在被提出之后,很快就席卷了整个自然语言处理领域。实际上,Transformer也可以当作一种表示模型,因此也被大量地使用在自然语言处理的其他领域,甚至图像处理和语音处理中也能看到它的影子。比如,目前非常流行的BERT等预训练模型就是基于Transformer
\upcite
{
NIPS2017
_
7181
}
。表
\ref
{
tab:12-12
}
展示了Transformer在WMT英德和英法机器翻译任务上的性能。它能用更少的计算量(FLOPS)达到比其他模型更好的翻译品质
\footnote
{
FLOPS = floating-point operations per second,即每秒浮点运算次数。它是度量计算机运算规模的常用单位
}
。
%----------------------------------------------
\begin{table}
[htp]
...
...
@@ -581,7 +581,7 @@ Transformer Deep(48层) & 30.2 & 43.1 & 194$\times 10^
\begin{itemize}
\vspace
{
0.5em
}
\item
近两年,有研究已经发现注意力机制可以捕捉一些语言现象
\upcite
{
DBLP:journals/corr/abs-1905-09418
}
,比如,在Transformer 的多头注意力中,不同头往往会捕捉到不同的信息,比如,有些头对低频词更加敏感,有些头更适合词意消歧,甚至有些头可以捕捉句法信息。此外,由于注意力机制增加了模型的复杂性,而且随着网络层数的增多,神经机器翻译中也存在大量的冗余,因此研发轻量的注意力模型也是具有实践意义的方向
\upcite
{
Xiao2019SharingAW
}
(
{
\color
{
red
}
这部分应该再加一些引文,因为轻量的模型还是有不少工作的,包括林野她们今年emnlp的投稿,最近也要挂到arvix上
}
)。
\item
近两年,有研究已经发现注意力机制可以捕捉一些语言现象
\upcite
{
DBLP:journals/corr/abs-1905-09418
}
,比如,在Transformer 的多头注意力中,不同头往往会捕捉到不同的信息,比如,有些头对低频词更加敏感,有些头更适合词意消歧,甚至有些头可以捕捉句法信息。此外,由于注意力机制增加了模型的复杂性,而且随着网络层数的增多,神经机器翻译中也存在大量的冗余,因此研发轻量的注意力模型也是具有实践意义的方向
\upcite
{
Xiao2019SharingAW
,zhang-etal-2018-accelerating
}
(
{
\color
{
red
}
Weight Distillation: Transferring the Knowledge in Neural Network Parameters
}
)。
\vspace
{
0.5em
}
\item
神经机器翻译依赖成本较高的GPU设备,因此对模型的裁剪和加速也是很多系统研发人员所感兴趣的方向。比如,从工程上,可以考虑减少运算强度,比如使用低精度浮点数
\upcite
{
Ott2018ScalingNM
}
或者整数
\upcite
{
DBLP:journals/corr/abs-1906-00532,Lin2020TowardsF8
}
进行计算,或者引入缓存机制来加速模型的推断
\upcite
{
Vaswani2018Tensor2TensorFN
}
;也可以通过对模型参数矩阵的剪枝来减小整个模型的体积
\upcite
{
DBLP:journals/corr/SeeLM16
}
;另一种方法是知识精炼
\upcite
{
Hinton2015Distilling,kim-rush-2016-sequence
}
。 利用大模型训练小模型,这样往往可以得到比单独训练小模型更好的效果
\upcite
{
DBLP:journals/corr/ChenLCL17
}
。
\vspace
{
0.5em
}
...
...
bibliography.bib
查看文件 @
4dd93ed1
...
...
@@ -4851,7 +4851,20 @@ pages ={157-166},
publisher = "Association for Computational Linguistics",
pages = "3042--3047",
}
@inproceedings{yang-etal-2016-hierarchical,
title = "Hierarchical Attention Networks for Document Classification",
author = "Yang, Zichao and
Yang, Diyi and
Dyer, Chris and
He, Xiaodong and
Smola, Alex and
Hovy, Eduard",
month = jun,
year = "2016",
address = "San Diego, California",
publisher = "Association for Computational Linguistics",
pages = "1480--1489",
}
%%%%% chapter 10------------------------------------------------------
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
...
...
@@ -5063,6 +5076,17 @@ pages ={157-166},
year={2020},
volume={abs/2001.04451}
}
@inproceedings{zhang-etal-2018-accelerating,
title = "Accelerating Neural Transformer via an Average Attention Network",
author = "Zhang, Biao and
Xiong, Deyi and
Su, Jinsong",
month = jul,
year = "2018",
address = "Melbourne, Australia",
publisher = "Association for Computational Linguistics",
pages = "1789--1798",
}
%%%%% chapter 12------------------------------------------------------
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论