Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
4027b354
Commit
4027b354
authored
4 years ago
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
bib update
parent
3994e2fd
全部展开
隐藏空白字符变更
内嵌
并排
正在显示
6 个修改的文件
包含
30 行增加
和
30 行删除
+30
-30
Chapter11/Figures/figure-convolution-kernel.tex
+1
-1
Chapter11/Figures/figure-deep-vs-light.tex
+8
-8
Chapter11/Figures/figure-standard.tex
+18
-18
Chapter11/chapter11.tex
+2
-2
Chapter9/chapter9.tex
+1
-1
bibliography.bib
+0
-0
没有找到文件。
Chapter11/Figures/figure-convolution-kernel.tex
查看文件 @
4027b354
...
...
@@ -52,7 +52,7 @@
%\node[minimum width = 1.8cm] (sub) at ([xshift=-5.5cm,yshift=2cm]num9_9.east) {};
\draw
[decorate,decoration={brace,mirror,raise=0pt,amplitude=0.3cm},black,thick]
([yshift=0.4cm,xshift=-0.1cm]num1
_
1.west) -- node[att,xshift=-0.5cm]
{$
Q
$}
([yshift=-0.4cm,xshift=-0.1cm]num3
_
3.west);
\draw
[decorate,decoration={brace,raise=0pt,amplitude=0.3cm},black,thick]
([xshift=-0.4cm,yshift=0.1cm]num1.north) -- node[att,yshift=0.5cm]
{$
U
$}
([xshift=0.4cm,yshift=0.1cm]num7.north);
\draw
[decorate,decoration={brace,raise=0pt,amplitude=0.3cm},black,thick]
([xshift=-0.4cm,yshift=0.1cm]num1.north) -- node[att,yshift=0.5cm]
{$
K
$}
([xshift=0.4cm,yshift=0.1cm]num7.north);
\draw
[decorate,decoration={brace,mirror,raise=0pt,amplitude=0.3cm},black,thick]
([xshift=0.5cm,yshift=0.00cm]num9
_
9.south) -- node[att,xshift=0.5cm,yshift=-0.3cm]
{$
O
$}
([xshift=0.5cm,yshift=0.00cm]num9.south);
...
...
This diff is collapsed.
Click to expand it.
Chapter11/Figures/figure-deep-vs-light.tex
查看文件 @
4027b354
...
...
@@ -21,10 +21,10 @@
\draw
[line width=0.9pt, gray!80, -latex]
(l
\point
_
3.east) -- (r2
_
3.west);
}
\node
[vuale]
at (-1.5em, 1.9em)
{$
\mathbi
{
x
}
_
2
$}
;
\node
[vuale]
at (-1.5em, 9.9em)
{$
\mathbi
{
x
}
_
1
$}
;
\node
[vuale]
at (6.5em, 1.9em)
{$
\mathbi
{
z
}_
2
$}
;
\node
[vuale]
at (6.5em, 9.9em)
{$
\mathbi
{
z
}_
1
$}
;
\node
[vuale]
at (-1.5em, 1.9em)
{$
x
_
2
$}
;
\node
[vuale]
at (-1.5em, 9.9em)
{$
x
_
1
$}
;
\node
[vuale]
at (6.5em, 1.9em)
{$
y
_
1
$}
;
\node
[vuale]
at (6.5em, 9.9em)
{$
y
_
2
$}
;
\node
(t2) at (2.5em, -1em)
{
\large
{$
\cdots
$}}
;
\node
[anchor=north,font=
\tiny
] at ([yshift=-0.2em]t2.south)
{
深度卷积
}
;
...
...
@@ -46,10 +46,10 @@
\draw
[line width=0.9pt, cyan!80, -latex]
(l
\point
_
3.east) -- (r2
_
3.west);
}
\node
[vuale]
at (-1.5em, 1.9em)
{$
\mathbi
{
x
}
_
2
$}
;
\node
[vuale]
at (-1.5em, 9.9em)
{$
\mathbi
{
x
}
_
1
$}
;
\node
[vuale]
at (6.5em, 1.9em)
{$
\mathbi
{
z
}_
2
$}
;
\node
[vuale]
at (6.5em, 9.9em)
{$
\mathbi
{
z
}_
1
$}
;
\node
[vuale]
at (-1.5em, 1.9em)
{$
x
_
2
$}
;
\node
[vuale]
at (-1.5em, 9.9em)
{$
x
_
1
$}
;
\node
[vuale]
at (6.5em, 1.9em)
{$
y
_
1
$}
;
\node
[vuale]
at (6.5em, 9.9em)
{$
y
_
2
$}
;
\node
(t2) at (2.5em, -1em)
{
\large
{$
\cdots
$}}
;
\node
[anchor=north,font=
\tiny
] at ([yshift=-0.2em]t2.south)
{
轻量卷积
}
;
...
...
This diff is collapsed.
Click to expand it.
Chapter11/Figures/figure-standard.tex
查看文件 @
4027b354
...
...
@@ -32,12 +32,12 @@
\draw
[line width=0.5pt, cyan!80, -latex]
(l3
_
\point
.east) -- ([xshift=0em,yshift=0.1em]r3
_
2.west);
}
\node
[vuale]
at ([xshift=-0.9em]l1
_
1.west)
{$
\mathbi
{
x
}
_
3
$}
;
\node
[vuale]
at ([xshift=-0.9em]l2
_
1.west)
{$
\mathbi
{
x
}
_
2
$}
;
\node
[vuale]
at ([xshift=-0.9em]l3
_
1.west)
{$
\mathbi
{
x
}
_
1
$}
;
\node
[vuale]
at ([xshift=0.9em]r1
_
1.east)
{$
\mathbi
{
z
}
_
3
$}
;
\node
[vuale]
at ([xshift=0.9em]r2
_
1.east)
{$
\mathbi
{
z
}_
2
$}
;
\node
[vuale]
at ([xshift=0.9em]r3
_
1.east)
{$
\mathbi
{
z
}_
1
$}
;
\node
[vuale]
at ([xshift=-0.9em]l1
_
1.west)
{$
x
_
3
$}
;
\node
[vuale]
at ([xshift=-0.9em]l2
_
1.west)
{$
x
_
2
$}
;
\node
[vuale]
at ([xshift=-0.9em]l3
_
1.west)
{$
x
_
1
$}
;
\node
[vuale]
at ([xshift=0.9em]r1
_
1.east)
{$
y
_
3
$}
;
\node
[vuale]
at ([xshift=0.9em]r2
_
1.east)
{$
y
_
3
$}
;
\node
[vuale]
at ([xshift=0.9em]r3
_
1.east)
{$
y
_
3
$}
;
\node
(t1) at (2.5em, -1em)
{
\large
{$
\cdots
$}}
;
\node
[anchor=north,font=
\tiny
] at ([yshift=-0.2em]t1.south)
{
传统卷积
}
;
...
...
@@ -66,12 +66,12 @@
\draw
[line width=0.5pt, cyan!80, -latex]
(l
\point
_
2.east) -- (r3
_
2.west);
}
\node
[vuale]
at ([xshift=-0.9em]l1
_
1.west)
{$
\mathbi
{
x
}
_
3
$}
;
\node
[vuale]
at ([xshift=-0.9em]l2
_
1.west)
{$
\mathbi
{
x
}
_
2
$}
;
\node
[vuale]
at ([xshift=-0.9em]l3
_
1.west)
{$
\mathbi
{
x
}
_
1
$}
;
\node
[vuale]
at ([xshift=0.9em]r1
_
1.east)
{$
\mathbi
{
z
}
_
3
$}
;
\node
[vuale]
at ([xshift=0.9em]r2
_
1.east)
{$
\mathbi
{
z
}_
2
$}
;
\node
[vuale]
at ([xshift=0.9em]r3
_
1.east)
{$
\mathbi
{
z
}_
1
$}
;
\node
[vuale]
at ([xshift=-0.9em]l1
_
1.west)
{$
x
_
3
$}
;
\node
[vuale]
at ([xshift=-0.9em]l2
_
1.west)
{$
x
_
2
$}
;
\node
[vuale]
at ([xshift=-0.9em]l3
_
1.west)
{$
x
_
1
$}
;
\node
[vuale]
at ([xshift=0.9em]r1
_
1.east)
{$
y
_
3
$}
;
\node
[vuale]
at ([xshift=0.9em]r2
_
1.east)
{$
y
_
3
$}
;
\node
[vuale]
at ([xshift=0.9em]r3
_
1.east)
{$
y
_
3
$}
;
\node
(t2) at (2.5em, -1em)
{
\large
{$
\cdots
$}}
;
\node
[anchor=north,font=
\tiny
] at ([yshift=-0.2em]t2.south)
{
深度卷积
}
;
...
...
@@ -102,12 +102,12 @@
\draw
[line width=0.5pt, cyan!80, -latex]
(l3
_
\point
.east) -- (r3
_
2.west);
}
\node
[vuale]
at ([xshift=-0.9em]l1
_
1.west)
{$
\mathbi
{
x
}
_
3
$}
;
\node
[vuale]
at ([xshift=-0.9em]l2
_
1.west)
{$
\mathbi
{
x
}
_
2
$}
;
\node
[vuale]
at ([xshift=-0.9em]l3
_
1.west)
{$
\mathbi
{
x
}
_
1
$}
;
\node
[vuale]
at ([xshift=0.9em]r1
_
1.east)
{$
\mathbi
{
z
}
_
3
$}
;
\node
[vuale]
at ([xshift=0.9em]r2
_
1.east)
{$
\mathbi
{
z
}_
2
$}
;
\node
[vuale]
at ([xshift=0.9em]r3
_
1.east)
{$
\mathbi
{
z
}_
1
$}
;
\node
[vuale]
at ([xshift=-0.9em]l1
_
1.west)
{$
x
_
3
$}
;
\node
[vuale]
at ([xshift=-0.9em]l2
_
1.west)
{$
x
_
2
$}
;
\node
[vuale]
at ([xshift=-0.9em]l3
_
1.west)
{$
x
_
1
$}
;
\node
[vuale]
at ([xshift=0.9em]r1
_
1.east)
{$
y
_
3
$}
;
\node
[vuale]
at ([xshift=0.9em]r2
_
1.east)
{$
y
_
3
$}
;
\node
[vuale]
at ([xshift=0.9em]r3
_
1.east)
{$
y
_
3
$}
;
\node
(t3) at (2.5em, -1em)
{
\large
{$
\cdots
$}}
;
\node
[anchor=north,font=
\tiny
] at ([yshift=-0.2em]t3.south)
{
逐点卷积
}
;
...
...
This diff is collapsed.
Click to expand it.
Chapter11/chapter11.tex
查看文件 @
4027b354
...
...
@@ -83,7 +83,7 @@
\end{figure}
%----------------------------------------------
\parinterval
在图像卷积中,卷积核是一组
$
Q
\times
U
\times
O
$
的参数(如图
\ref
{
fig:11-3
}
)。其中
$
Q
$
和
$
U
$
表示卷积核窗口的长度与宽度,分别对应图像中的长和宽两个维度,
$
Q
\times
U
$
决定了该卷积核窗口的大小。
$
O
$
是该卷积核的深度,它的取值和输入数据通道数保持一致。在这里,通道可以看作图像不同的特征,比如灰色图像只有灰度信息,通道数为1;而RGB格式的图像有3个通道,分别对应红绿蓝三种颜色信息。
\parinterval
在图像卷积中,卷积核是一组
$
Q
\times
K
\times
O
$
的参数(如图
\ref
{
fig:11-3
}
)。其中
$
Q
$
和
$
K
$
表示卷积核窗口的长度与宽度,分别对应图像中的长和宽两个维度,
$
Q
\times
K
$
决定了该卷积核窗口的大小。
$
O
$
是该卷积核的深度,它的取值和输入数据通道数保持一致。在这里,通道可以看作图像不同的特征,比如灰色图像只有灰度信息,通道数为1;而RGB格式的图像有3个通道,分别对应红绿蓝三种颜色信息。
%----------------------------------------------
% 图4.
...
...
@@ -567,7 +567,7 @@
\parinterval
卷积是一种高效处理网格数据的计算方式,在图像、语音等领域取得了令人瞩目的成绩。本章介绍了卷积的概念及其特性,并对池化、填充等操作进行了详细的讨论。前面介绍的基于循环神经网络的翻译模型在引入注意力机制后已经大幅度超越了基于统计的机器翻译模型,但由于循环神经网络的计算方式导致网络整体的并行能力差,训练耗时。本章介绍了具有高并行计算的能力的模型范式,即基于卷积神经网络的编码器-解码器框架。其在机器翻译任务上取得了与基于循环神经网络的GNMT模型相当的性能,并大幅度缩短了模型的训练周期。除了基础部分,本章还针对卷积计算进行了延伸,包括逐通道卷积、逐点卷积、轻量卷积和动态卷积等。除了上述提及的内容,卷积神经网络及其变种在文本分类、命名实体识别等其他自然语言处理任务上也有许多应用。
\parinterval
和机器翻译任务不同的是,文本分类任务侧重于对序列特征的提取,然后通过压缩后的特征表示做出类别预测。卷积神经网络可以对序列中一些
$
n
$
-gram特征进行提取,也可以用在文本分类任务中,其基本结构包括输入层、卷积层、池化层和全连接层。除了在本章介绍过的TextCNN模型
\upcite
{
Kim2014ConvolutionalNN
}
,不少研究工作在此基础上对其进行改进。比如,通过改变输入层来引入更多特征
\upcite
{
DBLP:conf/acl/NguyenG15,DBLP:conf/aaai/LaiXLZ15
}
,对卷积层的改进
\upcite
{
DBLP:conf/acl/ChenXLZ015,DBLP:conf/emnlp/LeiBJ15
}
以及对池化层的改进
\upcite
{
Kalchbrenner2014ACN,DBLP:conf/acl/ChenXLZ015
}
。在命名实体识别任务中,同样可以使用卷积神经网络来进行特征提取
\upcite
{
DBLP:journals/jmlr/CollobertWBKKK11
,DBLP:conf/cncl/ZhouZXQBX17
}
,或者使用更高效的空洞卷积对更长的上下文进行建模
\upcite
{
DBLP:conf/emnlp/StrubellVBM17
}
。此外,也有一些研究工作尝试使用卷积神经网络来提取字符级特征
\upcite
{
DBLP:conf/acl/MaH16,DBLP:conf/emnlp/LiDWCM17,DBLP:conf/acl-codeswitch/WangCK18
}
。
\parinterval
和机器翻译任务不同的是,文本分类任务侧重于对序列特征的提取,然后通过压缩后的特征表示做出类别预测。卷积神经网络可以对序列中一些
$
n
$
-gram特征进行提取,也可以用在文本分类任务中,其基本结构包括输入层、卷积层、池化层和全连接层。除了在本章介绍过的TextCNN模型
\upcite
{
Kim2014ConvolutionalNN
}
,不少研究工作在此基础上对其进行改进。比如,通过改变输入层来引入更多特征
\upcite
{
DBLP:conf/acl/NguyenG15,DBLP:conf/aaai/LaiXLZ15
}
,对卷积层的改进
\upcite
{
DBLP:conf/acl/ChenXLZ015,DBLP:conf/emnlp/LeiBJ15
}
以及对池化层的改进
\upcite
{
Kalchbrenner2014ACN,DBLP:conf/acl/ChenXLZ015
}
。在命名实体识别任务中,同样可以使用卷积神经网络来进行特征提取
\upcite
{
2011Natural
,DBLP:conf/cncl/ZhouZXQBX17
}
,或者使用更高效的空洞卷积对更长的上下文进行建模
\upcite
{
DBLP:conf/emnlp/StrubellVBM17
}
。此外,也有一些研究工作尝试使用卷积神经网络来提取字符级特征
\upcite
{
DBLP:conf/acl/MaH16,DBLP:conf/emnlp/LiDWCM17,DBLP:conf/acl-codeswitch/WangCK18
}
。
...
...
This diff is collapsed.
Click to expand it.
Chapter9/chapter9.tex
查看文件 @
4027b354
...
...
@@ -2166,6 +2166,6 @@ Jobs was the CEO of {\red{\underline{apple}}}.
\vspace
{
0.5em
}
\item
为了进一步提高神经语言模型性能,除了改进模型,还可以在模型中引入新的结构或是其他有效信息,该领域也有很多典型工作值得关注。例如在神经语言模型中引入除了词嵌入以外的单词特征,如语言特征(形态、语法、语义特征等)
\upcite
{
Wu2012FactoredLM,Adel2015SyntacticAS
}
、上下文信息
\upcite
{
mikolov2012context,Wang2015LargerContextLM
}
、知识图谱等外部知识
\upcite
{
Ahn2016ANK
}
;或是在神经语言模型中引入字符级信息,将其作为字符特征单独
\upcite
{
Kim2016CharacterAwareNL,Hwang2017CharacterlevelLM
}
或与单词特征一起
\upcite
{
Onoe2016GatedWR,Verwimp2017CharacterWordLL
}
送入模型中;在神经语言模型中引入双向模型也是一种十分有效的尝试,在单词预测时可以同时利用来自过去和未来的文本信息
\upcite
{
Graves2013HybridSR,bahdanau2014neural,Peters2018DeepCW
}
。
\vspace
{
0.5em
}
\item
词嵌入是自然语言处理近些年的重要进展。所谓“嵌入”是一类方法,理论上,把一个事物进行分布式表示的过程都可以被看作是广义上的“嵌入”。基于这种思想的表示学习也成为了自然语言处理中的前沿方法。比如,如何对树结构,甚至图结构进行分布式表示成为了分析自然语言的重要方法
\upcite
{
DBLP:journals/corr/abs-1809-01854,Yin2018StructVAETL,Aharoni2017TowardsSN,Bastings2017GraphCE,KoncelKedziorski2019TextGF
}
。此外,除了语言建模,还有很多方式可以进行词嵌入的学习,比如,SENNA
\upcite
{
collobert2011n
atural
}
、word2vec
\upcite
{
DBLP:journals/corr/abs-1301-3781,mikolov2013distributed
}
、Glove
\upcite
{
DBLP:conf/emnlp/PenningtonSM14
}
、CoVe
\upcite
{
mccann2017learned
}
等。
\item
词嵌入是自然语言处理近些年的重要进展。所谓“嵌入”是一类方法,理论上,把一个事物进行分布式表示的过程都可以被看作是广义上的“嵌入”。基于这种思想的表示学习也成为了自然语言处理中的前沿方法。比如,如何对树结构,甚至图结构进行分布式表示成为了分析自然语言的重要方法
\upcite
{
DBLP:journals/corr/abs-1809-01854,Yin2018StructVAETL,Aharoni2017TowardsSN,Bastings2017GraphCE,KoncelKedziorski2019TextGF
}
。此外,除了语言建模,还有很多方式可以进行词嵌入的学习,比如,SENNA
\upcite
{
2011N
atural
}
、word2vec
\upcite
{
DBLP:journals/corr/abs-1301-3781,mikolov2013distributed
}
、Glove
\upcite
{
DBLP:conf/emnlp/PenningtonSM14
}
、CoVe
\upcite
{
mccann2017learned
}
等。
\vspace
{
0.5em
}
\end{itemize}
This diff is collapsed.
Click to expand it.
bibliography.bib
查看文件 @
4027b354
差异被折叠。
点击展开。
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论