bib update

4027b354 · 曹润柘 · 3994e2fd · 4027b354 · 4027b354 · 4027b354
Commit 4027b354 authored Nov 17, 2020 by 曹润柘
--- a/Chapter11/Figures/figure-convolution-kernel.tex
+++ b/Chapter11/Figures/figure-convolution-kernel.tex
@@ -52,7 +52,7 @@
 %\node[minimum width = 1.8cm] (sub) at ([xshift=-5.5cm,yshift=2cm]num9_9.east) {};

 \draw[decorate,decoration={brace,mirror,raise=0pt,amplitude=0.3cm},black,thick] ([yshift=0.4cm,xshift=-0.1cm]num1_1.west) -- node[att,xshift=-0.5cm]{$Q$} ([yshift=-0.4cm,xshift=-0.1cm]num3_3.west);
-\draw[decorate,decoration={brace,raise=0pt,amplitude=0.3cm},black,thick] ([xshift=-0.4cm,yshift=0.1cm]num1.north) -- node[att,yshift=0.5cm]{$U$}([xshift=0.4cm,yshift=0.1cm]num7.north);
+\draw[decorate,decoration={brace,raise=0pt,amplitude=0.3cm},black,thick] ([xshift=-0.4cm,yshift=0.1cm]num1.north) -- node[att,yshift=0.5cm]{$K$}([xshift=0.4cm,yshift=0.1cm]num7.north);
 \draw[decorate,decoration={brace,mirror,raise=0pt,amplitude=0.3cm},black,thick] ([xshift=0.5cm,yshift=0.00cm]num9_9.south) -- node[att,xshift=0.5cm,yshift=-0.3cm]{$O$}([xshift=0.5cm,yshift=0.00cm]num9.south);



--- a/Chapter11/Figures/figure-deep-vs-light.tex
+++ b/Chapter11/Figures/figure-deep-vs-light.tex
@@ -21,10 +21,10 @@
 	\draw[line width=0.9pt, gray!80, -latex] (l\point_3.east) -- (r2_3.west);
 	}
 	
-	\node[vuale] at (-1.5em, 1.9em) {$\mathbi{x}_2$};
-	\node[vuale] at (-1.5em, 9.9em) {$\mathbi{x}_1$};
-	\node[vuale] at (6.5em, 1.9em) {$\mathbi{z}_2$};
-	\node[vuale] at (6.5em, 9.9em) {$\mathbi{z}_1$};
+	\node[vuale] at (-1.5em, 1.9em) {$x_2$};
+	\node[vuale] at (-1.5em, 9.9em) {$x_1$};
+	\node[vuale] at (6.5em, 1.9em) {$y_1$};
+	\node[vuale] at (6.5em, 9.9em) {$y_2$};
 	
 	\node (t2) at (2.5em, -1em) {\large{$\cdots$}};
 	\node [anchor=north,font=\tiny] at ([yshift=-0.2em]t2.south) {深度卷积};
@@ -46,10 +46,10 @@
 	\draw[line width=0.9pt, cyan!80, -latex] (l\point_3.east) -- (r2_3.west);
 	}
 	
-	\node[vuale] at (-1.5em, 1.9em) {$\mathbi{x}_2$};
-	\node[vuale] at (-1.5em, 9.9em) {$\mathbi{x}_1$};
-	\node[vuale] at (6.5em, 1.9em) {$\mathbi{z}_2$};
-	\node[vuale] at (6.5em, 9.9em) {$\mathbi{z}_1$};
+	\node[vuale] at (-1.5em, 1.9em) {$x_2$};
+	\node[vuale] at (-1.5em, 9.9em) {$x_1$};
+	\node[vuale] at (6.5em, 1.9em) {$y_1$};
+	\node[vuale] at (6.5em, 9.9em) {$y_2$};
 	
 	\node (t2) at (2.5em, -1em) {\large{$\cdots$}};
 	\node [anchor=north,font=\tiny] at ([yshift=-0.2em]t2.south) {轻量卷积};

--- a/Chapter11/Figures/figure-standard.tex
+++ b/Chapter11/Figures/figure-standard.tex
@@ -32,12 +32,12 @@
 	\draw[line width=0.5pt, cyan!80, -latex] (l3_\point.east) -- ([xshift=0em,yshift=0.1em]r3_2.west);
 	}
 	
-	\node[vuale] at ([xshift=-0.9em]l1_1.west) {$\mathbi{x}_3$};
-	\node[vuale] at ([xshift=-0.9em]l2_1.west) {$\mathbi{x}_2$};
-	\node[vuale] at ([xshift=-0.9em]l3_1.west) {$\mathbi{x}_1$};
-	\node[vuale] at ([xshift=0.9em]r1_1.east) {$\mathbi{z}_3$};
-	\node[vuale] at ([xshift=0.9em]r2_1.east) {$\mathbi{z}_2$};
-	\node[vuale] at ([xshift=0.9em]r3_1.east) {$\mathbi{z}_1$};
+	\node[vuale] at ([xshift=-0.9em]l1_1.west) {$x_3$};
+	\node[vuale] at ([xshift=-0.9em]l2_1.west) {$x_2$};
+	\node[vuale] at ([xshift=-0.9em]l3_1.west) {$x_1$};
+	\node[vuale] at ([xshift=0.9em]r1_1.east) {$y_3$};
+	\node[vuale] at ([xshift=0.9em]r2_1.east) {$y_3$};
+	\node[vuale] at ([xshift=0.9em]r3_1.east) {$y_3$};
 	
 	\node (t1) at (2.5em, -1em) {\large{$\cdots$}};
 	\node [anchor=north,font=\tiny] at ([yshift=-0.2em]t1.south) {传统卷积};
@@ -66,12 +66,12 @@
 	\draw[line width=0.5pt, cyan!80, -latex] (l\point_2.east) -- (r3_2.west);
 	}
 	
-	\node[vuale] at ([xshift=-0.9em]l1_1.west) {$\mathbi{x}_3$};
-	\node[vuale] at ([xshift=-0.9em]l2_1.west) {$\mathbi{x}_2$};
-	\node[vuale] at ([xshift=-0.9em]l3_1.west) {$\mathbi{x}_1$};
-	\node[vuale] at ([xshift=0.9em]r1_1.east) {$\mathbi{z}_3$};
-	\node[vuale] at ([xshift=0.9em]r2_1.east) {$\mathbi{z}_2$};
-	\node[vuale] at ([xshift=0.9em]r3_1.east) {$\mathbi{z}_1$};
+	\node[vuale] at ([xshift=-0.9em]l1_1.west) {$x_3$};
+	\node[vuale] at ([xshift=-0.9em]l2_1.west) {$x_2$};
+	\node[vuale] at ([xshift=-0.9em]l3_1.west) {$x_1$};
+	\node[vuale] at ([xshift=0.9em]r1_1.east) {$y_3$};
+	\node[vuale] at ([xshift=0.9em]r2_1.east) {$y_3$};
+	\node[vuale] at ([xshift=0.9em]r3_1.east) {$y_3$};
 	
 	\node (t2) at (2.5em, -1em) {\large{$\cdots$}};
 	\node [anchor=north,font=\tiny] at ([yshift=-0.2em]t2.south) {深度卷积};
@@ -102,12 +102,12 @@
 	\draw[line width=0.5pt, cyan!80, -latex] (l3_\point.east) -- (r3_2.west);
 	}
 	
-	\node[vuale] at ([xshift=-0.9em]l1_1.west) {$\mathbi{x}_3$};
-	\node[vuale] at ([xshift=-0.9em]l2_1.west) {$\mathbi{x}_2$};
-	\node[vuale] at ([xshift=-0.9em]l3_1.west) {$\mathbi{x}_1$};
-	\node[vuale] at ([xshift=0.9em]r1_1.east) {$\mathbi{z}_3$};
-	\node[vuale] at ([xshift=0.9em]r2_1.east) {$\mathbi{z}_2$};
-	\node[vuale] at ([xshift=0.9em]r3_1.east) {$\mathbi{z}_1$};
+	\node[vuale] at ([xshift=-0.9em]l1_1.west) {$x_3$};
+	\node[vuale] at ([xshift=-0.9em]l2_1.west) {$x_2$};
+	\node[vuale] at ([xshift=-0.9em]l3_1.west) {$x_1$};
+	\node[vuale] at ([xshift=0.9em]r1_1.east) {$y_3$};
+	\node[vuale] at ([xshift=0.9em]r2_1.east) {$y_3$};
+	\node[vuale] at ([xshift=0.9em]r3_1.east) {$y_3$};
 	
 	\node (t3) at (2.5em, -1em) {\large{$\cdots$}};
 	\node [anchor=north,font=\tiny] at ([yshift=-0.2em]t3.south) {逐点卷积};

--- a/Chapter11/chapter11.tex
+++ b/Chapter11/chapter11.tex
@@ -83,7 +83,7 @@
 \end{figure}
 %----------------------------------------------

-\parinterval 在图像卷积中，卷积核是一组$Q \times U \times O$的参数（如图\ref{fig:11-3}）。其中$Q$和$U$表示卷积核窗口的长度与宽度，分别对应图像中的长和宽两个维度，$Q \times U$决定了该卷积核窗口的大小。$O$是该卷积核的深度，它的取值和输入数据通道数保持一致。在这里，通道可以看作图像不同的特征，比如灰色图像只有灰度信息，通道数为1；而RGB格式的图像有3个通道，分别对应红绿蓝三种颜色信息。
+\parinterval 在图像卷积中，卷积核是一组$Q \times K \times O$的参数（如图\ref{fig:11-3}）。其中$Q$和$K$表示卷积核窗口的长度与宽度，分别对应图像中的长和宽两个维度，$Q \times K$决定了该卷积核窗口的大小。$O$是该卷积核的深度，它的取值和输入数据通道数保持一致。在这里，通道可以看作图像不同的特征，比如灰色图像只有灰度信息，通道数为1；而RGB格式的图像有3个通道，分别对应红绿蓝三种颜色信息。

 %----------------------------------------------
 % 图4.
@@ -567,7 +567,7 @@

 \parinterval 卷积是一种高效处理网格数据的计算方式，在图像、语音等领域取得了令人瞩目的成绩。本章介绍了卷积的概念及其特性，并对池化、填充等操作进行了详细的讨论。前面介绍的基于循环神经网络的翻译模型在引入注意力机制后已经大幅度超越了基于统计的机器翻译模型，但由于循环神经网络的计算方式导致网络整体的并行能力差，训练耗时。本章介绍了具有高并行计算的能力的模型范式，即基于卷积神经网络的编码器-解码器框架。其在机器翻译任务上取得了与基于循环神经网络的GNMT模型相当的性能，并大幅度缩短了模型的训练周期。除了基础部分，本章还针对卷积计算进行了延伸，包括逐通道卷积、逐点卷积、轻量卷积和动态卷积等。除了上述提及的内容，卷积神经网络及其变种在文本分类、命名实体识别等其他自然语言处理任务上也有许多应用。

-\parinterval 和机器翻译任务不同的是，文本分类任务侧重于对序列特征的提取，然后通过压缩后的特征表示做出类别预测。卷积神经网络可以对序列中一些$n$-gram特征进行提取，也可以用在文本分类任务中，其基本结构包括输入层、卷积层、池化层和全连接层。除了在本章介绍过的TextCNN模型\upcite{Kim2014ConvolutionalNN}，不少研究工作在此基础上对其进行改进。比如，通过改变输入层来引入更多特征\upcite{DBLP:conf/acl/NguyenG15,DBLP:conf/aaai/LaiXLZ15}，对卷积层的改进\upcite{DBLP:conf/acl/ChenXLZ015,DBLP:conf/emnlp/LeiBJ15}以及对池化层的改进\upcite{Kalchbrenner2014ACN,DBLP:conf/acl/ChenXLZ015}。在命名实体识别任务中，同样可以使用卷积神经网络来进行特征提取\upcite{DBLP:journals/jmlr/CollobertWBKKK11,DBLP:conf/cncl/ZhouZXQBX17}，或者使用更高效的空洞卷积对更长的上下文进行建模\upcite{DBLP:conf/emnlp/StrubellVBM17}。此外，也有一些研究工作尝试使用卷积神经网络来提取字符级特征\upcite{DBLP:conf/acl/MaH16,DBLP:conf/emnlp/LiDWCM17,DBLP:conf/acl-codeswitch/WangCK18}。
+\parinterval 和机器翻译任务不同的是，文本分类任务侧重于对序列特征的提取，然后通过压缩后的特征表示做出类别预测。卷积神经网络可以对序列中一些$n$-gram特征进行提取，也可以用在文本分类任务中，其基本结构包括输入层、卷积层、池化层和全连接层。除了在本章介绍过的TextCNN模型\upcite{Kim2014ConvolutionalNN}，不少研究工作在此基础上对其进行改进。比如，通过改变输入层来引入更多特征\upcite{DBLP:conf/acl/NguyenG15,DBLP:conf/aaai/LaiXLZ15}，对卷积层的改进\upcite{DBLP:conf/acl/ChenXLZ015,DBLP:conf/emnlp/LeiBJ15}以及对池化层的改进\upcite{Kalchbrenner2014ACN,DBLP:conf/acl/ChenXLZ015}。在命名实体识别任务中，同样可以使用卷积神经网络来进行特征提取\upcite{2011Natural,DBLP:conf/cncl/ZhouZXQBX17}，或者使用更高效的空洞卷积对更长的上下文进行建模\upcite{DBLP:conf/emnlp/StrubellVBM17}。此外，也有一些研究工作尝试使用卷积神经网络来提取字符级特征\upcite{DBLP:conf/acl/MaH16,DBLP:conf/emnlp/LiDWCM17,DBLP:conf/acl-codeswitch/WangCK18}。




--- a/Chapter9/chapter9.tex
+++ b/Chapter9/chapter9.tex
@@ -2166,6 +2166,6 @@ Jobs was the CEO of {\red{\underline{apple}}}.
 \vspace{0.5em}
 \item 为了进一步提高神经语言模型性能，除了改进模型，还可以在模型中引入新的结构或是其他有效信息，该领域也有很多典型工作值得关注。例如在神经语言模型中引入除了词嵌入以外的单词特征，如语言特征（形态、语法、语义特征等）\upcite{Wu2012FactoredLM,Adel2015SyntacticAS}、上下文信息\upcite{mikolov2012context,Wang2015LargerContextLM}、知识图谱等外部知识\upcite{Ahn2016ANK}；或是在神经语言模型中引入字符级信息，将其作为字符特征单独\upcite{Kim2016CharacterAwareNL,Hwang2017CharacterlevelLM}或与单词特征一起\upcite{Onoe2016GatedWR,Verwimp2017CharacterWordLL}送入模型中；在神经语言模型中引入双向模型也是一种十分有效的尝试，在单词预测时可以同时利用来自过去和未来的文本信息\upcite{Graves2013HybridSR,bahdanau2014neural,Peters2018DeepCW}。
 \vspace{0.5em}
-\item 词嵌入是自然语言处理近些年的重要进展。所谓“嵌入”是一类方法，理论上，把一个事物进行分布式表示的过程都可以被看作是广义上的“嵌入”。基于这种思想的表示学习也成为了自然语言处理中的前沿方法。比如，如何对树结构，甚至图结构进行分布式表示成为了分析自然语言的重要方法\upcite{DBLP:journals/corr/abs-1809-01854,Yin2018StructVAETL,Aharoni2017TowardsSN,Bastings2017GraphCE,KoncelKedziorski2019TextGF}。此外，除了语言建模，还有很多方式可以进行词嵌入的学习，比如，SENNA\upcite{collobert2011natural}、word2vec\upcite{DBLP:journals/corr/abs-1301-3781,mikolov2013distributed}、Glove\upcite{DBLP:conf/emnlp/PenningtonSM14}、CoVe\upcite{mccann2017learned} 等。
+\item 词嵌入是自然语言处理近些年的重要进展。所谓“嵌入”是一类方法，理论上，把一个事物进行分布式表示的过程都可以被看作是广义上的“嵌入”。基于这种思想的表示学习也成为了自然语言处理中的前沿方法。比如，如何对树结构，甚至图结构进行分布式表示成为了分析自然语言的重要方法\upcite{DBLP:journals/corr/abs-1809-01854,Yin2018StructVAETL,Aharoni2017TowardsSN,Bastings2017GraphCE,KoncelKedziorski2019TextGF}。此外，除了语言建模，还有很多方式可以进行词嵌入的学习，比如，SENNA\upcite{2011Natural}、word2vec\upcite{DBLP:journals/corr/abs-1301-3781,mikolov2013distributed}、Glove\upcite{DBLP:conf/emnlp/PenningtonSM14}、CoVe\upcite{mccann2017learned} 等。
 \vspace{0.5em}
 \end{itemize}
--- a/bibliography.bib
+++ b/bibliography.bib