wording (sec9, fnnlm+softmax, finished now)

bc6ad7b2 · xiaotong · a3236115 · bc6ad7b2 · bc6ad7b2
Commit bc6ad7b2 authored Sep 13, 2020 by xiaotong
--- a/Chapter9/Figures/fig-softmax.tex
+++ b/Chapter9/Figures/fig-softmax.tex
+\definecolor{ublue}{rgb}{0.152,0.250,0.545}
+\begin{tikzpicture}
+\begin{axis}[  
+  width=8cm, height=5cm, 
+  xtick={-6,-4,...,6},
+  ytick={0,0.5,1},
+  xlabel={\small{$x$}},
+  ylabel={\small{Softmax($x$)}},
+  xlabel style={xshift=3.0cm,yshift=1cm},
+  axis y line=middle,
+  ylabel style={xshift=-2.4cm,yshift=-0.2cm},
+  x axis line style={->},
+  axis line style={very thick},
+ % ymajorgrids,
+  %xmajorgrids,
+ axis x line*=bottom,
+  xmin=-6,
+  xmax=6,
+  ymin=0,
+  ymax=1]
+\addplot[draw=ublue,very thick]{(tanh(x/2) + 1)/2};
+\end{axis}
+\end{tikzpicture}
+
+%---------------------------------------------------------------------
\ No newline at end of file
--- a/Chapter9/chapter9.tex
+++ b/Chapter9/chapter9.tex
@@ -2018,7 +2018,7 @@ w_{t+1}&=&w_t-\frac{\eta}{\sqrt{z_t+\epsilon}} v_t
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{建模}
+\subsubsection{1. 模型结构}

 \parinterval  最具代表性的神经语言模型是Bengio等人提出的{\small\sffamily\bfseries{前馈神经网络语言模型}}\index{前馈神经网络语言模型}（Feed-forward Neural Network Language Model\index{Feed-forward Neural Network Language Model}，简称FNNLM）。这种语言模型的目标是用神经网络计算$ {\rm P}(w_m|w_{m-n+1}\dots w_{m-1}) $，之后将多个$n$-gram的概率相乘得到整个序列的概率\cite{bengio2003a}。

@@ -2031,20 +2031,73 @@ w_{t+1}&=&w_t-\frac{\eta}{\sqrt{z_t+\epsilon}} v_t
 \end{figure}
 %-------------------------------------------

-\parinterval  为了有一个直观的认识，这里以4-gram的FNNLM语言模型为例，即根据前三个单词$ w_{i-3} $、 $ w_{i-2} $ 、$ w_{i-1} $预测当前单词$ w_i $的概率。如图\ref{fig:5-60}所示，$ w_{i-3} $、 $ w_{i-2} $ 、$ w_{i-1} $为该语言模型的输入（绿色方框），输入为每个词的One-hot向量表示（维度大小与词表大小一致），每个One-hot向量仅一维为1，其余为0，比如：$ (0,0,1,\dots,0) $表示词表中第三个单词。之后把One-hot向量乘以一个矩阵$ \mathbf C $得到单词的分布式表示（紫色方框）。令$ w_i $为第$ i $个词的One-hot表示，$ \mathbf e_i $为第$ i $个词的分布式表示，有：
+\parinterval  为了有一个直观的认识，这里以4-gram的FNNLM语言模型为例，即根据前三个单词$ w_{i-3} $、 $ w_{i-2} $ 、$ w_{i-1} $预测当前单词$ w_i $的概率。模型结构如图\ref{fig:5-60}所示。从结构上看，FNNLM是一个典型的多层神经网络结构。主要有三层：
+
+\begin{itemize}
+\vspace{0.3em}
+\item 输入层（词的分布式表示层），即把输入的离散的单词变为分布式表示对应的实数向量；
+\vspace{0.3em}
+\item 隐藏层，即将得到的词的分布式表示进行线性和非线性变换；
+\vspace{0.3em}
+\item 输出层（Softmax层），根据隐藏层的输出预测单词的概率分布。
+\vspace{0.3em}
+\end{itemize}
+
+\parinterval  这三层堆叠在一起构成了整个网络，而且也可以加入从词的分布式表示直接到输出层的连接（红色虚线箭头）。
+
+%----------------------------------------------------------------------------------------
+%    NEW SUBSUB-SECTION
+%----------------------------------------------------------------------------------------
+
+\subsubsection{2. 输入层}
+
+\parinterval  $ w_{i-3} $、 $ w_{i-2} $ 、$ w_{i-1} $为该语言模型的输入（绿色方框），输入为每个词的One-hot向量表示（维度大小与词表大小一致），每个One-hot向量仅一维为1，其余为0，比如：$ (0,0,1,\dots,0) $ 表示词表中第三个单词。之后把One-hot向量乘以一个矩阵$ \mathbf C $得到单词的分布式表示（紫色方框）。令$ w_i $为第$ i $个词的One-hot表示，$ \mathbf e_i $为第$ i $个词的分布式表示，有：
 \begin{eqnarray}
 \mathbf e_i&=&w_i\mathbf C
 \label{eq:5-60}
 \end{eqnarray}

-\noindent  这里的$ \mathbf C $可以被理解为一个查询表，根据$ w_i $中为1的那一维，在$ \mathbf C $中索引到相应的行进行输出（结果是一个行向量）。随后，把得到的$ \mathbf e_0 $、$ \mathbf e_1 $、$ \mathbf e_2 $三个向量级联在一起，经过两层网络，最后通过Softmax函数（橙色方框）得到输出：
+\noindent  这里的$ \mathbf C $可以被理解为一个查询表，根据$ w_i $中为1的那一维，在$ \mathbf C $中索引到相应的行进行输出（结果是一个行向量）。通常，把$\mathbf e_i$这种单词的实数向量表示称为{\small\bfnew{词嵌入}}\index{词嵌入}（Word Embedding\index{Word Embedding}），把$ \mathbf C $称为词嵌入矩阵。
+
+%----------------------------------------------------------------------------------------
+%    NEW SUBSUB-SECTION
+%----------------------------------------------------------------------------------------
+
+\subsubsection{3. 隐藏层和输出层}
+
+\parinterval  把得到的$ \mathbf e_0 $、$ \mathbf e_1 $、$ \mathbf e_2 $三个向量级联在一起，经过两层网络，最后通过Softmax函数（橙色方框）得到输出：
+
 \begin{eqnarray}
 \mathbf y&=&{\rm{Softmax}}(\mathbf h_0\mathbf U)\label{eq:5-61}\\
 \mathbf h_0&=&{\rm{Tanh}}([\mathbf e_{i-3},\mathbf e_{i-2},\mathbf e_{i-1}]\mathbf H+\mathbf d)
 \label{eq:5-62}
 \end{eqnarray}

-\parinterval  输出$ \mathbf y $是词表上的一个分布，通过单词$ w_i $可以索引到对应概率$ {\rm P}(w_i|w_{i-1},w_{i-2},\\w_{i-3}) $。$ \mathbf U $、$ \mathbf H $和$ \mathbf d $是模型的参数。从结构上看，FNNLM主要有三层：1）词的分布式表示层，即把输入的离散的单词变为分布式表示对应的实数向量；2）隐藏层，即将得到的词的分布式表示进行线性和非线性变换；3）输出层，根据隐藏层的输出预测单词的概率分布。这三层堆叠在一起构成了整个网络，而且也可以加入从词的分布式表示直接到输出层的连接（红色虚线箭头）。
+\noindent  这里，输出$ \mathbf y $是词表$V$上的一个分布，来表示$ {\rm P}(w_i|w_{i-1},w_{i-2},w_{i-3}) $。$ \mathbf U $、$ \mathbf H $和$ \mathbf d $是模型的参数。这样，对于给定的$w_i$可以用$\mathbf y(i)$得到其概率，其中$\mathbf y(i)$表示向量$\mathbf y$的第$i$维。
+
+\parinterval Softmax($\cdot$)的作用是根据输入的$|V|$维向量（即$\mathbf h_0\mathbf U$），得到一个$|V|$维的分布。令$\mathbf{\tau}$表示Softmax($\cdot$)的输入向量，Softmax函数可以被定义为
+
+\begin{eqnarray}
+\textrm{Softmax}(\tau(i))=\frac{\textrm{exp}(\tau(i))}  {\sum_{i'=1}^{|V|} \textrm{exp}(\tau(i'))}
+\label{eq:6-9}
+\end{eqnarray}
+
+\noindent 这里，exp($\cdot$)表示指数函数。Softmax函数是一个典型的归一化函数，它可以将输入的向量的每一维都转化为0-1之间的数，同时保证所有维的和等于1。Softmax的另一个优点是，它本身（对于输出的每一维）都是可微的（如图\ref{fig:softmax}所示），因此可以直接使用基于梯度的方法进行优化。实际上，Softmax经常被用于分类任务。也可以把机器翻译中目标语单词的生成看作一个分类问题，它的类别数是|$V$|。
+
+%----------------------------------------------
+\begin{figure}[htp]
+\centering
+\input{./Chapter9/Figures/fig-softmax}
+\caption{ Softmax函数（一维）所对应的曲线}
+\label{fig:softmax}
+\end{figure}
+%----------------------------------------------
+
+%----------------------------------------------------------------------------------------
+%    NEW SUBSUB-SECTION
+%----------------------------------------------------------------------------------------
+
+\subsubsection{4. 连续空间表示能力}

 \parinterval  值得注意的是，在FNNLM中，单词已经不再是一个孤立的符号串，而是被表示为一个实数向量。这样，两个单词之间可以通过向量计算某种相似度或距离。这导致相似的单词会具有相似的分布，进而缓解$n$-gram语言模型的问题\ \dash \ 明明意思很相近的两个词但是概率估计的结果差异性却很大。

@@ -2170,9 +2223,9 @@ w_{t+1}&=&w_t-\frac{\eta}{\sqrt{z_t+\epsilon}} v_t
 \begin{example}
 屋里 要 摆放 一个 \_\_\_\_\_ \hspace{0.5em} \quad \quad 预测下个词

-\qquad \qquad \quad 屋里 要 摆放 一个{ \red{桌子} }\hspace{0.5em}\quad\quad 见过
+\qquad 屋里 要 摆放 一个{ \red{桌子} }\hspace{0.5em}\quad\quad 见过

-\qquad \qquad \quad 屋里 要 摆放 一个{ \blue{椅子}} \hspace{0.5em}\quad\quad 没见过，但是仍然是合理预测
+\qquad 屋里 要 摆放 一个{ \blue{椅子}} \hspace{0.5em}\quad\quad 没见过，但是仍然是合理预测
 \end{example}

 \parinterval  关于单词的分布式表示还有一个经典的例子：通过词嵌入可以得到如下关系：$\textrm{``国王''}=\textrm{``女王''}-\textrm{``女人''} +\textrm{``男人''}$。从这个例子可以看出，词嵌入也具有一些代数性质，比如，词的分布式表示可以通过加、减等代数运算相互转换。图\ref{fig:5-66}展示了词嵌入在一个二维平面上的投影，不难发现，含义相近的单词分布比较临近。
@@ -2256,6 +2309,8 @@ Jobs was the CEO of {\red{\underline{apple}}}.
 \vspace{0.5em}
 \item 端到端学习是神经网络方法的特点之一。这样，系统开发者不需要设计输入和输出的隐含结构，甚至连特征工程都不再需要。但是，另一方面，由于这种端到端学习完全由神经网络自行完成，整个学习过程没有人的先验知识做指导，导致学习的结构和参数很难进行解释。针对这个问题也有很多研究者进行{\small\sffamily\bfseries{可解释机器学习}}\index{可解释机器学习}（Explainable Machine Learning）\index{Explainable Machine Learning}的研究\cite{guidotti2018survey}\cite{koh2017understanding}。对于自然语言处理，方法的可解释性是十分必要的。从另一个角度说，如何使用先验知识改善端到端学习也是很多人关注的方向\cite{arthur2016incorporating}\cite{Zhang2017PriorKI}，比如，如何使用句法知识改善自然语言处理模型\cite{zollmann2006syntax}\cite{charniak2003syntax}\cite{stahlberg2016syntactically}。
 \vspace{0.5em}
+\item {\color{red} 神经语言模型的一些典型工作，可以参考survey：https://arxiv.org/pdf/1906.03591.pdf}
+\vspace{0.5em}
 \item 词嵌入是自然语言处理近些年的重要进展。所谓“嵌入”是一类方法，理论上，把一个事物进行分布式表示的过程都可以被看作是广义上的“嵌入”。基于这种思想的表示学习也成为了自然语言处理中的前沿方法。比如，如何对树结构，甚至图结构进行分布式表示\cite{plank2013embedding}\cite{perozzi2014deepwalk}成为了分析自然语言的重要方法。此外，除了语言建模，还有很多方式可以进行词嵌入的学习，比如，SENNA\cite{collobert2011natural}、word2vec\cite{DBLP:journals/corr/abs-1301-3781}\cite{mikolov2013distributed}、Glove\cite{DBLP:conf/emnlp/PenningtonSM14}、CoVe\cite{mccann2017learned} 等。
 \vspace{0.5em}
 \end{itemize}