updates of section 5

423ee279 · xiaotong · 5e6aa5d4 · 423ee279 · 423ee279
Commit 423ee279 authored Apr 16, 2020 by xiaotong
--- a/Book/Chapter5/chapter5.tex
+++ b/Book/Chapter5/chapter5.tex
@@ -86,11 +86,11 @@
 %--5.1.2为什么需要深度学习---------------------
 \subsection{为什么需要深度学习}\index{Chapter5.1.2}

-\parinterval 深度神经网络提供了一种新的机制，即直接学习输入与输出的关系，通常把这种机制称为``端到端学习''。与传统方法不同，``端到端学习''并不需要人工定义特征或者进行过多的先验性假设，所有的学习过程都是由一个模型完成，从外面看这个模型只是建立了一种输入到输出的映射，而这种映射具体是如何形成的完全由模型的结构和参数决定。这样做的最大好处是，整个建模不需要特征工程和人对问题的隐含结构假设，因此模型可以更加``自由''的进行学习。此外，端到端学习也引发了一个新的思考\ \dash \ 如何表示问题？这也就是所谓的表示学习问题。在深度学习时代，问题的输入和输出的表示已经不再是人类通过简单的总结得到的规律，而是可以让计算机自己进行描述的一种可计算``量''。由于这种表示可以被自动学习，因此也大大促进了计算机对语言文字等复杂现象的处理能力。
+\parinterval 深度神经网络提供了一种简单的学习机制，即直接学习输入与输出的关系，通常把这种机制称为{\small\bfnew{端到端学习}}（End-to-End Learning）。与传统方法不同，端到端学习并不需要人工定义特征或者进行过多的先验性假设，所有的学习过程都是由一个模型完成。从外面看这个模型只是建立了一种输入到输出的映射，而这种映射具体是如何形成的完全由模型的结构和参数决定。这样做的最大好处是，模型可以更加``自由''的进行学习。此外，端到端学习也引发了一个新的思考\ \dash \ 如何表示问题？这也就是所谓的{\small\bfnew{表示学习}}（Representation Learning）问题。在深度学习时代，问题的输入和输出的表示已经不再是人类通过简单的总结得到的规律，而是可以让计算机自己进行描述的一种可计算``量''，比如一个实数向量。由于这种表示可以被自动学习，因此也大大促进了计算机对语言文字等复杂现象的处理能力。
 %--5.1.2.1端到端学习和表示学习---------------------
-\subsubsection{（一）端到端学习和表示学习}\index{Chapter5.1.2.1}
+\subsubsection{端到端学习和表示学习}\index{Chapter5.1.2.1}

-\parinterval 端到端学习使机器学习不再像以往传统的特征工程方法一样需要经过繁琐的数据预处理、特征选择、降维等过程，而是直接利用人工神经网络自动从简单特征中提取、组合更复杂的特征，大大提升了模型能力和工程效率。如图\ref{fig:vs}中的图像分类为例，在传统方法中，图像分类需要很多阶段的处理。首先，需要提取一些手工设计的图像特征，在将其降维之后，需要利用SVM等分类算法对其进行分类。与这种多阶段的流水线相比，端到端深度学习做的是，训练一个神经网络，输入就是图片的像素表示，输出直接是分类类别。
+\parinterval 端到端学习使机器学习不再像以往传统的特征工程方法一样需要经过繁琐的数据预处理、特征选择、降维等过程，而是直接利用人工神经网络自动从简单特征中提取、组合更复杂的特征，大大提升了模型能力和工程效率。如图\ref{fig:vs}中的图像分类为例，在传统方法中，图像分类需要很多阶段的处理。首先，需要提取一些手工设计的图像特征，在将其降维之后，需要利用SVM等分类算法对其进行分类。与这种多阶段的流水线似的处理流程相比，端到端深度学习只训练一个神经网络，输入就是图片的像素表示，输出直接是分类类别。
 %----------------------------------------------
 % 图
    \begin{figure}
@@ -113,7 +113,7 @@
 \end {figure}
 %-------------------------------------------

-\parinterval 传统的机器学习大多是基于特征工程的方法，需要大量人工定义的特征，这些特征的构建往往会带来对问题的隐含假设。这种方法存在三方面的问题：
+\parinterval 传统的机器学习需要大量人工定义的特征，这些特征的构建往往会带来对问题的隐含假设。这种方法存在三方面的问题：

 \vspace{0.5em}
 \begin{itemize}
@@ -125,18 +125,17 @@
 \end{itemize}
 \vspace{0.5em}

-\parinterval 端到端学习将人们从大量的特征提取工作之中解放出来。在端到端学习中，不需要太多人的先验知识，对问题的描述完全基于神经网络的学习。从某种意义上讲，对问题的特征提取全是自动完成的，这也意味着哪怕我们不是该任务的``专家''也可以完成相关任务。此外，由于端到端学习并不依赖人工的干预，它实际上也提供了一种新的对问题的表示形式，比如分布式表示。在这种框架下，模型的输入可以被描述为分布式的实数向量，这样模型可以有更多的维度描述一个事物，同时避免传统符号系统对客观事物离散化的刻画。比如，在自然语言处理中，表示学习重新定义了什么是词，什么是句子。在本章的后面的内容中也会看到，表示学习提供了一种新的能力，让计算机对语言文字的描述更加准确和充分。
+\parinterval 端到端学习将人们从大量的特征提取工作之中解放出来，可以不需要太多人的先验知识。从某种意义上讲，对问题的特征提取全是自动完成的，这也意味着哪怕我们不是该任务的``专家''也可以完成相关系统的开发。此外，端到端学习实际上也隐含了一种新的对问题的表示形式\ $\dash$\ {\small\bfnew{分布式表示}}（Distributed Representation）。在这种框架下，模型的输入可以被描述为分布式的实数向量，这样模型可以有更多的维度描述一个事物，同时避免传统符号系统对客观事物离散化的刻画。比如，在自然语言处理中，表示学习重新定义了什么是词，什么是句子。在本章的后面的内容中也会看到，表示学习可以让计算机对语言文字的描述更加准确和充分。
 %--5.1.2.2深度学习的效果---------------------
-\subsubsection{（二）深度学习的效果}\index{Chapter5.1.2.2}
+\subsubsection{深度学习的效果}\index{Chapter5.1.2.2}

-\parinterval 相比于传统的基于特征工程的方法，基于深度学习的模型更加方便、通用，在系统性能上也普遍更优。这里以语言建模任务为例。语言建模的目的是开发一个模型来描述词串出现的可能性。这个任务已经有着很长时间的历史。表\ref{tab1}给出了不同方法在标准的PTB上的困惑度结果 \footnote{困惑度越低标明语言建模的效果越好。} 。传统的$ n-{\rm{gram}} $语言模型由于面临维度灾难和数据稀疏问题，最终语言模型的性能并不是很好。而在深度学习模型，通过引入循环神经网络等结构，所得到的语言模型可以更好地描述序列生成的问题。而最新的基于Transformer架构的语言模型将PPL从最初的178.0下降到了惊人的35.7。可见深度学习为这个任务所带来的进步是巨大的。
+\parinterval 相比于传统的基于特征工程的方法，基于深度学习的模型更加方便、通用，在系统性能上也普遍更优。这里以语言建模任务为例。语言建模的目的是开发一个模型来描述词串出现的可能性（见第二章）。这个任务已经有着很长时间的历史。表\ref{tab1}给出了不同方法在标准的PTB上的困惑度结果 \footnote{困惑度越低标明语言建模的效果越好。} 。传统的$ n$-gram语言模型由于面临维度灾难和数据稀疏问题，最终语言模型的性能并不是很好。而在深度学习模型中，通过引入循环神经网络等结构，所得到的语言模型可以更好地描述序列生成的问题。而最新的基于Transformer架构的语言模型将PPL从最初的178.0下降到了惊人的35.7。可见深度学习为这个任务所带来的进步是巨大的。

 %表1--------------------------------------------------------------------
 \begin{table}[htp]
 \centering
-\caption{不同方法在PTB语言建模任务上的困惑度（PPL）}
+\caption{不同方法在PTB语言建模任务上的困惑度（PPL）（{\red 下面，加入参考文献！}）}
 \label{tab1}
-\small
 \begin{tabular}{l | l l l}
 \rule{0pt}{15pt}     模型 & 作者 & 年份 & PPL  \\
 \hline

--- a/Book/mt-book-xelatex.ptc
+++ b/Book/mt-book-xelatex.ptc