合并分支 'shanweiqiao' 到 'caorunzhe'

重复文献查看合并请求 !119

合并分支 'shanweiqiao' 到 'caorunzhe'
重复文献查看合并请求 !119
3bf5d420 · 单韦乔 · e49bfa0a · 17b4b1cc · 3bf5d420 · 3bf5d420
Commit 3bf5d420 authored Aug 29, 2020 by 单韦乔
--- a/Chapter1/chapter1.tex
+++ b/Chapter1/chapter1.tex
@@ -136,7 +136,7 @@

 \parinterval 随着电子计算机的发展，研究者开始尝试使用计算机来进行自动翻译。1954年，美国乔治敦大学在IBM公司支持下，启动了第一次真正的机器翻译实验。翻译的目标是将几个简单的俄语句子翻译成为英语，翻译系统包含6条翻译规则和250词汇。这次翻译实验中测试了50个化学文本句子，取得了初步成功。在某种意义上来说，这个实验显示了采用基于词典和翻译规则的方法可以实现机器翻译过程。虽然只是取得了初步成功，但却引起了苏联、英国和日本研究机构的机器翻译研究热，大大推动了早期机器翻译的研究进展。

-\parinterval 1957年，Noam Chomsky在\emph{Syntactic Structures}中描述了转换生成语法\upcite{chomsky2002syntactic}，并使用数学方法来研究自然语言，建立了包括上下文有关语法、上下文无关语法等4种类型的语法。这些工作最终为今天计算机中广泛使用的“形式语言”奠定了基础。而他的思想也深深地影响了同时期的语言学和自然语言处理领域的学者。特别是是，早期基于规则的机器翻译中也大量使用了这些思想。
+\parinterval 1957年，Noam Chomsky在\emph{Syntactic Structures}中描述了转换生成语法\upcite{chomsky1957syntactic}，并使用数学方法来研究自然语言，建立了包括上下文有关语法、上下文无关语法等4种类型的语法。这些工作最终为今天计算机中广泛使用的“形式语言”奠定了基础。而他的思想也深深地影响了同时期的语言学和自然语言处理领域的学者。特别是是，早期基于规则的机器翻译中也大量使用了这些思想。

 \parinterval 虽然在这段时间，使用机器进行翻译的议题越加火热，但是事情并不总是一帆风顺，怀疑论者对机器翻译一直存有质疑，并很容易找出一些机器翻译无法解决的问题。自然地，人们也期望能够客观地评估一下机器翻译的可行性。当时美国基金资助组织委任自动语言处理咨询会承担了这项任务。经过近两年的调查与分析，该委员会于1966年11月公布了一个题为\emph{LANGUAGE AND MACHINES}的报告（图\ref{fig:1-5}），即ALPAC报告。该报告全面否定了机器翻译的可行性，为机器翻译的研究泼了一盆冷水。


--- a/Chapter3/chapter3.tex
+++ b/Chapter3/chapter3.tex
@@ -504,7 +504,7 @@ Z(X)=\sum_y\exp(\sum_i^I\sum_k\lambda_kF_k(y_{i-1},y_i,x,i))

 \parinterval 无论在日常生活中还是在研究工作中，都会遇到各种各样的分类问题，例如挑选西瓜时需要区分``好瓜''和``坏瓜''、编辑看到一篇新闻稿件时要对稿件进行分门别类。事实上，在机器学习中，对``分类任务''的定义会更宽泛而并不拘泥于``类别''的概念：在对样本进行预测时，只要预测标签集合是有限的且预测标签是离散的，就可认定其为分类任务。

-\parinterval 具体来说，分类任务目标是训练一个可以根据输入数据预测离散标签的分类器（也可称为分类模型）。在有监督的分类任务中\footnote{与之相对应的，还有无监督、半监督分类任务，不过这些内容不是本书讨论的重点。读者可以参看\upcite{周志华2016《机器学习》}\upcite{李航2012统计学习方法}对相关概念进行了解。}，训练数据集合通常由形似$(\mathbf{x}_i,y_i)$的带标注数据构成：$\mathbf{x}_i=(x_1,x_2,\ldots,x_m)$作为分类器的输入数据（通常被称作一个训练样本），例如文本分类任务中的单词表示、图像分类任务中的像素表示；$y_i$作为输入数据对应的{\small\bfnew{标签}}\index{标签}（label）\index{label}，反映了输入数据对应的``类别''。若标签集合大小为$n$，则分类任务的本质是通过对训练数据集合的学习，建立一个从$m$维样本空间到$n$维标签空间的映射关系。更确切地说，分类任务的最终目标是学习一个条件概率分布：$\funp{P}(Y|X)$，其中$X=(\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_m)$代表着所有可能出现的输入数据集合，$Y=(y_1,y_2,\ldots,y_n)$代表着标签集合，通过比较$\funp{P}(y_1|\mathbf{x}_i)$、$\funp{P}(y_2|\mathbf{x}_i)$、$\ldots$、$\funp{P}(y_n|\mathbf{x}_i)$之间的大小关系从而确定输入数据$\mathbf{x}_i$最终的类别标签。
+\parinterval 具体来说，分类任务目标是训练一个可以根据输入数据预测离散标签的分类器（也可称为分类模型）。在有监督的分类任务中\footnote{与之相对应的，还有无监督、半监督分类任务，不过这些内容不是本书讨论的重点。读者可以参看\upcite{周志华2016《机器学习》}\upcite{李航2019统计学习方法}对相关概念进行了解。}，训练数据集合通常由形似$(\mathbf{x}_i,y_i)$的带标注数据构成：$\mathbf{x}_i=(x_1,x_2,\ldots,x_m)$作为分类器的输入数据（通常被称作一个训练样本），例如文本分类任务中的单词表示、图像分类任务中的像素表示；$y_i$作为输入数据对应的{\small\bfnew{标签}}\index{标签}（label）\index{label}，反映了输入数据对应的``类别''。若标签集合大小为$n$，则分类任务的本质是通过对训练数据集合的学习，建立一个从$m$维样本空间到$n$维标签空间的映射关系。更确切地说，分类任务的最终目标是学习一个条件概率分布：$\funp{P}(Y|X)$，其中$X=(\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_m)$代表着所有可能出现的输入数据集合，$Y=(y_1,y_2,\ldots,y_n)$代表着标签集合，通过比较$\funp{P}(y_1|\mathbf{x}_i)$、$\funp{P}(y_2|\mathbf{x}_i)$、$\ldots$、$\funp{P}(y_n|\mathbf{x}_i)$之间的大小关系从而确定输入数据$\mathbf{x}_i$最终的类别标签。

 \parinterval 与概率图模型一样，分类模型中也依赖特征定义。其定义形式与\ref{sec3:feature}节的描述一致，这里不再赘述。分类任务一般根据类别数量分为二分类任务和多分类任务。二分类任务是最经典的分类任务，只需要对输出进行非零即一的预测。多分类任务则可以有多种处理手段，比如，可以将其``拆解''为多个二分类任务求解，或者直接让模型输出多个类别中的一个。在命名实体识别中，往往会使用多类别分类模型。比如，在BIO标注下，有三个类别（B、I和O）。一般来说，类别数量越大分类的难度也越大。比如，BIOES标注包含5个类别，因此使用同样的分类器，它要比BIO标注下的分类问题难度大。另一方面，更多的类别有助于准确的刻画目标问题。因此在实践中需要在类别数量和分类难度之间找到一种平衡。

@@ -516,7 +516,7 @@ Z(X)=\sum_y\exp(\sum_i^I\sum_k\lambda_kF_k(y_{i-1},y_i,x,i))

 \subsubsection{2. 经典的分类模型}

-\parinterval 经过多年的发展，研究者提出了很多分类模型。由于篇幅所限，本书无法一一列举这些模型，这里仅列出了部分经典的模型。关于分类模型更全面的介绍可以参考相关文献\upcite{harrington2013机器学习实战}\upcite{李航2012统计学习方法}。
+\parinterval 经过多年的发展，研究者提出了很多分类模型。由于篇幅所限，本书无法一一列举这些模型，这里仅列出了部分经典的模型。关于分类模型更全面的介绍可以参考相关文献\upcite{harrington2013机器学习实战}\upcite{李航2019统计学习方法}。

 \begin{itemize}
 \vspace{0.5em}
@@ -598,7 +598,7 @@ Z(X)=\sum_y\exp(\sum_i^I\sum_k\lambda_kF_k(y_{i-1},y_i,x,i))

 \parinterval 句法树是对句子的一种抽象。这种树形结构表达了一种对句子结构的归纳过程，比如，从树的叶子开始，把每一个树节点看作一次抽象，最终形成一个根节点。那这个过程如何用计算机来实现呢？这就需要使用到形式文法。

-\parinterval 形式文法是分析自然语言的一种重要工具。根据乔姆斯基的定义\upcite{chomsky2002syntactic}，形式文法分为四种类型：无限制文法（0型文法）、上下文相关文法（1型文法）、上下文无关文法（2型文法）和正规文法（3型文法）。不同类型的文法有不同的应用，比如，正规文法可以用来描述有限状态自动机，因此也会被使用在语言模型等系统中。对于短语结构分析问题，常用的是{\small\bfnew{上下文无关文法}}\index{上下文无关文法}（Context-Free Grammar）\index{Context-Free Grammar}。上下文无关文法的具体形式如下：
+\parinterval 形式文法是分析自然语言的一种重要工具。根据乔姆斯基的定义\upcite{chomsky1957syntactic}，形式文法分为四种类型：无限制文法（0型文法）、上下文相关文法（1型文法）、上下文无关文法（2型文法）和正规文法（3型文法）。不同类型的文法有不同的应用，比如，正规文法可以用来描述有限状态自动机，因此也会被使用在语言模型等系统中。对于短语结构分析问题，常用的是{\small\bfnew{上下文无关文法}}\index{上下文无关文法}（Context-Free Grammar）\index{Context-Free Grammar}。上下文无关文法的具体形式如下：

 %-------------------------------------------
 \vspace{0.5em}

--- a/bibliography.bib
+++ b/bibliography.bib
@@ -61,7 +61,7 @@
  publisher={Cambridge: Technology Press, MIT}
 }

-@article{chomsky2002syntactic,
+@article{chomsky1957syntactic,
  title={Syntactic Structures},
  author={Chomsky, Noam},
  journal={Language},
@@ -1019,14 +1019,6 @@
  year={2001}
 }

-
-@book{李航2012统计学习方法,
-  title={统计学习方法},
-  author={李航},
-  publisher={清华大学出版社},
-  year={2012},
-}
-
 @article{harrington2013机器学习实战,
  title={机器学习实战},
  author={Harrington, Peter},