chapter3 label

cd443b76 · zhoutao · b87c1f4e · cd443b76
Commit cd443b76 authored Sep 12, 2020 by zhoutao
--- a/Chapter3/chapter3.tex
+++ b/Chapter3/chapter3.tex
@@ -19,7 +19,7 @@
 %----------------------------------------------------------------------------------------
 %	CHAPTER 3
 %----------------------------------------------------------------------------------------
-\chapter{词法分析和语法分析基础}
+\chapter{词法分析和语法分析基础} \label{chapter_3}
 \parinterval 机器翻译并非是一个孤立的系统，它依赖于很多模块，并且需要多个学科知识的融合。其中就会用到许多自然语言处理工具来对不同语言的文字进行分析。因此，在正式开始介绍机器翻译的内容之前，本章会对相关的词法分析和语法分析知识进行概述，包括：分词、命名实体识别、短语结构句法分析。它们都是自然语言处理中的经典问题，而且在机器翻译中被广泛使用。本章会重点介绍这些任务的定义和求解问题的思路。其中也会使用到统计建模方法，因此本章也可以被看作是第二章内容的延伸。
@@ -532,7 +532,7 @@ Z(\seq{X})=\sum_{\seq{Y}}\exp(\sum_{i=1}^m\sum_{j=1}^k\lambda_{j}F_{j}(y_{i-1},y
 \parinterval 无论在日常生活中还是在研究工作中，都会遇到各种各样的分类问题，例如挑选西瓜时需要区分“好瓜”和“坏瓜”、编辑看到一篇新闻稿件时要对稿件进行分门别类。事实上，在机器学习中，对“分类任务”的定义会更宽泛而并不拘泥于“类别”的概念，在对样本进行预测时，只要预测标签集合是有限的且预测标签是离散的，就可认定其为分类任务。
-\parinterval 具体来说，分类任务目标是训练一个可以根据输入数据预测离散标签的{\small\bfnew{分类器}}\index{分类器}（Classifier\index{Classifier}），也可称为分类模型。在有监督的分类任务中\footnote{与之相对应的，还有无监督、半监督分类任务，不过这些内容不是本书讨论的重点。读者可以参看参考文献\upcite{周志华2016机器学习,李航2019统计学习方法}对相关概念进行了解。}，训练数据集合通常由形似$(\mathbf{x}_i,y_i)$的带标注数据构成，$\mathbf{x}_i=(x_i^1,x_i^2,\ldots,x_i^k)$作为分类器的输入数据（通常被称作一个训练样本），其中$x_i^j$表示样本$\mathbf{x}_i$的第$j$个特征；$y_i$作为输入数据对应的{\small\bfnew{标签}}\index{标签}（Label）\index{Label}，反映了输入数据对应的“类别”。若标签集合大小为$n$，则分类任务的本质是通过对训练数据集合的学习，建立一个从$k$ 维样本空间到$n$维标签空间的映射关系。更确切地说，分类任务的最终目标是学习一个条件概率分布$\funp{P}(y|\mathbf{x})$，这样对于输入$\mathbf{x}$可以找到概率最大的$y$作为分类结果输出。
+\parinterval 具体来说，分类任务目标是训练一个可以根据输入数据预测离散标签的{\small\bfnew{分类器}}\index{分类器}（Classifier\index{Classifier}），也可称为分类模型。在有监督的分类任务中\footnote{与之相对应的，还有无监督、半监督分类任务，不过这些内容不是本书讨论的重点。读者可以参看参考文献\upcite{周志华2016机器学习,李航2019统计学习方法}对相关概念进行了解。}，训练数据集合通常由形似$(\seq{x}_i,y_i)$的带标注数据构成，$\seq{x}_i=(x_i^1,x_i^2,\ldots,x_i^k)$作为分类器的输入数据（通常被称作一个训练样本），其中$x_i^j$表示样本$\seq{x}_i$的第$j$个特征；$y_i$作为输入数据对应的{\small\bfnew{标签}}\index{标签}（Label）\index{Label}，反映了输入数据对应的“类别”。若标签集合大小为$n$，则分类任务的本质是通过对训练数据集合的学习，建立一个从$k$ 维样本空间到$n$维标签空间的映射关系。更确切地说，分类任务的最终目标是学习一个条件概率分布$\funp{P}(y|\seq{x})$，这样对于输入$\seq{x}$可以找到概率最大的$y$作为分类结果输出。
 \parinterval 与概率图模型一样，分类模型中也依赖特征定义。其定义形式与\ref{sec3:feature}节的描述一致，这里不再赘述。分类任务一般根据类别数量分为二分类任务和多分类任务，二分类任务是最经典的分类任务，只需要对输出进行非零即一的预测。多分类任务则可以有多种处理手段，比如，可以将其“拆解”为多个二分类任务求解，或者直接让模型输出多个类别中的一个。在命名实体识别中，往往会使用多类别分类模型。比如，在BIO标注下，有三个类别（B、I和O）。一般来说，类别数量越大分类的难度也越大。比如，BIOES标注包含5个类别，因此使用同样的分类器，它要比BIO标注下的分类问题难度大。另一方面，更多的类别有助于准确的刻画目标问题。因此在实践中需要在类别数量和分类难度之间找到一种平衡。