Commit e7bf1bed by zhoutao

合并分支 'zhoutao' 到 'caorunzhe'

chapter3 label

查看合并请求 !188
parents 7f3d2e4f cd443b76
......@@ -19,7 +19,7 @@
%----------------------------------------------------------------------------------------
% CHAPTER 3
%----------------------------------------------------------------------------------------
\chapter{词法分析和语法分析基础}
\chapter{词法分析和语法分析基础} \label{chapter_3}
\parinterval 机器翻译并非是一个孤立的系统,它依赖于很多模块,并且需要多个学科知识的融合。其中就会用到许多自然语言处理工具来对不同语言的文字进行分析。因此,在正式开始介绍机器翻译的内容之前,本章会对相关的词法分析和语法分析知识进行概述,包括:分词、命名实体识别、短语结构句法分析。它们都是自然语言处理中的经典问题,而且在机器翻译中被广泛使用。本章会重点介绍这些任务的定义和求解问题的思路。其中也会使用到统计建模方法,因此本章也可以被看作是第二章内容的延伸。
......@@ -532,7 +532,7 @@ Z(\seq{X})=\sum_{\seq{Y}}\exp(\sum_{i=1}^m\sum_{j=1}^k\lambda_{j}F_{j}(y_{i-1},y
\parinterval 无论在日常生活中还是在研究工作中,都会遇到各种各样的分类问题,例如挑选西瓜时需要区分“好瓜”和“坏瓜”、编辑看到一篇新闻稿件时要对稿件进行分门别类。事实上,在机器学习中,对“分类任务”的定义会更宽泛而并不拘泥于“类别”的概念,在对样本进行预测时,只要预测标签集合是有限的且预测标签是离散的,就可认定其为分类任务。
\parinterval 具体来说,分类任务目标是训练一个可以根据输入数据预测离散标签的{\small\bfnew{分类器}}\index{分类器}(Classifier\index{Classifier}),也可称为分类模型。在有监督的分类任务中\footnote{与之相对应的,还有无监督、半监督分类任务,不过这些内容不是本书讨论的重点。读者可以参看参考文献\upcite{周志华2016机器学习,李航2019统计学习方法}对相关概念进行了解。},训练数据集合通常由形似$(\mathbf{x}_i,y_i)$的带标注数据构成,$\mathbf{x}_i=(x_i^1,x_i^2,\ldots,x_i^k)$作为分类器的输入数据(通常被称作一个训练样本),其中$x_i^j$表示样本$\mathbf{x}_i$的第$j$个特征;$y_i$作为输入数据对应的{\small\bfnew{标签}}\index{标签}(Label)\index{Label},反映了输入数据对应的“类别”。若标签集合大小为$n$,则分类任务的本质是通过对训练数据集合的学习,建立一个从$k$ 维样本空间到$n$维标签空间的映射关系。更确切地说,分类任务的最终目标是学习一个条件概率分布$\funp{P}(y|\mathbf{x})$,这样对于输入$\mathbf{x}$可以找到概率最大的$y$作为分类结果输出。
\parinterval 具体来说,分类任务目标是训练一个可以根据输入数据预测离散标签的{\small\bfnew{分类器}}\index{分类器}(Classifier\index{Classifier}),也可称为分类模型。在有监督的分类任务中\footnote{与之相对应的,还有无监督、半监督分类任务,不过这些内容不是本书讨论的重点。读者可以参看参考文献\upcite{周志华2016机器学习,李航2019统计学习方法}对相关概念进行了解。},训练数据集合通常由形似$(\seq{x}_i,y_i)$的带标注数据构成,$\seq{x}_i=(x_i^1,x_i^2,\ldots,x_i^k)$作为分类器的输入数据(通常被称作一个训练样本),其中$x_i^j$表示样本$\seq{x}_i$的第$j$个特征;$y_i$作为输入数据对应的{\small\bfnew{标签}}\index{标签}(Label)\index{Label},反映了输入数据对应的“类别”。若标签集合大小为$n$,则分类任务的本质是通过对训练数据集合的学习,建立一个从$k$ 维样本空间到$n$维标签空间的映射关系。更确切地说,分类任务的最终目标是学习一个条件概率分布$\funp{P}(y|\seq{x})$,这样对于输入$\seq{x}$可以找到概率最大的$y$作为分类结果输出。
\parinterval 与概率图模型一样,分类模型中也依赖特征定义。其定义形式与\ref{sec3:feature}节的描述一致,这里不再赘述。分类任务一般根据类别数量分为二分类任务和多分类任务,二分类任务是最经典的分类任务,只需要对输出进行非零即一的预测。多分类任务则可以有多种处理手段,比如,可以将其“拆解”为多个二分类任务求解,或者直接让模型输出多个类别中的一个。在命名实体识别中,往往会使用多类别分类模型。比如,在BIO标注下,有三个类别(B、I和O)。一般来说,类别数量越大分类的难度也越大。比如,BIOES标注包含5个类别,因此使用同样的分类器,它要比BIO标注下的分类问题难度大。另一方面,更多的类别有助于准确的刻画目标问题。因此在实践中需要在类别数量和分类难度之间找到一种平衡。
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论