Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
fa379c6f
Commit
fa379c6f
authored
Sep 01, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
wording (sec 3 finished)
parent
4c6d581b
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
5 行增加
和
5 行删除
+5
-5
Chapter3/chapter3.tex
+5
-5
没有找到文件。
Chapter3/chapter3.tex
查看文件 @
fa379c6f
...
@@ -873,16 +873,16 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
...
@@ -873,16 +873,16 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
\sectionnewpage
\sectionnewpage
\section
{
小结及深入阅读
}
\label
{
sec3:summary
}
\section
{
小结及深入阅读
}
\label
{
sec3:summary
}
\parinterval
本章将统计建模的思想应用到
两个自然语言处理任务中,包括:中文分词、句法分析。它们和机器翻译有着紧密的联系,往往作为机器翻译系统输入和输出的数据加工方法。通过系统化的建模,可以发现:经过适当的假设和化简,统计模型可以很好的描述复杂的自然语言处理问题。相关概念和方法
也会在后续章节的内容中被广泛使用。
\parinterval
本章将统计建模的思想应用到
三个自然语言处理任务中,包括:中文分词、命名实体识别、短语结构句法分析。它们和机器翻译有着紧密的联系,往往作为机器翻译系统输入和输出的数据加工方法。可以发现:经过适当的假设和化简,统计模型可以很好的描述复杂的自然语言处理问题。这种建模手段
也会在后续章节的内容中被广泛使用。
\parinterval
由于本章重点介绍如何用统计
的思想
对自然语言处理任务进行建模,因此并没有对具体的问题展开深入讨论。有几方面内容,读者可以继续关注:
\parinterval
由于本章重点介绍如何用统计
方法
对自然语言处理任务进行建模,因此并没有对具体的问题展开深入讨论。有几方面内容,读者可以继续关注:
\begin{itemize}
\begin{itemize}
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
在建模方面,本章
介绍的分词、句法分析任务是是基于人工先验知识进行模型设计的思路。也就是,问题所表达的现象被``一步一步''生成出来。这是一种典型的生成式建模思想,它把要解决的问题看作一些观测结果的隐含变量(比如,句子是观测结果,分词结果是隐含在背后的变量),之后通过对隐含变量生成观测结果的过程进行建模,以达到对问题进行数学描述的目的。这类模型一般需要依赖一些独立性假设,假设的合理性对最终的性能有较大影响。相对于
{
\small\sffamily\bfseries
{
生成模型
}}
\index
{
生成模型
}
(Generative Model)
\index
{
Generative Model
}
,另一类方法是
{
\small\sffamily\bfseries
{
判别模型
}}
\index
{
判别模型
}
(Discriminative Model)
\index
{
Discriminative Model
}
。本章序列标注内容中提到一些模型就是判别式模型
。它直接描述了从隐含变量生成观测结果的过程,这样对问题的建模更加直接,同时这类模型可以更加灵活的引入不同的特征。判别模型在自然语言处理中也有广泛应用
\upcite
{
ng2002discriminative
}
。 在本书的第七章也会使用到判别式模型。
\item
在建模方面,本章
描述了基于1-gram语言模型的分词、基于上下文无关文法的句法分析等,它们都是基于人工先验知识进行模型设计的思路。也就是,问题所表达的现象被``一步一步''生成出来。这是一种典型的生成式建模思想,它把要解决的问题看作一些观测结果的隐含变量(比如,句子是观测结果,分词结果是隐含在背后的变量),之后通过对隐含变量生成观测结果的过程进行建模,以达到对问题进行数学描述的目的。这类模型一般需要依赖一些独立性假设,假设的合理性对最终的性能有较大影响。相对于
{
\small\sffamily\bfseries
{
生成式模型
}}
\index
{
生成式模型
}
(Generative Model)
\index
{
Generative Model
}
,另一类方法是
{
\small\sffamily\bfseries
{
判别式模型
}}
\index
{
判别式模型
}
(Discriminative Model)
\index
{
Discriminative Model
}
。本章序列标注内容中提到一些模型就是判别式模型,如条件随机场
\upcite
{
lafferty2001conditional
}
。它直接描述了从隐含变量生成观测结果的过程,这样对问题的建模更加直接,同时这类模型可以更加灵活的引入不同的特征。判别模型在自然语言处理中也有广泛应用
\upcite
{
ng2002discriminative
}
。 在本书的第七章也会使用到判别式模型。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
此外,本章并没有对
模型的推断方法进行深入介绍。比如,对于一个句子如何有效的找到概率最大的分词结果?这部分可以直接借鉴第二章中介绍的搜索方法。对于分词等问题,比较简单的解决方法是使用动态规划
\upcite
{
huang2008advanced
}
。如果使用动态规划的条件不满足,可以考虑使用更加复杂的搜索策略,并配合一定剪枝方法。实际上,无论是基于
$
n
$
-gram语言模型的分词还是简单的上下文无关文法都有高效的推断方法。比如,
$
n
$
-gram语言模型可以被视为概率有限状态自动机,因此可以直接使用成熟的自动机工具。对于更复杂的句法分析问题,可以考虑使用移进-规约方法来解决推断
问题
\upcite
{
aho1972theory
}
。
\item
此外,本章并没有对
分词、句法分析中的预测问题进行深入介绍。比如,如何找到概率最大的分词结果?这部分可以直接借鉴第二章中介绍的搜索方法。比如,对于基于
$
n
$
-gram语言模型的分词方法,可以 使用动态规划
\upcite
{
huang2008advanced
}
。对于动态规划的使用条件不满足的情况,可以考虑使用更加复杂的搜索策略,并配合一定剪枝方法。实际上,无论是基于
$
n
$
-gram 语言模型的分词还是简单的上下文无关文法都有高效的推断方法。比如,
$
n
$
-gram语言模型可以被视为概率有限状态自动机,因此可以直接使用成熟的自动机工具。对于更复杂的句法分析问题,可以考虑使用移进- 规约方法来解决预测
问题
\upcite
{
aho1972theory
}
。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
从自然语言处理的角度来看,词法分析和语法分析
的一部分内容都是典型的序列标注问题,例如本章正文部分介绍的分词和命名实体识别都可以看成序列标注的问题,此外序列标注还可以被扩展到词性标注
\upcite
{
brants-2000-tnt
}
、组块识别
\upcite
{
tsuruoka-tsujii-2005-chunk
}
、关键词抽取
\upcite
{
li-etal-2003-news-oriented
}
、词义角色标注
\upcite
{
chomsky1993lectures
}
等任务,本章着重介绍了传统的基础方法,前沿的方法大多与深度学习相结合,感兴趣的读者可以自行了解,其中比较有代表性的包括双向长短期记忆网络和条件随机场相结合的模型结构(BiLSTM-CRF)
\upcite
{
2015Bidirectional
}
、双向长短期记忆网络和卷积神经网络的混合模型(BiLSTM-CNNs)
\upcite
{
chiu2016named
}
、双向长短期记忆网络和softmax结构相结合的模型
\upcite
{
vzukov2018named
}
等。此外,对于序列标注任务,模型性能很大程度上依赖其输入表示,因此集成或微调预训练语言模型的方法也能应用于序列标注任务
\upcite
{
Li2020A
}
,常见的预训练语言模型包括
BERT
\upcite
{
devlin2018bert
}
、GPT
\upcite
{
radford2018improving
}
、XLM
\upcite
{
conneau2019unsupervised
}
等。
\item
从自然语言处理的角度来看,词法分析和语法分析
中的很多问题都是序列标注问题,例如本章介绍的分词和命名实体识别。此外序列标注还可以被扩展到词性标注
\upcite
{
brants-2000-tnt
}
、组块识别
\upcite
{
tsuruoka-tsujii-2005-chunk
}
、关键词抽取
\upcite
{
li-etal-2003-news-oriented
}
、词义角色标注
\upcite
{
chomsky1993lectures
}
等任务,本章着重介绍了传统的方法,前沿方法大多与深度学习相结合,感兴趣的读者可以自行了解,其中比较有代表性的使用双向长短时记忆网络对序列进行建模,之后于不同模型进行融合得到最终的结果,例如,与条件随机场相结合的模型(BiLSTM-CRF)
\upcite
{
2015Bidirectional
}
、与卷积神经网络相结合的模型(BiLSTM-CNNs)
\upcite
{
chiu2016named
}
、与简单的Softmax结构相结合的模型
\upcite
{
vzukov2018named
}
等。此外,对于序列标注任务,模型性能很大程度上依赖对输入序列的表示能力,因此基于预训练语言模型的方法也非常流行
\upcite
{
Li2020A
}
,如:
BERT
\upcite
{
devlin2018bert
}
、GPT
\upcite
{
radford2018improving
}
、XLM
\upcite
{
conneau2019unsupervised
}
等。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\end{itemize}
\end{itemize}
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论