Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
3d11c0fd
Commit
3d11c0fd
authored
Sep 30, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
bug fix
parent
da4c208c
全部展开
隐藏空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
3 行增加
和
3 行删除
+3
-3
Chapter3/chapter3.tex
+3
-3
Chapter4/chapter4.tex
+0
-0
没有找到文件。
Chapter3/chapter3.tex
查看文件 @
3d11c0fd
...
...
@@ -64,7 +64,7 @@
\parinterval
一般来说,在送入机器翻译系统前需要对文字序列进行处理和加工,这个过程被称为
{
\small\sffamily\bfseries
{
预处理
}}
\index
{
预处理
}
(Preprocessing)
\index
{
Preprocessing
}
。类似地,在机器翻译模型输出译文后进行的处理被称作
{
\small\sffamily\bfseries
{
后处理
}}
\index
{
后处理
}
(Postprocessing)
\index
{
Postprocessing
}
。这两个过程对机器翻译性能影响很大,比如,对于神经机器翻译系统来说,不同的分词策略可能会造成翻译性能的天差地别。
\parinterval
值得注意的是,有些观点认为,对于机器翻译来说,不论是分词还是句法分析,并不要求符合人的认知和语言学约束。换句话说,机器翻译所使用的“单词”和“结构”本身并不是为了符合人类的解释,它们更直接目的是为了进行翻译。从系统开发的角度,有时候即使使用一些与人类的语言习惯有差别的处理,仍然会带来性能的提升,比如在神经机器翻译中,在传统分词的基础上进一步使用
{
\small\sffamily\bfseries
{
双字节编码
}}
\index
{
双字节编码
}
(Byte Pair Encoding,BPE)
\index
{
Byte Pair Encoding
,BPE
}
子词切分
\upcite
{
DBLP:conf/acl/SennrichHB16a
}
会使得机器翻译性能大幅提高。当然,自然语言处理中语言学信息的使用一直是学界关注的焦点。甚至关于语言学结构对机器翻译是否有作用这个问题也有一些不同的观点。但是不能否认的是,无论是语言学的知识,还是计算机自己学习到的知识,对机器翻译都是有价值的。在后续章节会看到,这两种类型的知识对机器翻译帮助很大。
\parinterval
值得注意的是,有些观点认为,对于机器翻译来说,不论是分词还是句法分析,并不要求符合人的认知和语言学约束。换句话说,机器翻译所使用的“单词”和“结构”本身并不是为了符合人类的解释,它们更直接目的是为了进行翻译。从系统开发的角度,有时候即使使用一些与人类的语言习惯有差别的处理,仍然会带来性能的提升,比如在神经机器翻译中,在传统分词的基础上进一步使用
{
\small\sffamily\bfseries
{
双字节编码
}}
\index
{
双字节编码
}
(Byte Pair Encoding,BPE)
\index
{
Byte Pair Encoding
}
子词切分
\upcite
{
DBLP:conf/acl/SennrichHB16a
}
会使得机器翻译性能大幅提高。当然,自然语言处理中语言学信息的使用一直是学界关注的焦点。甚至关于语言学结构对机器翻译是否有作用这个问题也有一些不同的观点。但是不能否认的是,无论是语言学的知识,还是计算机自己学习到的知识,对机器翻译都是有价值的。在后续章节会看到,这两种类型的知识对机器翻译帮助很大。
\parinterval
剩下的问题是如何进行句子的切分和结构的分析。思路有很多,一种常用的方法是对问题进行概率化,用统计模型来描述问题并求解之。比如,一个句子切分的好坏,并不是非零即一的判断,而是要估计出这种切分的可能性大小,最终选择可能性最大的结果进行输出。这也是一种典型的用统计建模的方式来描述自然语言处理问题的方法。
...
...
@@ -266,7 +266,7 @@ $计算这种切分的概率值。
\parinterval
对于像命名实体识别这样的任务,早期的方法主要是基于词典和规则的方法。这些方法依赖于人工构造的识别规则,通过字符串匹配的方式识别出文本中的命名实体
\upcite
{
1995University,krupka1998isoquest,DBLP:conf/muc/BlackRM98
}
。严格意义上来说,那时命名实体识别还并没有被看作是一种序列标注问题。
\parinterval
序列标注这个概念更多的是出现在基于统计建模的方法中。许多统计机器学习方法都被成功应用用于命名实体识别任务,例如
{
\small\sffamily\bfseries
{
隐马尔可夫模型
}}
\index
{
隐马尔可夫模型
}
(Hidden Markov Model,HMM)
\index
{
Hidden Markov Model
,HMM
}
\upcite
{
1996Hidden
}
、
{
\small\sffamily\bfseries
{
条件随机场
}}
\index
{
条件随机场
}
(Conditional Random Fields,CRFs)
\index
{
Conditional Random Fields,CRFs
}
\upcite
{
lafferty2001conditional
}
、
{
\small\sffamily\bfseries
{
最大熵
}}
\index
{
最大熵
}
(Maximum Entropy,ME)
\index
{
Maximum Entropy,ME
}
模型
\upcite
{
kapur1989maximum
}
和
{
\small\sffamily\bfseries
{
支持向量机
}}
\index
{
支持向量机
}
(Support Vector Machine,SVM)
\index
{
Support Vector Machine,SVM
}
\upcite
{
1998Support
}
等。此外,近些年深度学习的兴起也给命名实体识别带来了新的思路
\upcite
{
2011Natural
}
。而命名实体识别也成为了验证机器学习方法有效性的重要任务之一。本节将对序列标注中几类基础的方法进行介绍。其中会涉及概率图模型、统计分类模型等方法。特别是统计分类的概念,在后续章节中也会被使用到。
\parinterval
序列标注这个概念更多的是出现在基于统计建模的方法中。许多统计机器学习方法都被成功应用用于命名实体识别任务,例如
{
\small\sffamily\bfseries
{
隐马尔可夫模型
}}
\index
{
隐马尔可夫模型
}
(Hidden Markov Model,HMM)
\index
{
Hidden Markov Model
}
\upcite
{
1996Hidden
}
、
{
\small\sffamily\bfseries
{
条件随机场
}}
\index
{
条件随机场
}
(Conditional Random Fields,CRFs)
\index
{
Conditional Random Fields
}
\upcite
{
lafferty2001conditional
}
、
{
\small\sffamily\bfseries
{
最大熵
}}
\index
{
最大熵
}
(Maximum Entropy,ME)
\index
{
Maximum Entropy
}
模型
\upcite
{
kapur1989maximum
}
和
{
\small\sffamily\bfseries
{
支持向量机
}}
\index
{
支持向量机
}
(Support Vector Machine,SVM)
\index
{
Support Vector Machine
}
\upcite
{
1998Support
}
等。此外,近些年深度学习的兴起也给命名实体识别带来了新的思路
\upcite
{
2011Natural
}
。而命名实体识别也成为了验证机器学习方法有效性的重要任务之一。本节将对序列标注中几类基础的方法进行介绍。其中会涉及概率图模型、统计分类模型等方法。特别是统计分类的概念,在后续章节中也会被使用到。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
...
...
@@ -877,7 +877,7 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
\begin{itemize}
\vspace
{
0.5em
}
\item
在建模方面,本章描述了基于1-gram语言模型的分词、基于上下文无关文法的句法分析等,它们都是基于人工先验知识进行模型设计的思路。也就是,问题所表达的现象被“一步一步”生成出来。这是一种典型的生成式建模思想,它把要解决的问题看作一些观测结果的隐含变量(比如,句子是观测结果,分词结果是隐含在背后的变量),之后通过对隐含变量生成观测结果的过程进行建模,以达到对问题进行数学描述的目的。这类模型一般需要依赖一些独立性假设,假设的合理性对最终的性能有较大影响。相对于
{
\small\sffamily\bfseries
{
生成式模型
}}
\index
{
生成式模型
}
(Generative Model)
\index
{
Generative Model
}
,另一类方法是
{
\small\sffamily\bfseries
{
判别式模型
}}
\index
{
判别式模型
}
(Discriminative Model)
\index
{
Discriminative Model
}
。本章序列标注内容中提到一些模型就是判别式模型,如条件随机场
\upcite
{
lafferty2001conditional
}
。它直接描述了从隐含变量生成观测结果的过程,这样对问题的建模更加直接,同时这类模型可以更加灵活的引入不同的特征。判别模型在自然语言处理中也有广泛应用
\upcite
{
ng2002discriminative,manning2008introduction,berger1996maximum,mitchell1996m,DBLP:conf/acl/OchN02
}
。 在本书的第七章也会使用到判别式模型。
\item
在建模方面,本章描述了基于1-gram语言模型的分词、基于上下文无关文法的句法分析等,它们都是基于人工先验知识进行模型设计的思路。也就是,问题所表达的现象被“一步一步”生成出来。这是一种典型的生成式建模思想,它把要解决的问题看作一些观测结果的隐含变量(比如,句子是观测结果,分词结果是隐含在背后的变量),之后通过对隐含变量生成观测结果的过程进行建模,以达到对问题进行数学描述的目的。这类模型一般需要依赖一些独立性假设,假设的合理性对最终的性能有较大影响。相对于
生成式模型
,另一类方法是
{
\small\sffamily\bfseries
{
判别式模型
}}
\index
{
判别式模型
}
(Discriminative Model)
\index
{
Discriminative Model
}
。本章序列标注内容中提到一些模型就是判别式模型,如条件随机场
\upcite
{
lafferty2001conditional
}
。它直接描述了从隐含变量生成观测结果的过程,这样对问题的建模更加直接,同时这类模型可以更加灵活的引入不同的特征。判别模型在自然语言处理中也有广泛应用
\upcite
{
ng2002discriminative,manning2008introduction,berger1996maximum,mitchell1996m,DBLP:conf/acl/OchN02
}
。 在本书的第七章也会使用到判别式模型。
\vspace
{
0.5em
}
\item
此外,本章并没有对分词、句法分析中的预测问题进行深入介绍。比如,如何找到概率最大的分词结果?这部分可以直接借鉴第二章中介绍的搜索方法。比如,对于基于
$
n
$
-gram语言模型的分词方法,可以 使用动态规划
\upcite
{
huang2008coling
}
。对于动态规划的使用条件不满足的情况,可以考虑使用更加复杂的搜索策略,并配合一定的剪枝方法。实际上,无论是基于
$
n
$
-gram 语言模型的分词还是简单的上下文无关文法都有高效的推断方法。比如,
$
n
$
-gram语言模型可以被视为概率有限状态自动机,因此可以直接使用成熟的自动机工具
\upcite
{
mohri2008speech
}
。对于更复杂的句法分析问题,可以考虑使用移进- 规约方法来解决预测问题
\upcite
{
aho1972theory
}
。
\vspace
{
0.5em
}
...
...
Chapter4/chapter4.tex
查看文件 @
3d11c0fd
差异被折叠。
点击展开。
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论