Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
6c2bec34
Commit
6c2bec34
authored
Apr 11, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
minor updates
parent
a0852880
隐藏空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
4 行增加
和
33 行删除
+4
-33
Book/Chapter2/chapter2.tex
+4
-6
Book/mt-book-xelatex.idx
+0
-27
没有找到文件。
Book/Chapter2/chapter2.tex
查看文件 @
6c2bec34
...
...
@@ -892,14 +892,12 @@ c_{\textrm{KN}}(\cdot) & = & \begin{cases} \textrm{count}(\cdot)\quad \textrm{fo
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section
{
句法分析(短语结构分析)
}
\index
{
Chapter2.5
}
\parinterval
通过前面两节的内容,我们已经了解什么叫做``词''、如何对分词问题进行统计建模。同时也了解了如何对词序列的
概率用统计语言模型进行描述。无论是分词还是语言模型都是句子浅层词串信息的一种表示。对于一个自然语言句子来说,它更深层次的结构信息可以通过句法信息来描述,而句法信息也是机器翻译和自然语言处理其它任务中常用的知识源之一。本节将会对相关概念进行介绍
。
\parinterval
通过前面两节的内容,我们已经了解什么叫做``词''、如何对分词问题进行统计建模。同时也了解了如何对词序列的
生成进行概率描述。无论是分词还是语言模型都是句子浅层词串信息的一种表示。对于一个自然语言句子来说,它更深层次的结构信息可以通过句法信息来描述,而句法信息也是机器翻译和自然语言处理其它任务中常用的知识之一
。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection
{
句子的句法树表示
}
\index
{
Chapter2.5.1
}
\parinterval
{
\small\sffamily\bfseries
{
句法
}}
(syntax)是研究句子的每个组成部分和它们之间的组合方式。一般来说,句法和语言是相关的,比如,英文是主谓宾结构,而日语是主宾谓结构。因此不同的语言也会有不同的句法描述方式。这里我们将介绍自然语言处理领域最常用的两种句法分析形式 –
{
\small\sffamily\bfseries
{
短语结构分析
}}
(phrase structure parsing)和
{
\small\sffamily\bfseries
{
依存分析
}}
(dependency parsing)。它们在汉语、英语等多种语言的处理中都有广泛应用。
\parinterval
图
\ref
{
fig:2.5-1
}
展示了这两种的句法表示形式的实例。其中,左侧是短语结构树。它描述的是短语的结构功能,比如``吃''是动词(记为VV),``鱼''是名词(记为NN),``吃鱼''组成动词短语,这个短语再与``喜欢''这一动词组成新的动词短语。每个子树都是一个句法功能单元,比如,VP(VV(吃) NN(鱼))这个子树就表示了``吃鱼''这个动词短语的结构,其中子树根节点VP是句法功能标记。短语结构树利用嵌套和递归的方式描述了语言学的功能。短语结构树中,每个词都有词性(或词类),不同的词或者短语可以组成名动结构、动宾结构等语言学短语结构。短语结构分析一般也被称为成分分析(constituency parsing),也被称作完全分析(full parsing)。
\parinterval
{
\small\sffamily\bfseries
{
句法
}}
(Syntax)是研究句子的每个组成部分和它们之间的组合方式。一般来说,句法和语言是相关的,比如,英文是主谓宾结构,而日语是主宾谓结构。因此不同的语言也会有不同的句法描述方式。自然语言处理领域最常用的两种句法分析形式是
{
\small\sffamily\bfseries
{
短语结构分析
}}
(Phrase Structure Parsing)和
{
\small\sffamily\bfseries
{
依存分析
}}
(Dependency Parsing)。图
\ref
{
fig:2.5-1
}
展示了这两种的句法表示形式的实例。其中,左侧是短语结构树。它描述的是短语的结构功能,比如``吃''是动词(记为VV),``鱼''是名词(记为NN),``吃
\
鱼''组成动词短语,这个短语再与``喜欢''这一动词组成新的动词短语。短语结构树的每个子树都是一个句法功能单元,比如,子树VP(VV(吃) NN(鱼))就表示了``吃
\
鱼''这个动词短语的结构,其中子树根节点VP是句法功能标记。短语结构树利用嵌套的方式描述了语言学的功能。短语结构树中,每个词都有词性(或词类),不同的词或者短语可以组成名动结构、动宾结构等语言学短语结构。短语结构分析一般也被称为
{
\small\bfnew
{
成分分析
}}
(Constituency Parsing),或
{
\small\bfnew
{
完全分析
}}
(Full Parsing)。
%----------------------------------------------
% 图2.5.1.1
...
...
@@ -913,9 +911,9 @@ c_{\textrm{KN}}(\cdot) & = & \begin{cases} \textrm{count}(\cdot)\quad \textrm{fo
\parinterval
图
\ref
{
fig:2.5-1
}
右侧展示的是另一种句法结构,被称作依存句法树。依存句法树表示了句子中单词和单词之间的依存关系。比如,从这个例子可以了解,``猫''依赖``喜欢'',``吃''依赖``喜欢'',``鱼''依赖``吃''。
\parinterval
短语结构树和依存句法树的结构和功能
都有所不同。短语结构树的叶子节点是单词,中间节点是词性或者短语句法标记。在短语结构分析中,通常把单词称作终结符(terminal),把词性称为预终结符(pre-terminal),而把其它句法标记称为非终结符(non-terminal)。依存句法树没有预终结符和非终结符,所有的节点都是句子里的单词,通过不同节点间的连线表示句子中各个单词之间的依存关系。每个依存关系实际上都是有方向的,头和尾分别指向``接受''和``发出''依存关系的词。每个依存关系也可以进行分类,如图
\ref
{
fig:2.5-1
}
所示,每个依存关系都的类型都进行了标记,这也被称作
有标记的依存分析。如果不生成这些标记,这样的句法分析被称作无标记的依存分析。
\parinterval
短语结构树和依存句法树的结构和功能
有很大不同。短语结构树的叶子节点是单词,中间节点是词性或者短语句法标记。在短语结构分析中,通常把单词称作
{
\small\bfnew
{
终结符
}}
(Terminal),把词性称为
{
\small\bfnew
{
预终结符
}}
(Pre-terminal),而把其它句法标记称为
{
\small\bfnew
{
非终结符||(Non-terminal)。依存句法树没有预终结符和非终结符,所有的节点都是句子里的单词,通过不同节点间的连线表示句子中各个单词之间的依存关系。每个依存关系实际上都是有方向的,头和尾分别指向``接受''和``发出''依存关系的词。依存关系也可以进行分类,如图
\ref
{
fig:2.5-1
}
对每个依存关系的类型都进行了标记,这也被称作是
有标记的依存分析。如果不生成这些标记,这样的句法分析被称作无标记的依存分析。
\parinterval
虽然短语结构树和依存树
是两种不同的句法表现形式,但是它们在某种条件下能相互转化。比如,可以使用启发性规则将短语结构树自动转化为依存树。从应用的角度,依存分析由于形式更加简单,而且直接建模词语之间的依赖,因此在最近自然语言处理领域中关注较多。在机器翻译中,不过无论是哪种句法树结构,都已经被证明会对机器翻译系统产生正面效果。特别是短语结构树,在机器翻译中的应用历史更长,研究更加深入,因此本节将会里短语结构分析为例介绍
相关概念。
\parinterval
虽然短语结构树和依存树
的句法表现形式有很大不同,但是它们在某种条件下能相互转化。比如,可以使用启发性规则将短语结构树自动转化为依存树。从应用的角度,依存分析由于形式更加简单,而且直接建模词语之间的依赖,因此在自然语言处理领域中受到很多关注。在机器翻译中,不过无论是哪种句法树结构,都已经被证明会对机器翻译系统产生正向效果。特别是短语结构树,在机器翻译中的应用历史更长,研究更加深入,因此本节将会以短语结构分析为例介绍句法分析的
相关概念。
\parinterval
而句法分析到底是什么呢?简单的理解,句法分析就是我们在小学语文课程中学习的句子中的主谓宾等句子成分的分析,以及对句子中各个成分内部、外部关系的判断。更规范一些的定义,可以参照维基百科和百度百科的句法分析的解释。
\vspace
{
-0.5em
}
...
...
Book/mt-book-xelatex.idx
查看文件 @
6c2bec34
\indexentry{Chapter2.1|hyperpage}{6}
\indexentry{Chapter2.2|hyperpage}{7}
\indexentry{Chapter2.2.1|hyperpage}{7}
\indexentry{Chapter2.2.2|hyperpage}{9}
\indexentry{Chapter2.2.3|hyperpage}{10}
\indexentry{Chapter2.2.4|hyperpage}{11}
\indexentry{Chapter2.2.5|hyperpage}{13}
\indexentry{Chapter2.2.5.1|hyperpage}{13}
\indexentry{Chapter2.2.5.2|hyperpage}{14}
\indexentry{Chapter2.2.5.3|hyperpage}{14}
\indexentry{Chapter2.3|hyperpage}{15}
\indexentry{Chapter2.3.1|hyperpage}{16}
\indexentry{Chapter2.3.2|hyperpage}{17}
\indexentry{Chapter2.3.2.1|hyperpage}{17}
\indexentry{Chapter2.3.2.2|hyperpage}{18}
\indexentry{Chapter2.3.2.3|hyperpage}{20}
\indexentry{Chapter2.4|hyperpage}{22}
\indexentry{Chapter2.4.1|hyperpage}{23}
\indexentry{Chapter2.4.2|hyperpage}{25}
\indexentry{Chapter2.4.2.1|hyperpage}{26}
\indexentry{Chapter2.4.2.2|hyperpage}{27}
\indexentry{Chapter2.4.2.3|hyperpage}{28}
\indexentry{Chapter2.5|hyperpage}{30}
\indexentry{Chapter2.5.1|hyperpage}{30}
\indexentry{Chapter2.5.2|hyperpage}{32}
\indexentry{Chapter2.5.3|hyperpage}{35}
\indexentry{Chapter2.6|hyperpage}{39}
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论