Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
8794e37a
Commit
8794e37a
authored
Aug 30, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
wording (word dictionary-based segmentation)
parent
fbd71acd
隐藏空白字符变更
内嵌
并排
正在显示
3 个修改的文件
包含
10 行增加
和
10 行删除
+10
-10
Chapter3/Figures/figure-cross-type-word-segmentation-ambiguity.tex
+4
-4
Chapter3/Figures/figure-example-of-word-segmentation-based-on-dictionary.tex
+2
-2
Chapter3/chapter3.tex
+4
-4
没有找到文件。
Chapter3/Figures/figure-cross-type-word-segmentation-ambiguity.tex
查看文件 @
8794e37a
...
@@ -44,15 +44,15 @@
...
@@ -44,15 +44,15 @@
}
}
{
{
\node
[anchor=west,thick,draw,minimum width=3.4em,minimum height=1.5em] (w1) at (c3.west)
{}
;
\node
[anchor=west,thick,draw,minimum width=3.4em,minimum height=1.5em
,ugreen
] (w1) at (c3.west)
{}
;
\draw
[->,thick] (entry3.30) ..controls +(70:1) and +(south:1.5).. ([xshift=0.3em]w1.south) node [pos=0.5, above]
{
\footnotesize
{
命中
}}
;
\draw
[->,thick
,ugreen
] (entry3.30) ..controls +(70:1) and +(south:1.5).. ([xshift=0.3em]w1.south) node [pos=0.5, above]
{
\footnotesize
{
命中
}}
;
}
}
{
{
\node
[anchor=west,very thick,draw,dotted,minimum width=3.4em,minimum height=1.9em,
red
] (w3) at (c2.west)
{}
;
\node
[anchor=west,very thick,draw,dotted,minimum width=3.4em,minimum height=1.9em,
ublue
] (w3) at (c2.west)
{}
;
\draw
[->,very thick,dotted,
red] ([yshift=-0.2em]entry6.30) ..controls +(60:2) and +(south:3).. ([xshift=-0.6em]w3.south) node [pos=0.5, below]
{
\color
{
red
}{
\footnotesize
{
命中
}}}
;
\draw
[->,very thick,dotted,
ublue] ([yshift=-0.2em]entry6.30) ..controls +(60:2) and +(south:3).. ([xshift=-0.6em]w3.south) node [pos=0.5, below]
{
\color
{
ublue
}{
\footnotesize
{
命中
}}}
;
}
}
...
...
Chapter3/Figures/figure-example-of-word-segmentation-based-on-dictionary.tex
查看文件 @
8794e37a
...
@@ -102,8 +102,8 @@
...
@@ -102,8 +102,8 @@
}
}
{
{
\node
[anchor=west,thick,draw,
red
,minimum width=1.6em,minimum height=1.3em] (w18) at ([xshift=0.1em]c8.west)
{}
;
\node
[anchor=west,thick,draw,
ublue
,minimum width=1.6em,minimum height=1.3em] (w18) at ([xshift=0.1em]c8.west)
{}
;
\node
[anchor=north] (l18) at ([yshift=
0.2em]w18.south)
{{
\color
{
red
}
\footnotesize
{
命中:2
}}}
;
\node
[anchor=north] (l18) at ([yshift=
-0.2em]w18.south)
{{
\color
{
ublue
}
\footnotesize
{
命中:第2号单词
}}}
;
}
}
\end{tikzpicture}
\end{tikzpicture}
...
...
Chapter3/chapter3.tex
查看文件 @
8794e37a
...
@@ -127,9 +127,9 @@ Interests $\to$ \; Interest/s & selected $\to$ \; se/lect/ed & processed $\to$ \
...
@@ -127,9 +127,9 @@ Interests $\to$ \; Interest/s & selected $\to$ \; se/lect/ed & processed $\to$ \
\subsection
{
基于词典的分词方法
}
\subsection
{
基于词典的分词方法
}
\parinterval
计算机并不能像人类一样在概念上理解``词'',因此需要使用其他方式让计算机
可以进行
分词。一个最简单的方法就是给定一个词典,在这个词典中出现的汉字组合就是所定义的``词''。也就是,通过一个词典定义一个标准,符合这个标准定义的字符串都是合法的``词''。
\parinterval
计算机并不能像人类一样在概念上理解``词'',因此需要使用其他方式让计算机
“学会”如何
分词。一个最简单的方法就是给定一个词典,在这个词典中出现的汉字组合就是所定义的``词''。也就是,通过一个词典定义一个标准,符合这个标准定义的字符串都是合法的``词''。
\parinterval
在使用基于词典的分词方法时,只需预先加载词典到计算机中,扫描输入句子,查询每个词串是否出现在词典中。如图
\ref
{
fig:3.2-2
}
所示,有一个包含六个词的词典,给定输入句子``确实现在物价很高''后,分词系统自左至右遍历输入句子的每个字,发现词串``确实''在词典中出现,说明``确实''是一个``词''
,进行分词操作并在切分该``词''之后
重复这个过程。
\parinterval
在使用基于词典的分词方法时,只需预先加载词典到计算机中,扫描输入句子,查询每个词串是否出现在词典中。如图
\ref
{
fig:3.2-2
}
所示,有一个包含六个词的词典,给定输入句子``确实现在物价很高''后,分词系统自左至右遍历输入句子的每个字,发现词串``确实''在词典中出现,说明``确实''是一个``词''
。之后,
重复这个过程。
%----------------------------------------------
%----------------------------------------------
\begin{figure}
[htp]
\begin{figure}
[htp]
...
@@ -140,7 +140,7 @@ Interests $\to$ \; Interest/s & selected $\to$ \; se/lect/ed & processed $\to$ \
...
@@ -140,7 +140,7 @@ Interests $\to$ \; Interest/s & selected $\to$ \; se/lect/ed & processed $\to$ \
\end{figure}
\end{figure}
%-------------------------------------------
%-------------------------------------------
\parinterval
但是,基于词典的分词方法很``硬''。这是因为自然语言非常灵活,经常出现歧义
,用词典定义的合法单词之间有重叠的交叉型歧义就很难解决。图
\ref
{
fig:3.2-3
}
就给出了上面例子中的交叉型歧义,从词典中查看,``
实现''和``现在''都是合法的单词,但是在句子中二者有重叠,因此词典无法告诉系统哪个结果是正确的。
\parinterval
但是,基于词典的分词方法很``硬''。这是因为自然语言非常灵活,经常出现歧义
。图
\ref
{
fig:3.2-3
}
就给出了上面例子中的交叉型歧义,从词典中查看,``
实现''和``现在''都是合法的单词,但是在句子中二者有重叠,因此词典无法告诉系统哪个结果是正确的。
%----------------------------------------------
%----------------------------------------------
\begin{figure}
[htp]
\begin{figure}
[htp]
...
@@ -153,7 +153,7 @@ Interests $\to$ \; Interest/s & selected $\to$ \; se/lect/ed & processed $\to$ \
...
@@ -153,7 +153,7 @@ Interests $\to$ \; Interest/s & selected $\to$ \; se/lect/ed & processed $\to$ \
\parinterval
类似的例子在生活中也很常见。再比如``答辩结束的和尚未答辩的同学都请留在教室''一句中,正常的分词结果是``答辩/结束/的/和/尚未/答辩/的/同学/都/请/留在/教室'',但是由于``尚未''、``和尚''都是常见词汇,使用基于词典的分词方法在这时很容易出现切分错误。
\parinterval
类似的例子在生活中也很常见。再比如``答辩结束的和尚未答辩的同学都请留在教室''一句中,正常的分词结果是``答辩/结束/的/和/尚未/答辩/的/同学/都/请/留在/教室'',但是由于``尚未''、``和尚''都是常见词汇,使用基于词典的分词方法在这时很容易出现切分错误。
\parinterval
基于词典的分词方法是典型的基于规则的方法,完全依赖于人工给定的词典。在遇到歧义时,需要人工定义消除歧义的规则,比如,可以自左向右扫描每次匹配最长的单词,这是一种简单的启发式的消歧策略。图
\ref
{
fig:3.2-2
}
中的例子实际上就是使用这种策略得到的分词结果。但是,启发式的消岐方法
对人工的依赖程度很高
,而且启发式规则也不能处理所有的情况。所以说简单的基于词典的方法还不能很好的解决分词问题。
\parinterval
基于词典的分词方法是典型的基于规则的方法,完全依赖于人工给定的词典。在遇到歧义时,需要人工定义消除歧义的规则,比如,可以自左向右扫描每次匹配最长的单词,这是一种简单的启发式的消歧策略。图
\ref
{
fig:3.2-2
}
中的例子实际上就是使用这种策略得到的分词结果。但是,启发式的消岐方法
仍然需要人工设计启发式规则
,而且启发式规则也不能处理所有的情况。所以说简单的基于词典的方法还不能很好的解决分词问题。
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
% NEW SUB-SECTION
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论