Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
64946057
Commit
64946057
authored
Jul 22, 2020
by
单韦乔
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
第二章骰子游戏修改
parent
a4502e15
显示空白字符变更
内嵌
并排
正在显示
4 个修改的文件
包含
219 行增加
和
12 行删除
+219
-12
Chapter2/Figures/figure-full-probability-word-segmentation-1.tex
+52
-0
Chapter2/Figures/figure-full-probability-word-segmentation-2.tex
+48
-0
Chapter2/Figures/figure-full-probability-word-segmentation-3.tex
+37
-0
Chapter2/chapter2.tex
+82
-12
没有找到文件。
Chapter2/Figures/figure-full-probability-word-segmentation-1.tex
0 → 100644
查看文件 @
64946057
\definecolor
{
ublue
}{
rgb
}{
0.152,0.250,0.545
}
\definecolor
{
ugreen
}{
rgb
}{
0,0.5,0
}
%%% outline
%-------------------------------------------------------------------------
\begin{tikzpicture}
{
\begin{scope}
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s1) at (0,0)
{{
88
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s2) at ([xshift=0.2cm]s1.east)
{{
87
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s3) at ([xshift=0.2cm]s2.east)
{{
45
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s4) at ([xshift=0.2cm]s3.east)
{{
47
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s5) at ([xshift=0.2cm]s4.east)
{{
100
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s6) at ([xshift=0.2cm]s5.east)
{{
15
}}
;
\end{scope}
\begin{scope}
[yshift=-1cm]
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s1) at (0,0)
{{
5
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s2) at ([xshift=0.2cm]s1.east)
{{
230
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s3) at ([xshift=0.2cm]s2.east)
{{
7
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s4) at ([xshift=0.2cm]s3.east)
{{
234
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s5) at ([xshift=0.2cm]s4.east)
{{
500
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s6) at ([xshift=0.2cm]s5.east)
{{
39
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s7) at ([xshift=0.2cm]s6.east)
{{
100
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s8) at ([xshift=0.2cm]s7.east)
{{
15
}}
;
\end{scope}
\begin{scope}
[yshift=-2cm]
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s1) at (0,0)
{{
975
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s2) at ([xshift=0.2cm]s1.east)
{{
7
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s3) at ([xshift=0.2cm]s2.east)
{{
234
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s4) at ([xshift=0.2cm]s3.east)
{{
294
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s5) at ([xshift=0.2cm]s4.east)
{{
69
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s6) at ([xshift=0.2cm]s5.east)
{{
15
}}
;
\end{scope}
}
\end{tikzpicture}
Chapter2/Figures/figure-full-probability-word-segmentation-2.tex
0 → 100644
查看文件 @
64946057
\definecolor
{
ublue
}{
rgb
}{
0.152,0.250,0.545
}
\definecolor
{
ugreen
}{
rgb
}{
0,0.5,0
}
%%% outline
%-------------------------------------------------------------------------
\begin{tikzpicture}
\begin{scope}
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s1) at (0,0)
{
这
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s2) at ([xshift=0.2cm]s1.east)
{
是
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s3) at ([xshift=0.2cm]s2.east)
{
一
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s4) at ([xshift=0.2cm]s3.east)
{
种
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s5) at ([xshift=0.2cm]s4.east)
{
\small
{
数据
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s6) at ([xshift=0.2cm]s5.east)
{
。
}
;
\node
[anchor=west]
(s7) at ([xshift=0.2cm]s6.east)
{
...
}
;
\end{scope}
\begin{scope}
[yshift=-1cm]
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s1) at (0,0)
{
现在
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s2) at ([xshift=0.2cm]s1.east)
{
已经
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s3) at ([xshift=0.2cm]s2.east)
{
有
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s4) at ([xshift=0.2cm]s3.east)
{
不少
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s5) at ([xshift=0.2cm]s4.east)
{
\small
{
可
}}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s6) at ([xshift=0.2cm]s5.east)
{
用
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s7) at ([xshift=0.2cm]s6.east)
{
数据
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s8) at ([xshift=0.2cm]s7.east)
{
。
}
;
\node
[anchor=west]
(s9) at ([xshift=0.2cm]s8.east)
{
...
}
;
\end{scope}
\begin{scope}
[yshift=-2cm]
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s1) at (0,0)
{
确实
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s2) at ([xshift=0.2cm]s1.east)
{
有
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s3) at ([xshift=0.2cm]s2.east)
{
很
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s4) at ([xshift=0.2cm]s3.east)
{
多
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt, inner sep=0]
(s5) at ([xshift=0.2cm]s4.east)
{
疑问
}
;
\node
[anchor=west,draw,very thick,minimum size=25pt]
(s6) at ([xshift=0.2cm]s5.east)
{
。
}
;
\node
[anchor=west]
(s7) at ([xshift=0.2cm]s6.east)
{
...
}
;
\end{scope}
\end{tikzpicture}
%---------------------------------------------------------------------
Chapter2/Figures/figure-full-probability-word-segmentation-3.tex
0 → 100644
查看文件 @
64946057
\definecolor
{
ublue
}{
rgb
}{
0.152,0.250,0.545
}
\definecolor
{
ugreen
}{
rgb
}{
0,0.5,0
}
%%% outline
%-------------------------------------------------------------------------
\begin{tikzpicture}
\node
[anchor=west] (label1) at (0,0)
{
总词数:
$
6
+
8
+
5
=
20
$}
;
\node
[anchor=north west] (p1) at (label1.south west)
{$
\textrm
{
P
}
(
\textrm
{
“很”
}
)=
1
/
20
=
0
.
05
$}
;
\node
[anchor=north west] (p2) at (p1.south west)
{$
\textrm
{
P
}
(
\textrm
{
“。”
}
)=
3
/
20
=
0
.
15
$}
;
\node
[anchor=north west] (p3) at (p2.south west)
{$
\textrm
{
P
}
(
\textrm
{
“确实”
}
)=
1
/
20
=
0
.
05
$}
;
\node
[anchor=north west] (label11) at ([xshift=18.0em,yshift=1.63em]label1.south west)
{
更多数据-总词数:100K
$
\sim
$
1M
}
;
\node
[anchor=north west] (p12) at (label11.south west)
{$
\textrm
{
P
}
(
\textrm
{
“很”
}
)=
0
.
000010
$}
;
\node
[anchor=north west] (p22) at (p12.south west)
{$
\textrm
{
P
}
(
\textrm
{
“。”
}
)=
0
.
001812
$}
;
\node
[anchor=north west] (p32) at (p22.south west)
{$
\textrm
{
P
}
(
\textrm
{
“确实”
}
)=
0
.
000001
$}
;
\begin{pgfonlayer}
{
background
}
{
\node
[rectangle,draw=ublue, inner sep=0mm]
[fit =(label1)(label11)(p3)(p32)]
{}
;
}
\end{pgfonlayer}
\end{tikzpicture}
%---------------------------------------------------------------------
Chapter2/chapter2.tex
查看文件 @
64946057
...
...
@@ -627,7 +627,15 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
\sectionnewpage
\section
{
掷骰子游戏
}
\parinterval
上述过程的核心在于从数据中学习一种对分词现象的统计描述,即学习函数
$
\textrm
{
P
}
(
\cdot
)
$
。如何让计算机利用分词好的数据学习到分词的知识呢?可以先看一个有趣的实例(图
\ref
{
fig:2-11
}
),用生活中比较常见的掷骰子来说,掷一个骰子,玩家猜一个数字,猜中就算赢。按照一般的常识,随便选一个数字,获胜的概率是一样的,即所有选择的获胜概率仅是
$
1
/
6
$
。因此这个游戏玩家很难获胜,除非运气很好。假设进行一次游戏,玩家随便选了一个数字,比如是1,投掷30次骰子,得到命中
$
7
/
30
>
1
/
6
$
,还不错。
\parinterval
世界上很多事物都具有不确定性,大到宇宙的运行,小到分子的运动。建立统计模型正是描述这种不确定性的一种手段,包括机器翻译在内对众多自然语言处理问题的求解都大量依赖于此模型。本章将会对统计建模的基础数学工具进行介绍,并在此基础上对语言建模问题展开讨论。实际上,统计建模与语言建模任务的结合产生了自然语言处理的一个重要方向
\ \dash\
统计语言建模。这是一个典型的语言生成任务。一方面,它与机器翻译属于同一类型任务,比如,二者都对应了单词串生成的过程,因此在描述问题的思想上有很多相似之处;另一方面,统计语言模型也常常被作为机器翻译系统的组件,对于机器翻译系统研发有着重要意义。本章所讨论的内容对本书后续章节有很好的铺垫作用,特别是运用统计模型的思想对自然语言处理问题进行描述,在本书后面的内容中也会被大量使用。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
%----------------------------------------------------------------------------------------
\subsection
{
统计语言建模
}
\parinterval
我们在阐述统计建模方法前,先看一个有趣的实例(图
\ref
{
fig:2-11
}
)。掷骰子,一个生活中比较常见的游戏,掷一个骰子,玩家猜一个数字,猜中就算赢,按照常识来说,随便选一个数字,获胜的概率是一样的,即所有选择的获胜概率都是
$
1
/
6
$
。因此这个游戏玩家很难获胜,除非运气很好。假设进行一次游戏,玩家随意选了一个数字,比如是1。当投掷30次骰子,发现我们的运气不错,得到命中
$
7
/
30
>
1
/
6
$
,还不错。
\vspace
{
-0.5em
}
%----------------------------------------------
...
...
@@ -640,8 +648,7 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
\end{figure}
%-------------------------------------------
\vspace
{
-0.5em
}
\parinterval
似乎玩家的胜利只能来源于运气。不过,请注意,这里的假设``随便选一个数字''本身就是一个概率模型,它对骰子的六个面的出现做了均匀分布假设。
\parinterval
此时玩家的胜利似乎只能来源于运气。不过,请注意,这里的假设``随便选一个数字''本身就是一个概率模型,它对骰子的六个面的出现做了均匀分布假设。
\begin{eqnarray}
\textrm
{
P(``1'')
}
=
\textrm
{
P(``2'')
}
=...=
\textrm
{
P(``5'')
}
=
\textrm
{
P(``6'')
}
=1/6
\label
{
eq:2-17
}
...
...
@@ -659,7 +666,7 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
\label
{
eq:2-18
}
\end{eqnarray}
\noindent
这里,
$
\theta
_
1
\sim
\theta
_
5
$
可以被看作是模型的参数,因此这个模型的自由度是5。对于这样的模型,参数确定了,模型也就确定了。但是,新的问题来了,在定义骰子每个面的概率后,如何求出具体的值呢?一种常用的方法是,从大量实例中学习模型参数,这个方法也是常说的
{
\small\bfnew
{
参数估计
}}
\index
{
参数估计
}
(Parameter Estimation)
\index
{
Parameter Estimation
}
。可以将这个不均匀的骰子先实验性的掷很多次,这可以被看作是独立同分布的若干次采样,比如
$
X
$
次,发现``1'' 出现
$
X
_
1
$
次,``2'' 出现
$
X
_
2
$
次,以此类推,得到了各个面出现的次数。假设掷骰子中每个面出现的概率符合多项式分布,通过简单的概率论知识可以知道每个面出现概率的极大似然估计为:
\noindent
这里,
$
\theta
_
1
\sim
\theta
_
5
$
可以被看作是模型的参数,因此这个模型的自由度是5。对于这样的模型,参数确定了,模型也就确定了。但是,新的问题来了,在定义骰子每个面的概率后,如何求出具体的
概率
值呢?一种常用的方法是,从大量实例中学习模型参数,这个方法也是常说的
{
\small\bfnew
{
参数估计
}}
\index
{
参数估计
}
(Parameter Estimation)
\index
{
Parameter Estimation
}
。可以将这个不均匀的骰子先实验性的掷很多次,这可以被看作是独立同分布的若干次采样,比如
$
X
$
次,发现``1'' 出现
$
X
_
1
$
次,``2'' 出现
$
X
_
2
$
次,以此类推,得到了各个面出现的次数。假设掷骰子中每个面出现的概率符合多项式分布,通过简单的概率论知识可以知道每个面出现概率的极大似然估计为:
\begin{eqnarray}
\textrm
{
P(``i'')
}
=
\frac
{
X
_
i
}{
X
}
\label
{
eq:2-19
}
...
...
@@ -676,7 +683,7 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
\end{figure}
%-------------------------------------------
\parinterval
于是,我们
看到了一个有倾向性的模型(图
\ref
{
fig:2-13
}
):在这样的预先实验基础上,可以知道如果再次玩掷骰子游戏的话,选则
数字``4''获胜的可能性是最大的。
\parinterval
于是,我们
可以看到,这是一个有倾向性的模型(图
\ref
{
fig:2-13
}
):在这样的预先实验基础上,可以知道这个骰子是不均匀的,如果用这个骰子玩掷骰子游戏,选择
数字``4''获胜的可能性是最大的。
%----------------------------------------------
\begin{figure}
[htp]
...
...
@@ -687,9 +694,71 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
\end{figure}
%-------------------------------------------
\parinterval
通过上面这个掷骰子的游戏,可以得到一个道理:
{
\small\sffamily\bfseries
{
上帝是不公平的
}}
。因为在``公平''的世界中,没有任何一个模型可以学到有价值的事情。从机器学习的角度来看,所谓的``不公平''实际上这是客观事物中蕴含的一种
{
\small\sffamily\bfseries
{
偏置
}}
\index
{
偏置
}
(Bias)
\index
{
Bias
}
,也就是很多事情天然就有对某些情况有倾向。而图像处理、自然语言处理等问题中绝大多数都存在着偏置。
\parinterval
{
\small\sffamily\bfseries
{
上帝是不公平的
}}
,上面这个掷骰子游戏也是如此。在``公平''的世界中,没有任何一个模型可以学到有价值的事情。从机器学习的角度来看,所谓的``不公平''实际上这是客观事物中蕴含的一种
{
\small\sffamily\bfseries
{
偏置
}}
\index
{
偏置
}
(Bias)
\index
{
Bias
}
,也就是很多事情天然就有对某些情况有倾向。而图像处理、自然语言处理等问题中绝大多数都存在着偏置。比如,我们翻译一个英文单词的时候,它最可能的翻译结果往往就是那几个词。设计统计模型的目的正式要学习这种偏置,之后利用这种偏置对新的问题做出足够好的决策。
\parinterval
在处理语言问题时,为了评价哪些词更容易在一个句子中出现,或者哪些句子在某些语境下更合理,常常也会使用统计方法对词或句子出现的可能性建模。与掷骰子游戏类似,词出现的概率可以这样理解:每个单词的出现就好比掷一个巨大的骰子,与前面的例子中有所不同的是:
\begin{itemize}
\vspace
{
0.5em
}
\item
骰子有很多个面,每个面代表一个单词。
\vspace
{
0.5em
}
\item
骰子是不均匀的,代表常用单词所在的那些面的出现次数会远远多于罕见词。
\vspace
{
0.5em
}
\end{itemize}
\parinterval
如果投掷这个新的骰子,可能会得到图
\ref
{
fig:2-14
}
这样的结果,
%----------------------------------------------
\begin{figure}
[htp]
\centering
\input
{
./Chapter2/Figures/figure-full-probability-word-segmentation-1
}
\caption
{
投掷一个很多面骰子的结果
}
\label
{
fig:2-14
}
\end{figure}
%-------------------------------------------
\parinterval
如果,把这些数字换成汉语中的词,比如
\parinterval
88
\;
=
\;
这
\parinterval
87
\;
=
\;
是
\parinterval
45
\;
=
\;
一
\parinterval
...
\parinterval
就可以得到图
\ref
{
fig:2-15
}
所示的结果。
%----------------------------------------------
\begin{figure}
[htp]
\centering
\input
{
./Chapter2/Figures/figure-full-probability-word-segmentation-2
}
\setlength
{
\belowcaptionskip
}{
-0.2cm
}
\caption
{
掷骰子游戏中把数字换成汉字后的结果
}
\label
{
fig:2-15
}
\end{figure}
%-------------------------------------------
\parinterval
于是,可以假设有一个不均匀的多面骰子,每个面都对应一个单词。在获取一些文本数据后,可以统计每个单词出现的次数,进而利用极大似然估计推算出每个单词在语料库中出现的概率的估计值。图
\ref
{
fig:2-16
}
给出了一个实例。
\parinterval
比如,在机器翻译任务中,当我们想将一个英文单词翻译为汉字的时候,最简单的方式是,让计算机在最全的汉英字典中从头至尾地寻找对应的字或词组,这相当于假设了字典中的每个字都有可能在这句话中出现,如同我们认为骰子的6个面出现的概率是等可能的。但是显然由于语境的限制,一个句子中可能出现的字不会太多。例如,人类在翻译体育新闻时会更倾向于考虑``篮球''、``奥运会''等词汇,而不是``核武器''。那么如何让机器学会这种``偏置''呢?常用的方式是在进行翻译之前准备一些与待翻译句子领域相关的文本,计算出这个文本中每一个出现的词汇的概率,并用这个概率作为词在待翻译句子中出现的可能性。与先前掷骰子的思想相同,在文本中,每看一个字的动作都像在掷一次骰子,看到的每个字就像是骰子的一个面,文本中有多少个字就是掷了多少次骰子。因此从文本中学到的概率也是不均匀的,该领域中经常出现的词汇的概率将远高于该词汇在字典中出现的概率,因此这种概率也更加利于对该领域句子的翻译。设计统计模型的目的正是要根据不同的领域或文本学习不同概率,也就是学习偏置,之后利用这种偏置对新的问题做出足够好的决策。
%----------------------------------------------
\begin{figure}
[htp]
\centering
\input
{
./Chapter2/Figures/figure-full-probability-word-segmentation-3
}
\caption
{
单词概率的估计结果
}
\label
{
fig:2-16
}
\end{figure}
%-------------------------------------------
\parinterval
通过这个学习过程,我们就可以得到每个词出现的概率,成功使用统计方法对“单词的频率”这个问题进行建模。
\parinterval
那么又该如何计算一个句子的概率呢?在自然语言处理领域中,句子可以被看作是由单词组成的序列,因而句子的概率可以被建模为若干单词的联合概率,即:
\begin{eqnarray}
\textrm
{
P
}
(w
_
1 w
_
2 w
_
3...w
_
m)
\label
{
eq:2-20
}
\end{eqnarray}
\parinterval
其中,
$
w
$
表示句子中的一个单词。此时仍可以使用掷骰子的方式,将骰子的每个面看作一个句子,然后用统计词汇概率的方式统计句子的概率。但是这里有一个问题,一个句子在指定文本中出现的次数一定比词汇在文本出现的次数低得多,此时通过统计的方式求句子的频率会由于样本数太少,导致无法准确的求出句子的概率,因此对句子的统计建模仍需要更好的方式。
%----------------------------------------------------------------------------------------
% NEW SECTION
...
...
@@ -698,7 +767,7 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
\sectionnewpage
\section
{$
n
$
-gram语言模型
}
\parinterval
在
翻译过程中,为了衡量机器生成的句子是否是正常人可以理解的话,我们常常要给句子的合理程度打分。以英语为例,最简单的方式是将句子看作一个由许多单词构成的串,这个串的合理性可以由其中每个单词的合理性判断,此时每个单词也被称作1-gram(或uni-gram),而1-gram概率的乘积实际上也是在度量词序列出现的可能性(记为
$
\textrm
{
P
}
(
w
_
1
w
_
2
...w
_
m
)
$
)。这种计算整个单词序列概率
$
\textrm
{
P
}
(
w
_
1
w
_
2
...w
_
m
)
$
的方法被称为统计语言模型。1-gram语言模型是最简单的一种语言模型,它没有考虑任何的上下文。很自然的一个问题是:能否考虑上下文信息构建更强大的语言模型,进而得到更准确的分词结果。下面将进一步介绍更加通用的
$
n
$
-gram语言模型,它在机器翻译及其他自然语言处理任务中有更加广泛的应用。
\parinterval
在
骰子游戏中,我们可以通过一种统计的方式,估计出在文本中词和句子出现的概率。但是在计算句子概率时往往会因为句子的样本过少而无法正确估计出句子出现的频率,为了能够准确地衡量句子出现的频率,我们引入了计算整个单词序列概率
$
\textrm
{
P
}
(
w
_
1
w
_
2
w
_
3
...w
_
m
)
$
的方法---统计语言模型的概念,并在本章进一步介绍更加通用的n
-gram语言模型,它在机器翻译及其他自然语言处理任务中有更加广泛的应用。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
...
...
@@ -749,10 +818,11 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
}
\end{center}
\vspace
{
-1.5em
}
\parinterval
可以看到,1-gram语言模型只是
$
n
$
-gram语言模型的一种特殊形式。
$
n
$
-gram的优点在于,它所使用的历史信息是有限的,即
$
n
-
1
$
个单词。这种性质也反映了经典的马尔可夫链的思想
\cite
{
liuke-markov-2004
}
\cite
{
resnick1992adventures
}
,有时也被称作马尔可夫假设或者马尔可夫属性。因此
$
n
$
-gram也可以被看作是变长序列上的一种马尔可夫模型,比如,2-gram语言模型对应着1阶马尔可夫模型,3-gram语言模型对应着2阶马尔可夫模型,以此类推。
\parinterval
$
n
$
-gram的优点在于,它所使用的历史信息是有限的,即
$
n
-
1
$
个单词。这种性质也反映了经典的马尔可夫链的思想
\cite
{
liuke-markov-2004
}
\cite
{
resnick1992adventures
}
,有时也被称作马尔可夫假设或者马尔可夫属性。因此
$
n
$
-gram也可以被看作是变长序列上的一种马尔可夫模型,比如,2-gram语言模型对应着1阶马尔可夫模型,3-gram语言模型对应着2阶马尔可夫模型,以此类推。
\parinterval
可以看到,1-gram语言模型只是
$
n
$
-gram语言模型的一种特殊形式。基于独立性假设,1-gram假定当前词出现与否与任何历史都无关,这种方法大大化简了求解句子概率的复杂度。
\parinterval
那么
,如何计算
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
呢?有很多种选择,比如:
\parinterval
虽然1-gram语言模型的计算十分简单,但是它没有考虑任何的上下文。就像英语中完形填空考察的那样,句子中的词汇并非完全相互独立的,因此这种语言模型并不能完美的描述客观世界的问题。如果需要更精确的处理结果,仍需要使用更长的n-gram。那么在使用更长的n-gram时
,如何计算
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
呢?有很多种选择,比如:
\begin{itemize}
\vspace
{
0.5em
}
...
...
@@ -781,7 +851,7 @@ l_p(\mathbf x) & = & {\Vert{\mathbf x}\Vert}_p \nonumber \\
\label
{
eq:2-25
}
\end{eqnarray}
\parinterval
以
$
n
$
-gram语言模型为代表的统计语言模型的应用非常广泛。除了
分词
,在文本生成、信息检索、摘要等自然语言处理任务中,语言模型都有举足轻重的地位。包括近些年非常受关注的预训练模型,本质上也是统计语言模型。这些技术都会在后续章节进行介绍。值得注意的是,统计语言模型为解决自然语言处理问题提供了一个非常好的建模思路,即:把整个序列生成的问题转化为逐个生成单词的问题。很快我们就会看到,这种建模方式会被广泛地用于机器翻译建模,在统计机器翻译和神经机器翻译中都会有明显的体现。
\parinterval
以
$
n
$
-gram语言模型为代表的统计语言模型的应用非常广泛。除了
将要在第三章中介绍的全概率分词方法
,在文本生成、信息检索、摘要等自然语言处理任务中,语言模型都有举足轻重的地位。包括近些年非常受关注的预训练模型,本质上也是统计语言模型。这些技术都会在后续章节进行介绍。值得注意的是,统计语言模型为解决自然语言处理问题提供了一个非常好的建模思路,即:把整个序列生成的问题转化为逐个生成单词的问题。很快我们就会看到,这种建模方式会被广泛地用于机器翻译建模,在统计机器翻译和神经机器翻译中都会有明显的体现。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论