Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
a744eab3
Commit
a744eab3
authored
Apr 12, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
minor updates of sections 2-3
parent
d8921642
全部展开
隐藏空白字符变更
内嵌
并排
正在显示
6 个修改的文件
包含
16 行增加
和
16 行删除
+16
-16
Book/Chapter2/Figures/figure-probability-values-corresponding-to-different-derivations.tex
+1
-1
Book/Chapter2/chapter2.tex
+8
-8
Book/Chapter3/Figures/figure-processes-SMT.tex
+1
-1
Book/mt-book-xelatex.idx
+0
-0
Book/mt-book-xelatex.ptc
+0
-0
Book/mt-book-xelatex.tex
+6
-6
没有找到文件。
Book/Chapter2/Figures/figure-probability-values-corresponding-to-different-derivations.tex
查看文件 @
a744eab3
...
...
@@ -66,7 +66,7 @@
\end{scope}
\draw
[->,thick,ublue] ([xshift=-2em]sent.south) ..controls + (south:2em) and +(north:2em).. ([xshift=-8em,yshift=-2em]sent.south);
\draw
[->,thick,ublue] ([xshift=-1em]sent.south) ..controls + (south:2em) and +(north:2em).. ([xshift=-2em,yshift=-
3
em]sent.south);
\draw
[->,thick,ublue] ([xshift=-1em]sent.south) ..controls + (south:2em) and +(north:2em).. ([xshift=-2em,yshift=-
2
em]sent.south);
\draw
[->,thick,ublue] ([xshift=0em]sent.south) ..controls + (south:2em) and +(north:2em).. ([xshift=6.5em,yshift=-2em]sent.south);
\draw
[->,thick,ublue,dotted] ([xshift=1em]sent.south) ..controls + (south:1.5em) and +(north:2.5em).. ([xshift=12.5em,yshift=-2em]sent.south);
...
...
Book/Chapter2/chapter2.tex
查看文件 @
a744eab3
...
...
@@ -227,9 +227,9 @@ F(X)=\int_{-\infty}^x f(x)dx
\parinterval
举个例子,小张从家到公司有三条路分别为
$
a
$
,
$
b
$
,
$
c
$
,选择每条路的概率分别为0.5,0.3,0.2。令:
\begin{itemize}
\item
$
S
_
a
$
:小张选择
a
路去上班
\item
$
S
_
b
$
:小张选择
b
路去上班
\item
$
S
_
c
$
:小张选择
c
路去上班
\item
$
S
_
a
$
:小张选择
$
a
$
路去上班
\item
$
S
_
b
$
:小张选择
$
b
$
路去上班
\item
$
S
_
c
$
:小张选择
$
c
$
路去上班
\item
$
S
$
:小张去上班
\end{itemize}
...
...
@@ -308,7 +308,7 @@ F(X)=\int_{-\infty}^x f(x)dx
\subsubsection
{
KL距离
}
\index
{
Chapter2.2.5.2
}
\parinterval
如果同一个随机变量
$
X
$
上有两个独立的概率分布P
$
(
x
)
$
和Q
$
(
x
)
$
,那么可以使用KL距离(
"Kullback-Leibler"
散度)来衡量这两个分布的不同,这种度量就是
{
\small\bfnew
{
相对熵
}}
(Relative Entropy)。其公式如下:
\parinterval
如果同一个随机变量
$
X
$
上有两个独立的概率分布P
$
(
x
)
$
和Q
$
(
x
)
$
,那么可以使用KL距离(
``Kullback-Leibler''
散度)来衡量这两个分布的不同,这种度量就是
{
\small\bfnew
{
相对熵
}}
(Relative Entropy)。其公式如下:
\begin{eqnarray}
\textrm
{
D
}_{
\textrm
{
KL
}}
(
\textrm
{
P
}
\parallel
\textrm
{
Q
}
)
&
=
&
\sum
_{
x
\in
\textrm
{
X
}}
[
\textrm
{
P
}
(x)
\log
\frac
{
\textrm
{
P
}
(x)
}{
\textrm
{
Q
}
(x)
}
]
\nonumber
\\
&
=
&
\sum
_{
x
\in
\textrm
{
X
}
}
[
\textrm
{
P
}
(x)(
\log\textrm
{
P
}
(x)-
\log
\textrm
{
Q
}
(x))]
...
...
@@ -773,7 +773,7 @@ r^* = (r + 1)\frac{n_{r + 1}}{n_r}
\parinterval
基于这个公式,就可以估计所有0次
$
n
$
-gram的频次
$
n
_
0
r
^
*=(
r
+
1
)
n
_
1
=
n
_
1
$
。要把这个重新估计的统计数转化为概率,需要进行归一化处理:对于每个统计数为
$
r
$
的事件,其概率为
\begin{eqnarray}
\textrm
{
P
}_
r=
r
^
*/N
\textrm
{
P
}_
r=
\frac
{
r
^
*
}{
N
}
\end{eqnarray}
其中
...
...
@@ -784,7 +784,7 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\
\label
{
eq:2.4-10
}
\end{eqnarray}
也就是说,
$
N
$
仍然为这个整个样本分布最初的计数。
这样
样本中所有事件的概率之和为:
也就是说,
$
N
$
仍然为这个整个样本分布最初的计数。样本中所有事件的概率之和为:
\begin{eqnarray}
\textrm
{
P
}
(r>0)
&
=
&
\sum
_{
r>0
}{
\textrm
{
P
}_
r
}
\nonumber
\\
...
...
@@ -1152,7 +1152,7 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
\end{figure}
%-------------------------------------------
\parinterval
图
\ref
{
fig:2.5-9
}
展示了基于统计的句法分析的流程。首先,通过树库上的统计,获得各个规则的概率,这样就得到了一个上下文无关句法分析模型
$
\textrm
{
P
}
(
\cdot
)
$
。对于任意句法分析结果
$
d
=
r
_
1
\c
dot
r
_
2
\cdot
...
\cdot
r
_
n
$
,都能通过如下公式计算其概率值:
\parinterval
图
\ref
{
fig:2.5-9
}
展示了基于统计的句法分析的流程。首先,通过树库上的统计,获得各个规则的概率,这样就得到了一个上下文无关句法分析模型
$
\textrm
{
P
}
(
\cdot
)
$
。对于任意句法分析结果
$
d
=
r
_
1
\c
irc
r
_
2
\circ
...
\circ
r
_
n
$
,都能通过如下公式计算其概率值:
\begin{equation}
\textrm
{
P
}
(d)=
\prod
_{
i=1
}^{
n
}
\textrm
{
P
}
(r
_
i)
...
...
@@ -1182,7 +1182,7 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
\begin{itemize}
\item
在建模方面,本章介绍的三个任务均采用的是基于人工先验知识进行模型设计的思路。也就是,问题所表达的现象被``一步一步''生成出来。这是一种典型的生成式建模思想,它把要解决的问题看作一些观测结果的隐含变量(比如,句子是观测结果,分词结果是隐含在背后的变量),之后通过对隐含变量生成观测结果的过程进行建模,以达到对问题进行数学描述的目的。这类模型一般需要依赖一些独立性假设,假设的合理性对最终的性能有较大影响。相对
{
\small\sffamily\bfseries
{
生成模型
}}
(Generative Model),另一类方法
{
\small\sffamily\bfseries
{
判别模型
}}
(Discriminative Model),它直接描述了从隐含变量生成观测结果的过程,这样对问题的建模更加直接,同时这类模型可以更加灵活的引入不同的特征。判别式模型在自然语言处理中也有广泛应用
\cite
{
shannon1948mathematical
}
\cite
{
ng2002discriminative
}
。 在本书的第四章也会使用到判别式模型。
\item
从现在自然语言处理的前沿看,基于端到端学习的深度学习方法在很多任务中都取得了领先的性能。但是,本章并没有涉及深度学习及相关方法,这是由于笔者认为:
{
\color
{
red
}
对问题的建模是自然语言处理的基础,对问题的本质刻画并不会因为方法的改变而改变
}
。因此,本章的内容没有太多的陷入到更加复杂的模型和算法设计中,相反,我们希望关注对基本问题的理解和描述。不过,一些前沿方法仍可以作为参考,包括:基于条件随机场和双向长短时记忆模型的序列标注模型
(
\cite
{
lafferty2001conditional
}
\cite
{
huang2015bidirectional
}
\cite
{
ma2016end
}
、神经语言模型
\cite
{
bengio2003neural
}
\cite
{
mikolov2010recurrent
}
、神经句法分析模型
\cite
{
chen2014fast
}
\cite
{
zhu2015long
}
。
\item
从现在自然语言处理的前沿看,基于端到端学习的深度学习方法在很多任务中都取得了领先的性能。但是,本章并没有涉及深度学习及相关方法,这是由于笔者认为:
{
\color
{
red
}
对问题的建模是自然语言处理的基础,对问题的本质刻画并不会因为方法的改变而改变
}
。因此,本章的内容没有太多的陷入到更加复杂的模型和算法设计中,相反,我们希望关注对基本问题的理解和描述。不过,一些前沿方法仍可以作为参考,包括:基于条件随机场和双向长短时记忆模型的序列标注模型
\cite
{
lafferty2001conditional
}
\cite
{
huang2015bidirectional
}
\cite
{
ma2016end
}
、神经语言模型
\cite
{
bengio2003neural
}
\cite
{
mikolov2010recurrent
}
、神经句法分析模型
\cite
{
chen2014fast
}
\cite
{
zhu2015long
}
。
\item
此外,本章并没有对模型的推断方法进行深入介绍。比如,对于一个句子如何有效的找到概率最大的分词结果?显然,简单枚举是不可行的。对于这类问题比较简单的解决方法是使用动态规划
\cite
{
huang2008advanced
}
。如果使用动态规划的条件不满足,可以考虑使用更加复杂的搜索策略,并配合一定剪枝方法。实际上,无论是
$
n
$
-gram语言模型还是简单的上下文无关文法都有高效的推断方法。比如,
$
n
$
-gram语言模型可以被视为概率有限状态自动机,因此可以直接使用成熟的自动机工具。对于更复杂的句法分析问题,可以考虑使用移进-规约方法来解决推断问题
\cite
{
aho1972theory
}
。
\end{itemize}
...
...
Book/Chapter3/Figures/figure-processes-SMT.tex
查看文件 @
a744eab3
...
...
@@ -26,7 +26,7 @@
\draw
[->,very thick,ublue] ([xshift=0.2em]corpus.east) -- ([xshift=3.2em]corpus.east) node [pos=0.5, above]
{
\color
{
red
}{
\scriptsize
{
模型学习
}}}
;
{
\draw
[->,very thick,ublue] ([xshift=0.4em]model.east) -- ([xshift=3.4em]model.east) node [inner sep=0pt,pos=0.5, above,yshift=0.3em] (decodingarrow)
{
\color
{
red
}{
\scriptsize
{
穷举
\&
计算
}}}
;
\draw
[->,very thick,ublue] ([xshift=0.4em]model.east) -- ([xshift=3.4em]model.east) node [inner sep=0pt,pos=0.5, above,yshift=0.3em] (decodingarrow)
{
\color
{
red
}{
\scriptsize
{
搜索
\&
计算
}}}
;
{
\scriptsize
\node
[anchor=north west,inner sep=2pt] (sentlabel) at ([xshift=5.5em,yshift=-0.9em]model.north east)
{{
\color
{
ublue
}
\sffamily\bfseries
{
机器翻译引擎
}}}
;
...
...
Book/mt-book-xelatex.idx
查看文件 @
a744eab3
差异被折叠。
点击展开。
Book/mt-book-xelatex.ptc
查看文件 @
a744eab3
差异被折叠。
点击展开。
Book/mt-book-xelatex.tex
查看文件 @
a744eab3
...
...
@@ -112,13 +112,13 @@
% CHAPTERS
%----------------------------------------------------------------------------------------
%
\include{Chapter1/chapter1}
\include
{
Chapter1/chapter1
}
\include
{
Chapter2/chapter2
}
%
\include{Chapter3/chapter3}
%
\include{Chapter4/chapter4}
%
\include{Chapter5/chapter5}
%
\include{Chapter6/chapter6}
%
\include{ChapterAppend/chapterappend}
\include
{
Chapter3/chapter3
}
\include
{
Chapter4/chapter4
}
\include
{
Chapter5/chapter5
}
\include
{
Chapter6/chapter6
}
\include
{
ChapterAppend/chapterappend
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论