Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
单韦乔
Toy-MT-Introduction
Commits
eb79fea0
Commit
eb79fea0
authored
Feb 26, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
update chapter1-3
parent
f63f5cc9
全部展开
隐藏空白字符变更
内嵌
并排
正在显示
3 个修改的文件
包含
6 行增加
和
10 行删除
+6
-10
Book/Chapter2/chapter2.tex
+6
-10
Book/Chapter3/Chapter3.tex
+0
-0
Book/mt-book.bbl
+0
-0
没有找到文件。
Book/Chapter2/chapter2.tex
查看文件 @
eb79fea0
...
...
@@ -18,7 +18,7 @@
\parinterval
语言分析部分将以汉语为例介绍词法和句法分析。它们都是自然语言处理中的基本问题,而且在机器翻译中也会经常被使用。同样,我们会介绍这两个任务的定义和解决问题的思路。
\parinterval
语言建模是机器翻译中最常用的一种技术,它主要用于句子的生成和流畅度评价。我们会以传统计语言模型为例,对语言建模的相关概念进行介绍。但是,这里并不深入探讨语言模型技术,在后面的章节中还有会单独的内容对神经网络语言模型等前沿技术进行讨论。
\parinterval
语言建模是机器翻译中最常用的一种技术,它主要用于句子的生成和流畅度评价。我们会以传统计语言模型为例,对语言建模的相关概念进行介绍。但是,这里并不深入探讨语言模型技术,在后面的章节中还有会单独的内容对神经网络语言模型等前沿技术进行讨论。
\\
\\
\\
\\
%--问题概述-----------------------------------------
\section
{
问题概述
}
\index
{
Chapter2.1
}
...
...
@@ -67,9 +67,7 @@
\parinterval
本章将会对上述问题及方法进行介绍。首先,会用一个例子给出统计建模的基本思路,之后会应用这种方法进行中文分词、语言建模和句法分析。
%--概率论基础-----------------------------------------
\section
{
概率论基础
}
\index
{
Chapter2.2
}
\parinterval
为了便于后续内容的介绍,首先对本书中使用的概率和统计学概念和符号与定理进行说明。
%--随机变量和概率---------------------
\subsection
{
随机变量和概率
}
\index
{
Chapter2.2.1
}
\parinterval
在自然界中,有这样一类具有偶然性的事件,它在一定条件下是否会发生是不确定的。例如,明天会下雨、掷一枚硬币是正面朝上、扔一个骰子的点数是5……这类可能会发生也可能不会发生,通过大量的重复试验,能发现其发生具有某种规律性的事件叫做
\textbf
{
随机事件
}
。
...
...
@@ -225,7 +223,6 @@
\bigcup
_{
i=1
}^
n B
_
i=S
\textrm
{
且
}
B
_
iB
_
j=
\varnothing
, i,j=1,...,n,i
\neq
j
\label
{
eqC2.8-new
}
\end{eqnarray}
\parinterval
设
$
B
_
1
,…,B
_
n
$
是S的一个划分,A为事件,则
\begin{eqnarray}
\textrm
{
P
}
(A)=
\sum
_{
k=1
}^
n
\textrm
{
P
}
(A
\mid
B
_
k)
\textrm
{
P
}
(B
_
k)
...
...
@@ -325,6 +322,7 @@
\begin{figure}
[htp]
\centering
\includegraphics
[scale=0.5]
{
./Chapter2/Figures/figure-Self-information-function.pdf
}
\setlength
{
\belowcaptionskip
}{
-1.5em
}
\caption
{
自信息函数图像
}
\label
{
fig:Self-information-function
}
\end{figure}
...
...
@@ -547,6 +545,7 @@
\begin{figure}
[htp]
\centering
\input
{
./Chapter2/Figures/figure-the-dice-game-model
}
\setlength
{
\belowcaptionskip
}{
-1.0em
}
\caption
{
预设的骰子模型
}
\label
{
fig:the-dice-game-model
}
\end{figure}
...
...
@@ -702,7 +701,7 @@ $\textrm{P}(w_2|w_1)\times$ & $\textrm{P}(w_2)\times$ & $\textrm{P}(w_2|w_1)\tim
$
\textrm
{
P
}
(
w
_
3
|w
_
1
w
_
2
)
\times
$
&
$
\textrm
{
P
}
(
w
_
3
)
\times
$
&
$
\textrm
{
P
}
(
w
_
3
|w
_
2
)
\times
$
&
$
...
$
&
$
\textrm
{
P
}
(
w
_
3
|w
_
1
w
_
2
)
\times
$
\\
$
\textrm
{
P
}
(
w
_
4
|w
_
1
w
_
2
w
_
3
)
\times
$
&
$
\textrm
{
P
}
(
w
_
4
)
\times
$
&
$
\textrm
{
P
}
(
w
_
4
|w
_
3
)
\times
$
&
$
...
$
&
$
\textrm
{
P
}
(
w
_
4
|w
_
1
w
_
2
w
_
3
)
\times
$
\\
$
...
$
&
$
...
$
&
$
...
$
&
$
...
$
&
$
...
$
\\
$
\textrm
{
P
}
(
w
_
m|w
_
1
... w
_{
m
-
1
}
)
$
&
$
\textrm
{
P
}
(
w
_
m
)
$
&
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
1
}
)
$
&
$
...
$
&
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
\\
$
\textrm
{
P
}
(
w
_
m|w
_
1
... w
_{
m
-
1
}
)
$
&
$
\textrm
{
P
}
(
w
_
m
)
$
&
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
1
}
)
$
&
$
...
$
&
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
\end{tabular}
}
\end{center}
...
...
@@ -712,10 +711,8 @@ $\textrm{P}(w_m|w_1 ... w_{m-1})$ & $\textrm{P}(w_m)$ & $\textrm{P}(w_m|w_{m-1})
\parinterval
可以看到,1-gram语言模型只是
$
n
$
-gram语言模型的一种特殊形式。
$
n
$
-gram的优点在于,它所使用的历史信息是有限的,即
$
n
$
-1个单词。这种性质也反映了经典的马尔可夫链的思想
\cite
{
liuke-markov-2004
}
\cite
{
resnick1992adventures
}
有时也被称作马尔可夫假设或者马尔可夫属性。因此
$
n
$
-gram也可以被看作是变长序列上的一种马尔可夫模型,比如,2-gram语言模型对应着1阶马尔可夫模型,3-gram语言模型对应着2阶马尔可夫模型,以此类推。
\parinterval
那么,如何计算
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
?有很多种选择,比如:
\begin{adjustwidth}
{
1em
}{}
\begin{itemize}
\item
极大似然估计。直接利用不同词序列在训练数据中出现的频度计算出
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
\item
极大似然估计。直接利用不同词序列在训练数据中出现的频度计算出
$
\textrm
{
P
}
(
w
_
m
$
\\
$
|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
\begin{eqnarray}
\textrm
{
P
}
(w
_
m|w
_{
m-n+1
}
...w
_{
m-1
}
)=
\frac
{
count(w
_{
m-n+1
}
...w
_
m)
}{
count(w
_{
m-n+1
}
...w
_{
m-1
}
)
}
\label
{
eqC2.29-new
}
...
...
@@ -723,7 +720,6 @@ $\textrm{P}(w_m|w_1 ... w_{m-1})$ & $\textrm{P}(w_m)$ & $\textrm{P}(w_m|w_{m-1})
\item
人工神经网络方法。构建一个人工神经网络估计
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
的值,比如,可以构建一个前馈神经网络来对
$
n
$
-gram进行建模。
\end{itemize}
\end{adjustwidth}
\parinterval
极大似然估计方法和前面介绍的统计分词中的方法是一致的,它的核心是使用
$
n
$
-gram出现的频度进行参数估计,因此是也自然语言处理中一类经典的
$
n
$
-gram方法。基于人工神经网络的方法在近些年也非常受关注,它直接利用多层神经网络对问题的输入
$
(
w
_{
m
-
n
+
1
}
...w
_{
m
-
1
}
)
$
和输出
$
(
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
))
$
进行建模,而模型的参数通过网络中神经元之间连接的权重进行体现。严格意义上了来说,基于人工神经网络的方法并不算基于
$
n
$
-gram的方法,或者说它并显性记录
$
n
$
-gram的生成概率,也不不依赖
$
n
$
-gram的频度进行参数估计。为了保证内容的连贯性,本章将仍以传统
$
n
$
-gram语言模型为基础进行讨论,基于人工神经网络的方法将会在第五章和第六章进行详细介绍。
...
...
@@ -1198,11 +1194,11 @@ r_6: & VP \to VV NN \nonumber
\begin{figure}
[htp]
\centering
\input
{
./Chapter2/Figures/figure-example-of-zh-syntactic-analysis
}
\setlength
{
\belowcaptionskip
}{
-1.0em
}
\caption
{
中文句法分析实例
}
\label
{
fig:example-of-zh-syntactic-analysis
}
\end{figure}
%-------------------------------------------
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section
{
小结及深入阅读
}
\index
{
Chapter2.6
}
...
...
Book/Chapter3/Chapter3.tex
查看文件 @
eb79fea0
差异被折叠。
点击展开。
Book/mt-book.bbl
0 → 100644
查看文件 @
eb79fea0
差异被折叠。
点击展开。
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论