Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
单韦乔
Toy-MT-Introduction
Commits
98708719
Commit
98708719
authored
Feb 05, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
update
parent
5ba56e98
隐藏空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
0 行增加
和
144 行删除
+0
-144
Section02-Words-Trees-Probs/section02.synctex(busy)
+0
-0
Section02-Words-Trees-Probs/section02.test.tex
+0
-144
没有找到文件。
Section02-Words-Trees-Probs/section02.synctex(busy)
deleted
100644 → 0
查看文件 @
5ba56e98
Section02-Words-Trees-Probs/section02.test.tex
deleted
100644 → 0
查看文件 @
5ba56e98
% !Mode:: "TeX:GBK"
\def\CTeXPreproc
{
Created by ctex v0.2.13, don't edit!
}
\documentclass
[cjk,t,compress,12pt]
{
beamer
}
%\documentclass{article}
%\usepackage{beamerarticle}
\usepackage
{
pstricks
}
\usepackage
{
etex
}
\usepackage
{
eso-pic,graphicx
}
\usepackage
{
fancybox
}
\usepackage
{
amsmath,amssymb
}
\usepackage
{
setspace
}
\usepackage
{
xcolor
}
\usepackage
{
CJK
}
\usepackage
{
tikz
}
\usepackage
{
tikz-qtree
}
\usepackage
{
hyperref
}
\usepackage
{
array
}
\usepgflibrary
{
arrows
}
% LATEX and plain TEX and pure pgf
\usetikzlibrary
{
arrows
}
% LATEX and plain TEX when using Tik Z
\usetikzlibrary
{
decorations
}
\usetikzlibrary
{
arrows,shapes
}
\usetikzlibrary
{
shadows
}
% LATEX and plain TEX when using Tik Z
\usetikzlibrary
{
positioning,fit,calc
}
\usetikzlibrary
{
mindmap,backgrounds
}
% mind map
\DeclareMathOperator*
{
\argmax
}{
arg
\,
max
}
\DeclareMathOperator*
{
\argmin
}{
arg
\,
min
}
\setbeamertemplate
{
items
}
[ball]
\usefonttheme
[onlymath]
{
serif
}
% fout of math
\definecolor
{
ugreen
}{
rgb
}{
0,0.5,0
}
\definecolor
{
lgreen
}{
rgb
}{
0.9,1,0.8
}
\definecolor
{
xtgreen1
}{
rgb
}{
0.824,0.898,0.8
}
\definecolor
{
xtgreen
}{
rgb
}{
0.914,0.945,0.902
}
\definecolor
{
lightgray
}{
gray
}{
0.85
}
\setbeamercolor
{
uppercol
}{
fg=white,bg=ugreen
}
\setbeamercolor
{
lowercol
}{
fg=black,bg=xtgreen
}
%\definecolor{ublue}{rgb}{0,0.298,0.525}
\definecolor
{
ublue
}{
rgb
}{
0.152,0.250,0.545
}
\setbeamercolor
{
uppercolblue
}{
fg=white,bg=ublue
}
\setbeamercolor
{
lowercolblue
}{
fg=black,bg=blue!10
}
%\usetheme{default}
%\usetheme{Darmstadt}
%\usetheme{Madrid}
%\usetheme{Frankfurt}
%\usetheme{Dresden}
%\usetheme{Boadilla}
%\usecolortheme{dolphin}
\usefonttheme
[onlylarge]
{
structurebold
}
\begin{CJK}
{
GBK
}{
song
}
\end{CJK}
\setbeamerfont*
{
frametitle
}{
size=
\large
,series=
\bfseries
}
\setbeamertemplate
{
navigation symbols
}{
\begin{CJK}
{
GBK
}{
hei
}
第二章 词法、语法及概率思想基础
\hspace*
{
2em
}
肖桐
\&
朱靖波
\end{CJK}
\hspace*
{
2em
}
\today
\hspace*
{
2em
}
\insertframenumber
{}
/
\inserttotalframenumber
}
\setbeamertemplate
{
itemize items
}
[circle]
% if you want a circle
\setbeamertemplate
{
itemize subitem
}
[triangle]
% if you wnat a triangle
\setbeamertemplate
{
itemize subsubitem
}
[ball]
% if you want a ball
\begin{document}
\begin{CJK}
{
GBK
}{
you
}
\title
{
\Large
{
词法、语法及概率思想基础
}}
\author
{
\large
{
\textbf
{
肖桐
\ \
朱靖波
}}}
\institute
{
\blue
{
\url
{
xiaotong@mail.neu.edu.cn
}}
\black
{}
\\
\blue
{
\url
{
zhujingbo@mail.neu.edu.cn
}}
\black
{}
\\
\vspace
{
1.0em
}
东北大学 自然语言处理实验室
\\
\blue
{
\underline
{
\url
{
http://www.nlplab.com
}}}
\black
{}
\\
\vspace
{
0.2cm
}
\hspace
{
0.1cm
}
\includegraphics
[scale=0.1]
{
../Figures/logo.pdf
}
}
\date
{}
\maketitle
\setlength
{
\leftmargini
}{
1em
}
\setlength
{
\leftmarginii
}{
1em
}
\section
{
中文分词
}
%%% 进一步扩展,基于n-gram LM的方法
\begin{frame}
{
进一步扩展:基于
$
n
$
-gram语言模型的方法
}
\begin{itemize}
\item
这种方法也被称作基于1-gram(统计)语言模型的方法
\\
所谓统计语言模型就是计算
$
\textrm
{
P
}
(
w
_
1
w
_
2
... w
_
m
)
$
的概率
\end{itemize}
{
\scriptsize
\tabcolsep
5pt
\begin{tabular}
{
l | l | l l l
}
链式法则
&
1-gram
&
2-gram
&
...
&
$
n
$
-gram
\\
$
\textrm
{
P
}
(
w
_
1
w
_
2
... w
_
n
)=
$
&
$
\textrm
{
P
}
(
w
_
1
w
_
2
... w
_
n
)=
$
&
$
\textrm
{
P
}
(
w
_
1
w
_
2
... w
_
n
)=
$
&
...
&
$
\textrm
{
P
}
(
w
_
1
w
_
2
... w
_
n
)=
$
\\
$
\textrm
{
P
}
(
w
_
1
)
\times
$
&
$
\textrm
{
P
}
(
w
_
1
)
\times
$
&
$
\textrm
{
P
}
(
w
_
1
)
\times
$
&
...
&
$
\textrm
{
P
}
(
w
_
1
)
\times
$
\\
$
\textrm
{
P
}
(
w
_
2
|w
_
1
)
\times
$
&
$
\textrm
{
P
}
(
w
_
2
)
\times
$
&
$
\textrm
{
P
}
(
w
_
2
|w
_
1
)
\times
$
&
...
&
$
\textrm
{
P
}
(
w
_
2
|w
_
1
)
\times
$
\\
$
\textrm
{
P
}
(
w
_
3
|w
_
1
w
_
2
)
\times
$
&
$
\textrm
{
P
}
(
w
_
3
)
\times
$
&
$
\textrm
{
P
}
(
w
_
3
|w
_
2
)
\times
$
&
...
&
$
\textrm
{
P
}
(
w
_
3
|w
_
1
w
_
2
)
\times
$
\\
$
\textrm
{
P
}
(
w
_
4
|w
_
1
w
_
2
w
_
3
)
\times
$
&
$
\textrm
{
P
}
(
w
_
4
)
\times
$
&
$
\textrm
{
P
}
(
w
_
4
|w
_
3
)
\times
$
&
...
&
$
\textrm
{
P
}
(
w
_
4
|w
_
1
w
_
2
w
_
3
)
\times
$
\\
...
&
...
&
...
&
...
&
...
\\
$
\textrm
{
P
}
(
w
_
m|w
_
1
...w
_{
m
-
1
}
)
$
&
$
\textrm
{
P
}
(
w
_
m
)
$
&
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
1
}
)
$
&
...
&
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
\\
\end{tabular}
}
\begin{itemize}
\item
<2->
\textbf
{$
n
$
-gram语言模型
}
的核心思想就是当前词(
$
w
_
m
$
)出现的概率只依赖于前
$
n
-
1
$
个词(
$
w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}$
)
\vspace
{
-2em
}
\begin{eqnarray}
&
&
\textrm
{
P
}_{
2
\textrm
{
-gram
}}
(
\textrm
{
'确实/现在/数据/很/多'
}
)
\nonumber
\\
&
=
&
\textrm
{
P
}
(
\textrm
{
'确实'
}
)
\times
\textrm
{
P
}
(
\textrm
{
'现在'
$
|
$
'确实'
}
)
\times
\textrm
{
P
}
(
\textrm
{
'数据'
$
|
$
'现在'
}
)
\times
\nonumber
\\
&
&
\textrm
{
P
}
(
\textrm
{
'很'
$
|
$
'数据'
}
)
\times
\textrm
{
P
}
(
\textrm
{
'多'
$
|
$
'很'
}
)
\nonumber
\end{eqnarray}
\vspace
{
-1em
}
\item
<2->
\textbf
{
训练
}
- 相对频率估计:
$
\textrm
{
P
}
(
\textrm
{
'现在'
$
|
$
'确实'
}
)
=
\frac
{
count
(
\textrm
{
'确实 现在'
}
)
}{
count
(
\textrm
{
'确实'
}
)
}$
\end{itemize}
\end{frame}
\subsection
{
统计思想
}
\subsection
{
统计建模实例1:基于全切分的概率分词
}
\end{CJK}
\end{document}
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论