Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
529dd764
Commit
529dd764
authored
Aug 19, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'master' 到 'caorunzhe'
Master 查看合并请求
!78
parents
b85e6355
1ff89b8a
全部展开
隐藏空白字符变更
内嵌
并排
正在显示
5 个修改的文件
包含
30 行增加
和
28 行删除
+30
-28
Chapter1/Figures/comparison-between-interlingua-based-and-transfer-based-translation.tex
+2
-2
Chapter1/Figures/figure-example-nmt.tex
+4
-4
Chapter1/chapter1.tex
+0
-0
Chapter2/chapter2.tex
+6
-4
mt-book-xelatex.tex
+18
-18
没有找到文件。
Chapter1/Figures/comparison-between-interlingua-based-and-transfer-based-translation.tex
查看文件 @
529dd764
...
...
@@ -19,7 +19,7 @@
\draw
[<->,very thick] (s3.south) -- (m1.east);
\draw
[<->,very thick] (s4.north) -- (m1.east);
\node
[anchor=north] (l) at ([xshift=5em,yshift=-1em]s2.south)
{
{
(a)
}}
;
\node
[anchor=north] (l) at ([xshift=5em,yshift=-1em]s2.south)
{
\footnotesize
{
(a) 基于中间语言的方法
}}
;
\end{scope}
...
...
@@ -42,7 +42,7 @@
\draw
[<->,very thick] (s1.south east) -- (s4.north west);
\draw
[<->,very thick] (s2.north east) -- (s3.south west);
\node
[anchor=north] (l) at ([xshift=5em,yshift=-1em]s2.south)
{
{
(b)
}}
;
\node
[anchor=north] (l) at ([xshift=5em,yshift=-1em]s2.south)
{
\footnotesize
{
(b) 基于转换的方法
}}
;
\end{scope}
...
...
Chapter1/Figures/figure-example-nmt.tex
查看文件 @
529dd764
...
...
@@ -42,8 +42,8 @@
}
{
\node
[anchor=south] (enclabel) at ([xshift=-0.1em,yshift=1.4em]source.north)
{
\large
{
\textbf
{
Encoder
}}
}
;
\node
[anchor=north] (declabel) at ([xshift=-0.1em,yshift=-1em]target.south)
{
\large
{
\textbf
{
Decoder
}}
}
;
\node
[anchor=south] (enclabel) at ([xshift=-0.1em,yshift=1.4em]source.north)
{
编码器(Encoder)
}
;
\node
[anchor=north] (declabel) at ([xshift=-0.1em,yshift=-1em]target.south)
{
解码器(Decoder)
}
;
\node
[anchor=east,align=left] (hiddenlabel) at (hidden.west)
{
\scriptsize
{
分布式
}
\\\scriptsize
{
表示
}}
;
}
...
...
@@ -82,7 +82,7 @@
% input and output labels
\draw
[->,thick,align=center]
([yshift=-0.8em]layer1.south)--([yshift=-0.1em]layer1.south) node [pos=0,anchor=north,inner sep=3pt] (word01)
{
\footnotesize
{
输入
}
\footnotesize
{
(word)
}}
;
\draw
[->,thick,align=center]
([yshift=-0.8em]layer2.south)--([yshift=-0.1em]layer2.south) node [pos=0,anchor=north,inner sep=3pt] (word02)
{
\footnotesize
{
输入
}
\footnotesize
{
(word)
}}
;
\draw
[<-,thick,align=center]
([yshift=0.8em]layer3.north)--([yshift=0.1em]layer3.north) node [pos=0,anchor=south,inner sep=0] (outputnode)
{
\footnotesize
{
输出
}
\footnotesize
{
(representation)
}}
;
\draw
[<-,thick,align=center]
([yshift=0.8em]layer3.north)--([yshift=0.1em]layer3.north) node [pos=0,anchor=south,inner sep=0] (outputnode)
{
\footnotesize
{
表示结果
}
\footnotesize
{
(representation)
}}
;
% layer and neuron labels
%\node[anchor=west] (layerlabel3) at (layer3.east) {\footnotesize{layer}};
...
...
@@ -103,7 +103,7 @@
\draw
[->,very thick,dotted] (enclabel.east) ..controls + (east:2em) and +(west:2em).. ([yshift=-1em]netbox.west);
\node
[anchor=north] (netlabel) at (netbox.south)
{
\footnotesize
{
sample network of the encoder
}}
;
\node
[anchor=north] (netlabel) at (netbox.south)
{
\footnotesize
{
编码器网络示例
}}
;
}
\end{scope}
...
...
Chapter1/chapter1.tex
查看文件 @
529dd764
差异被折叠。
点击展开。
Chapter2/chapter2.tex
查看文件 @
529dd764
...
...
@@ -24,7 +24,9 @@
\chapter
{
统计语言建模基础
}
\parinterval
世界上很多事物都具有不确定性,大到宇宙的运行,小到分子的运动。建立统计模型正是描述这种不确定性的一种手段,包括机器翻译在内对众多自然语言处理问题的求解都大量依赖于此模型。本章将会对统计建模的基础数学工具进行介绍,并在此基础上对语言建模问题展开讨论。实际上,统计建模与语言建模任务的结合产生了自然语言处理的一个重要方向
\ \dash\
统计语言建模。这是一个典型的语言生成任务。一方面,它与机器翻译属于同一类型任务,比如,二者都对应了单词串生成的过程,因此在描述问题的思想上有很多相似之处;另一方面,统计语言模型也常常被作为机器翻译系统的组件,对于机器翻译系统研发有着重要意义。本章所讨论的内容对本书后续章节有很好的铺垫作用,特别是运用统计模型的思想对自然语言处理问题进行描述,在本书后面的内容中也会被大量使用。
\parinterval
世间万物的运行都是不确定的,大到宇宙的运转,小到分子的运动,都是如此。自然语言也同样充满着不确定性和灵活性。建立统计模型正是描述这种不确定性的一种手段,包括机器翻译在内对众多自然语言处理问题的求解都大量依赖于这些统计模型。
\parinterval
本章将会对统计建模的基础数学工具进行介绍,并在此基础上对语言建模问题展开讨论。而统计建模与语言建模任务的结合也产生了自然语言处理的一个重要方向
\ \dash\
统计语言建模(Statistical Language Modeling)。它与机器翻译有很多相似之处,比如,二者都在描述单词串生成的过程,因此在解决问题的思想上是相通的。此外,统计语言模型也常常被作为机器翻译系统的组件,对于机器翻译系统研发有着重要意义。本章所讨论的内容对本书后续章节有很好的铺垫作用。本书也会大量运用统计模型的手段对自然语言处理问题进行描述。
%----------------------------------------------------------------------------------------
% NEW SECTION
...
...
@@ -39,7 +41,7 @@
%----------------------------------------------------------------------------------------
\subsection
{
随机变量和概率
}
\parinterval
在自然界中,很多
{
\small\bfnew
{
事件
}}
\index
{
事件
}
(Event)
\index
{
Event
}
是否会发生是不确定的。例如,明天会下雨、掷一枚硬币是正面朝上、扔一个骰子的点数是
5
$
\cdots\cdots
$
这类
事件可能会发生也可能不会发生。通过大量的重复试验,能发现其具有某种规律性的事件叫做
{
\small\sffamily\bfseries
{
随机事件
}}
\index
{
随机事件
}
。
\parinterval
在自然界中,很多
{
\small\bfnew
{
事件
}}
\index
{
事件
}
(Event)
\index
{
Event
}
是否会发生是不确定的。例如,明天会下雨、掷一枚硬币是正面朝上、扔一个骰子的点数是
1等。这些
事件可能会发生也可能不会发生。通过大量的重复试验,能发现其具有某种规律性的事件叫做
{
\small\sffamily\bfseries
{
随机事件
}}
\index
{
随机事件
}
。
\parinterval
{
\small\sffamily\bfseries
{
随机变量
}}
\index
{
随机变量
}
(Random Variable)
\index
{
Random Variable
}
是对随机事件发生可能状态的描述,是随机事件的数量表征。设
$
\Omega
=
\{
\omega
\}
$
为一个随机试验的样本空间,
$
X
=
X
(
\omega
)
$
就是定义在样本空间
$
\Omega
$
上的单值实数函数,即
$
X
=
X
(
\omega
)
$
为随机变量,记为
$
X
$
。随机变量是一种能随机选取数值的变量,常用大写的英语字母或希腊字母表示,其取值通常用小写字母来表示。例如,用
$
A
$
表示一个随机变量,用
$
a
$
表示变量
$
A
$
的一个取值。根据随机变量可以选取的值的某些性质,可以将其划分为离散变量和连续变量。
...
...
@@ -415,7 +417,7 @@ F(x)=\int_{-\infty}^x f(x)\textrm{d}x
\parinterval
45
\;
=
\;
一
\parinterval
\ldots
\parinterval
\ldots
\parinterval
就可以得到图
\ref
{
fig:2-9
}
所示的结果。
...
...
@@ -829,7 +831,7 @@ w^{'} = \argmax_{w \in \chi}\funp{P}(w)
}
\end{center}
}
\end{table}
%------------------------------------------------------
%------------------------------------------------------
\parinterval
此时上述生成策略虽然可以满足完备性和最优性,但其仍然算不上是优秀的生成策略,因为这两种算法在时间复杂度和空间复杂度上的表现很差,如表
\ref
{
tab:2-3
}
所示。其中
$
|V|
$
为词表大小,
$
m
$
为序列长度,
$
\ast
$
表示“当且仅当在单词序列的最大长度被确定”。值得注意的是,在之前的遍历过程中,除了在序列开头一定会挑选<sos>之外,其他位置每次可挑选的单词并不只有词表中的单词,还有结束符号<eos>,因此实际上生成过程中每个位置的单词候选数量为
$
|V|
+
1
$
。
...
...
mt-book-xelatex.tex
查看文件 @
529dd764
...
...
@@ -131,25 +131,25 @@
% CHAPTERS
%----------------------------------------------------------------------------------------
\include
{
Chapter1/chapter1
}
%
\include{Chapter1/chapter1}
\include
{
Chapter2/chapter2
}
\include
{
Chapter3/chapter3
}
\include
{
Chapter4/chapter4
}
\include
{
Chapter5/chapter5
}
\include
{
Chapter6/chapter6
}
\include
{
Chapter7/chapter7
}
\include
{
Chapter8/chapter8
}
\include
{
Chapter9/chapter9
}
\include
{
Chapter10/chapter10
}
\include
{
Chapter11/chapter11
}
\include
{
Chapter12/chapter12
}
\include
{
Chapter13/chapter13
}
\include
{
Chapter14/chapter14
}
\include
{
Chapter15/chapter15
}
\include
{
Chapter16/chapter16
}
\include
{
Chapter17/chapter17
}
\include
{
Chapter18/chapter18
}
\include
{
ChapterAppend/chapterappend
}
%
\include{Chapter3/chapter3}
%
\include{Chapter4/chapter4}
%
\include{Chapter5/chapter5}
%
\include{Chapter6/chapter6}
%
\include{Chapter7/chapter7}
%
\include{Chapter8/chapter8}
%
\include{Chapter9/chapter9}
%
\include{Chapter10/chapter10}
%
\include{Chapter11/chapter11}
%
\include{Chapter12/chapter12}
%
\include{Chapter13/chapter13}
%
\include{Chapter14/chapter14}
%
\include{Chapter15/chapter15}
%
\include{Chapter16/chapter16}
%
\include{Chapter17/chapter17}
%
\include{Chapter18/chapter18}
%
\include{ChapterAppend/chapterappend}
%----------------------------------------------------------------------------------------
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论