Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
8ef94243
Commit
8ef94243
authored
Jan 14, 2021
by
孟霞
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
3\4\9排版
parent
b7f4d22a
隐藏空白字符变更
内嵌
并排
正在显示
4 个修改的文件
包含
21 行增加
和
22 行删除
+21
-22
Chapter3/chapter3.tex
+4
-4
Chapter4/chapter4.tex
+9
-9
Chapter9/Figures/figure-activate.tex
+1
-1
Chapter9/chapter9.tex
+7
-8
没有找到文件。
Chapter3/chapter3.tex
查看文件 @
8ef94243
...
...
@@ -568,6 +568,8 @@ Z(\seq{x})&=&\sum_{\seq{y}}\exp(\sum_{i=1}^m\sum_{j=1}^k\lambda_{j}F_{j}(y_{i-1}
\parinterval
{
\small\sffamily\bfseries
{
句法
}}
\index
{
句法
}
(Syntax)
\index
{
Syntax
}
是研究句子的每个组成部分和它们之间的组合方式。一般来说,句法和语言是相关的,比如,英文是主谓宾结构,而日语是主宾谓结构,因此不同的语言也会有不同的句法描述方式。自然语言处理领域最常用的两种句法分析形式是
{
\small\sffamily\bfseries
{
短语结构分析
}}
\index
{
短语结构分析
}
(Phrase Structure Parsing)
\index
{
Phrase Structure Parsing
}
和
{
\small\sffamily\bfseries
{
依存分析
}}
\index
{
依存分析
}
(Dependency Parsing)
\index
{
Dependency Parsing
}
。图
\ref
{
fig:3.4-1
}
展示了这两种的句法表示形式的实例。其中,左侧是短语结构树,它描述的是短语的结构功能,比如“吃”是动词(记为VV),“鱼”是名词(记为NN),“吃/鱼”组成动词短语,这个短语再与“喜欢”这一动词组成新的动词短语。短语结构树的每个子树都是一个句法功能单元,比如,子树VP(VV(吃) NN(鱼))就表示了“吃/鱼”这个动词短语的结构,其中子树根节点VP是句法功能标记。短语结构树利用嵌套的方式描述了语言学的功能,短语结构树中,每个词都有词性(或词类),不同的词或者短语可以组成名动结构、动宾结构等语言学短语结构,短语结构分析一般也被称为
{
\small\sffamily\bfseries
{
成分分析
}}
\index
{
成分分析
}
(Constituency Parsing)或
{
\small\sffamily\bfseries
{
完全分析
}}
\index
{
完全分析
}
(Full Parsing)
\index
{
Full Parsing
}
。
\parinterval
图
\ref
{
fig:3.4-1
}
右侧展示的是另一种句法结构,被称作依存句法树。依存句法树表示了句子中单词和单词之间的依存关系。比如,从这个例子可以了解,“猫”依赖“喜欢”,“吃”依赖“喜欢”,“鱼”依赖“吃”。
%----------------------------------------------
\begin{figure}
[htp]
\centering
...
...
@@ -577,8 +579,6 @@ Z(\seq{x})&=&\sum_{\seq{y}}\exp(\sum_{i=1}^m\sum_{j=1}^k\lambda_{j}F_{j}(y_{i-1}
\end{figure}
%---------------------------
\parinterval
图
\ref
{
fig:3.4-1
}
右侧展示的是另一种句法结构,被称作依存句法树。依存句法树表示了句子中单词和单词之间的依存关系。比如,从这个例子可以了解,“猫”依赖“喜欢”,“吃”依赖“喜欢”,“鱼”依赖“吃”。
\parinterval
短语结构树和依存句法树的结构和功能有很大不同。短语结构树的叶子节点是单词,中间节点是词性或者短语句法标记。在短语结构分析中,通常把单词称作
{
\small\sffamily\bfseries
{
终结符
}}
\index
{
终结符
}
(Terminal)
\index
{
Terminal
}
,把词性称为
{
\small\sffamily\bfseries
{
预终结符
}}
\index
{
预终结符
}
(Pre-terminal)
\index
{
Pre-terminal
}
,而把其他句法标记称为
{
\small\sffamily\bfseries
{
非终结符
}}
\index
{
非终结符
}
(Non-terminal)
\index
{
Non-terminal
}
。依存句法树没有预终结符和非终结符,所有的节点都是句子里的单词,通过不同节点间的连线表示句子中各个单词之间的依存关系。每个依存关系实际上都是有方向的,头和尾分别指向“接受”和“发出”依存关系的词。依存关系也可以进行分类,例如,图
\ref
{
fig:3.4-1
}
中的对每个依存关系的类型都有一个标记,这也被称作是有标记的依存分析。如果不生成这些标记,这样的句法分析被称作无标记的依存分析。
\parinterval
虽然短语结构树和依存树的句法表现形式有很大不同,但是它们在某些条件下能相互转化。比如,可以使用启发性规则将短语结构树自动转化为依存树。从应用的角度,依存分析由于形式更加简单,而且直接建模词语之间的依赖,因此在自然语言处理领域中受到很多关注。在机器翻译中,无论是哪种句法树结构,都已经被证明会对机器翻译系统产生帮助。特别是短语结构树,在机器翻译中的应用历史更长,研究更为深入,因此本节将会以短语结构分析为例介绍句法分析的相关概念。
...
...
@@ -658,6 +658,8 @@ S&=&\{\textrm{IP}\} \nonumber
\label
{
eq:3.4-3
}
\end{eqnarray}
\parinterval
最后,文法的规则集定义图
\ref
{
fig:3.4-2
}
所示(其中
$
r
_
i
$
为规则的编号)。这个文法蕴含了不同“层次”的句法信息。比如,规则
$
r
_
1
$
、
$
r
_
2
$
、
$
r
_
3
$
和
$
r
_
4
$
表达了词性对单词的抽象;规则
$
r
_
6
$
、
$
r
_
7
$
和
$
r
_
8
$
是表达了短语结构的抽象,其中,规则
$
r
_
8
$
描述了汉语中名词短语(主语)+动词短语(谓语)的结构。在实际应用中,像
$
r
_
8
$
这样的规则可以覆盖很大的片段(试想一下一个包含50个词的主谓结构的句子,可以使用
$
r
_
8
$
进行描述)。
%----------------------------------------------
\begin{figure}
[htp]
\centering
...
...
@@ -667,8 +669,6 @@ S&=&\{\textrm{IP}\} \nonumber
\end{figure}
%---------------------------
\parinterval
最后,文法的规则集定义图
\ref
{
fig:3.4-2
}
所示(其中
$
r
_
i
$
为规则的编号)。这个文法蕴含了不同“层次”的句法信息。比如,规则
$
r
_
1
$
、
$
r
_
2
$
、
$
r
_
3
$
和
$
r
_
4
$
表达了词性对单词的抽象;规则
$
r
_
6
$
、
$
r
_
7
$
和
$
r
_
8
$
是表达了短语结构的抽象,其中,规则
$
r
_
8
$
描述了汉语中名词短语(主语)+动词短语(谓语)的结构。在实际应用中,像
$
r
_
8
$
这样的规则可以覆盖很大的片段(试想一下一个包含50个词的主谓结构的句子,可以使用
$
r
_
8
$
进行描述)。
\parinterval
上下文无关文法的规则是一种
{
\small\sffamily\bfseries
{
产生式规则
}}
\index
{
产生式规则
}
(Production Rule)
\index
{
Production Rule
}
,形如
$
\alpha
\to
\beta
$
,它表示把规则左端的非终结符
$
\alpha
$
替换为规则右端的符号序列
$
\beta
$
。 通常,
$
\alpha
$
被称作规则的
{
\small\sffamily\bfseries
{
左部
}}
\index
{
左部
}
(Left-hand Side)
\index
{
Left-hand Side
}
,
$
\beta
$
被称作规则的
{
\small\sffamily\bfseries
{
右部
}}
\index
{
右部
}
(Right-hand Side)
\index
{
Right-hand Side
}
。使用右部
$
\beta
$
替换左部
$
\alpha
$
的过程也被称作规则的使用,而这个过程的逆过程称为规约。规则的使用可以如下定义:
%-------------------------------------------
...
...
Chapter4/chapter4.tex
查看文件 @
8ef94243
...
...
@@ -71,15 +71,6 @@
\vspace
{
0.5em
}
\end{itemize}
%----------------------------------------------
\begin{figure}
[htp]
\centering
\input
{
./Chapter4/Figures/figure-logic-diagram-of-translation-quality-evaluation-method
}
\caption
{
译文质量评价方法逻辑图
}
\label
{
fig:4-2
}
\end{figure}
%----------------------------------------------
\parinterval
针对以上问题,研究人员设计出多种不同的译文质量评价方法。根据人工参与方式的不同,可以分为人工评价、有参考答案的自动评价、无参考答案的自动评价。这些方法也对应了不同的使用场景。
\begin{itemize}
...
...
@@ -94,6 +85,15 @@
\parinterval
图
\ref
{
fig:4-2
}
给出了机器翻译译文评价方法的逻辑关系图。需要注意的是,很多时候,译文质量评价结果是用于机器翻译系统优化的。在随后的章节中也会看到,译文评价的结果会被用于不同的机器翻译模型优化中。甚至很多统计指标(如极大似然估计)也可以被看作是一种对译文的“评价”,这样就可以把机器翻译的建模和译文评价联系在了一起。本章的后半部分将重点介绍传统的译文质量评价方法。与译文质量评价相关的模型优化方法将会在后续章节详细论述。
%----------------------------------------------
\begin{figure}
[htp]
\centering
\input
{
./Chapter4/Figures/figure-logic-diagram-of-translation-quality-evaluation-method
}
\caption
{
译文质量评价方法逻辑图
}
\label
{
fig:4-2
}
\end{figure}
%----------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SECTION
%----------------------------------------------------------------------------------------
...
...
Chapter9/Figures/figure-activate.tex
查看文件 @
8ef94243
...
...
@@ -32,7 +32,7 @@
\draw
[dashed]
(0,1)--(1.4,1);
\draw
[dashed]
(-1.4,-1)--(0,-1);
\foreach
\x
in
{
-1.0,-0.5,0.0,0.5,1.0
}{
\draw
(
\x
,0)--(
\x
,0.05)node[below,outer sep=2pt,font=
\scriptsize
]at(
\x
,0)
{
\x
}
;
}
\foreach
\y
in
{
,-1.0-0.5,
0.5,1.0
}{
\draw
(0,
\y
)--(0.05,
\y
)node[left,outer sep=2pt,font=
\scriptsize
]at(0,
\y
)
{
\y
}
;
}
\foreach
\y
in
{
0.5,1.0
}{
\draw
(0,
\y
)--(0.05,
\y
)node[left,outer sep=2pt,font=
\scriptsize
]at(0,
\y
)
{
\y
}
;
}
\draw
[color=red ,domain=-1.4:1.4, line width=1pt]
plot(
\x
,
{
tanh(
\x
)
}
);
\node
[black,anchor=south]
at (0,1.5)
{
\small
$
y
=
\frac
{{
\textrm
e
}^{
x
}
-
{
\textrm
e
}^{
-
x
}}{{
e
}^{
x
}
+
e
^{
-
x
}}$}
;
\node
[anchor=south east,inner sep=1pt] (labelc) at (0.8,-2)
{
\small
{
(c) Tanh
}}
;
...
...
Chapter9/chapter9.tex
查看文件 @
8ef94243
...
...
@@ -706,7 +706,7 @@ x_1\cdot w_1+x_2\cdot w_2+x_3\cdot w_3 & = & 0\cdot 1+0\cdot 1+1\cdot 1 \nonumbe
\end{figure}
%-------------------------------------------
\parinterval
那么,线性变换的本质是什么?
\parinterval
那么,线性变换的本质是什么?
图
\ref
{
fig:9-13
}
正是线性变换的简单示意。
\begin{itemize}
\vspace
{
0.5em
}
...
...
@@ -717,6 +717,10 @@ x_1\cdot w_1+x_2\cdot w_2+x_3\cdot w_3 & = & 0\cdot 1+0\cdot 1+1\cdot 1 \nonumbe
{
\mathbi
{
W
}}&
=
&
\begin{pmatrix}
1
&
0
&
0
\\
0
&
-1
&
0
\\
0
&
0
&
1
\end{pmatrix}
\label
{
eq:9-106
}
\end{eqnarray}
这样,矩形区域由第一象限旋转90度到了第四象限,如图
\ref
{
fig:9-13
}
第一步所示。公式
$
{
\mathbi
{
x
}}
\cdot
{
\mathbi
{
W
}}
+
{
\mathbi
{
b
}}$
中的公式中的
${
\mathbi
{
b
}}$
相当于对其进行平移变换。其过程如图
\ref
{
fig:9-13
}
第二步所示,偏置矩阵
$
{
\mathbi
{
b
}}
=
\begin
{
pmatrix
}
0
.
5
&
0
&
0
\\
0
&
0
&
0
\\
0
&
0
&
0
\end
{
pmatrix
}
$
将矩形区域沿
$
x
$
轴向右平移了一段距离。
\vspace
{
0.5em
}
\end{itemize}
%----------------------------------------------
\begin{figure}
[htp]
\centering
...
...
@@ -725,11 +729,6 @@ x_1\cdot w_1+x_2\cdot w_2+x_3\cdot w_3 & = & 0\cdot 1+0\cdot 1+1\cdot 1 \nonumbe
\label
{
fig:9-14
}
\end{figure}
%-------------------------------------------
这样,矩形区域由第一象限旋转90度到了第四象限,如图
\ref
{
fig:9-13
}
第一步所示。公式
$
{
\mathbi
{
x
}}
\cdot
{
\mathbi
{
W
}}
+
{
\mathbi
{
b
}}$
中的公式中的
${
\mathbi
{
b
}}$
相当于对其进行平移变换。其过程如图
\ref
{
fig:9-13
}
第二步所示,偏置矩阵
$
{
\mathbi
{
b
}}
=
\begin
{
pmatrix
}
0
.
5
&
0
&
0
\\
0
&
0
&
0
\\
0
&
0
&
0
\end
{
pmatrix
}
$
将矩形区域沿
$
x
$
轴向右平移了一段距离。
\vspace
{
0.5em
}
\end{itemize}
%----------------------------------------------
\begin{figure}
[htp]
\centering
...
...
@@ -752,6 +751,8 @@ x_1\cdot w_1+x_2\cdot w_2+x_3\cdot w_3 & = & 0\cdot 1+0\cdot 1+1\cdot 1 \nonumbe
\parinterval
单层神经网络由线性变换和激活函数两部分构成,但在实际问题中,单层网络并不能很好地拟合复杂函数。因此很自然地想到将单层网络扩展到多层神经网络,即深层神经网络。将一层神经网络的最终输出向量作为另一层神经网络的输入向量,通过这种方式可以将多个单层神经网络连接在一起。
\parinterval
在多层神经网络中,通常包括输入层、输出层和至少一个隐藏层。图
\ref
{
fig:9-17
}
展示了一个三层神经网络,包括输入层
\footnote
{
由于输入层不存在神经元,因此在计算神经网络层数时不将其包括在内。
}
、输出层和两个隐藏层。
%----------------------------------------------
\begin{figure}
[htp]
\centering
...
...
@@ -761,8 +762,6 @@ x_1\cdot w_1+x_2\cdot w_2+x_3\cdot w_3 & = & 0\cdot 1+0\cdot 1+1\cdot 1 \nonumbe
\end{figure}
%-------------------------------------------
\parinterval
在多层神经网络中,通常包括输入层、输出层和至少一个隐藏层。图
\ref
{
fig:9-17
}
展示了一个三层神经网络,包括输入层
\footnote
{
由于输入层不存在神经元,因此在计算神经网络层数时不将其包括在内。
}
、输出层和两个隐藏层。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
%----------------------------------------------------------------------------------------
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论