Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
be2669f0
Commit
be2669f0
authored
Aug 15, 2021
by
zengxin
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'caorunzhe' 到 'zengxin'
Caorunzhe 查看合并请求
!1119
parents
136c589e
6cb680d3
显示空白字符变更
内嵌
并排
正在显示
11 个修改的文件
包含
22 行增加
和
22 行删除
+22
-22
Chapter1/Figures/figure-example-rbmt.tex
+1
-1
Chapter1/chapter1.tex
+1
-1
Chapter13/Figures/figure-reinforcement-learning-method-based-on-actor-critic.tex
+2
-2
Chapter15/Figures/figure-relative-position-coding-and-absolute-position-coding.tex
+4
-4
Chapter15/chapter15.tex
+5
-5
Chapter17/chapter17.tex
+1
-1
Chapter2/Figures/figure-word-frequency-distribution.tex
+1
-1
Chapter5/chapter5.tex
+3
-3
Chapter6/Figures/figure-examples-of-sequential-translation-and-reorder-translation.tex
+2
-2
Chapter7/chapter7.tex
+1
-1
Chapter8/chapter8.tex
+1
-1
没有找到文件。
Chapter1/Figures/figure-example-rbmt.tex
查看文件 @
be2669f0
...
@@ -17,7 +17,7 @@
...
@@ -17,7 +17,7 @@
\node
[anchor=north west] (rule4part2) at ([yshift=0.5em]rule4.south west)
{
\textbf
{
\hspace
{
0.95em
}
then
}
调序[动词 + 对象]
}
;
\node
[anchor=north west] (rule4part2) at ([yshift=0.5em]rule4.south west)
{
\textbf
{
\hspace
{
0.95em
}
then
}
调序[动词 + 对象]
}
;
\node
[anchor=north west] (rule5) at ([yshift=0.1em]rule4part2.south west)
{
\textbf
{
5: If
}
译文主语是
\
I
}
;
\node
[anchor=north west] (rule5) at ([yshift=0.1em]rule4part2.south west)
{
\textbf
{
5: If
}
译文主语是
\
I
}
;
\node
[anchor=north west] (rule5part2) at ([yshift=0.5em]rule5.south west)
{
\textbf
{
\hspace
{
0.95em
}
then
}
be动词为
\
am/was
}
;
\node
[anchor=north west] (rule5part2) at ([yshift=0.5em]rule5.south west)
{
\textbf
{
\hspace
{
0.95em
}
then
}
be动词为
\
am/was
}
;
\node
[anchor=north west] (rule6) at ([yshift=0.1em]rule5part2.south west)
{
\textbf
{
6: If
}
源语是主谓结构
}
;
\node
[anchor=north west] (rule6) at ([yshift=0.1em]rule5part2.south west)
{
\textbf
{
6: If
}
源语
言
是主谓结构
}
;
\node
[anchor=north west] (rule6part2) at ([yshift=0.5em]rule6.south west)
{
\textbf
{
\hspace
{
0.95em
}
then
}
译文为主谓结构
}
;
\node
[anchor=north west] (rule6part2) at ([yshift=0.5em]rule6.south west)
{
\textbf
{
\hspace
{
0.95em
}
then
}
译文为主谓结构
}
;
\node
[anchor=south west] (rulebaselabel) at (rule1.north west)
{{
\color
{
ublue
}
资源:规则库
}}
;
\node
[anchor=south west] (rulebaselabel) at (rule1.north west)
{{
\color
{
ublue
}
资源:规则库
}}
;
}
}
...
...
Chapter1/chapter1.tex
查看文件 @
be2669f0
...
@@ -267,7 +267,7 @@
...
@@ -267,7 +267,7 @@
\end{figure}
\end{figure}
%-------------------------------------------
%-------------------------------------------
\parinterval
图
\ref
{
fig:1-8
}
展示了一个使用转换法进行翻译的实例。这里,利用一个简单的汉译英规则库完成对句子“我对你感到满意”的翻译。当翻译“我”时,从规则库中找到规则1,该规则表示遇到单词“我”就翻译为“I”;类似地,也可以从规则库中找到规则4,该规则表示翻译调序,即将单词“you”放到“be satisfied with”后面。这种通过规则表示单词之间对应关系的方式,也为统计机器翻译方法提供了思路。如统计机器翻译中,基于短语的翻译模型使用短语对对
原文
进行替换,详细描述可以参考
{
\chapterseven
}
。
\parinterval
图
\ref
{
fig:1-8
}
展示了一个使用转换法进行翻译的实例。这里,利用一个简单的汉译英规则库完成对句子“我对你感到满意”的翻译。当翻译“我”时,从规则库中找到规则1,该规则表示遇到单词“我”就翻译为“I”;类似地,也可以从规则库中找到规则4,该规则表示翻译调序,即将单词“you”放到“be satisfied with”后面。这种通过规则表示单词之间对应关系的方式,也为统计机器翻译方法提供了思路。如统计机器翻译中,基于短语的翻译模型使用短语对对
源语言
进行替换,详细描述可以参考
{
\chapterseven
}
。
\parinterval
在上述例子中可以发现,规则不仅仅可以翻译句子之间单词的对应,如规则1,还可以表示句法甚至语法之间的对应,如规则6。因此基于规则的方法可以分成多个层次,如图
\ref
{
fig:1-9
}
所示。图中不同的层次表示采用不同的知识来书写规则,进而完成机器翻译过程。对于翻译问题,可以构建不同层次的基于规则的机器翻译系统。这里包括四个层次,分别为:词汇转换、句法转换、语义转换和中间语言层。其中,上层可以继承下层的翻译知识,比如说句法转换层会利用词汇转换层知识。早期基于规则的方法属于词汇转换层。
\parinterval
在上述例子中可以发现,规则不仅仅可以翻译句子之间单词的对应,如规则1,还可以表示句法甚至语法之间的对应,如规则6。因此基于规则的方法可以分成多个层次,如图
\ref
{
fig:1-9
}
所示。图中不同的层次表示采用不同的知识来书写规则,进而完成机器翻译过程。对于翻译问题,可以构建不同层次的基于规则的机器翻译系统。这里包括四个层次,分别为:词汇转换、句法转换、语义转换和中间语言层。其中,上层可以继承下层的翻译知识,比如说句法转换层会利用词汇转换层知识。早期基于规则的方法属于词汇转换层。
...
...
Chapter13/Figures/figure-reinforcement-learning-method-based-on-actor-critic.tex
查看文件 @
be2669f0
...
@@ -24,8 +24,8 @@
...
@@ -24,8 +24,8 @@
%\draw [->,dotted,very thick] ([xshift=0em,yshift=0em]n1.east) .. controls ([xshift=3em,yshift=-1em]n1.-90) and ([xshift=-3em,yshift=-1em]n2.-90) .. (n2.west);
%\draw [->,dotted,very thick] ([xshift=0em,yshift=0em]n1.east) .. controls ([xshift=3em,yshift=-1em]n1.-90) and ([xshift=-3em,yshift=-1em]n2.-90) .. (n2.west);
\node
[anchor=west,inner sep=0mm]
(n3) at ([xshift=4.1em,yshift=1em]n1.east)
{$
Q
_
1
,Q
_
2
,
\ldots
,Q
_
J
$}
;
\node
[anchor=west,inner sep=0mm]
(n3) at ([xshift=4.1em,yshift=1
.2
em]n1.east)
{$
Q
_
1
,Q
_
2
,
\ldots
,Q
_
J
$}
;
\node
[anchor=west,inner sep=0mm]
(n4) at ([xshift=4.9em,yshift=-1em]n1.east)
{$
\tilde
{{
y
}}_
1
,
\tilde
{{
y
}}_
2
,
\ldots
,
\tilde
{{
y
}}_
J
$}
;
\node
[anchor=west,inner sep=0mm]
(n4) at ([xshift=4.9em,yshift=-1
.2
em]n1.east)
{$
\tilde
{{
y
}}_
1
,
\tilde
{{
y
}}_
2
,
\ldots
,
\tilde
{{
y
}}_
J
$}
;
\draw
[->,thick] ([xshift=-0.1em,yshift=0.6em]n2.west) -- ([xshift=0.1em,yshift=0.6em]n1.east);
\draw
[->,thick] ([xshift=-0.1em,yshift=0.6em]n2.west) -- ([xshift=0.1em,yshift=0.6em]n1.east);
\draw
[->,thick] ([xshift=0.1em,yshift=-0.6em]n1.east) -- ([xshift=-0.1em,yshift=-0.6em]n2.west);
\draw
[->,thick] ([xshift=0.1em,yshift=-0.6em]n1.east) -- ([xshift=-0.1em,yshift=-0.6em]n2.west);
...
...
Chapter15/Figures/figure-relative-position-coding-and-absolute-position-coding.tex
查看文件 @
be2669f0
...
@@ -105,15 +105,15 @@
...
@@ -105,15 +105,15 @@
\node
[rectangle,inner sep=0.3em,rounded corners=5pt,very thick,dotted,draw=ublue,minimum height=1.4em,minimum width=7em] [fit = (l2) (sa2) (res4) (l5) (set2)] (b3)
{}
;
\node
[rectangle,inner sep=0.3em,rounded corners=5pt,very thick,dotted,draw=ublue,minimum height=1.4em,minimum width=7em] [fit = (l2) (sa2) (res4) (l5) (set2)] (b3)
{}
;
\end{pgfonlayer}
\end{pgfonlayer}
\node
[inputnode,anchor=north west] (input1) at ([yshift=-1.6em,xshift=-0.5em]sa1.south west)
{
\tiny
{
Embedding
}}
;
\node
[inputnode,anchor=north west] (input1) at ([yshift=-1.6em,xshift=-0.5em]sa1.south west)
{
\tiny
{
$
\textbf
{
Embedding
}$
}}
;
\node
[] (add) at ([yshift=-2.2em,xshift=3.5em]sa1.south west)
{$
+
$}
;
\node
[] (add) at ([yshift=-2.2em,xshift=3.5em]sa1.south west)
{$
+
$}
;
\node
[posnode,anchor=north east] (pos1) at ([yshift=-1.6em,xshift=1.5em]sa1.south east)
{
\tiny
{
Absolute Position
}}
;
\node
[posnode,anchor=north east] (pos1) at ([yshift=-1.6em,xshift=1.5em]sa1.south east)
{
\tiny
{
$
\textbf
{
Absolute Position
}$
}}
;
\node
[anchor=north] (wi) at ([yshift=-0.5em]pos1.south)
{
\scriptsize
{
词序信息
}}
;
\node
[anchor=north] (wi) at ([yshift=-0.5em]pos1.south)
{
\scriptsize
{
词序信息
}}
;
\node
[posnode,anchor=west,font=
\tiny
,align=center] (pos2) at ([yshift=0em,xshift=1em]pos1.east)
{
Relative
\\
Position 1
}
;
\node
[posnode,anchor=west,font=
\tiny
,align=center] (pos2) at ([yshift=0em,xshift=1em]pos1.east)
{
$
\textbf
{
Relative
}$
\\
$
\textbf
{
Position
1
}$
}
;
\node
[posnode,anchor=west,font=
\tiny
,align=center,minimum width=1em] (pos3) at ([yshift=0em,xshift=1em]pos2.east)
{$
\cdots
$}
;
\node
[posnode,anchor=west,font=
\tiny
,align=center,minimum width=1em] (pos3) at ([yshift=0em,xshift=1em]pos2.east)
{$
\cdots
$}
;
\node
[posnode,anchor=west,font=
\tiny
,align=center] (pos4) at ([yshift=0em,xshift=1em]pos3.east)
{
Relative
\\
Position
$
n
$}
;
\node
[posnode,anchor=west,font=
\tiny
,align=center] (pos4) at ([yshift=0em,xshift=1em]pos3.east)
{
$
\textbf
{
Relative
}$
\\
$
\textbf
{
Position n
}
$}
;
\draw
[->] (wi.north) -- (pos1.south);
\draw
[->] (wi.north) -- (pos1.south);
\draw
[->] (add.north) -- (sa1.south);
\draw
[->] (add.north) -- (sa1.south);
...
...
Chapter15/chapter15.tex
查看文件 @
be2669f0
...
@@ -182,7 +182,7 @@ A_{ij}^{\rm rel} &=& \underbrace{\mathbi{E}_{x_i}\mathbi{W}_Q\mathbi{W}_{K}^{\te
...
@@ -182,7 +182,7 @@ A_{ij}^{\rm rel} &=& \underbrace{\mathbi{E}_{x_i}\mathbi{W}_Q\mathbi{W}_{K}^{\te
\noindent
具体的形式如下:
\noindent
具体的形式如下:
\begin{eqnarray}
\begin{eqnarray}
\mathbi
{
e
}
_{
ij
}
&
=
&
\frac
{
(
\mathbi
{
x
}_
i
\mathbi
{
W
}_
Q)
{
(
\mathbi
{
x
}_
j
\mathbi
{
W
}_
K)
}^{
\textrm
{
T
}}}{
\sqrt
{
d
_
k
}}
+ G
_{
ij
}
e
_{
ij
}
&
=
&
\frac
{
(
\mathbi
{
x
}_
i
\mathbi
{
W
}_
Q)
{
(
\mathbi
{
x
}_
j
\mathbi
{
W
}_
K)
}^{
\textrm
{
T
}}}{
\sqrt
{
d
_
k
}}
+ G
_{
ij
}
\label
{
eq:15-15
}
\label
{
eq:15-15
}
\end{eqnarray}
\end{eqnarray}
...
@@ -221,7 +221,7 @@ v_i &=& \mathbi{I}_d^{\textrm{T}}\textrm{Tanh}(\mathbi{W}_d\mathbi{Q}_i)
...
@@ -221,7 +221,7 @@ v_i &=& \mathbi{I}_d^{\textrm{T}}\textrm{Tanh}(\mathbi{W}_d\mathbi{Q}_i)
\noindent
于是,在计算第
$
i
$
个词对第
$
j
$
个词的相关系数时,通过超参数
$
\omega
$
控制实际的感受野为
$
j
-
\omega
,
\ldots
,j
+
\omega
$
,注意力计算中
$
\mathbi
{
e
}_{
ij
}$
的计算方式与公式
\eqref
{
eq:15-6
}
相同,权重
$
\alpha
_{
ij
}$
的具体计算公式为:
\noindent
于是,在计算第
$
i
$
个词对第
$
j
$
个词的相关系数时,通过超参数
$
\omega
$
控制实际的感受野为
$
j
-
\omega
,
\ldots
,j
+
\omega
$
,注意力计算中
$
\mathbi
{
e
}_{
ij
}$
的计算方式与公式
\eqref
{
eq:15-6
}
相同,权重
$
\alpha
_{
ij
}$
的具体计算公式为:
\begin{eqnarray}
\begin{eqnarray}
\alpha
_{
ij
}
&
=
&
\frac
{
\exp
(
\mathbi
{
e
}_{
ij
}
)
}{
\sum
_{
k=j-
\omega
}^{
j+
\omega
}
\exp
(
\mathbi
{
e
}
_{
ik
}
)
}
\alpha
_{
ij
}
&
=
&
\frac
{
\exp
(
e
_{
ij
}
)
}{
\sum
_{
k=j-
\omega
}^{
j+
\omega
}
\exp
(e
_{
ik
}
)
}
\label
{
eq:15-20
}
\label
{
eq:15-20
}
\end{eqnarray}
\end{eqnarray}
...
@@ -687,9 +687,9 @@ v_i &=& \mathbi{I}_d^{\textrm{T}}\textrm{Tanh}(\mathbi{W}_d\mathbi{Q}_i)
...
@@ -687,9 +687,9 @@ v_i &=& \mathbi{I}_d^{\textrm{T}}\textrm{Tanh}(\mathbi{W}_d\mathbi{Q}_i)
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
类似于标准的Transformer初始化方式,使用Xavier初始化方式来初始化除了词嵌入以外的所有参数矩阵。词嵌入矩阵服从
$
\mathbb
{
N
}
(
0
,d
^{
-
\frac
{
1
}{
2
}}
)
$
的高斯分布,其中
$
d
$
代表词嵌入的维度。
\item
类似于标准的Transformer初始化方式,使用Xavier初始化方式来初始化除了词嵌入以外的所有参数矩阵。词嵌入矩阵服从
$
\mathbb
{
N
}
(
0
,d
^{
-
\frac
{
1
}{
2
}}
)
$
的高斯分布,其中
$
d
$
代表词嵌入的维度。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
对编码器中部分自注意力机制的参数矩阵以及前馈神经网络的参数矩阵进行缩放因子为
$
0
.
67
{
L
}^{
-
\frac
{
1
}{
4
}}$
的缩放,
$
L
$
为编码器
层数。
\item
对编码器中部分自注意力机制的参数矩阵以及前馈神经网络的参数矩阵进行缩放因子为
$
0
.
67
{
L
}^{
-
\frac
{
1
}{
4
}}$
的缩放,
对编码器中词嵌入的参数矩阵进行缩放因子为
$
(
9
{
L
}
)
^{
-
\frac
{
1
}{
4
}}$
的缩放,其中
$
L
$
为编码器的
层数。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
对解码器中部分注意力机制的参数矩阵、前馈神经网络的参数矩阵以及
前馈神经网络的嵌入式输入进行缩放因子为
$
(
9
{
M
}
)
^{
-
\frac
{
1
}{
4
}}$
的缩放,其中
$
M
$
为解码器
层数。
\item
对解码器中部分注意力机制的参数矩阵、前馈神经网络的参数矩阵以及
解码器词嵌入的参数矩阵进行缩放因子为
$
(
9
{
M
}
)
^{
-
\frac
{
1
}{
4
}}$
的缩放,其中
$
M
$
为解码器的
层数。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\end{itemize}
\end{itemize}
...
@@ -703,7 +703,7 @@ v_i &=& \mathbi{I}_d^{\textrm{T}}\textrm{Tanh}(\mathbi{W}_d\mathbi{Q}_i)
...
@@ -703,7 +703,7 @@ v_i &=& \mathbi{I}_d^{\textrm{T}}\textrm{Tanh}(\mathbi{W}_d\mathbi{Q}_i)
\parinterval
也有研究发现Post-Norm结构在训练过程中过度依赖残差支路,在训练初期很容易发生参数梯度方差过大的现象
\upcite
{
DBLP:conf/emnlp/LiuLGCH20
}
。经过分析发现,虽然底层神经网络发生梯度消失是导致训练不稳定的重要因素,但并不是唯一因素。例如,标准Transformer模型中梯度消失的原因在于使用了Post-Norm结构的解码器。尽管通过调整模型结构解决了梯度消失问题,但是模型训练不稳定的问题仍然没有被很好地解决。研究人员观测到Post-Norm结构在训练过程中过于依赖残差支路,而Pre-Norm结构在训练过程中逐渐呈现出对残差支路的依赖性,这更易于网络的训练。进一步,从参数更新的角度出发,Pre-Norm由于参数的改变导致网络输出变化的方差经推导后可以表示为
$
O
(
\log
L
)
$
,而Post-Norm对应的方差为
$
O
(
L
)
$
。因此,可以尝试减小Post-Norm中由于参数更新导致的输出的方差值,从而达到稳定训练的目的。针对该问题,可以采用两阶段的初始化方法。这里,可以重新定义子层之间的残差连接如下:
\parinterval
也有研究发现Post-Norm结构在训练过程中过度依赖残差支路,在训练初期很容易发生参数梯度方差过大的现象
\upcite
{
DBLP:conf/emnlp/LiuLGCH20
}
。经过分析发现,虽然底层神经网络发生梯度消失是导致训练不稳定的重要因素,但并不是唯一因素。例如,标准Transformer模型中梯度消失的原因在于使用了Post-Norm结构的解码器。尽管通过调整模型结构解决了梯度消失问题,但是模型训练不稳定的问题仍然没有被很好地解决。研究人员观测到Post-Norm结构在训练过程中过于依赖残差支路,而Pre-Norm结构在训练过程中逐渐呈现出对残差支路的依赖性,这更易于网络的训练。进一步,从参数更新的角度出发,Pre-Norm由于参数的改变导致网络输出变化的方差经推导后可以表示为
$
O
(
\log
L
)
$
,而Post-Norm对应的方差为
$
O
(
L
)
$
。因此,可以尝试减小Post-Norm中由于参数更新导致的输出的方差值,从而达到稳定训练的目的。针对该问题,可以采用两阶段的初始化方法。这里,可以重新定义子层之间的残差连接如下:
\begin{eqnarray}
\begin{eqnarray}
\mathbi
{
x
}_{
l+1
}
&
=
&
\mathbi
{
x
}_
l
\
c
dot
{
\bm
\omega
_{
l+1
}}
+ F
_{
l+1
}
(
\mathbi
{
x
}_
l)
\mathbi
{
x
}_{
l+1
}
&
=
&
\mathbi
{
x
}_
l
\
o
dot
{
\bm
\omega
_{
l+1
}}
+ F
_{
l+1
}
(
\mathbi
{
x
}_
l)
\label
{
eq:15-47
}
\label
{
eq:15-47
}
\end{eqnarray}
\end{eqnarray}
...
...
Chapter17/chapter17.tex
查看文件 @
be2669f0
...
@@ -122,7 +122,7 @@
...
@@ -122,7 +122,7 @@
\vspace
{
-1em
}
\vspace
{
-1em
}
\parinterval
语音识别目前广泛使用基于Transformer的模型结构(见
{
\chaptertwelve
}
),如图
\ref
{
fig:17-5
}
所示。可以看出,相比文本翻译,语音识别模型结构上唯一的区别在于编码器的输入为声学特征,以及编码器底层会使用额外的卷积层来减小输入序列的长度。这是由于语音对应的特征序列过长,在计算注意力模型的时候,会占用大量的内存和显存,并增加训练时间。因此,一个常用的做法是在语音特征上进行两层步长为2的卷积操作,从而将输入序列的长度缩小为之前的1/4。通过使用大量的语音-标注平行数据对模型进行训练,可以得到高质量的语音识别模型。
\parinterval
语音识别目前广泛使用基于Transformer的模型结构(见
{
\chaptertwelve
}
),如图
\ref
{
fig:17-5
}
所示。可以看出,相比文本翻译,语音识别模型结构上唯一的区别在于编码器的输入为声学特征,以及编码器底层会使用额外的卷积层来减小输入序列的长度。这是由于语音对应的特征序列过长,在计算注意力模型的时候,会占用大量的内存和显存,并增加训练时间。因此,一个常用的做法是在语音特征上进行两层步长为2的卷积操作,从而将输入序列的长度缩小为之前的1/4。通过使用大量的语音-标注平行数据对模型进行训练,可以得到高质量的语音识别模型。
\parinterval
为了降低语音识别的错误对下游系统的影响,通常也会用词格来取代One-best语音识别结果。除此之外,另一种思路是通过一个后处理模型修正识别结果中的错误,再送给文本翻译模型进行翻译。也可以进一步对文本做
{
\small\bfnew
{
顺滑
}}
\index
{
顺滑
}
(Disfluency Detection
\index
{
Disfluency Detection
}
)处理,使得送给翻译系统的文本更加干净、流畅,比如除去一些
导致
停顿的语气词。这一做法在工业界得到了广泛应用,但由于每个模型只能串行地计算,也会带来额外的计算代价以及运算时间。第三种思路是训练更加健壮的文本翻译模型,使其可以处理输入中存在的噪声或误差
\upcite
{
DBLP:conf/acl/LiuTMCZ18
}
。
\parinterval
为了降低语音识别的错误对下游系统的影响,通常也会用词格来取代One-best语音识别结果。除此之外,另一种思路是通过一个后处理模型修正识别结果中的错误,再送给文本翻译模型进行翻译。也可以进一步对文本做
{
\small\bfnew
{
顺滑
}}
\index
{
顺滑
}
(Disfluency Detection
\index
{
Disfluency Detection
}
)处理,使得送给翻译系统的文本更加干净、流畅,比如除去一些
表示
停顿的语气词。这一做法在工业界得到了广泛应用,但由于每个模型只能串行地计算,也会带来额外的计算代价以及运算时间。第三种思路是训练更加健壮的文本翻译模型,使其可以处理输入中存在的噪声或误差
\upcite
{
DBLP:conf/acl/LiuTMCZ18
}
。
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
% NEW SUB-SECTION
...
...
Chapter2/Figures/figure-word-frequency-distribution.tex
查看文件 @
be2669f0
...
@@ -4,7 +4,7 @@
...
@@ -4,7 +4,7 @@
width=13cm,
width=13cm,
height=5.5cm,
height=5.5cm,
xlabel=
{
WikiText-103上的词表
}
,
xlabel=
{
WikiText-103上的词表
}
,
ylabel=
{
词汇
出现总次数
}
,
ylabel=
{
单词
出现总次数
}
,
xlabel style=
{
xshift=4.2cm,yshift=0.4cm,font=
\footnotesize
}
,
xlabel style=
{
xshift=4.2cm,yshift=0.4cm,font=
\footnotesize
}
,
ylabel style=
{
rotate=-90,yshift=2.8cm,xshift=1.2cm,font=
\footnotesize
}
,
ylabel style=
{
rotate=-90,yshift=2.8cm,xshift=1.2cm,font=
\footnotesize
}
,
xticklabel style=
{
opacity=0
}
,
xticklabel style=
{
opacity=0
}
,
...
...
Chapter5/chapter5.tex
查看文件 @
be2669f0
...
@@ -138,7 +138,7 @@ IBM模型由Peter F. Brown等人于上世纪九十年代初提出\upcite{DBLP:jo
...
@@ -138,7 +138,7 @@ IBM模型由Peter F. Brown等人于上世纪九十年代初提出\upcite{DBLP:jo
\parinterval
对于第二个问题,尽管机器能够找到很多译文选择路径,但它并不知道哪些路径是好的。说地再直白一些,简单地枚举路径实际上就是一个体力活,没有太多的智能。因此计算机还需要再聪明一些,运用它的能够“掌握”的知识判断翻译结果的好与坏。这一步是最具挑战的,当然也有很多思路来解决这个问题。在统计机器翻译中,这个问题被定义为:设计一种统计模型,它可以给每个译文一个可能性,而这个可能性越高表明译文越接近人工翻译。
\parinterval
对于第二个问题,尽管机器能够找到很多译文选择路径,但它并不知道哪些路径是好的。说地再直白一些,简单地枚举路径实际上就是一个体力活,没有太多的智能。因此计算机还需要再聪明一些,运用它的能够“掌握”的知识判断翻译结果的好与坏。这一步是最具挑战的,当然也有很多思路来解决这个问题。在统计机器翻译中,这个问题被定义为:设计一种统计模型,它可以给每个译文一个可能性,而这个可能性越高表明译文越接近人工翻译。
\parinterval
如图
\ref
{
fig:5-4
}
所示,每个单词翻译候选的
右
侧黑色框里的数字就是单词的翻译概率,使用这些单词的翻译概率,可以得到整句译文的概率(用符号
$
\funp
{
P
}$
表示)。这样,就用概率化的模型描述了每个翻译候选的可能性。基于这些翻译候选的可能性,机器翻译系统可以对所有的翻译路径进行打分,比如,图
\ref
{
fig:5-4
}
中第一条路径的分数为0.042,第二条是0.006,以此类推。最后,系统可以选择分数最高的路径作为源语言句子的最终译文。
\parinterval
如图
\ref
{
fig:5-4
}
所示,每个单词翻译候选的
下
侧黑色框里的数字就是单词的翻译概率,使用这些单词的翻译概率,可以得到整句译文的概率(用符号
$
\funp
{
P
}$
表示)。这样,就用概率化的模型描述了每个翻译候选的可能性。基于这些翻译候选的可能性,机器翻译系统可以对所有的翻译路径进行打分,比如,图
\ref
{
fig:5-4
}
中第一条路径的分数为0.042,第二条是0.006,以此类推。最后,系统可以选择分数最高的路径作为源语言句子的最终译文。
%----------------------------------------------
%----------------------------------------------
\begin{figure}
[htp]
\begin{figure}
[htp]
...
@@ -348,7 +348,7 @@ $\seq{t}^{[2]}$ = So\; ,\; what\; is\; human\; \underline{translation}\; ?
...
@@ -348,7 +348,7 @@ $\seq{t}^{[2]}$ = So\; ,\; what\; is\; human\; \underline{translation}\; ?
\parinterval
首先引入一个非常重要的概念
\ \dash
\
{
\small\sffamily\bfseries
{
词对齐
}}
\index
{
词对齐
}
(Word Alignment)
\index
{
Word Alignment
}
,它是统计机器翻译中最核心的概念之一。词对齐描述了平行句对中单词之间的对应关系,它体现了一种观点:本质上句子之间的对应是由单词之间的对应表示的。当然,这个观点在神经机器翻译或者其他模型中可能会有不同的理解,但是翻译句子的过程中考虑词级的对应关系是符合人类对语言的认知的。
\parinterval
首先引入一个非常重要的概念
\ \dash
\
{
\small\sffamily\bfseries
{
词对齐
}}
\index
{
词对齐
}
(Word Alignment)
\index
{
Word Alignment
}
,它是统计机器翻译中最核心的概念之一。词对齐描述了平行句对中单词之间的对应关系,它体现了一种观点:本质上句子之间的对应是由单词之间的对应表示的。当然,这个观点在神经机器翻译或者其他模型中可能会有不同的理解,但是翻译句子的过程中考虑词级的对应关系是符合人类对语言的认知的。
\parinterval
图
\ref
{
fig:5-7
}
展示了一个汉英互译句对
$
\seq
{
s
}$
和
$
\seq
{
t
}$
及其词对齐关系,单词的右下标数字表示了该词在句中的位置,而虚线表示的是句子
$
\seq
{
s
}$
和
$
\seq
{
t
}$
中的词对齐关系。比如,“满意”的右下标数字5表示在句子
$
\seq
{
s
}$
中处于第5个位置,“satisfied”的右下标数字3表示在句子
$
\seq
{
t
}$
中处于第3个位置,“满意”和“satisfied”之间的虚线表示两个单词之间是对齐的。为方便描述,用二元组
$
(
j,i
)
$
来描述词对齐,它表示源语言句子的第
$
j
$
个单词对应目标语言句子的第
$
i
$
个单词,即单词
$
s
_
j
$
和
$
t
_
i
$
对应。通常,也会把
$
(
j,i
)
$
称作一条
{
\small\sffamily\bfseries
{
词对齐连接
}}
\index
{
词对齐连接
}
(Word Alignment Link
\index
{
Word Alignment Link
}
)。图
\ref
{
fig:5-7
}
中共有5 条虚线,表示有5组单词之间的词对齐连接。可以把这些词对齐连接构成的集合作为词对齐的一种表示,记为
$
A
$
,即
$
A
=
{
\{
(
1
,
1
)
,
(
2
,
4
)
,
(
3
,
5
)
,
(
4
,
2
)(
5
,
3
)
}
\}
$
。
\parinterval
图
\ref
{
fig:5-7
}
展示了一个汉英互译句对
$
\seq
{
s
}$
和
$
\seq
{
t
}$
及其词对齐关系,单词的右下标数字表示了该词在句中的位置,而虚线表示的是句子
$
\seq
{
s
}$
和
$
\seq
{
t
}$
中的词对齐关系。比如,“满意”的右下标数字5表示在句子
$
\seq
{
s
}$
中处于第5个位置,“satisfied”的右下标数字3表示在句子
$
\seq
{
t
}$
中处于第3个位置,“满意”和“satisfied”之间的虚线表示两个单词之间是对齐的。为方便描述,用二元组
$
(
j,i
)
$
来描述词对齐,它表示源语言句子的第
$
j
$
个单词对应目标语言句子的第
$
i
$
个单词,即单词
$
s
_
j
$
和
$
t
_
i
$
对应。通常,也会把
$
(
j,i
)
$
称作一条
{
\small\sffamily\bfseries
{
词对齐连接
}}
\index
{
词对齐连接
}
(Word Alignment Link
\index
{
Word Alignment Link
}
)。图
\ref
{
fig:5-7
}
中共有5 条虚线,表示有5组单词之间的词对齐连接。可以把这些词对齐连接构成的集合作为词对齐的一种表示,记为
$
A
$
,即
$
A
=
{
\{
(
1
,
1
)
,
(
2
,
4
)
,
(
3
,
5
)
,
(
4
,
2
)
,
(
5
,
3
)
}
\}
$
。
%----------------------------------------------
%----------------------------------------------
\begin{figure}
[htp]
\begin{figure}
[htp]
...
@@ -503,7 +503,7 @@ g(\seq{s},\seq{t}) & \equiv & \prod_{j,i \in \widehat{A}}{\funp{P}(s_j,t_i)} \ti
...
@@ -503,7 +503,7 @@ g(\seq{s},\seq{t}) & \equiv & \prod_{j,i \in \widehat{A}}{\funp{P}(s_j,t_i)} \ti
\parinterval
在
\ref
{
sec:simple-mt-example
}
节中,我们实现了一个简单的基于词的统计机器翻译模型,内容涉及建模、训练和解码。但是,还有很多问题还没有进行深入讨论,比如,如何处理空翻译?如何对调序问题进行建模?如何用更严密的数学模型描述翻译过程?如何对更加复杂的统计模型进行训练?等等。针对以上问题,本节将系统地介绍IBM统计机器翻译模型。作为经典的机器翻译模型,对IBM模型的学习将有助于对自然语言处理问题建立系统化建模思想,特别是对问题的数学描述方法将会成为理解本书后续内容的基础工具。
\parinterval
在
\ref
{
sec:simple-mt-example
}
节中,我们实现了一个简单的基于词的统计机器翻译模型,内容涉及建模、训练和解码。但是,还有很多问题还没有进行深入讨论,比如,如何处理空翻译?如何对调序问题进行建模?如何用更严密的数学模型描述翻译过程?如何对更加复杂的统计模型进行训练?等等。针对以上问题,本节将系统地介绍IBM统计机器翻译模型。作为经典的机器翻译模型,对IBM模型的学习将有助于对自然语言处理问题建立系统化建模思想,特别是对问题的数学描述方法将会成为理解本书后续内容的基础工具。
\parinterval
首先,重新思考一下人类进行翻译的过程。对于给定的源语
句
$
\seq
{
s
}$
,人不会像计算机一样尝试很多的可能,而是快速准确地翻译出一个或者少数几个正确的译文。在人看来,除了正确的译文外,其他的翻译都是不正确的,或者说除了少数的译文人甚至都不会考虑太多其他的可能性。但是,在统计机器翻译的世界里,没有译文是不可能的。换句话说,对于源语言句子
$
\seq
{
s
}$
,所有目标语词串
$
\seq
{
t
}$
都是可能的译文,只是可能性大小不同。这个思想可以通过统计模型实现:每对
$
(
\seq
{
s
}
,
\seq
{
t
}
)
$
都有一个概率值
$
\funp
{
P
}
(
\seq
{
t
}
|
\seq
{
s
}
)
$
来描述
$
\seq
{
s
}$
翻译为
$
\seq
{
t
}$
的好与坏(图
\ref
{
fig:5-12
}
)。
\parinterval
首先,重新思考一下人类进行翻译的过程。对于给定的源语
言句子
$
\seq
{
s
}$
,人不会像计算机一样尝试很多的可能,而是快速准确地翻译出一个或者少数几个正确的译文。在人看来,除了正确的译文外,其他的翻译都是不正确的,或者说除了少数的译文人甚至都不会考虑太多其他的可能性。但是,在统计机器翻译的世界里,没有译文是不可能的。换句话说,对于源语言句子
$
\seq
{
s
}$
,所有目标语词串
$
\seq
{
t
}$
都是可能的译文,只是可能性大小不同。这个思想可以通过统计模型实现:每对
$
(
\seq
{
s
}
,
\seq
{
t
}
)
$
都有一个概率值
$
\funp
{
P
}
(
\seq
{
t
}
|
\seq
{
s
}
)
$
来描述
$
\seq
{
s
}$
翻译为
$
\seq
{
t
}$
的好与坏(图
\ref
{
fig:5-12
}
)。
%----------------------------------------------
%----------------------------------------------
\begin{figure}
[htp]
\begin{figure}
[htp]
...
...
Chapter6/Figures/figure-examples-of-sequential-translation-and-reorder-translation.tex
查看文件 @
be2669f0
...
@@ -5,7 +5,7 @@
...
@@ -5,7 +5,7 @@
\tikzstyle
{
cand
}
= [draw,inner sep=4pt,line width=1pt,align=center,drop shadow,minimum height =1.6em,minimum width=4.2em,fill=green!30]
\tikzstyle
{
cand
}
= [draw,inner sep=4pt,line width=1pt,align=center,drop shadow,minimum height =1.6em,minimum width=4.2em,fill=green!30]
\tikzstyle
{
ref
}
= [draw,inner sep=4pt,line width=1pt,align=center,drop shadow,minimum height =1.6em,minimum width=4.2em,fill=red!30]
\tikzstyle
{
ref
}
= [draw,inner sep=4pt,line width=1pt,align=center,drop shadow,minimum height =1.6em,minimum width=4.2em,fill=red!30]
\node
[align=center,minimum width=2.4em,minimum height=1.6em,minimum width=6em]
(n11) at (0,0)
{
源语
}
;
\node
[align=center,minimum width=2.4em,minimum height=1.6em,minimum width=6em]
(n11) at (0,0)
{
源语
言
}
;
\node
[cand,anchor=west]
(n12) at ([xshift=0.0em]n11.east)
{
我
}
;
\node
[cand,anchor=west]
(n12) at ([xshift=0.0em]n11.east)
{
我
}
;
\node
[cand,anchor=west]
(n13) at ([xshift=1em]n12.east)
{
对
}
;
\node
[cand,anchor=west]
(n13) at ([xshift=1em]n12.east)
{
对
}
;
\node
[cand,anchor=west]
(n14) at ([xshift=1em]n13.east)
{
你
}
;
\node
[cand,anchor=west]
(n14) at ([xshift=1em]n13.east)
{
你
}
;
...
@@ -30,7 +30,7 @@
...
@@ -30,7 +30,7 @@
\tikzstyle
{
cand
}
= [draw,inner sep=4pt,line width=1pt,align=center,drop shadow,minimum height =1.6em,minimum width=4.2em,fill=green!30]
\tikzstyle
{
cand
}
= [draw,inner sep=4pt,line width=1pt,align=center,drop shadow,minimum height =1.6em,minimum width=4.2em,fill=green!30]
\tikzstyle
{
ref
}
= [draw,inner sep=4pt,line width=1pt,align=center,drop shadow,minimum height =1.6em,minimum width=4.2em,fill=red!30]
\tikzstyle
{
ref
}
= [draw,inner sep=4pt,line width=1pt,align=center,drop shadow,minimum height =1.6em,minimum width=4.2em,fill=red!30]
\node
[align=center,minimum width=2.4em,minimum height=1.6em,minimum width=6em]
(n11) at (0,0)
{
源语
}
;
\node
[align=center,minimum width=2.4em,minimum height=1.6em,minimum width=6em]
(n11) at (0,0)
{
源语
言
}
;
\node
[cand,anchor=west]
(n12) at ([xshift=0.0em]n11.east)
{
我
}
;
\node
[cand,anchor=west]
(n12) at ([xshift=0.0em]n11.east)
{
我
}
;
\node
[cand,anchor=west]
(n13) at ([xshift=1em]n12.east)
{
对
}
;
\node
[cand,anchor=west]
(n13) at ([xshift=1em]n12.east)
{
对
}
;
\node
[cand,anchor=west]
(n14) at ([xshift=1em]n13.east)
{
你
}
;
\node
[cand,anchor=west]
(n14) at ([xshift=1em]n13.east)
{
你
}
;
...
...
Chapter7/chapter7.tex
查看文件 @
be2669f0
...
@@ -754,7 +754,7 @@ dr & = & {\rm{start}}_i-{\rm{end}}_{i-1}-1
...
@@ -754,7 +754,7 @@ dr & = & {\rm{start}}_i-{\rm{end}}_{i-1}-1
\parinterval
解码的目的是根据模型以及输入,找到模型得分最高的推导,即:
\parinterval
解码的目的是根据模型以及输入,找到模型得分最高的推导,即:
\begin{eqnarray}
\begin{eqnarray}
\hat
{
d
}
=
\arg\max
_{
d
}
\ \
\
textrm
{
score
}
(d,
\seq
{
t
}
,
\seq
{
s
}
)
\hat
{
d
}
=
\arg\max
_{
d
}
\ \textrm
{
score
}
(d,
\seq
{
t
}
,
\seq
{
s
}
)
\label
{
eq:7-21
}
\label
{
eq:7-21
}
\end{eqnarray}
\end{eqnarray}
...
...
Chapter8/chapter8.tex
查看文件 @
be2669f0
...
@@ -1411,7 +1411,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
...
@@ -1411,7 +1411,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
\vspace
{
-1.0em
}
\vspace
{
-1.0em
}
\parinterval
对于规则“
$
\textrm
{
VP
}
\rightarrow
\textrm
{
VV
}
\ \textrm
{
NP
}$
”,超边的头指向VP,超边的尾表示规则右部的两个变量VV和NP。规则“
$
\textrm
{
NP
}
\rightarrow
\textrm
{
NN
}
\ \textrm
{
NP
}$
”也可以进行类似的解释。
\parinterval
对于规则“
$
\textrm
{
VP
}
\rightarrow
\textrm
{
VV
}
\ \textrm
{
NP
}$
”,超边的头指向VP,超边的尾表示规则右部的两个变量VV和NP。规则“
$
\textrm
{
NP
}
\rightarrow
\textrm
{
NN
}
\ \textrm
{
NP
}$
”也可以进行类似的解释。
\parinterval
不难发现,超图提供了一种非常紧凑的数据结构来表示多个推导,因为不同推导之间可以共享节点。如果把图
\ref
{
fig:8-37
}
中的
蓝色和红色部分看作是两个推导,那么它们就共享了同一个节点NN[1,2],其中NN
是句法标记,[1,2]是跨度。能够想象,简单枚举一个句子所有的推导几乎是不可能的,但是用超图的方式却可以很有效地对指数级数量的推导进行表示。另一方面,超图上的运算常常被看作是一种基于半环的代数系统,而且人们发现许多句法分析和机器翻译问题本质上都是
{
\small\bfnew
{
半环分析
}}
\index
{
半环分析
}
(Semi-ring Parsing)
\index
{
Semi-ring Parsing
}
。不过,由于篇幅有限,这里不会对半环等结构展开讨论。感兴趣的读者可以查阅相关文献
\upcite
{
goodman1999semiring,eisner2002parameter
}
。
\parinterval
不难发现,超图提供了一种非常紧凑的数据结构来表示多个推导,因为不同推导之间可以共享节点。如果把图
\ref
{
fig:8-37
}
中的
绿色和红色部分看作是两个推导,那么它们就共享了同一个节点NP[1,2],其中NP
是句法标记,[1,2]是跨度。能够想象,简单枚举一个句子所有的推导几乎是不可能的,但是用超图的方式却可以很有效地对指数级数量的推导进行表示。另一方面,超图上的运算常常被看作是一种基于半环的代数系统,而且人们发现许多句法分析和机器翻译问题本质上都是
{
\small\bfnew
{
半环分析
}}
\index
{
半环分析
}
(Semi-ring Parsing)
\index
{
Semi-ring Parsing
}
。不过,由于篇幅有限,这里不会对半环等结构展开讨论。感兴趣的读者可以查阅相关文献
\upcite
{
goodman1999semiring,eisner2002parameter
}
。
\parinterval
从句法分析的角度看,超图最大程度地复用了局部的分析结果,使得分析可以“结构化”。比如,有两个推导:
\parinterval
从句法分析的角度看,超图最大程度地复用了局部的分析结果,使得分析可以“结构化”。比如,有两个推导:
\begin{eqnarray}
\begin{eqnarray}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论