Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
ed12a0aa
Commit
ed12a0aa
authored
Nov 16, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求
!415
parents
75e4b93d
c4196109
全部展开
隐藏空白字符变更
内嵌
并排
正在显示
7 个修改的文件
包含
19 行增加
和
13 行删除
+19
-13
Chapter10/Figures/mt-history.png
+0
-0
Chapter10/chapter10.tex
+2
-2
Chapter11/Figures/figure-convolution-kernel.tex
+4
-3
Chapter11/Figures/figure-single-glu.tex
+5
-4
Chapter11/Figures/figure-structural-comparison-a.tex
+6
-2
Chapter11/Figures/figure-structural-comparison-b.tex
+2
-2
Chapter11/chapter11.tex
+0
-0
没有找到文件。
Chapter10/Figures/mt-history.png
查看文件 @
ed12a0aa
182 KB
|
W:
|
H:
186 KB
|
W:
|
H:
2-up
Swipe
Onion skin
Chapter10/chapter10.tex
查看文件 @
ed12a0aa
...
...
@@ -272,7 +272,7 @@ NMT & 21.7 & 18.7 & -13.7 \\
\parinterval
编码器-解码器框架是一种典型的基于“表示”的模型。编码器的作用是将输入的文字序列通过某种转换变为一种新的“表示”形式,这种“表示”包含了输入序列的所有信息。之后,解码器把这种“表示”重新转换为输出的文字序列。这其中的一个核心问题是表示学习,即:如何定义对输入文字序列的表示形式,并自动学习这种表示,同时应用它生成输出序列。一般来说,不同的表示学习方法可以对应不同的机器翻译模型,比如,在最初的神经机器翻译模型中,源语言句子都被表示为一个独立的向量,这时表示结果是静态的;而在注意力机制中,源语言句子的表示是动态的,也就是翻译目标语言的每个单词时都会使用不同的表示结果。
\parinterval
图
\ref
{
fig:10-5
}
是一个应用编码器-解码器结构来解决机器翻译问题的简单实例。给定一个中文句子“我/对/你/感到/满意”,编码器会将这句话编码成一个实数向量
$
(
0
.
2
,
-
1
,
6
,
5
,
0
.
7
,
-
2
)
$
,这个向量就是源语言句子的“表示”结果。虽然有些不可思议,但是神经机器翻译模型把这个向量等同于输入序列。向量中的数字并没有实际的意义,然而解码器却能从中提取到源语言句子中所包含的信息。也有研究者把向量的每一个维度看作是一个“特征”,这样源语言句子就被表示成多个“特征”的联合,而且这些特征可以被自动学习。有了这样的源语言句子的“表示”,解码器可以把这个实数向量作为输入,然后逐词生成目标语言句子“I am satisfied with you”。
\parinterval
图
\ref
{
fig:10-5
}
是一个应用编码器-解码器结构来解决机器翻译问题的简单实例。给定一个中文句子“我/对/你/感到/满意”,编码器会将这句话编码成一个实数向量
$
(
0
.
2
,
-
1
,
6
,
\\
5
,
0
.
7
,
-
2
)
$
,这个向量就是源语言句子的“表示”结果。虽然有些不可思议,但是神经机器翻译模型把这个向量等同于输入序列。向量中的数字并没有实际的意义,然而解码器却能从中提取到源语言句子中所包含的信息。也有研究者把向量的每一个维度看作是一个“特征”,这样源语言句子就被表示成多个“特征”的联合,而且这些特征可以被自动学习。有了这样的源语言句子的“表示”,解码器可以把这个实数向量作为输入,然后逐词生成目标语言句子“I am satisfied with you”。
%----------------------------------------------
\begin{figure}
[htp]
...
...
@@ -966,7 +966,7 @@ L(\mathbi{Y},\widehat{\mathbi{Y}}) = \sum_{j=1}^n L_{\textrm{ce}}(\mathbi{y}_j,\
\parinterval
神经网络的参数主要是各层中的线性变换矩阵和偏置。在训练开始时,需要对参数进行初始化。但是,由于神经机器翻译的网络结构复杂,因此损失函数往往不是凸函数,不同初始化会导致不同的优化结果。而且在大量实践中已经发现,神经机器翻译模型对初始化方式非常敏感,性能优异的系统往往需要特定的初始化方式。
\parinterval
因为LSTM是神经机器翻译中常用的一种模型,下面以LSTM模型为例(见
\ref
{
sec:lstm-cell
}
节),介绍机器翻译模型的初始化方法,这些方法也可以推广到GRU等结构。具体内容如下:
\parinterval
因为LSTM是神经机器翻译中常用的一种模型,下面以LSTM模型为例(见
\ref
{
sec:lstm-cell
}
\\
节),介绍机器翻译模型的初始化方法,这些方法也可以推广到GRU等结构。具体内容如下:
\begin{itemize}
\vspace
{
0.5em
}
...
...
Chapter11/Figures/figure-convolution-kernel.tex
查看文件 @
ed12a0aa
...
...
@@ -51,9 +51,9 @@
%\node[minimum width = 1.8cm] (sub) at ([xshift=-5.5cm,yshift=2cm]num9_9.east) {};
\draw
[decorate,decoration={brace,mirror,raise=0pt,amplitude=0.3cm},black,thick]
([yshift=0.4cm,xshift=-0.1cm]num1
_
1.west) -- node[att,xshift=-0.5cm]
{$
q
$}
([yshift=-0.4cm,xshift=-0.1cm]num3
_
3.west);
\draw
[decorate,decoration={brace,raise=0pt,amplitude=0.3cm},black,thick]
([xshift=-0.4cm,yshift=0.1cm]num1.north) -- node[att,yshift=0.5cm]
{$
k
$}
([xshift=0.4cm,yshift=0.1cm]num7.north);
\draw
[decorate,decoration={brace,mirror,raise=0pt,amplitude=0.3cm},black,thick]
([xshift=0.5cm,yshift=0.00cm]num9
_
9.south) -- node[att,xshift=0.5cm,yshift=-0.3cm]
{$
o
$}
([xshift=0.5cm,yshift=0.00cm]num9.south);
\draw
[decorate,decoration={brace,mirror,raise=0pt,amplitude=0.3cm},black,thick]
([yshift=0.4cm,xshift=-0.1cm]num1
_
1.west) -- node[att,xshift=-0.5cm]
{$
Q
$}
([yshift=-0.4cm,xshift=-0.1cm]num3
_
3.west);
\draw
[decorate,decoration={brace,raise=0pt,amplitude=0.3cm},black,thick]
([xshift=-0.4cm,yshift=0.1cm]num1.north) -- node[att,yshift=0.5cm]
{$
K
$}
([xshift=0.4cm,yshift=0.1cm]num7.north);
\draw
[decorate,decoration={brace,mirror,raise=0pt,amplitude=0.3cm},black,thick]
([xshift=0.5cm,yshift=0.00cm]num9
_
9.south) -- node[att,xshift=0.5cm,yshift=-0.3cm]
{$
O
$}
([xshift=0.5cm,yshift=0.00cm]num9.south);
\end{tikzpicture}
\ No newline at end of file
Chapter11/Figures/figure-single-glu.tex
查看文件 @
ed12a0aa
...
...
@@ -63,9 +63,9 @@ $\otimes$: & 按位乘运算 \\
\draw
[-latex,thick]
(b.east) -- (c2.west);
\draw
[-latex,thick]
(c2.east) -- ([xshift=0.4cm]c2.east);
\node
[inner sep=0pt, font=\tiny]
at (0.75cm, -0.4cm)
{$
X
$}
;
\node
[inner sep=0pt, font=\tiny]
at ([yshift=-0.4cm]a.south)
{$
B
=
X
*
V
+
c
$}
;
\node
[inner sep=0pt, font=\tiny]
at ([yshift=-0.4cm]b.south)
{$
A
=
X
*
W
+
b
$}
;
\node
[inner sep=0pt, font=\tiny]
at (8.5cm, -0.4cm)
{$
Y
=
A
\otimes
\sigma
(
B
)
$}
;
\node
[inner sep=0pt, font=\tiny]
at (0.75cm, -0.4cm)
{$
\mathbi
{
X
}
$}
;
\node
[inner sep=0pt, font=\tiny]
at ([yshift=-0.4cm]a.south)
{$
\mathbi
{
B
}
=
\mathbi
{
X
}
*
\mathbi
{
V
}
+
\mathbi
{
b
}_{
\mathbi
{
W
}}
$}
;
\node
[inner sep=0pt, font=\tiny]
at ([yshift=-0.4cm]b.south)
{$
\mathbi
{
A
}
=
\mathbi
{
X
}
*
\mathbi
{
W
}
+
\mathbi
{
b
}_{
\mathbi
{
V
}}
$}
;
\node
[inner sep=0pt, font=\tiny]
at (8.5cm, -0.4cm)
{$
\mathbi
{
Y
}
=
\mathbi
{
A
}
\otimes
\sigma
(
\mathbi
{
B
}
)
$}
;
\end{tikzpicture}
\ No newline at end of file
Chapter11/Figures/figure-structural-comparison-a.tex
查看文件 @
ed12a0aa
...
...
@@ -12,8 +12,8 @@
\node
(num7)[num,right of = num6,xshift = 1.2cm]
{
\textcolor
{
blue!70
}{$
\mathbi
{
e
}_
7
$}}
;
\node
(num8)[num,right of = num7,xshift = 1.2cm]
{
\textcolor
{
blue!70
}{$
\mathbi
{
e
}_
8
$}}
;
\node
(num9)[num,right of = num8,xshift = 1.2cm]
{$
\mathbi
{
e
}_
9
$}
;
\node
(A)[below of = num2,yshift = -0.6cm]
{
A
}
;
\node
(B)[below of = num8,yshift = -0.6cm]
{
B
}
;
%
\node(A)[below of = num2,yshift = -0.6cm]{A};
%
\node(B)[below of = num8,yshift = -0.6cm]{B};
\draw
[->, thick, color = blue!80](num2.east)--(num3.west);
...
...
@@ -23,5 +23,8 @@
\draw
[->, thick, color = blue!80](num6.east)--(num7.west);
\draw
[->, thick, color = blue!80](num7.east)--(num8.west);
\draw
[->,thick,color = black!70] (num1) -- (num2);
\draw
[->,thick,color =black!70] (num8) -- (num9);
\end{tikzpicture}
\ No newline at end of file
Chapter11/Figures/figure-structural-comparison-b.tex
查看文件 @
ed12a0aa
...
...
@@ -13,8 +13,8 @@
\node
(num1
_
8)[num,right of = num1
_
7,xshift = 1.2cm]
{
\textcolor
{
blue!70
}{$
\mathbi
{
e
}_
8
$}}
;
\node
(num1
_
9)[num,right of = num1
_
8,xshift = 1.2cm]
{$
\mathbi
{
e
}_
9
$}
;
\node
(num1
_
10)[num,right of = num1
_
9,xshift = 1.2cm, fill = blue!40]
{$
\mathbi
{
0
}$}
;
\node
(A)[below of = num2,yshift = -0.6cm]
{
A
}
;
\node
(B)[below of = num8,yshift = -0.6cm]
{
B
}
;
%
\node(A)[below of = num2,yshift = -0.6cm]{A};
%
\node(B)[below of = num8,yshift = -0.6cm]{B};
\node
(num2
_
0)[num,above of = num1
_
0,yshift = 1.2cm, fill = blue!40]
{
\textcolor
{
white
}{$
\mathbi
{
0
}$}}
;
\node
(num2
_
1)[num,right of = num2
_
0,xshift = 1.2cm]
{
\textbf
2
}
;
...
...
Chapter11/chapter11.tex
查看文件 @
ed12a0aa
差异被折叠。
点击展开。
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论