Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
单韦乔
Toy-MT-Introduction
Commits
bea44fa2
Commit
bea44fa2
authored
Nov 01, 2019
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
new pages
parent
fcd45fd6
显示空白字符变更
内嵌
并排
正在显示
4 个修改的文件
包含
121 行增加
和
17 行删除
+121
-17
Section05-Neural-Networks-and-Language-Modeling/section05-gbk.tex
+43
-3
Section05-Neural-Networks-and-Language-Modeling/section05-test.tex
+33
-9
Section05-Neural-Networks-and-Language-Modeling/section05.tex
+43
-3
Section06-Neural-Machine-Translation/section06.tex
+2
-2
没有找到文件。
Section05-Neural-Networks-and-Language-Modeling/section05-gbk.tex
查看文件 @
bea44fa2
...
@@ -291,7 +291,7 @@ GPT-2 (Transformer) & Radford et al. & 2019 & \alert{35.7}
...
@@ -291,7 +291,7 @@ GPT-2 (Transformer) & Radford et al. & 2019 & \alert{35.7}
\end{itemize}
\end{itemize}
{
\Large
{
\Large
\begin{displaymath}
\begin{displaymath}
\textbf
{
y
}
= f(
\textbf
{
w
}
\cdot
\textbf
{
x
}
+
\textbf
{
b
}
)
\textbf
{
y
}
= f(
\textbf
{
x
}
\cdot
\textbf
{
w
}
+
\textbf
{
b
}
)
\end{displaymath}
\end{displaymath}
}
}
\\
\\
...
@@ -754,6 +754,46 @@ GPT-2 (Transformer) & Radford et al. & 2019 & \alert{35.7}
...
@@ -754,6 +754,46 @@ GPT-2 (Transformer) & Radford et al. & 2019 & \alert{35.7}
\end{frame}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%%------------------------------------------------------------------------------------------------------------
%%% 线性代数基础
\begin{frame}
{
预热 - 线性代数知识
}
\begin{itemize}
\item
\textbf
{
矩阵
}
:我们用
$
a
$
表示一个标量(一个数),用粗体
$
\textbf
{
a
}$
表示一个矩阵(或向量),其中
$
a
_{
ij
}$
表示
$
\textbf
{
a
}$
第
$
i
$
行、第
$
j
$
列的元素
\\
\begin{displaymath}
a = 5
\hspace
{
3em
}
\textbf
{
a
}
=
\begin{pmatrix}
a
_{
11
}
&
a
_{
12
}
\\
a
_{
21
}
&
a
_{
22
}
\end{pmatrix}
=
\begin{pmatrix}
1
&
2
\\
3
&
4
\end{pmatrix}
\end{displaymath}
\item
\textbf
{
向量
}
:一种特殊的矩阵,只有一行或者一列,这里默认使用行向量,比如
$
\textbf
{
a
}
=
(
a
_
1
,a
_
2
,a
_
3
)
=
(
10
,
20
,
30
)
$
,
$
\textbf
{
a
}$
对应的列向量记为
$
\textbf
{
a
}^
T
$
\item
<2->
\textbf
{
代数运算
}
:矩阵可以按位进行+、-等代数运算,对于
$
\textbf
{
a
}
=
\begin
{
pmatrix
}
1
&
2
\\
3
&
4
\end
{
pmatrix
}$
,
$
\textbf
{
b
}
=
\begin
{
pmatrix
}
1
&
1
\\
1
&
1
\end
{
pmatrix
}$
,有
$
\textbf
{
a
}
+
\textbf
{
b
}
=
\begin
{
pmatrix
}
2
&
3
\\
4
&
5
\end
{
pmatrix
}$
\item
<3->
\textbf
{
矩阵的微分
}
:按位进行,对于矩阵
$
\textbf
{
c
}$
和标量
$
x
$
有
\begin{displaymath}
\frac
{
\partial
\textbf
{
c
}}{
\partial
x
}
=
\begin{pmatrix}
\frac
{
\partial
c
_{
11
}}{
\partial
x
}
&
\frac
{
\partial
c
_{
12
}}{
\partial
x
}
\\
\frac
{
\partial
c
_{
21
}}{
\partial
x
}
&
\frac
{
\partial
c
_{
22
}}{
\partial
x
}
\end{pmatrix}
\hspace
{
2em
}
\frac
{
\partial
x
}{
\partial
\textbf
{
c
}}
=
\begin{pmatrix}
\frac
{
\partial
x
}{
\partial
c
_{
11
}}
&
\frac
{
\partial
x
}{
\partial
c
_{
12
}}
\\
\frac
{
\partial
x
}{
\partial
c
_{
21
}}
&
\frac
{
\partial
x
}{
\partial
c
_{
22
}}
\end{pmatrix}
\end{displaymath}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 线性代数基础
\begin{frame}
{
预热 - 线性代数知识(续)
}
\begin{itemize}
\item
\textbf
{
矩阵的乘法
}
:对于
$
\textbf
{
a
}
\in
\mathbb
{
R
}^{
n
\times
k
}$
和
$
\textbf
{
b
}
\in
\mathbb
{
R
}^{
k
\times
m
}$
,用
$
\textbf
{
c
}
=
\textbf
{
a
}
\textbf
{
b
}
\in
\mathbb
{
R
}^{
n
\times
m
}$
表示
\textbf
{
a
}
和
\textbf
{
b
}
的矩阵乘法,其中
\begin{displaymath}
c
_{
pq
}
=
\sum
_{
i = 1
}^
k a
_{
pi
}
b
_{
iq
}
\end{displaymath}
对于方程
$
\left\{
\begin
{
array
}{
l
}
5
x
_{
1
}
+
2
x
_{
2
}
=
y
_{
1
}
\\
3
x
_{
1
}
+
x
_{
2
}
=
y
_{
2
}
\end
{
array
}
\right
.
$
,可以表示为
$
\textbf
{
a
}
\textbf
{
x
}^
T
=
\textbf
{
y
}^
T
$
其中
$
\textbf
{
a
}
=
\begin
{
pmatrix
}
5
&
2
\\
3
&
1
\end
{
pmatrix
}$
,
$
\textbf
{
x
}^
T
=
\begin
{
pmatrix
}
x
_
1
\\
x
_
2
\end
{
pmatrix
}$
,
$
\textbf
{
y
}^
T
=
\begin
{
pmatrix
}
y
_
1
\\
y
_
2
\end
{
pmatrix
}$
\item
<2->
\textbf
{
其它
}
\begin{itemize}
\item
\textbf
{
单位矩阵
}
:方阵
$
\textbf
{
I
}$
,
$
I
_{
ij
}
=
1
$
当且仅当
$
i
=
j
$
,否则
$
I
_{
ij
}
=
0
$
\item
\textbf
{
转置
}
:
$
\textbf
{
a
}$
的转置记为
$
\textbf
{
a
}^
T
$
,有
$
a
^
T
_{
ji
}
=
a
_{
ij
}$
\item
\textbf
{
逆矩阵
}
:方阵
$
\textbf
{
a
}$
的逆矩阵记为
$
\textbf
{
a
}^{
-
1
}$
,有
$
\textbf
{
a
}
\textbf
{
a
}^{
-
1
}
=
\textbf
{
a
}^{
-
1
}
\textbf
{
a
}
=
\textbf
{
I
}$
\item
\textbf
{
向量(矩阵)的范数
}
:
$
||
\textbf
{
a
}
||
_
p
=
\big
(
\sum
_
i |a
_
i|
^
p
\big
)
^{
\frac
{
1
}{
p
}}$
\end{itemize}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 人工神经元的函数形式
%%% 人工神经元的函数形式
\begin{frame}
{
人工神经元即一个函数
}
\begin{frame}
{
人工神经元即一个函数
}
...
@@ -817,7 +857,7 @@ GPT-2 (Transformer) & Radford et al. & 2019 & \alert{35.7}
...
@@ -817,7 +857,7 @@ GPT-2 (Transformer) & Radford et al. & 2019 & \alert{35.7}
\item
权重:
$
\textbf
{
w
}
=(
w
_
0
,...,w
_
n
)
$
\item
权重:
$
\textbf
{
w
}
=(
w
_
0
,...,w
_
n
)
$
\item
偏移:
$
\textbf
{
b
}
=
(-
\sigma
)
$
\item
偏移:
$
\textbf
{
b
}
=
(-
\sigma
)
$
\item
激活函数:
$
f
(
z
)=
1
$
当
$
z
\ge
0
$
, 其它情况
$
f
(
z
)=
0
$
\item
激活函数:
$
f
(
z
)=
1
$
当
$
z
\ge
0
$
, 其它情况
$
f
(
z
)=
0
$
\item
输出:
$
\textbf
{
y
}
=
f
(
\textbf
{
x
}
\cdot
\textbf
{
z
}
-
\sigma
)
$
\item
输出:
$
\textbf
{
y
}
=
f
(
\textbf
{
x
}
\cdot
\textbf
{
w
}
-
\sigma
)
$
\end{itemize}
\end{itemize}
\end{itemize}
\end{itemize}
...
@@ -2057,7 +2097,7 @@ cycle}
...
@@ -2057,7 +2097,7 @@ cycle}
\item
注意,这里不是张量乘法,因为张量乘法还有其它定义
\item
注意,这里不是张量乘法,因为张量乘法还有其它定义
\item
$
\textbf
{
w
}$
是
$
n
\times
m
$
的矩阵,
$
\textbf
{
x
}$
的形状是
$
...
\times
n
$
,即
$
\textbf
{
x
}$
的第一维度需要和
$
\textbf
{
w
}$
的行数大小相等
\\
\item
$
\textbf
{
w
}$
是
$
n
\times
m
$
的矩阵,
$
\textbf
{
x
}$
的形状是
$
...
\times
n
$
,即
$
\textbf
{
x
}$
的第一维度需要和
$
\textbf
{
w
}$
的行数大小相等
\\
\vspace
{
0.5em
}
\vspace
{
0.5em
}
$
\textbf
{
x
}
(
1
:
2
,
1
:
2
,
\alert
{
1
:
3
}
)
\times
\textbf
{
w
}
(
\alert
{
1
:
3
}
,
1
:
2
)
=
\textbf
{
s
}
(
1
:
2
,
1
:
2
,
1
:
2
)
$
$
\textbf
{
x
}
(
1
:
4
,
1
:
4
,
\alert
{
1
:
4
}
)
\times
\textbf
{
w
}
(
\alert
{
1
:
4
}
,
1
:
2
)
=
\textbf
{
s
}
(
1
:
4
,
1
:
4
,
1
:
2
)
$
\end{itemize}
\end{itemize}
\end{itemize}
\end{itemize}
...
...
Section05-Neural-Networks-and-Language-Modeling/section05-test.tex
查看文件 @
bea44fa2
...
@@ -121,19 +121,43 @@
...
@@ -121,19 +121,43 @@
\subsection
{
词嵌入
}
\subsection
{
词嵌入
}
%%%------------------------------------------------------------------------------------------------------------
%%%------------------------------------------------------------------------------------------------------------
%%%
用实例理解词的分布式表示
%%%
线性代数基础
\begin{frame}
{
分布式表示的可视化
}
\begin{frame}
{
预热 - 线性代数知识
}
\begin{itemize}
\begin{itemize}
\item
\textbf
{
一个著名的例子
}
:国王
$
\to
$
王后
\\
\item
\textbf
{
矩阵
}
:我们用
$
a
$
表示一个标量(一个数),用粗体
$
\textbf
{
a
}$
表示一个矩阵(或向量),其中
$
a
_{
ij
}$
表示
$
\textbf
{
a
}$
第
$
i
$
行、第
$
j
$
列的元素
\\
\begin{displaymath}
\begin{displaymath}
\vv
{
\textrm
{
国王
}}
-
\vv
{
\textrm
{
男人
}}
+
\vv
{
\textrm
{
女人
}}
=
\vv
{
\textrm
{
王后
}
}
a = 5
\hspace
{
3em
}
\textbf
{
a
}
=
\begin{pmatrix}
a
_{
11
}
&
a
_{
12
}
\\
a
_{
21
}
&
a
_{
22
}
\end{pmatrix}
=
\begin{pmatrix}
1
&
2
\\
3
&
4
\end{pmatrix
}
\end{displaymath}
\end{displaymath}
这里,
$
\vv
{
\textrm
{
word
}}$
表示单词的分布式向量表示
\item
\textbf
{
向量
}
:一种特殊的矩阵,只有一行或者一列,这里默认使用行向量,比如
$
\textbf
{
a
}
=
(
a
_
1
,a
_
2
,a
_
3
)
=
(
10
,
20
,
30
)
$
,
$
\textbf
{
a
}$
对应的列向量记为
$
\textbf
{
a
}^
T
$
\item
更多的词的可视化:相似的词聚在一起
\item
<2->
\textbf
{
代数运算
}
:矩阵可以按位进行+、-等代数运算,对于
$
\textbf
{
a
}
=
\begin
{
pmatrix
}
1
&
2
\\
3
&
4
\end
{
pmatrix
}$
,
$
\textbf
{
b
}
=
\begin
{
pmatrix
}
1
&
1
\\
1
&
1
\end
{
pmatrix
}$
,有
$
\textbf
{
a
}
+
\textbf
{
b
}
=
\begin
{
pmatrix
}
2
&
3
\\
4
&
5
\end
{
pmatrix
}$
\item
<3->
\textbf
{
矩阵的微分
}
:按位进行,对于矩阵
$
\textbf
{
c
}$
和标量
$
x
$
有
\begin{displaymath}
\frac
{
\partial
\textbf
{
c
}}{
\partial
x
}
=
\begin{pmatrix}
\frac
{
\partial
c
_{
11
}}{
\partial
x
}
&
\frac
{
\partial
c
_{
12
}}{
\partial
x
}
\\
\frac
{
\partial
c
_{
21
}}{
\partial
x
}
&
\frac
{
\partial
c
_{
22
}}{
\partial
x
}
\end{pmatrix}
\hspace
{
2em
}
\frac
{
\partial
x
}{
\partial
\textbf
{
c
}}
=
\begin{pmatrix}
\frac
{
\partial
x
}{
\partial
c
_{
11
}}
&
\frac
{
\partial
x
}{
\partial
c
_{
12
}}
\\
\frac
{
\partial
x
}{
\partial
c
_{
21
}}
&
\frac
{
\partial
x
}{
\partial
c
_{
22
}}
\end{pmatrix}
\end{displaymath}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 线性代数基础
\begin{frame}
{
预热 - 线性代数知识(续)
}
\begin{itemize}
\item
\textbf
{
矩阵的乘法
}
:对于
$
\textbf
{
a
}
\in
\mathbb
{
R
}^{
n
\times
k
}$
和
$
\textbf
{
b
}
\in
\mathbb
{
R
}^{
k
\times
m
}$
,用
$
\textbf
{
c
}
=
\textbf
{
a
}
\textbf
{
b
}
\in
\mathbb
{
R
}^{
n
\times
m
}$
表示
\textbf
{
a
}
和
\textbf
{
b
}
的矩阵乘法,其中
\begin{displaymath}
c
_{
pq
}
=
\sum
_{
i = 1
}^
k a
_{
pi
}
b
_{
iq
}
\end{displaymath}
对于方程
$
\left\{
\begin
{
array
}{
l
}
5
x
_{
1
}
+
2
x
_{
2
}
=
y
_{
1
}
\\
3
x
_{
1
}
+
x
_{
2
}
=
y
_{
2
}
\end
{
array
}
\right
.
$
,可以表示为
$
\textbf
{
a
}
\textbf
{
x
}^
T
=
\textbf
{
y
}^
T
$
其中
$
\textbf
{
a
}
=
\begin
{
pmatrix
}
5
&
2
\\
3
&
1
\end
{
pmatrix
}$
,
$
\textbf
{
x
}^
T
=
\begin
{
pmatrix
}
x
_
1
\\
x
_
2
\end
{
pmatrix
}$
,
$
\textbf
{
y
}^
T
=
\begin
{
pmatrix
}
y
_
1
\\
y
_
2
\end
{
pmatrix
}$
\item
<2->
\textbf
{
其它
}
\begin{itemize}
\item
\textbf
{
单位矩阵
}
:方阵
$
\textbf
{
I
}$
,
$
I
_{
ij
}
=
1
$
当且仅当
$
i
=
j
$
,否则
$
I
_{
ij
}
=
0
$
\item
\textbf
{
转置
}
:
$
\textbf
{
a
}$
的转置记为
$
\textbf
{
a
}^
T
$
,有
$
a
^
T
_{
ji
}
=
a
_{
ij
}$
\item
\textbf
{
逆矩阵
}
:方阵
$
\textbf
{
a
}$
的逆矩阵记为
$
\textbf
{
a
}^{
-
1
}$
,有
$
\textbf
{
a
}
\textbf
{
a
}^{
-
1
}
=
\textbf
{
a
}^{
-
1
}
\textbf
{
a
}
=
\textbf
{
I
}$
\item
\textbf
{
向量(矩阵)的范数
}
:
$
||
\textbf
{
a
}
||
_
p
=
\big
(
\sum
_
i |a
_
i|
^
p
\big
)
^{
\frac
{
1
}{
p
}}$
\end{itemize}
\end{itemize}
\end{itemize}
\begin{center}
\includegraphics
[scale=0.4]
{
./Figures/word-graph.png
}
\end{center}
\end{frame}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%%------------------------------------------------------------------------------------------------------------
...
...
Section05-Neural-Networks-and-Language-Modeling/section05.tex
查看文件 @
bea44fa2
...
@@ -294,7 +294,7 @@ GPT-2 (Transformer) & Radford et al. & 2019 & \alert{35.7}
...
@@ -294,7 +294,7 @@ GPT-2 (Transformer) & Radford et al. & 2019 & \alert{35.7}
\end{itemize}
\end{itemize}
{
\Large
{
\Large
\begin{displaymath}
\begin{displaymath}
\textbf
{
y
}
= f(
\textbf
{
w
}
\cdot
\textbf
{
x
}
+
\textbf
{
b
}
)
\textbf
{
y
}
= f(
\textbf
{
x
}
\cdot
\textbf
{
w
}
+
\textbf
{
b
}
)
\end{displaymath}
\end{displaymath}
}
}
\\
\\
...
@@ -757,6 +757,46 @@ GPT-2 (Transformer) & Radford et al. & 2019 & \alert{35.7}
...
@@ -757,6 +757,46 @@ GPT-2 (Transformer) & Radford et al. & 2019 & \alert{35.7}
\end{frame}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%%------------------------------------------------------------------------------------------------------------
%%% 线性代数基础
\begin{frame}
{
预热 - 线性代数知识
}
\begin{itemize}
\item
\textbf
{
矩阵
}
:我们用
$
a
$
表示一个标量(一个数),用粗体
$
\textbf
{
a
}$
表示一个矩阵(或向量),其中
$
a
_{
ij
}$
表示
$
\textbf
{
a
}$
第
$
i
$
行、第
$
j
$
列的元素
\\
\begin{displaymath}
a = 5
\hspace
{
3em
}
\textbf
{
a
}
=
\begin{pmatrix}
a
_{
11
}
&
a
_{
12
}
\\
a
_{
21
}
&
a
_{
22
}
\end{pmatrix}
=
\begin{pmatrix}
1
&
2
\\
3
&
4
\end{pmatrix}
\end{displaymath}
\item
\textbf
{
向量
}
:一种特殊的矩阵,只有一行或者一列,这里默认使用行向量,比如
$
\textbf
{
a
}
=
(
a
_
1
,a
_
2
,a
_
3
)
=
(
10
,
20
,
30
)
$
,
$
\textbf
{
a
}$
对应的列向量记为
$
\textbf
{
a
}^
T
$
\item
<2->
\textbf
{
代数运算
}
:矩阵可以按位进行+、-等代数运算,对于
$
\textbf
{
a
}
=
\begin
{
pmatrix
}
1
&
2
\\
3
&
4
\end
{
pmatrix
}$
,
$
\textbf
{
b
}
=
\begin
{
pmatrix
}
1
&
1
\\
1
&
1
\end
{
pmatrix
}$
,有
$
\textbf
{
a
}
+
\textbf
{
b
}
=
\begin
{
pmatrix
}
2
&
3
\\
4
&
5
\end
{
pmatrix
}$
\item
<3->
\textbf
{
矩阵的微分
}
:按位进行,对于矩阵
$
\textbf
{
c
}$
和标量
$
x
$
有
\begin{displaymath}
\frac
{
\partial
\textbf
{
c
}}{
\partial
x
}
=
\begin{pmatrix}
\frac
{
\partial
c
_{
11
}}{
\partial
x
}
&
\frac
{
\partial
c
_{
12
}}{
\partial
x
}
\\
\frac
{
\partial
c
_{
21
}}{
\partial
x
}
&
\frac
{
\partial
c
_{
22
}}{
\partial
x
}
\end{pmatrix}
\hspace
{
2em
}
\frac
{
\partial
x
}{
\partial
\textbf
{
c
}}
=
\begin{pmatrix}
\frac
{
\partial
x
}{
\partial
c
_{
11
}}
&
\frac
{
\partial
x
}{
\partial
c
_{
12
}}
\\
\frac
{
\partial
x
}{
\partial
c
_{
21
}}
&
\frac
{
\partial
x
}{
\partial
c
_{
22
}}
\end{pmatrix}
\end{displaymath}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 线性代数基础
\begin{frame}
{
预热 - 线性代数知识(续)
}
\begin{itemize}
\item
\textbf
{
矩阵的乘法
}
:对于
$
\textbf
{
a
}
\in
\mathbb
{
R
}^{
n
\times
k
}$
和
$
\textbf
{
b
}
\in
\mathbb
{
R
}^{
k
\times
m
}$
,用
$
\textbf
{
c
}
=
\textbf
{
a
}
\textbf
{
b
}
\in
\mathbb
{
R
}^{
n
\times
m
}$
表示
\textbf
{
a
}
和
\textbf
{
b
}
的矩阵乘法,其中
\begin{displaymath}
c
_{
pq
}
=
\sum
_{
i = 1
}^
k a
_{
pi
}
b
_{
iq
}
\end{displaymath}
对于方程
$
\left\{
\begin
{
array
}{
l
}
5
x
_{
1
}
+
2
x
_{
2
}
=
y
_{
1
}
\\
3
x
_{
1
}
+
x
_{
2
}
=
y
_{
2
}
\end
{
array
}
\right
.
$
,可以表示为
$
\textbf
{
a
}
\textbf
{
x
}^
T
=
\textbf
{
y
}^
T
$
其中
$
\textbf
{
a
}
=
\begin
{
pmatrix
}
5
&
2
\\
3
&
1
\end
{
pmatrix
}$
,
$
\textbf
{
x
}^
T
=
\begin
{
pmatrix
}
x
_
1
\\
x
_
2
\end
{
pmatrix
}$
,
$
\textbf
{
y
}^
T
=
\begin
{
pmatrix
}
y
_
1
\\
y
_
2
\end
{
pmatrix
}$
\item
<2->
\textbf
{
其它
}
\begin{itemize}
\item
\textbf
{
单位矩阵
}
:方阵
$
\textbf
{
I
}$
,
$
I
_{
ij
}
=
1
$
当且仅当
$
i
=
j
$
,否则
$
I
_{
ij
}
=
0
$
\item
\textbf
{
转置
}
:
$
\textbf
{
a
}$
的转置记为
$
\textbf
{
a
}^
T
$
,有
$
a
^
T
_{
ji
}
=
a
_{
ij
}$
\item
\textbf
{
逆矩阵
}
:方阵
$
\textbf
{
a
}$
的逆矩阵记为
$
\textbf
{
a
}^{
-
1
}$
,有
$
\textbf
{
a
}
\textbf
{
a
}^{
-
1
}
=
\textbf
{
a
}^{
-
1
}
\textbf
{
a
}
=
\textbf
{
I
}$
\item
\textbf
{
向量(矩阵)的范数
}
:
$
||
\textbf
{
a
}
||
_
p
=
\big
(
\sum
_
i |a
_
i|
^
p
\big
)
^{
\frac
{
1
}{
p
}}$
\end{itemize}
\end{itemize}
\end{frame}
%%%------------------------------------------------------------------------------------------------------------
%%% 人工神经元的函数形式
%%% 人工神经元的函数形式
\begin{frame}
{
人工神经元即一个函数
}
\begin{frame}
{
人工神经元即一个函数
}
...
@@ -820,7 +860,7 @@ GPT-2 (Transformer) & Radford et al. & 2019 & \alert{35.7}
...
@@ -820,7 +860,7 @@ GPT-2 (Transformer) & Radford et al. & 2019 & \alert{35.7}
\item
权重:
$
\textbf
{
w
}
=(
w
_
0
,...,w
_
n
)
$
\item
权重:
$
\textbf
{
w
}
=(
w
_
0
,...,w
_
n
)
$
\item
偏移:
$
\textbf
{
b
}
=
(-
\sigma
)
$
\item
偏移:
$
\textbf
{
b
}
=
(-
\sigma
)
$
\item
激活函数:
$
f
(
z
)=
1
$
当
$
z
\ge
0
$
, 其它情况
$
f
(
z
)=
0
$
\item
激活函数:
$
f
(
z
)=
1
$
当
$
z
\ge
0
$
, 其它情况
$
f
(
z
)=
0
$
\item
输出:
$
\textbf
{
y
}
=
f
(
\textbf
{
x
}
\cdot
\textbf
{
z
}
-
\sigma
)
$
\item
输出:
$
\textbf
{
y
}
=
f
(
\textbf
{
x
}
\cdot
\textbf
{
w
}
-
\sigma
)
$
\end{itemize}
\end{itemize}
\end{itemize}
\end{itemize}
...
@@ -2060,7 +2100,7 @@ cycle}
...
@@ -2060,7 +2100,7 @@ cycle}
\item
注意,这里不是张量乘法,因为张量乘法还有其它定义
\item
注意,这里不是张量乘法,因为张量乘法还有其它定义
\item
$
\textbf
{
w
}$
是
$
n
\times
m
$
的矩阵,
$
\textbf
{
x
}$
的形状是
$
...
\times
n
$
,即
$
\textbf
{
x
}$
的第一维度需要和
$
\textbf
{
w
}$
的行数大小相等
\\
\item
$
\textbf
{
w
}$
是
$
n
\times
m
$
的矩阵,
$
\textbf
{
x
}$
的形状是
$
...
\times
n
$
,即
$
\textbf
{
x
}$
的第一维度需要和
$
\textbf
{
w
}$
的行数大小相等
\\
\vspace
{
0.5em
}
\vspace
{
0.5em
}
$
\textbf
{
x
}
(
1
:
2
,
1
:
2
,
\alert
{
1
:
3
}
)
\times
\textbf
{
w
}
(
\alert
{
1
:
3
}
,
1
:
2
)
=
\textbf
{
s
}
(
1
:
2
,
1
:
2
,
1
:
2
)
$
$
\textbf
{
x
}
(
1
:
4
,
1
:
4
,
\alert
{
1
:
4
}
)
\times
\textbf
{
w
}
(
\alert
{
1
:
4
}
,
1
:
2
)
=
\textbf
{
s
}
(
1
:
4
,
1
:
4
,
1
:
2
)
$
\end{itemize}
\end{itemize}
\end{itemize}
\end{itemize}
...
...
Section06-Neural-Machine-Translation/section06.tex
查看文件 @
bea44fa2
...
@@ -114,7 +114,7 @@
...
@@ -114,7 +114,7 @@
\section
{
编码器-解码器框架
}
\section
{
编码器-解码器框架
}
%%%------------------------------------------------------------------------------------------------------------
%%%------------------------------------------------------------------------------------------------------------
\section
{
基于循环单元的
翻译模型及注意力机制
}
\section
{
循环神经网络
翻译模型及注意力机制
}
%%%------------------------------------------------------------------------------------------------------------
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
模型结构
}
\subsection
{
模型结构
}
...
@@ -126,7 +126,7 @@
...
@@ -126,7 +126,7 @@
\section
{
Transformer
}
\section
{
Transformer
}
%%%------------------------------------------------------------------------------------------------------------
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
模型结构
}
\subsection
{
多头自注意力模型
}
%%%------------------------------------------------------------------------------------------------------------
%%%------------------------------------------------------------------------------------------------------------
\subsection
{
训练
}
\subsection
{
训练
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论