Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
c6facf66
Commit
c6facf66
authored
Dec 20, 2019
by
Lee
Browse files
Options
Browse Files
Download
Plain Diff
Merge branch 'master' into jiangyufan
parents
8c083c20
7e80636a
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
19 行增加
和
8 行删除
+19
-8
Section06-Neural-Machine-Translation/section06.tex
+19
-8
没有找到文件。
Section06-Neural-Machine-Translation/section06.tex
查看文件 @
c6facf66
...
@@ -1133,7 +1133,9 @@ NLP问题的隐含结构假设 & 无隐含结构假设,端到端学习 \\
...
@@ -1133,7 +1133,9 @@ NLP问题的隐含结构假设 & 无隐含结构假设,端到端学习 \\
%%% 词嵌入
%%% 词嵌入
\begin{frame}
{
模块1:词嵌入层
}
\begin{frame}
{
模块1:词嵌入层
}
\begin{itemize}
\begin{itemize}
\item
词嵌入
\item
把输入的词转换成唯一对应的词表大小的0-1向量
\item
根据0-1向量,从词嵌入矩阵中取出对应的词嵌入
$
e
_
y
$
\item
取出的词嵌入
$
e
_
y
$
作为循环神经网络的输入
\end{itemize}
\end{itemize}
%%% 图
%%% 图
\begin{center}
\begin{center}
...
@@ -1250,7 +1252,9 @@ NLP问题的隐含结构假设 & 无隐含结构假设,端到端学习 \\
...
@@ -1250,7 +1252,9 @@ NLP问题的隐含结构假设 & 无隐含结构假设,端到端学习 \\
%%% 输出
%%% 输出
\begin{frame}
{
模块2:输出层
}
\begin{frame}
{
模块2:输出层
}
\begin{itemize}
\begin{itemize}
\item
Softmax
\item
循环网络输出
$
s
$
经过权重矩阵
$
W
$
变换成词表大小的向量
\item
获得的向量经过Softmax变换得到不同词作为输出的概率
\item
一般选取概率最高的词作为模型最终的输出
\end{itemize}
\end{itemize}
%%% 图
%%% 图
\begin{center}
\begin{center}
...
@@ -1387,9 +1391,16 @@ NLP问题的隐含结构假设 & 无隐含结构假设,端到端学习 \\
...
@@ -1387,9 +1391,16 @@ NLP问题的隐含结构假设 & 无隐含结构假设,端到端学习 \\
%%%------------------------------------------------------------------------------------------------------------
%%%------------------------------------------------------------------------------------------------------------
%%% LSTM
%%% LSTM
\begin{frame}
{
模块3:循环单元 - 长短时记忆模型(LSTM)
}
\begin{frame}
{
模块3:循环单元 - 长短时记忆模型(LSTM)
}
\begin{itemize}
\only
<1>
{
遗忘门根据输入的
$
x
_
t
$
和
$
h
_
t
$
决定保留多大比例的
$
c
_
t
$
\\
[5pt]
}
\item
LSTM
\only
<2>
{
输入门根据
$
x
_
t
$
和
$
h
_
t
$
计算需要保存的记忆
$
\hat
{
c
}_
t
$
和其比例
\\
[5pt]
}
\end{itemize}
\only
<3>
{
把
$
c
_
t
$
和
$
\hat
{
c
}_
t
$
组合得到新的记忆
$
c
_{
t
+
1
}$
\\
[5pt]
}
\only
<4>
{
输出门根据
$
x
_
t
$
,
$
h
_
t
$
和
$
c
_{
t
+
1
}$
得到新的隐藏状态
$
h
_{
t
+
1
}$
\\
[5pt]
}
\only
<5>
{
如此反复,不断更新
$
c
$
和
$
h
$
直到不再有新的
$
x
$
输入
\\
[5pt]
}
{
\scriptsize
\begin{tabular}
{
rl
}
*
$
x
_
t
$
:
&
上一层的输出
\\
*
$
h
_
t
$
:
&
同一层上一时刻的隐藏状态
\\
*
$
c
_
t
$
:
&
同一层上一时刻的记忆
\end{tabular}
}
%%% 图
%%% 图
\begin{center}
\begin{center}
\begin{tikzpicture}
\begin{tikzpicture}
...
@@ -3002,9 +3013,9 @@ $\textrm{``you''} = \argmax_{y} \textrm{P}(y|\textbf{s}_1, \alert{\textbf{C}})$
...
@@ -3002,9 +3013,9 @@ $\textrm{``you''} = \argmax_{y} \textrm{P}(y|\textbf{s}_1, \alert{\textbf{C}})$
\item
对
$
\textrm
{
P
}
(
y
_
j|
\textbf
{
y
}_{
<j
}
,
\textbf
{
x
}
)
$
进行乘积会导致长句的概率很低
\item
对
$
\textrm
{
P
}
(
y
_
j|
\textbf
{
y
}_{
<j
}
,
\textbf
{
x
}
)
$
进行乘积会导致长句的概率很低
\item
模型本身并没有考虑每个源语言单词被使用的程度,比如一个单词可能会被翻译了很多``次''
\item
模型本身并没有考虑每个源语言单词被使用的程度,比如一个单词可能会被翻译了很多``次''
\end{itemize}
\end{itemize}
\item
<2-> 因此,解码时会使用其它特征与
$
\textrm
{
P
}
(
\textbf
{
y
}
|
\textbf
{
x
}
)
$
一起组成模型得分
$
score
(
\textbf
{
y
}
,
\textbf
{
x
}
)
$
,
$
score
(
\textbf
{
y
}
,
\textbf
{
x
}
)
$
也作为beam search
的排序依据
\item
<2-> 因此,解码时会使用其它特征与
$
\textrm
{
P
}
(
\textbf
{
y
}
|
\textbf
{
x
}
)
$
一起组成模型得分
$
\textrm
{
score
}
(
\textbf
{
y
}
,
\textbf
{
x
}
)
$
,
$
\textrm
{
score
}
(
\textbf
{
y
}
,
\textbf
{
x
}
)
$
也作为beam search
的排序依据
\begin{eqnarray}
\begin{eqnarray}
score
(
\textbf
{
y
}
,
\textbf
{
x
}
)
&
=
&
\textrm
{
P
}
(
\textbf
{
y
}
|
\textbf
{
x
}
)/
\textrm
{
lp
}
(
\textbf
{
y
}
) +
\textrm
{
cp
}
(
\textbf
{
y
}
,
\textbf
{
x
}
)
\nonumber
\\
\textrm
{
score
}
(
\textbf
{
y
}
,
\textbf
{
x
}
)
&
=
&
\textrm
{
P
}
(
\textbf
{
y
}
|
\textbf
{
x
}
)/
\textrm
{
lp
}
(
\textbf
{
y
}
) +
\textrm
{
cp
}
(
\textbf
{
y
}
,
\textbf
{
x
}
)
\nonumber
\\
\textrm
{
lp
}
(
\textbf
{
y
}
)
&
=
&
\frac
{
(5 + |
\textbf
{
y
}
|)
^
\alpha
}{
(5 + 1)
^
\alpha
}
\nonumber
\\
\textrm
{
lp
}
(
\textbf
{
y
}
)
&
=
&
\frac
{
(5 + |
\textbf
{
y
}
|)
^
\alpha
}{
(5 + 1)
^
\alpha
}
\nonumber
\\
\textrm
{
cp
}
(
\textbf
{
y
}
,
\textbf
{
x
}
)
&
=
&
\beta
\cdot
\sum\nolimits
_{
i=1
}^{
|
\textbf
{
x
}
|
}
\log
(
\min
(
\sum\nolimits
_{
j
}^{
|
\textbf
{
y
}
|
}
a
_{
ij
}
, 1)))
\nonumber
\textrm
{
cp
}
(
\textbf
{
y
}
,
\textbf
{
x
}
)
&
=
&
\beta
\cdot
\sum\nolimits
_{
i=1
}^{
|
\textbf
{
x
}
|
}
\log
(
\min
(
\sum\nolimits
_{
j
}^{
|
\textbf
{
y
}
|
}
a
_{
ij
}
, 1)))
\nonumber
\end{eqnarray}
\end{eqnarray}
...
@@ -4649,7 +4660,7 @@ x_{l+1} = x_l+\mathcal{F}(x_l)
...
@@ -4649,7 +4660,7 @@ x_{l+1} = x_l+\mathcal{F}(x_l)
\item
由于自回归性,Transformer在推断阶段无法进行并行化操作,导致推断速度非常慢!
\item
由于自回归性,Transformer在推断阶段无法进行并行化操作,导致推断速度非常慢!
\item
<2-> 加速手段:Cache(缓存需要重复计算的变量) 、Average Attention Network、Share Attention Network
\item
<2-> 加速手段:
低精度、
Cache(缓存需要重复计算的变量) 、Average Attention Network、Share Attention Network
\end{itemize}
\end{itemize}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论