Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
ed55ec22
Commit
ed55ec22
authored
Jan 18, 2021
by
曹润柘
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'caorunzhe' 到 'master'
17 update 查看合并请求
!937
parents
0c15e3ca
6bac1c64
隐藏空白字符变更
内嵌
并排
正在显示
4 个修改的文件
包含
5 行增加
和
5 行删除
+5
-5
Chapter17/Figures/figure-an-end-to-end-voice-translation-model-based-on-transformer.tex
+1
-1
Chapter17/Figures/figure-speech-recognition-model-based-on-transformer.tex
+1
-1
Chapter17/Figures/figure-speech-translation-model-based-on-CTC.tex
+1
-1
Chapter17/chapter17.tex
+2
-2
没有找到文件。
Chapter17/Figures/figure-an-end-to-end-voice-translation-model-based-on-transformer.tex
查看文件 @
ed55ec22
...
...
@@ -11,7 +11,7 @@
\draw
[thick]
(en
_
add.0) -- (en
_
add.180);
\node
[layer,anchor=north,fill=yellow!20]
(en
_
cnn) at ([yshift=-1.0em]en
_
add.south)
{
CNN
}
;
\node
[anchor=east,font=\scriptsize,align=center]
(en
_
pos) at ([xshift=-2em]en
_
add.west)
{
位置编码
}
;
\node
[anchor=north,font=\scriptsize,align=center]
(en
_
input) at ([yshift=-1em]en
_
cnn.south)
{
源语言语音特征
\\
(FBank/MFCC)
}
;
\node
[anchor=north,font=\scriptsize,align=center]
(en
_
input) at ([yshift=-1em]en
_
cnn.south)
{
源语言语音特征
\\
(FBank/MFCC)
}
;
\draw
[->,thick]
(en
_
input.90) -- ([yshift=-0.1em]en
_
cnn.-90);
\draw
[->,thick]
([yshift=0.1em]en
_
cnn.90) -- ([yshift=-0.1em]en
_
add.-90);
...
...
Chapter17/Figures/figure-speech-recognition-model-based-on-transformer.tex
查看文件 @
ed55ec22
...
...
@@ -11,7 +11,7 @@
\draw
[thick]
(en
_
add.0) -- (en
_
add.180);
\node
[layer,anchor=north,fill=yellow!20]
(en
_
cnn) at ([yshift=-1.0em]en
_
add.south)
{
CNN
}
;
\node
[anchor=east,font=\scriptsize,align=center]
(en
_
pos) at ([xshift=-2em]en
_
add.west)
{
位置编码
}
;
\node
[anchor=north,font=\scriptsize,align=center]
(en
_
input) at ([yshift=-1em]en
_
cnn.south)
{
语音特征
\\
(FBank/MFCC)
}
;
\node
[anchor=north,font=\scriptsize,align=center]
(en
_
input) at ([yshift=-1em]en
_
cnn.south)
{
语音特征
\\
(FBank/MFCC)
}
;
\draw
[->,thick]
(en
_
input.90) -- ([yshift=-0.1em]en
_
cnn.-90);
\draw
[->,thick]
([yshift=0.1em]en
_
cnn.90) -- ([yshift=-0.1em]en
_
add.-90);
...
...
Chapter17/Figures/figure-speech-translation-model-based-on-CTC.tex
查看文件 @
ed55ec22
...
...
@@ -12,7 +12,7 @@
\draw
[thick]
(en
_
add.0) -- (en
_
add.180);
\node
[layer,anchor=north,fill=yellow!20]
(en
_
cnn) at ([yshift=-1.0em]en
_
add.south)
{
CNN
}
;
\node
[anchor=east,font=\scriptsize,align=center]
(en
_
pos) at ([xshift=-2em]en
_
add.west)
{
位置编码
}
;
\node
[anchor=north,font=\scriptsize,align=center]
(en
_
input) at ([yshift=-1em]en
_
cnn.south)
{
源语言语音特征
\\
(FBank/MFCC)
}
;
\node
[anchor=north,font=\scriptsize,align=center]
(en
_
input) at ([yshift=-1em]en
_
cnn.south)
{
源语言语音特征
\\
(FBank/MFCC)
}
;
\draw
[->,thick]
(en
_
input.90) -- ([yshift=-0.1em]en
_
cnn.-90);
\draw
[->,thick]
([yshift=0.1em]en
_
cnn.90) -- ([yshift=-0.1em]en
_
add.-90);
...
...
Chapter17/chapter17.tex
查看文件 @
ed55ec22
...
...
@@ -151,7 +151,7 @@
\end{figure}
%----------------------------------------------------------------------------------------------------
\parinterval
针对级联语音翻译模型存在的缺陷,研究人员提出了
{
\small\bfnew
{
端到端的语音翻译模型
}}
\index
{
端到端的语音翻译模型
}
(End-to-End Speech Translation
,
E2E-ST)
\index
{
End-to-End Speech Translation
}
\upcite
{
DBLP:conf/naacl/DuongACBC16,DBLP:conf/interspeech/WeissCJWC17,DBLP:journals/corr/BerardPSB16
}
,也就是模型的输入是源语言语音,输出是对应的目标语言文本。相比级联模型,端到端模型有如下优点:
\parinterval
针对级联语音翻译模型存在的缺陷,研究人员提出了
{
\small\bfnew
{
端到端的语音翻译模型
}}
\index
{
端到端的语音翻译模型
}
(End-to-End Speech Translation
,
E2E-ST)
\index
{
End-to-End Speech Translation
}
\upcite
{
DBLP:conf/naacl/DuongACBC16,DBLP:conf/interspeech/WeissCJWC17,DBLP:journals/corr/BerardPSB16
}
,也就是模型的输入是源语言语音,输出是对应的目标语言文本。相比级联模型,端到端模型有如下优点:
%----------------------------------------------------------------------------------------------------
\begin{itemize}
...
...
@@ -204,7 +204,7 @@
%----------------------------------------------------------------------------------------------------
\begin{itemize}
\vspace
{
0.5em
}
\item
{
\small\bfnew
{
输入和输出之间的对齐是单调的
}}
。即后面的输入只会预测与前面序列相同的后面的输出内容。比如对于图
\ref
{
fig:17-8
}
中的例子,如果输入的位置
t已经对齐了字符“l”,那么t
之后的位置不会再对齐前面的字符“h”和“e”。
\item
{
\small\bfnew
{
输入和输出之间的对齐是单调的
}}
。即后面的输入只会预测与前面序列相同的后面的输出内容。比如对于图
\ref
{
fig:17-8
}
中的例子,如果输入的位置
$
t
$
已经对齐了字符“l”,那么
$
t
$
之后的位置不会再对齐前面的字符“h”和“e”。
\vspace
{
0.5em
}
\item
{
\small\bfnew
{
输入和输出之间是多对一的关系
}}
。也就是多个输入会对应到同一个输出上。这对于语音序列来说是非常自然的一件事情,由于输入的每个位置只包含非常短的语音特征,因此多个输入才可以对应到一个输出字符。
\vspace
{
0.5em
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论