合并分支 'caorunzhe' 到 'master'

17 update 查看合并请求 !937

合并分支 'caorunzhe' 到 'master'
17 update 查看合并请求 !937
ed55ec22 · 曹润柘 · 0c15e3ca · 6bac1c64 · ed55ec22 · ed55ec22
Commit ed55ec22 authored Jan 18, 2021 by 曹润柘
--- a/Chapter17/Figures/figure-an-end-to-end-voice-translation-model-based-on-transformer.tex
+++ b/Chapter17/Figures/figure-an-end-to-end-voice-translation-model-based-on-transformer.tex
@@ -11,7 +11,7 @@
 \draw[thick] (en_add.0) -- (en_add.180);
 \node[layer,anchor=north,fill=yellow!20] (en_cnn) at ([yshift=-1.0em]en_add.south){CNN};
 \node[anchor=east,font=\scriptsize,align=center] (en_pos) at ([xshift=-2em]en_add.west){位置编码};
-\node[anchor=north,font=\scriptsize,align=center] (en_input) at ([yshift=-1em]en_cnn.south){源语言语音特征\\(FBank/MFCC)};
+\node[anchor=north,font=\scriptsize,align=center] (en_input) at ([yshift=-1em]en_cnn.south){源语言语音特征\\（FBank/MFCC）};

 \draw[->,thick] (en_input.90) -- ([yshift=-0.1em]en_cnn.-90);
 \draw[->,thick] ([yshift=0.1em]en_cnn.90) -- ([yshift=-0.1em]en_add.-90);

--- a/Chapter17/Figures/figure-speech-recognition-model-based-on-transformer.tex
+++ b/Chapter17/Figures/figure-speech-recognition-model-based-on-transformer.tex
@@ -11,7 +11,7 @@
 \draw[thick] (en_add.0) -- (en_add.180);
 \node[layer,anchor=north,fill=yellow!20] (en_cnn) at ([yshift=-1.0em]en_add.south){CNN};
 \node[anchor=east,font=\scriptsize,align=center] (en_pos) at ([xshift=-2em]en_add.west){位置编码};
-\node[anchor=north,font=\scriptsize,align=center] (en_input) at ([yshift=-1em]en_cnn.south){语音特征\\(FBank/MFCC)};
+\node[anchor=north,font=\scriptsize,align=center] (en_input) at ([yshift=-1em]en_cnn.south){语音特征\\（FBank/MFCC）};

 \draw[->,thick] (en_input.90) -- ([yshift=-0.1em]en_cnn.-90);
 \draw[->,thick] ([yshift=0.1em]en_cnn.90) -- ([yshift=-0.1em]en_add.-90);

--- a/Chapter17/Figures/figure-speech-translation-model-based-on-CTC.tex
+++ b/Chapter17/Figures/figure-speech-translation-model-based-on-CTC.tex
@@ -12,7 +12,7 @@
 \draw[thick] (en_add.0) -- (en_add.180);
 \node[layer,anchor=north,fill=yellow!20] (en_cnn) at ([yshift=-1.0em]en_add.south){CNN};
 \node[anchor=east,font=\scriptsize,align=center] (en_pos) at ([xshift=-2em]en_add.west){位置编码};
-\node[anchor=north,font=\scriptsize,align=center] (en_input) at ([yshift=-1em]en_cnn.south){源语言语音特征\\(FBank/MFCC)};
+\node[anchor=north,font=\scriptsize,align=center] (en_input) at ([yshift=-1em]en_cnn.south){源语言语音特征\\（FBank/MFCC）};

 \draw[->,thick] (en_input.90) -- ([yshift=-0.1em]en_cnn.-90);
 \draw[->,thick] ([yshift=0.1em]en_cnn.90) -- ([yshift=-0.1em]en_add.-90);

--- a/Chapter17/chapter17.tex
+++ b/Chapter17/chapter17.tex
@@ -151,7 +151,7 @@
 \end{figure}
 %----------------------------------------------------------------------------------------------------

-\parinterval 针对级联语音翻译模型存在的缺陷，研究人员提出了{\small\bfnew{端到端的语音翻译模型}}\index{端到端的语音翻译模型}（End-to-End Speech Translation, E2E-ST）\index{End-to-End Speech Translation}\upcite{DBLP:conf/naacl/DuongACBC16,DBLP:conf/interspeech/WeissCJWC17,DBLP:journals/corr/BerardPSB16}，也就是模型的输入是源语言语音，输出是对应的目标语言文本。相比级联模型，端到端模型有如下优点：
+\parinterval 针对级联语音翻译模型存在的缺陷，研究人员提出了{\small\bfnew{端到端的语音翻译模型}}\index{端到端的语音翻译模型}（End-to-End Speech Translation，E2E-ST）\index{End-to-End Speech Translation}\upcite{DBLP:conf/naacl/DuongACBC16,DBLP:conf/interspeech/WeissCJWC17,DBLP:journals/corr/BerardPSB16}，也就是模型的输入是源语言语音，输出是对应的目标语言文本。相比级联模型，端到端模型有如下优点：

 %----------------------------------------------------------------------------------------------------
 \begin{itemize}
@@ -204,7 +204,7 @@
 %----------------------------------------------------------------------------------------------------
 \begin{itemize}
    \vspace{0.5em}
-    \item {\small\bfnew{输入和输出之间的对齐是单调的}}。即后面的输入只会预测与前面序列相同的后面的输出内容。比如对于图\ref{fig:17-8}中的例子，如果输入的位置t已经对齐了字符“l”，那么t之后的位置不会再对齐前面的字符“h”和“e”。
+    \item {\small\bfnew{输入和输出之间的对齐是单调的}}。即后面的输入只会预测与前面序列相同的后面的输出内容。比如对于图\ref{fig:17-8}中的例子，如果输入的位置$t$已经对齐了字符“l”，那么$t$之后的位置不会再对齐前面的字符“h”和“e”。
    \vspace{0.5em}
    \item {\small\bfnew{输入和输出之间是多对一的关系}}。也就是多个输入会对应到同一个输出上。这对于语音序列来说是非常自然的一件事情，由于输入的每个位置只包含非常短的语音特征，因此多个输入才可以对应到一个输出字符。
    \vspace{0.5em}