10

f40249de · zengxin · 539bbf97 · f40249de · f40249de
Commit f40249de authored Nov 25, 2020 by zengxin
--- a/Chapter10/Figures/mt-history.png
+++ b/Chapter10/Figures/mt-history.png
--- a/Chapter10/chapter10.tex
+++ b/Chapter10/chapter10.tex
@@ -78,13 +78,13 @@
 \vspace{0.3em}
 \item 早在2013年，Nal Kalchbrenner和Phil Blunsom提出了一个基于编码器-解码器结构的新模型\upcite{kalchbrenner-blunsom-2013-recurrent}。该模型用卷积神经网络（CNN）将源语言编码成实数向量，之后用循环神经网络（RNN）将连续向量转换成目标语言。这使得模型不需要进行词对齐、特征提取等工作，就能够自动学习源语言的信息。这也是一种端到端学习的方法。不过，这项工作的实现较复杂，而且方法存在梯度消失/爆炸等问题\upcite{HochreiterThe,BENGIO1994Learning}，因此并没有成为后来神经机器翻译的基础框架。
 \vspace{0.3em}
-\item 2014年，Ilya Sutskever等人提出了序列到序列（seq2seq）学习的方法，同时将长短时记忆结构（LSTM）引入到神经机器翻译中，这个方法解决了梯度消失/爆炸的问题，并且通过遗忘门的设计让网络选择性地记忆信息，缓解了序列中长距离依赖的问题\upcite{NIPS2014_5346}。但是该模型在进行编码的过程中，将不同长度的源语言句子压缩成了一个固定长度的向量，句子越长，损失的信息越多，同时该模型无法对输入和输出序列之间的对齐进行建模，因此并不能有效的保证翻译质量。
+\item 2014年，Ilya Sutskever等人提出了序列到序列（seq2seq）学习的方法，同时将长短时记忆结构（LSTM）引入到神经机器翻译中，这个方法缓解了梯度消失/爆炸的问题，并且通过遗忘门的设计让网络选择性地记忆信息，缓解了序列中长距离依赖的问题\upcite{NIPS2014_5346}。但是该模型在进行编码的过程中，将不同长度的源语言句子压缩成了一个固定长度的向量，句子越长，损失的信息越多，同时该模型无法对输入和输出序列之间的对齐进行建模，因此并不能有效的保证翻译质量。
 \vspace{0.3em}
 \item 同年Dzmitry Bahdanau等人首次将{\small\bfnew{注意力机制}}\index{注意力机制}（Attention Mechanism\index{Attention Mechanism}）应用到机器翻译领域，在机器翻译任务上对翻译和局部翻译单元之间的对应关系同时建模\upcite{bahdanau2014neural}。Bahdanau等人工作的意义在于，使用了更加有效的模型来表示源语言的信息，同时使用注意力机制对两种语言不同部分之间的相互联系进行建模。这种方法可以有效地处理长句子的翻译，而且注意力的中间结果具有一定的可解释性\footnote{比如，目标语言和源语言句子不同单词之间的注意力强度能够在一定程度上反应单词之间的互译程度。} 。然而相比于前人的神经机器翻译模型，注意力模型也引入了额外的成本，计算量较大。
 \vspace{0.3em}
 \item 2016年谷歌公司发布了基于多层循环神经网络方法的GNMT系统。该系统集成了当时的神经机器翻译技术，并进行了诸多的改进。它的性能显著优于基于短语的机器翻译系统\upcite{Wu2016GooglesNM}，引起了研究者的广泛关注。在之后不到一年的时间里，脸书公司采用卷积神经网络（CNN）研发了新的神经机器翻译系统\upcite{DBLP:journals/corr/GehringAGYD17}，实现了比基于循环神经网络（RNN）系统更高的翻译水平，并大幅提升翻译速度。
 \vspace{0.3em}
-\item 2017年，Ashish Vaswani等人提出了新的翻译模型Transformer。其完全抛弃了CNN、RNN等结构，仅仅通过自注意力机制和前馈神经网络，不需要使用序列对齐的循环框架就展示出强大的性能，并且巧妙地解决了翻译中长距离依赖问题\upcite{vaswani2017attention}。Transformer是第一个完全基于注意力机制搭建的模型，不仅训练速度更快，在翻译任务上也获得了更好的结果，一跃成为目前最主流的神经机器翻译框架。
+\item 2017年，Ashish Vaswani等人提出了新的翻译模型Transformer。其完全摒弃了循环神经网络和卷积神经网络，仅仅通过多头注意力机制和前馈神经网络，不需要使用序列对齐的循环框架就展示出强大的性能，并且巧妙地解决了翻译中长距离依赖问题\upcite{vaswani2017attention}。Transformer是第一个完全基于注意力机制搭建的模型，不仅训练速度更快，在翻译任务上也获得了更好的结果，一跃成为目前最主流的神经机器翻译框架。
 \vspace{0.3em}
 \end{itemize}