\parinterval应用神经网络解决神经机器翻译问题的方法从诞生到迎来现在全面爆发的时期,一直被工业界和学术界广泛关注,直至现在基于深度学习的方法在机器翻译这一领域占据着统治地位,性能远远优于基于短语的统计机器翻译系统。但即便如此,神经机器翻译也仍然在不断的推陈出新,使用更新颖的网络结构,更强大的学习算法,以及利用统计机器翻译的思想不断优化现有的神经机器翻译系统,各种优秀的系统层出不穷。而在各种公开的不同语种,不同数据量的数据集上,虽然最佳性能一直在被不断刷新,但是榜首的位置却一直被基于深度学习,采用神经网络方法的机器翻译系统霸占。ACL2019的论文\cite{WangLearning}[Learning Deep Transformer Models for Machine Translation]中将神经机器翻译系统在多个数据集上的性能做出了对比,同时提出的基于动态层信息融合的深层神经机器翻译系统(DLCL)再次刷新了多项数据集的最佳性能。如下表是在WMT14英德数据上,神经机器翻译模型在不断发展过程中的性能表现。由此可见,提高神经机器翻译的性能一直是对机器翻译研究的宗旨,即便是目前,神经机器翻译已经达到了可以和人工翻译可比的性能,但是仍然具有巨大对潜力,等待着研究人员不断去发掘。
\parinterval 图\ref{fig:6-4}是一个应用编码器-解码器结构来解决机器翻译问题的简单实例,给定一个中文句子''我 对 你 感到 满意'',编码器会将这句话编码成一个实数向量(0.2,-1,6,5,0.7,-2),这个向量就是我们所说的源语言句子的''表示''结果。虽然有些不可思议,但是神经机器翻译模型把这个向量等同于输入序列。向量中的数字在我们看来并没有实际的意义,然而解码器却能从中提取到源语句子中所包含的信息。也有研究者把向量的每一个维度看作是一个''特征'',这样源语言句子就被表示成多个''特征''的联合,而且这些特征可以被自动学习。有了这样的源语言句子的''表示'',解码器可以把这个实数向量作为输入,然后逐词生成目标语句子''I am satisfied with you''。
\parinterval 图\ref{fig:6-4}是一个应用编码器-解码器结构来解决机器翻译问题的简单实例,给定一个中文句子''我 对 你 感到 满意'',编码器会将这句话编码成一个实数向量(0.2,-1,6,5,0.7,-2),这个向量就是我们所说的源语言句子的''表示''结果。虽然有些不可思议,但是神经机器翻译模型把这个向量等同于输入序列。向量中的数字在我们看来并没有实际的意义,然而解码器却能从中提取到源语句子中所包含的信息。也有研究者把向量的每一个维度看作是一个''特征'',这样源语言句子就被表示成多个''特征''的联合,而且这些特征可以被自动学习。有了这样的源语言句子的''表示'',解码器可以把这个实数向量作为输入,然后逐词生成目标语句子``I am satisfied with you''。
\rule{0pt}{20pt}\textbf{Layer Type}&\textbf{\begin{tabular}[l]{@{}l@{}}Complexity\\ per Layer\end{tabular}}&\textbf{\begin{tabular}[l]{@{}l@{}}Sequential\\ Operations\end{tabular}}&\textbf{\begin{tabular}[l]{@{}l@{}}Maximum\\ Path Length\end{tabular}}\\\hline
\rule{0pt}{20pt}Layer Type &\begin{tabular}[l]{@{}l@{}}Complexity\\ per Layer\end{tabular}&\begin{tabular}[l]{@{}l@{}}Sequential\\ Operations\end{tabular}&\begin{tabular}[l]{@{}l@{}}Maximum\\ Path Length\end{tabular}\\\hline