Commit 1db380f9 by xiaotong

wording (sec 16, multi-lingual nmt)

parent 26b54180
......@@ -203,7 +203,7 @@
\parinterval 深融合是在解码过程中,动态地融合翻译模型和语言模型的隐藏层表示来计算预测概率。
浅融合在解码过程对每个词均采用相同的语言模型权重,而深融合可以根据解码不同的词,动态选择语言模型的权重。
比如,在汉语-英语翻译系统中,英语句子中的冠词可能在汉语句子中没有显式的单词对应,这种情况下,英语语言模型可以提供更多帮助,保证翻译结果更加符合英语的语言结构;而在翻译某些名词的时候,语言模型由于没有源语言句子的信息,反而会对解码过程产生干扰,因此权重越小越好。
比如,在汉语-英语翻译系统中,英语句子中的冠词可能在汉语句子中没有显式的单词对应,这种情况下,英语模型可以提供更多帮助,保证翻译结果更加符合英语的语言结构;而在翻译某些名词的时候,语言模型由于没有源语言句子的信息,反而会对解码过程产生干扰,因此权重越小越好。
\parinterval 深融合的预测方式为:
\begin{eqnarray}
......@@ -438,15 +438,13 @@ Joint training for neural machine translation models with monolingual data
%----------------------------------------------------------------------------------------
\section{多语言翻译模型}
\parinterval 低资源机器翻译面临的主要挑战是缺乏大规模高质量的双语数据。这个问题往往伴随着多语言的翻译任务\upcite{dabre2019brief}\upcite{dabre2020survey}。也就是,要同时开发多个不同语言之间的机器翻译系统,其中少部分语言是富资源语言,而其它语言是低资源语言。针对低资源语种双语数据稀少或者缺失的情况,一种常见的思路是利用富资源语种的数据或者翻译模型帮助低资源翻译模型。这也构成了多语言翻译的思想,并延伸出大量的研究工作。
\parinterval 有三个典型研究方向:
\parinterval 低资源机器翻译面临的主要挑战是缺乏大规模高质量的双语数据。这个问题往往伴随着多语言的翻译任务\upcite{dabre2019brief}\upcite{dabre2020survey}。也就是,要同时开发多个不同语言之间的机器翻译系统,其中少部分语言是富资源语言,而其它语言是低资源语言。针对低资源语种双语数据稀少或者缺失的情况,一种常见的思路是利用富资源语种的数据或者系统帮助低资源机器翻译系统。这也构成了多语言翻译的思想,并延伸出大量的研究工作。有三个典型研究方向:
\begin{itemize}
\vspace{0.5em}
\item 基于枢轴语的方法,即以资源丰富的语言(通常为英语、汉语等)为中心,在语言对之间进行翻译\upcite{DBLP:conf/emnlp/KimPPKN19}
\item 基于枢轴语的方法,即以资源丰富的语言(通常为英语、汉语等)为中心,在语言对之间进行翻译\upcite{DBLP:conf/emnlp/KimPPKN19}
\vspace{0.5em}
\item 基于知识蒸馏的方法,即用枢轴语到目标语言的训练指导源语言到目标语言的训练\upcite{DBLP:conf/acl/ChenLCL17}
\item 基于知识蒸馏的方法,即用枢轴语到目标语言的训练指导源语言到目标语言的训练\upcite{DBLP:conf/acl/ChenLCL17}
\vspace{0.5em}
\item 基于迁移学习的方法,即从富资源语言对中转移翻译知识以改善低资源语言对的翻译\upcite{DBLP:conf/emnlp/KimPPKN19},比如,将富资源的翻译知识迁移到零资源翻译模型上,即在没有双语训练数据的语言对之间进行翻译\upcite{DBLP:journals/tacl/JohnsonSLKWCTVW17}
\vspace{0.5em}
......@@ -460,7 +458,7 @@ Joint training for neural machine translation models with monolingual data
\subsection{基于枢轴语的方法}
\parinterval 传统的多语言翻译中,广泛使用的是{\small\bfnew{基于枢轴语言的翻译}}(Pivot-based Translation)\upcite{DBLP:conf/emnlp/KimPPKN19}。在这种方法中,会使用一种数据丰富语言作为{\small\bfnew{中介语言}}或者{\small\bfnew{枢轴语言}}(Pivot Language),之后让源语言和目标语言向枢轴语言进行翻译。这样,通过资源丰富的中介语言将源语言和目标语言桥接在一起,达到解决源语言-目标语言双语数据缺乏的问题。比如,想要得到泰语到波兰语的翻译,可以通过英语做枢轴。通过“泰语$\rightarrow$英语$\rightarrow$波兰语”的翻译过程完成泰语到波兰语的转换。
\parinterval 传统的多语言翻译中,广泛使用的是{\small\bfnew{基于枢轴语言的翻译}}(Pivot-based Translation)\upcite{DBLP:conf/emnlp/KimPPKN19}。在这种方法中,会使用一种数据丰富语言作为{\small\bfnew{中介语言}}或者{\small\bfnew{枢轴语言}}(Pivot Language),之后让源语言和目标语言向枢轴语言进行翻译。这样,通过资源丰富的中介语言将源语言和目标语言桥接在一起,达到解决源语言-目标语言双语数据缺乏的问题。比如,想要得到泰语到波兰语的翻译,可以通过英语做枢轴语言。通过“泰语$\rightarrow$英语$\rightarrow$波兰语”的翻译过程完成泰语到波兰语的转换。
\parinterval 基于枢轴语的方法很早就出现在基于统计机器翻译中。在基于短语的机器翻译中,已经有很多方法建立了源到枢轴和枢轴到目标的短语/单词级别特征,并基于这些特征开发了源语言到目标语言的系统\upcite{DBLP:conf/naacl/UtiyamaI07,DBLP:journals/mt/WuW07,Farsi2010somayeh,DBLP:conf/acl/ZahabiBK13,DBLP:conf/emnlp/ZhuHWZWZ14,DBLP:conf/acl/MiuraNSTN15},这些系统也已经广泛用于翻译稀缺资源语言对\upcite{DBLP:conf/acl/CohnL07,DBLP:journals/mt/WuW07,DBLP:conf/acl/WuW09}。由于基于枢轴语的方法与模型结构无关,因此该方法也快速适用于神经机器翻译,并且取得了不错的效果\upcite{DBLP:conf/emnlp/KimPPKN19,DBLP:journals/corr/ChengLYSX16}。比如,可以直接使用源到枢轴和枢轴到目标的两个神经机器翻译模型,之后分别用两个模型进行翻译,得到最终的结果\upcite{DBLP:conf/interspeech/KauersVFW02,de2006catalan}。在实现过程中,可以在枢轴语言中保留多个最佳翻译假设,以减少预测偏差\upcite{DBLP:conf/naacl/UtiyamaI07},并通过多系统融合改进最终翻译\upcite{DBLP:conf/ijcnlp/Costa-JussaHB11}
......@@ -469,7 +467,7 @@ Joint training for neural machine translation models with monolingual data
\begin{figure}[h]
\centering
\includegraphics[scale=1.0]{Chapter16/Figures/figure-pivot-based-translation-process.jpg}
\caption{基于枢轴的翻译过程}
\caption{基于枢轴语言的翻译过程}
\label{fig:16-1-ll}
\end{figure}
......@@ -482,15 +480,15 @@ Joint training for neural machine translation models with monolingual data
\parinterval $\funp{P}(p|x)$$\funp{P}(y|p)$可以直接复用既有的模型和方法。不过,枚举所有的枢轴语言语句子$p$是不可行的。因此一部分研究工作也探讨了如何选择有效的路径,从$x$经过少量$p$到达$y$\upcite{DBLP:conf/naacl/PaulYSN09}
\parinterval 虽然基于枢轴语的方法简单且易于实现,但该方法仍有一些不足。例如,它需要两次翻译过程,因此增加了翻译时间。而且在两次翻译中,翻译错误会进行累积从而产生错误传播问题,导致模型翻译准确性降低。此外,基于枢轴的语言仍然假设源语言和枢轴语言(或者目标语言和枢轴语言)之间存在一定规模的双语平行数据,但是这个假设在很多情况下并不成立。比如,对于一些资源极度稀缺的语言,其到英语或者汉语的数据仍然十分缺乏,这时使用基于枢轴的方法的效果往往也并不理想。虽然存在以上问题,但是基于枢轴的方法仍然受到工业界的青睐,很多在线翻译引擎也在大量使用这种方法进行多语言的翻译。
\parinterval 虽然基于枢轴语的方法简单且易于实现,但该方法仍有一些不足。例如,它需要两次翻译过程,因此增加了翻译时间。而且在两次翻译中,翻译错误会进行累积从而产生错误传播问题,导致模型翻译准确性降低。此外,基于枢轴的语言仍然假设源语言和枢轴语言(或者目标语言和枢轴语言)之间存在一定规模的双语平行数据,但是这个假设在很多情况下并不成立。比如,对于一些资源极度稀缺的语言,其到英语或者汉语的双语数据仍然十分缺乏,这时使用基于枢轴的方法的效果往往也并不理想。虽然存在以上问题,但是基于枢轴的方法仍然受到工业界的青睐,很多在线翻译引擎也在大量使用这种方法进行多语言的翻译。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
%----------------------------------------------------------------------------------------
\subsection{基于知识蒸馏的方法(teacher-student)}
\subsection{基于知识蒸馏的方法}
\parinterval 为了解决基于枢轴的方法的问题,研究人员提出基于知识蒸馏的方法\upcite{DBLP:conf/acl/ChenLCL17,DBLP:conf/iclr/TanRHQZL19}。知识蒸馏是一种常用的模型压缩方法\upcite{DBLP:journals/corr/HintonVD15},基于教师-学生框架,在第十三章已经进行了详细介绍。本节中主要介绍如何将知识蒸馏方法用于稀缺资源任务中。针对稀缺资源任务,基于教师-学生框架的方法\upcite{DBLP:conf/acl/ChenLCL17}基本思想如图\ref{fig:16-2-ll}所示
\parinterval 为了解决基于使用枢轴语言的问题,研究人员提出基于知识蒸馏的方法\upcite{DBLP:conf/acl/ChenLCL17,DBLP:conf/iclr/TanRHQZL19}。知识蒸馏是一种常用的模型压缩方法\upcite{DBLP:journals/corr/HintonVD15},基于教师-学生框架,在第十三章已经进行了详细介绍。针对稀缺资源任务,基于教师-学生框架的方法基本思想如图\ref{fig:16-2-ll}所示。其中,虚线表示具有平行语料库的语言对,带有箭头的实线表示翻译方向。这里,将枢轴语言($p$)到目标语言($y$)的翻译模型$\funp{P}(y|p)$当作教师模型,源语言($x$)到目标语言($y$)的翻译模型$\funp{P}(y|x)$当作学生模型。然后,用教师模型来指导学生模型的训练,这个过程中学习的目标就是让$\funp{P}(y|x)$尽可能地接近$\funp{P}(y|p)$,这样学生模型就可以学习到源语言到目标语言的翻译知识
\begin{figure}[h]
\centering
......@@ -499,8 +497,6 @@ Joint training for neural machine translation models with monolingual data
\label{fig:16-2-ll}
\end{figure}
\noindent 其中,虚线表示具有平行语料库的语言对,带有箭头的实线表示翻译方向。这里,将枢轴语言($p$)到目标语言($y$)的翻译模型$\funp{P}(y|p)$当作教师模型,源语言($x$)到目标语言($y$)的翻译模型$\funp{P}(y|x)$当作学生模型。然后,用教师模型来指导学生模型的训练,这个过程中学习的目标就是让$\funp{P}(y|x)$尽可能地接近$\funp{P}(y|p)$,这样学生模型就可以学习到源语言到目标语言的翻译知识。
\parinterval 需要注意的是,基于知识蒸馏的方法需要基于翻译对等假设,该假设为:如果源语言句子$x$、枢轴语言句子$p$和目标语言句子$y$这三个句子互译,则从源语言句子$x$生成目标语言句子$y$的概率$\funp{P}(y|x)$应接近与源语言句子$x$对应的$p$的概率$\funp{P}(y|p)$,即:
\begin{equation}
......@@ -508,11 +504,9 @@ Joint training for neural machine translation models with monolingual data
\label{eq:ll-2}
\end{equation}
\parinterval 和基于枢轴语的方法相比,基于教师-学生框架的方法无需训练源语言到枢轴语言的翻译模型,也就无需经历基于枢轴的方法中的两次翻译过程,翻译效率有所提升,又避免了两次翻译所面临的错误传播问题。
\parinterval 举个例子,假如图\ref{fig:16-2-ll}$x$为源语言德语 “hallo”,$p$为中间语言英语 “hello”,$y$为目标语言法语“bonjour”,则德语“hallo”翻译为法语“bonjour”的概率应该与英语“hello”翻译为法语“bonjour”的概率相近。
\parinterval 和基于枢轴语言的方法相比,基于教师-学生框架的方法无需训练源语言到枢轴语言的翻译模型,也就无需经历两次翻译过程,翻译效率有所提升,又避免了两次翻译所面临的错误传播问题。举个例子,假如图\ref{fig:16-2-ll}$x$为源语言德语 “hallo”,$p$为中间语言英语 “hello”,$y$为目标语言法语“bonjour”,则德语“hallo”翻译为法语“bonjour”的概率应该与英语“hello”翻译为法语“bonjour”的概率相近。
\parinterval 虽然基于知识蒸馏的方法相比于基于枢轴语的方法无论在性能还是效率上都具有一定优势。但是,它仍然需要显性的使用枢轴语言进行桥接,因此仍然面临着“源语言$\rightarrow$枢轴语言$\rightarrow$目标语言”转换中信息丢失的问题。比如,当枢轴语言到目标语言翻译效果较差时,由于教师模型无法提供准确的指导,学生模型也无法取得很好的学习效果。
\parinterval 相较于基于枢轴语言的方法,基于知识蒸馏的方法无论在性能还是效率上都具有一定优势。但是,它仍然需要显性的使用枢轴语言进行桥接,因此仍然面临着“源语言$\rightarrow$枢轴语言$\rightarrow$目标语言”转换中信息丢失的问题。比如,当枢轴语言到目标语言翻译效果较差时,由于教师模型无法提供准确的指导,学生模型也无法取得很好的学习效果。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
......@@ -524,7 +518,7 @@ Joint training for neural machine translation models with monolingual data
\parinterval 基于枢轴语言的方法需要显性的建立“源语言$\rightarrow$枢轴语言$\rightarrow$目标语言”的路径。这时,如果路径中某处出现了问题,就会成为整个路径的瓶颈。如果使用多个枢轴语言,这个问题会更加严重。不同于基于枢轴语言的方法,迁移学习无需进行两步解码,也就避免了翻译路径中累积错误的问题。
\parinterval 基于迁移学习的方法思想非常简单,如图\ref{fig:16-3-ll}所示。迁移学习无需像传统的机器学习一样为每个任务单独训练一个模型,它将所有任务分类为源任务和目标任务,目标就是将源任务中的知识迁移到目标任务当中
\parinterval 基于迁移学习的方法思想非常简单,如图\ref{fig:16-3-ll}所示。这种方法无需像传统的机器学习一样为每个任务单独训练一个模型,它将所有任务分类为源任务和目标任务,目标就是将源任务中的知识迁移到目标任务当中
\begin{figure}[h]
\centering
......@@ -541,7 +535,7 @@ Joint training for neural machine translation models with monolingual data
\subsubsection{1. 参数初始化方法}
\parinterval 在解决多语言翻译这个问题的具体做法中,首先需要在富资源语言对上训练一个模型,将其称为{\small\bfnew{父模型}}(Parent Model)。在父模型的参数进行模型初始化基础上,训练资源不足的稀缺资源语言对模型,称之为{\small\bfnew{子模型}}(Child Model),这意味着低资源翻译模型将不会从随机权重开始学习,而是从父模型的权重开始\upcite{gu2018meta,DBLP:conf/icml/FinnAL17,DBLP:conf/naacl/GuHDL18},参数初始化也是迁移学习的核心方法。在图\ref{fig:16-4-ll}中,左侧模型为父模型,右侧模型为子模型。我们假设从英语到中文语言的翻译为富资源翻译,从英语到德语语言的翻译为稀缺资源翻译,则首先用英中双语平行语料库训练出一个初始化的父模型,之后再用英德的数据在父模型上微调得到子模型,这个子模型即为我们想要得到的迁移学习的模型。此过程可以看作是在富资源训练模型上对稀缺资源语言对进行微调,将富资源语言对中知识迁移到稀缺资源语言对中,从而提升稀缺资源语言对模型性能。
\parinterval 在解决多语言翻译这个问题的具体做法中,首先需要在富资源语言对上训练一个模型,将其称为{\small\bfnew{父模型}}(Parent Model)。在父模型的参数进行模型初始化基础上,训练资源不足的稀缺资源语言对模型,称之为{\small\bfnew{子模型}}(Child Model),这意味着低资源翻译模型将不会从随机权重开始学习,而是从父模型的权重开始\upcite{gu2018meta,DBLP:conf/icml/FinnAL17,DBLP:conf/naacl/GuHDL18},参数初始化也是迁移学习的核心方法。在图\ref{fig:16-4-ll}中,左侧模型为父模型,右侧模型为子模型。这里假设从英语到汉语的翻译为富资源翻译,从英语到德语的翻译为稀缺资源翻译,则首先用英中双语平行语料库训练出一个初始化的父模型,之后再用英德的数据在父模型上微调得到子模型,这个子模型即为我们想要得到的迁移学习的模型。此过程可以看作是在富资源训练模型上对稀缺资源语言对进行微调,将富资源语言对中知识迁移到稀缺资源语言对中,从而提升稀缺资源语言对模型性能。
\begin{figure}[h]
\centering
......@@ -558,9 +552,9 @@ Joint training for neural machine translation models with monolingual data
\subsubsection{2. 多语言单模型系统}
\parinterval 多语言单模型方法也可以被看做是一种迁移学习。多语言单模型方法能够有效地改善低资源神经机器翻译性能\upcite{DBLP:journals/tacl/JohnsonSLKWCTVW17,DBLP:conf/lrec/RiktersPK18,dabre2019brief},尤其适用于翻译方向较多的情况,因为为每一个翻译方向单独训练一个模型是不实际的,不仅由于设备资源和时间上的限制,还由于很多翻译方向都没有双语平行数据。比如要翻译100个语言之间的互译的系统,理论上就需要训练$100 \times 99$个翻译模型,代价是十分巨大的。这时就需要用到多语言单模型方法
\parinterval 多语言单模型方法也可以被看做是一种迁移学习。多语言单模型方法能够有效地改善低资源神经机器翻译性能\upcite{DBLP:journals/tacl/JohnsonSLKWCTVW17,DBLP:conf/lrec/RiktersPK18,dabre2019brief},尤其适用于翻译方向较多的情况,因为为每一个翻译方向单独训练一个模型是不实际的,不仅由于设备资源和时间上的限制,还由于很多翻译方向都没有双语平行数据。比如,要翻译100个语言之间的互译的系统,理论上就需要训练$100 \times 99$个翻译模型,代价是十分巨大的。这时就需要用到{\small\bfnew{多语言单模型方法}}\index{多语言单模型方法}(Multi-lingual Single Model-based Method\index{Multi-lingual Single Model-based Method}
\parinterval 多语言单模型系统即用单个模型训练具有多个语言翻译方向的系统。对于源语言集合$G_x$和目标语言集合$G_y$,多语言单模型的学习目标是学习一个单一的模型,这个模型可以进行任意源语言到任意目标语言翻译,即同时支持所有$(x,y) \in (G_x,G_y)$的翻译。多语言单模型方法又可以进一步分为一对多\upcite{DBLP:conf/acl/DongWHYW15}、多对一\upcite{DBLP:journals/tacl/LeeCH17}和多对多\upcite{DBLP:conf/naacl/FiratCB16}的方法。不过这些方法本质上是相同的,因此这里以多对多翻译为例进行介绍。
\parinterval 多语言单模型系统即用单个模型训练具有多个语言翻译方向的系统。对于源语言集合$G_x$和目标语言集合$G_y$,多语言单模型的学习目标是学习一个单一的模型,这个模型可以进行任意源语言到任意目标语言翻译,即同时支持所有$(x,y) \in (G_x,G_y)$的翻译。多语言单模型方法又可以进一步分为一对多\upcite{DBLP:conf/acl/DongWHYW15}、多对一\upcite{DBLP:journals/tacl/LeeCH17}和多对多\upcite{DBLP:conf/naacl/FiratCB16}的方法。不过这些方法本质上是相同的,因此这里以多对多翻译为例进行介绍。
\parinterval 在模型结构方面,多语言模型与普通的神经机器翻译模型相同,都是标准的编码-解码结构。多语言单模型方法的一个假设是:不同语言可以共享同一个表示空间。因此,该方法使用同一个编码器处理所有的源语言句子,使用同一个解码器处理所有的目标语言句子。为了使多个语言共享同一个解码器(或编码器),一种简单的方法是直接在输入句子上加入语言标记,让模型显性地知道当前句子属于哪个语言。如图\ref{fig:16-5-ll}所示,在此示例中,标记“ <spanish>”指示目标句子为西班牙语,标记“ <german>”指示目标句子为德语,则模型在进行翻译时便会将句子开头加<spanish>标签的句子翻译为西班牙语\upcite{DBLP:journals/tacl/JohnsonSLKWCTVW17}。假设训练时有英语到西班牙语 “<spanish> Hello”$\rightarrow$“Hola”和法语到德语“<german> Bonjour”$\rightarrow$“Hallo” 的双语句对,则在解码时候输入英语“<german> Hello”时就会得到解码结果“Hallo”。
......@@ -571,7 +565,7 @@ Joint training for neural machine translation models with monolingual data
\label{fig:16-5-ll}
\end{figure}
\parinterval 多语言单模型系统无需训练基于枢轴语言的翻译系统,而是共享多个语言的编码器和解码器,因此极大提升了训练效率,因此更适用于某些语言翻译方向训练数据极度稀缺的情况。具体在使用时,又体现为基于迁移学习的方法和零资源翻译方法两种
\parinterval 多语言单模型系统无需训练基于枢轴语言的翻译系统,而是共享多个语言的编码器和解码器,因此极大提升了训练效率,同时更适用于某些语言翻译方向训练数据极度稀缺的情况
%----------------------------------------------------------------------------------------
% NEW SUB-SUB-SECTION
......@@ -579,9 +573,9 @@ Joint training for neural machine translation models with monolingual data
\subsubsection{3. 零资源翻译}
\parinterval 零资源翻译是一种极端的情况:源语言和目标语言之间没有任何对齐的数据。这时,系统需要学到一个模型,它可以让系统即使在没看到这个翻译任务中的训练数据的情况下,但在遇到的时候依然能通过这个模型得到这个翻译任务上的译文结果。本质上,零资源翻译也是一种迁移学习\upcite{DBLP:books/crc/aggarwal14/Pan14,DBLP:journals/tkde/PanY10},只是迁移的目标任务没有直接可以用的数据。
\parinterval 零资源翻译是一种极端的情况:源语言和目标语言之间没有任何对齐的数据。这时,需要学到一个模型,即使在没看到这个翻译任务中的训练数据的情况下,它仍然能通过这个模型得到这个翻译任务上的译文结果。本质上,零资源翻译也是一种迁移学习\upcite{DBLP:books/crc/aggarwal14/Pan14,DBLP:journals/tkde/PanY10},只是迁移的目标任务没有直接可以用的数据。
\parinterval 以德语到西班牙语的翻译为例,假设此翻译语言方向为零资源,即没有德语到西班牙语的训练数据,因此不适用于多语言单模型系统中提到的一对多或多对一的情况,只适用于多对多的翻译情况。在翻译时,训练数据的源语言可以进行加标签指定或是不指定目标语言种类,若不进行指定,存在潜在的缺点就是具有相同拼写但属于不同源语言的不同含义的单词可能难以翻译,但优点是整个多语言翻译的流程更简单。在翻译时假设多语言单模型系统中已经学习到了德语到英语和英语到西班牙语的翻译,那么模型也可以进行德语到西班牙语的翻译。从这个角度说,零资源神经机器翻译\upcite{DBLP:journals/tacl/JohnsonSLKWCTVW17}也需要枢轴语言,只是这些枢轴语言数据仅在训练期间使用,而无需生成伪并行语料库。
\parinterval 以德语到西班牙语的翻译为例,假设此翻译语言方向为零资源,即没有德语到西班牙语的训练数据,因此不适用于多语言单模型系统中提到的一对多或多对一的情况,只适用于多对多的翻译情况。在翻译时,训练数据的源语言可以进行加标签指定或是不指定目标语言种类,若不进行指定,存在潜在的缺点就是具有相同拼写但属于不同源语言的不同含义的单词可能难以翻译,但优点是整个多语言翻译的流程更简单。在翻译时假设多语言单模型系统中已经学习到了德语到英语和英语到西班牙语的翻译,那么模型也可以进行德语到西班牙语的翻译。从这个角度说,零资源神经机器翻译也需要枢轴语言,只是这些枢轴语言数据仅在训练期间使用\upcite{DBLP:journals/tacl/JohnsonSLKWCTVW17},而无需生成伪并行语料库。
\parinterval 需要注意的是,零资源翻译中多个语言共享同一个表示模型这个假设并不是永远成立。比如,汉语和英语的文字符号不同,因此用同一个表示模型对其进行表示会产生较大的偏差。因此,对于语言差异较大,且数据量不充分的情况,使用多语言单模型方法仍然有较大挑战:
......@@ -589,7 +583,7 @@ Joint training for neural machine translation models with monolingual data
\vspace{0.5em}
\item 父模型和子模型之间的语言空间不匹配问题:父模型使用的语言跟子模型使用的语言的数据很少甚至没有(零资源)的情况下,无法通过训练弥补父模型跟子模型之间的差异,因此微调的结果很差。一种解决方案是先预训练一个多语言的模型,然后固定这个预训练模型的部分参数后训练父模型,最后从父模型中微调子模型\upcite{ji2020cross}。这样做的好处在于先用预训练提取父模型的任务和子模型的任务之间通用的信息(保存在模型参数里),然后强制在训练父模型的时候保留这些信息(通过固定参数),这样最后微调子模型的时候就可以利用这些通用信息,减少了父模型和子模型之间的差异,使得微调的结果得到提升。{\red{(加参考文献)}}
\vspace{0.5em}
\item 脱靶翻译问题:多语言单模型系统经常出现脱靶翻译问题,即把源语翻译成错误的目标语言,比如要求翻译成英文,结果却是中文或者英文夹杂其他语言的字符。这是因为多语言单模型系统对所有语言都使用一样的参数,导致每个语言竞争系统固定的建模能力。研究人员提出在原来共享参数的基础上为每种语言添加额外的独立的参数,使得每种语言拥有足够的建模能力,以便于特定语言的翻译\upcite{DBLP:conf/acl/ZhangWTS20}{\red{(加参考文献)}}
\item 脱靶翻译问题:多语言单模型系统经常出现脱靶翻译问题,即把源语翻译成错误的目标语言,比如要求翻译成英语,结果却是汉语或者英语夹杂其他语言的字符。这是因为多语言单模型系统对所有语言都使用一样的参数,导致每个语言竞争系统固定的建模能力。研究人员提出在原来共享参数的基础上为每种语言添加额外的独立的参数,使得每种语言拥有足够的建模能力,以便于特定语言的翻译\upcite{DBLP:conf/acl/ZhangWTS20}{\red{(加参考文献)}}
\vspace{0.5em}
\end{itemize}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论