更新 chapter14.tex

8bcacdc6 · 孟霞 · 03cda473 · 8bcacdc6
Commit 8bcacdc6 authored Nov 30, 2020 by 孟霞
--- a/Chapter14/chapter14.tex
+++ b/Chapter14/chapter14.tex
@@ -267,7 +267,7 @@ b &=& \omega_{\textrm{high}}\cdot |\seq{x}| \label{eq:14-4}

 \section{轻量模型}\label{sec:14-3}

-\parinterval 翻译速度和翻译精度之间的平衡是机器翻译系统研发中的常见问题。即使是以提升翻译品质为目标的任务（如用BLEU进行评价），也不得不考虑翻译速度的影响。比如，在WMT 和CCMT 的一些任务中可能会使用反向翻译构造伪数据，需要大量的机器翻译；无监督机器翻译中也会频繁地使用神经机器翻译系统构造训练数据。如果翻译速度过慢会增大实验的周期。从应用的角度看，在很多场景下翻译速度甚至比品质更重要。比如，在线翻译和一些小设备上的机器翻译系统都需要保证相对低的翻译延时，以满足用户体验的最基本要求。虽然，我们希望能有一套又好又快的翻译系统，但是现实的情况是：往往需要通过牺牲一些翻译品质来换取速度的提升。下面就列举一些常用的神经机器翻译轻量模型和加速方法。这些方法通常是应用在解码端，因为相比编码端，神经机器翻译的解码端是推断过程中最耗时的部分。
+\parinterval 翻译速度和翻译精度之间的平衡是机器翻译系统研发中的常见问题。即使是以提升翻译品质为目标的任务（如用BLEU进行评价），也不得不考虑翻译速度的影响。比如，在WMT 和CCMT 的一些任务中可能会使用反向翻译构造伪数据，涉及大量的机器翻译过程；无监督机器翻译中也会频繁地使用神经机器翻译系统构造训练数据。如果翻译速度过慢会增大实验的周期。从应用的角度看，在很多场景下翻译速度甚至比翻译品质更重要。比如，在线翻译和一些小设备上的机器翻译系统都需要保证相对低的翻译时延，以满足用户体验的最基本要求。虽然，我们希望能有一套又好又快的翻译系统，但是现实的情况是：往往需要通过牺牲一些翻译品质来换取翻译速度的提升。下面就列举一些常用的神经机器翻译轻量模型和加速方法。这些方法通常是应用在解码端，因为相比编码端，神经机器翻译的解码端是推断过程中最耗时的部分。

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -275,9 +275,9 @@ b &=& \omega_{\textrm{high}}\cdot |\seq{x}| \label{eq:14-4}

 \subsection{输出层的词汇选择}

-\parinterval 神经机器翻译需要对输入和输出的单词进行分布式表示，比如，每一个单词都用一个512 维向量进行表示。但是，由于真实的词表通常很大，因此计算并保存这些单词的向量表示就会消耗较多的计算和存储资源。特别是对于基于Softmax 的输出层，使用大词表往往会占用较多的系统运算时间。虽然可以通过BPE 和限制词汇表规模的方法降低输出层计算的负担\upcite{Gage1994ANA,DBLP:conf/acl/SennrichHB16a}，但是为了获得可接受的翻译品质，词汇表也不能过小，因此输出层仍然十分耗时。
+\parinterval 神经机器翻译需要对输入和输出的单词进行分布式表示，比如，每一个单词都用一个512 维向量进行表示。但是，由于真实的词表通常很大，因此计算并保存这些单词的向量表示会消耗较多的计算和存储资源。特别是对于基于Softmax 的输出层，使用大词表往往会占用较多的系统运算时间。虽然可以通过BPE 和限制词汇表规模的方法降低输出层计算的负担\upcite{Gage1994ANA,DBLP:conf/acl/SennrichHB16a}，但是为了获得可接受的翻译品质，词汇表也不能过小，因此输出层的计算仍然十分耗时。

-\parinterval 对于这个问题，可以通过改变输出层的网络结构进行缓解\upcite{DBLP:conf/acl/JeanCMB15}。一种比较简单的方法是对可能输出的单词进行筛选，简称词汇选择。这里，可以利用类似于统计机器翻译的翻译表，获得每个源语言单词最可能的译文。在翻译过程中，利用注意力机制找到每个目标语位置对应的源语言位置，之后获得这些源语言单词最可能的翻译候选。之后，Softmax 只需要在这个有限的翻译候选单词集合上计算，大大降低了输出层的计算量。尤其是对于CPU 上的系统，这个方法往往会带来明显的速度提升，同时保证翻译品质。图\ref{fig:14-4}给出了词汇选择方法的示意图。
+\parinterval 对于这个问题，可以通过改变输出层的网络结构进行缓解\upcite{DBLP:conf/acl/JeanCMB15}。一种比较简单的方法是对可能输出的单词进行筛选，简称词汇选择。这里，可以利用类似于统计机器翻译的翻译表，获得每个源语言单词最可能的译文。在翻译过程中，利用注意力机制找到每个目标语位置对应的源语言位置，之后获得这些源语言单词最可能的翻译候选。之后，Softmax 只需要在这个有限的翻译候选单词集合上进行计算，大大降低了输出层的计算量。尤其对于CPU 上的系统，这个方法往往会带来明显的速度提升，同时保证翻译品质。图\ref{fig:14-4}给出了词汇选择方法的示意图。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -287,7 +287,7 @@ b &=& \omega_{\textrm{high}}\cdot |\seq{x}| \label{eq:14-4}
 \label{fig:14-4}
 \end{figure}
 %----------------------------------------------
-\parinterval 实际上，词汇选择也是一种典型的处理大词表的方法（见\chapterthirteen）。这种方法最大的优点在于，它可以与其它方法结合，比如与BPE等方法结合。本质上，这种方法与传统基于统计的机器翻译中的短语表剪枝有类似之处\upcite{DBLP:conf/emnlp/ZensSX12,DBLP:conf/emnlp/JohnsonMFK07,DBLP:conf/emnlp/LingGTB12}，当翻译候选过多的时候，可以根据翻译候选的质量对候选集进行剪枝。这种技术已经在统计机器翻译系统中得到成功应用。
+\parinterval 实际上，词汇选择也是一种典型的处理大词表的方法（见\chapterthirteen）。这种方法最大的优点在于，它可以与其它方法结合，比如与BPE等方法结合。本质上，这种方法与传统基于统计的机器翻译中的短语表剪枝有类似之处\upcite{DBLP:conf/emnlp/ZensSX12,DBLP:conf/emnlp/JohnsonMFK07,DBLP:conf/emnlp/LingGTB12}，当翻译候选过多的时候，可以根据翻译候选对候选集进行剪枝。这种技术已经在统计机器翻译系统中得到成功应用。


 %----------------------------------------------------------------------------------------