合并分支 'caorunzhe' 到 'master'

Caorunzhe 查看合并请求 !997

合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求 !997
3e1425bc · 曹润柘 · df54d791 · 5c38b917 · 3e1425bc · 3e1425bc
Commit 3e1425bc authored Jan 30, 2021 by 曹润柘
--- a/Chapter10/Figures/figure-example-of-context-vector-calculation-process.tex
+++ b/Chapter10/Figures/figure-example-of-context-vector-calculation-process.tex
@@ -27,10 +27,10 @@
 % alignment matrix
 \begin{scope}[scale=0.9,yshift=0.12in]
 \foreach \i / \j / \c in
-    {0/7/0.2, 1/7/0.45, 2/7/0.15, 3/7/0.15, 4/7/0.15, 5/7/0.15,
+    {0/7/0.25, 1/7/0.45, 2/7/0.15, 3/7/0.15, 4/7/0.15, 5/7/0.15,
    0/6/0.35, 1/6/0.45, 2/6/0.15, 3/6/0.15, 4/6/0.15, 5/6/0.15,
    0/5/0.25, 1/5/0.15, 2/5/0.15, 3/5/0.35, 4/5/0.15, 5/5/0.15,
-    0/4/0.15, 1/4/0.25, 2/4/0.2, 3/4/0.30, 4/4/0.15, 5/4/0.15,
+    0/4/0.15, 1/4/0.2, 2/4/0.2, 3/4/0.30, 4/4/0.15, 5/4/0.15,
    0/3/0.15, 1/3/0.15, 2/3/0.8, 3/3/0.25, 4/3/0.15, 5/3/0.25,
    0/2/0.15, 1/2/0.15, 2/2/0.15, 3/2/0.15, 4/2/0.25, 5/2/0.3,
    0/1/0.15, 1/1/0.15, 2/1/0.15, 3/1/0.15, 4/1/0.8, 5/1/0.15,

--- a/Chapter13/chapter13.tex
+++ b/Chapter13/chapter13.tex
@@ -917,7 +917,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\seq{y}} | \seq{x})
 %----------------------------------------------------------------------------------------

 \sectionnewpage
-\section{小结及深入阅读}
+\section{小结及拓展阅读}

 \parinterval 本章以不同的角度讨论了神经机器翻译模型的训练问题。一方面，可以作为{\chapternine}$\sim${\chaptertwelve}内容的扩展，另一方面，也为本书后续章节的内容进行铺垫。从机器学习的角度看，本章介绍的很多内容并不仅仅使用在机器翻译中，大多数的内容同样适用于其它自然语言处理任务。此外，本章也讨论了许多与机器翻译相关的问题（如大词表），这又使得本章的内容具有机器翻译的特性。总的来说，模型训练是一个非常开放的问题，在后续章节中还会频繁涉及。同时，也有一些方向可以关注：


--- a/Chapter14/chapter14.tex
+++ b/Chapter14/chapter14.tex
@@ -39,7 +39,6 @@
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
-
 \section{面临的挑战}

 \parinterval 神经机器翻译的推断是指：对于输入的源语言句子$\seq{x}$，使用已经训练好的模型找到最佳译文$\hat{\seq{y}}$的过程，其中$\hat{\seq{y}}=\arg\max\limits_{\seq{y}}\funp{P}(\seq{y}|\seq{x})$。这个过程也被称作解码。但是为了避免与神经机器翻译中编码器-解码器造成概念上的混淆，这里统一把翻译新句子的操作称作推断。以上这个过程是一个典型的搜索问题（见{\chaptertwo}），比如，可以使用贪婪搜索或者束搜索完成神经机器翻译的推断（见{\chapterten}）。
@@ -101,7 +100,7 @@
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
-
+\sectionnewpage
 \section{基本问题}\label{sec:14-2}

 \parinterval 下面将就神经机器翻译推断中的若干基本问题进行讨论，包括：推断方向、译文长度控制、搜索终止条件、译文多样性、搜索错误五个方面。
@@ -269,7 +268,7 @@ b &=& \omega_{\textrm{high}}\cdot |\seq{x}| \label{eq:14-4}
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
-
+\sectionnewpage
 \section{轻量模型}\label{sec:14-3}

 \parinterval 翻译速度和翻译精度之间的平衡是机器翻译系统研发中的常见问题。即使是以提升翻译品质为目标的任务（如用BLEU进行评价），也不得不考虑翻译速度的影响。比如，在很多任务中会构造伪数据，该过程涉及对大规模单语数据的翻译；无监督机器翻译中也会频繁地使用神经机器翻译系统构造训练数据。在这些情况下，如果翻译速度过慢会增大实验的周期。从应用的角度看，在很多场景下翻译速度甚至比翻译品质更重要。比如，在线翻译和一些小设备上的机器翻译系统都需要保证相对低的翻译时延，以满足用户体验的最基本要求。虽然，我们希望能有一套又好又快的翻译系统，但是现实的情况是：往往需要通过牺牲一些翻译品质来换取翻译速度的提升。下面就列举一些常用的神经机器翻译轻量模型和加速方法。这些方法通常应用在神经机器翻译的解码器上，因为相比编码器，解码器是推断过程中最耗时的部分。
@@ -407,7 +406,7 @@ b &=& \omega_{\textrm{high}}\cdot |\seq{x}| \label{eq:14-4}
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
-
+\sectionnewpage
 \section{非自回归翻译}

 \parinterval 目前大多数神经机器翻译模型都使用自左向右逐词生成译文的策略，即第$j$个目标语言单词的生成依赖于先前生成的$j-1$ 个词。这种翻译方式也被称作{\small\sffamily\bfseries{自回归解码}}\index{自回归解码}（Autoregressive Decoding）\index{Autoregressive Decoding}。虽然以Transformer为代表的模型使得训练过程高度并行化，加快了训练速度。但由于推断过程自回归的特性，模型无法同时生成译文中的所有单词，导致模型的推断过程非常缓慢，这对于神经机器翻译的实际应用是个很大的挑战。因此，如何设计一个在训练和推断阶段都能够并行化的模型是目前研究的热点之一。
@@ -590,7 +589,7 @@ b &=& \omega_{\textrm{high}}\cdot |\seq{x}| \label{eq:14-4}
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
-
+\sectionnewpage
 \section{多模型集成}\label{sec:14-5}

 \parinterval 在机器学习领域，把多个模型融合成一个模型是提升系统性能的一种有效方法。比如，在经典的AdaBoost 方法中\upcite{DBLP:journals/jcss/FreundS97}，用多个“弱” 分类器构建的“强” 分类器可以使模型在训练集上的分类错误率无限接近0。类似的思想也被应用到机器翻译中\upcite{DBLP:conf/acl/XiaoZZW10,DBLP:conf/icassp/SimBGSW07,DBLP:conf/acl/RostiMS07,DBLP:conf/wmt/RostiZMS08}，被称为{\small\sffamily\bfseries{系统融合}}\index{系统融合}（System Combination）\index{System Combination}。在各种机器翻译比赛中，系统融合已经成为经常使用的技术之一。由于许多模型融合方法都是在推断阶段完成，因此此类方法开发的代价较低。
@@ -695,8 +694,8 @@ b &=& \omega_{\textrm{high}}\cdot |\seq{x}| \label{eq:14-4}
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
-
-\section{小结与扩展阅读}
+\sectionnewpage
+\section{小结与拓展阅读}

 \parinterval 推断系统（或解码系统）是神经机器翻译的重要组成部分。在神经机器翻译研究中，单独针对推断问题开展的讨论并不多见。更多的工作是将其与实践结合，常见于开源系统、评测比赛中。但是，从应用的角度看，研发高效的推断系统是机器翻译能够被大规模使用的前提。本章也从神经机器翻译推断的基本问题出发，重点探讨了推断系统的效率、非自回归翻译、多模型集成等问题。但是，由于推断问题涉及的问题十分广泛，因此本章也无法对其进行全面覆盖。关于神经机器翻译模型推断还有以下若干研究方向值得关注：


--- a/Chapter15/chapter15.tex
+++ b/Chapter15/chapter15.tex
--- a/Chapter16/chapter16.tex
+++ b/Chapter16/chapter16.tex
@@ -873,7 +873,7 @@
 %    NEW SECTION
 %----------------------------------------------------------------------------------------

-\section{小结及扩展阅读}
+\section{小结及拓展阅读}

 低资源机器翻译是机器翻译大规模应用所面临的挑战之一，因此也备受关注。一方面，小样本学习技术的发展，使得研究人员可以有更多的手段对问题求解；另一方面，从多语言之间的联系出发，也可以进一步挖掘不同语言背后的知识，并应用于低资源机器翻译任务。本章从多个方面介绍了低资源机器翻译方法，并结合多语言、零资源翻译等问题给出了不同场景下解决问题的思路。除此之外，还有几方面工作值得进一步关注：


--- a/Chapter17/chapter17.tex
+++ b/Chapter17/chapter17.tex
@@ -52,6 +52,7 @@
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
+\sectionnewpage
 \section{语音翻译}

 \parinterval 语音，是人类交流中最常用的一种信息载体。从日常聊天、出国旅游，到国际会议、跨国合作，对于语音翻译的需求不断增加。甚至在有些场景下，用语音进行交互要比用文本进行交互频繁得多。因此，{\small\bfnew{语音翻译}}\index{语音翻译}（Speech Translation）\index{Speech Translation}也成为了语音处理和机器翻译相结合的重要产物。根据目标语言的载体类型，可以将语音翻译分为{\small\bfnew{语音到文本翻译}}\index{语音到文本翻译}（Speech-to-Text Translation）\index{Speech-to-Text Translation}和{\small\bfnew{语音到语音翻译}}\index{语音到语音翻译}（Speech-to-Speech Translation）\index{Speech-to-Speech Translation}；基于翻译的实时性，还可以分为{\small\bfnew{实时语音翻译}}\index{实时语音翻译}（即同声传译，Simultaneous Translation）\index{Simultaneous Translation}和{\small\bfnew{离线语音翻译}}（Offline Speech Translation）\index{离线语音翻译}\index{Offline Speech Translation}。本节主要关注离线语音到文本翻译方法（简称为语音翻译），分别从音频处理、级联语音翻译和端到端语音翻译几个角度开展讨论。
@@ -253,7 +254,7 @@
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
-
+\sectionnewpage
 \section{图像翻译}

 \parinterval 在人类所接受的信息中，视觉信息的比重往往不亚于语音和文本信息，甚至更多。视觉信息通常以图像的形式存在，近几年，结合图像的多模态机器翻译受到了广泛的关注。多模态机器翻译（图\ref{fig:17-11} (a)）简单来说就是结合源语言和其他模态（例如图像等）的信息生成目标语言的过程。这种结合图像的机器翻译还是一种狭义上的“翻译”，它本质上还是从源语言到目标语言或者说从文本到文本的翻译。事实上从图像到文本（图\ref{fig:17-11}(b)）的转换，即给定图像，生成与图像内容相关的描述，也可以被称为广义上的“翻译”。例如，{\small\bfnew{图片描述生成}}\index{图片描述生成}（Image Captioning）\index{Image Captioning}就是一种典型的图像到文本的翻译。当然，这种广义上的翻译形式不仅仅包括图像到文本的转换，还可以包括从图像到图像的转换（图\ref{fig:17-11}(c)），甚至是从文本到图像的转换（图\ref{fig:17-11}(d)）等等。这里将这些与图像相关的翻译任务统称为图像翻译。
@@ -423,7 +424,7 @@
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
-
+\sectionnewpage
 \section{篇章级翻译}

 \parinterval 目前大多数机器翻译系统是句子级的。由于缺少了对篇章上下文信息的建模，在需要依赖上下文的翻译场景中，模型的翻译效果总是不尽人意。篇章级翻译的目的就是对篇章上下文信息进行建模，进而改善机器翻译在整个篇章上的翻译质量。篇章级翻译的概念在很早就已经出现\upcite{DBLP:journals/ac/Bar-Hillel60}，随着近几年神经机器翻译取得了巨大进展，篇章级神经机器翻译也成为了重要的方向\upcite{DBLP:journals/corr/abs-1912-08494,DBLP:journals/corr/abs-1901-09115}。基于此，本节将对篇章级神经机器翻译的若干问题展开讨论。
@@ -635,8 +636,8 @@
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
-
-\section{小结及扩展阅读}
+\sectionnewpage
+\section{小结及拓展阅读}

 \parinterval 使用更大上下文进行机器翻译建模是极具潜力的研究方向，包括多模态翻译在内的多个领域也非常活跃。有许多问题值得进一步思考与讨论：