wording (sec 17)

35a1347f · xiaotong · bd2ef45d · 35a1347f · 35a1347f · 35a1347f
Commit 35a1347f authored Jan 02, 2021 by xiaotong
--- a/Chapter17/Figures/figure-application-of-multimodal-machine-translation-to-multitask-learning.tex
+++ b/Chapter17/Figures/figure-application-of-multimodal-machine-translation-to-multitask-learning.tex
 \tikzstyle{coder} = [rectangle,rounded corners,minimum height=2.2em,minimum width=4.3em,text centered,draw=black,fill=red!25]
 \begin{tikzpicture}[node distance = 0,scale = 0.75]
 \tikzstyle{every node}=[scale=0.75]
-\node(x)[]{x};
+\node(x)[]{$x$};
 \node(encoder)[coder, above of = x,yshift=4em]{{编码器}};
 \node(decoder_left)[coder, above of = encoder, yshift=6em,fill=blue!25]{{解码器}};
-\node(y_hat)[above of = decoder_left, yshift=4em]{{$\rm y'$}};
+\node(y_hat)[above of = decoder_left, yshift=4em]{{$y'$}};
-\node(y)[above of = decoder_left, xshift=-6em]{{$\rm y$}};
+\node(y)[above of = decoder_left, xshift=-6em]{{$y$}};
 \node(decoder_right)[coder, above of = encoder, xshift=11em,fill=yellow!25]{{解码器}};
 \node(figure)[draw=white,above of = decoder_right,yshift=6.5em,scale=0.25] {\includegraphics[width=0.62\textwidth]{./Chapter17/Figures/figure-bank-without-attention.png}};

--- a/Chapter17/Figures/figure-traditional-methods-of-image-description.tex
+++ b/Chapter17/Figures/figure-traditional-methods-of-image-description.tex
@@ -26,7 +26,7 @@
 \draw[->, thick,color=black!60](figure.east)to([xshift=-0.1cm]dog.west)node[left,xshift=-0.2cm,yshift=-0.1cm,color=black]{图片检测};
 \draw[->, thick,color=black!60]([yshift=-0.1cm]hat.south)to([yshift=0.1cm]ground.north)node[right,xshift=-0.2cm,yshift=0.5cm,color=black]{模板填充};
-\node [anchor=north](pos1)at ([xshift=-3.8em,yshift=-0.5em]ground-1.south){(a) 基于检索的图像描述生成范式};
+\node [anchor=north](pos1)at ([xshift=-3.8em,yshift=-0.5em]ground-1.south){(a) 基于检索的图像描述生成};
-\node [anchor=north](pos2)at ([xshift=-3.8em,yshift=-0.5em]ground.south){(b) 基于模板的图像描述生成范式};
+\node [anchor=north](pos2)at ([xshift=-3.8em,yshift=-0.5em]ground.south){(b) 基于模板的图像描述生成};
 \end{tikzpicture}
\ No newline at end of file
--- a/Chapter17/chapter17.tex
+++ b/Chapter17/chapter17.tex
@@ -283,7 +283,7 @@
 \section{图像翻译}
-\parinterval 人类所接受的信息中视觉信息的比重往往不亚于语言信息，甚至更多。视觉信息通常以图像的形式存在，近几年，结合图像的多模态机器翻译受到了广泛的研究。多模态机器翻译（图\ref{fig:17-11} (a)）简单来说就是结合源语言和其他模态（例如图像等）的信息生成目标语言的过程。这种结合图像的机器翻译还是一种狭义上的“翻译”，它本质上还是从源语言到目标语言或者说从文本到文本的翻译。那么从图像到文本上（图\ref{fig:17-11}(b)）的转换，例如，{\small\bfnew{图片描述生成}}\index{图片描述生成}（Image Captioning）\index{Image Captioning}，即给定图像生成与图像内容相关的描述，也可以被称为广义上的“翻译”，当然，这种广义上的翻译形式不仅仅包括图像到文本，还可以包括从图像到图像（图\ref{fig:17-11}(c)），甚至是从文本到图像（图\ref{fig:17-11}(d)）等等。这里将这些与图像相关的翻译任务统称为图像翻译。
+\parinterval 在人类所接受的信息中，视觉信息的比重往往不亚于语言信息，甚至更多。视觉信息通常以图像的形式存在，近几年，结合图像的多模态机器翻译受到了广泛的关注。多模态机器翻译（图\ref{fig:17-11} (a)）简单来说就是结合源语言和其他模态（例如图像等）的信息生成目标语言的过程。这种结合图像的机器翻译还是一种狭义上的“翻译”，它本质上还是从源语言到目标语言或者说从文本到文本的翻译。那么从图像到文本（图\ref{fig:17-11}(b)）的转换，即给定图像生成与图像内容相关的描述，也可以被称为广义上的“翻译”。例如，{\small\bfnew{图片描述生成}}\index{图片描述生成}（Image Captioning）\index{Image Captioning}就是一种典型的图像到文本的翻译。当然，这种广义上的翻译形式不仅仅包括图像到文本，还可以包括从图像到图像（图\ref{fig:17-11}(c)），甚至是从文本到图像（图\ref{fig:17-11}(d)）等等。这里将这些与图像相关的翻译任务统称为图像翻译。
 %----------------------------------------------------------------------------------------------------
 \begin{figure}[htp]
@@ -300,9 +300,9 @@
 \subsection{基于图像增强的文本翻译}
-\parinterval 在文本翻译中引入图像信息是最典型的多模态机器翻译任务。虽然多模态机器翻译还是一种从源语言文本到目标语言文本的转换，但是在转换的过程中，融入了其他模态的信息减少了歧义的产生。例如前文提到的通过与源语言相关的图像信息，将“A medium sized  child jumps off of a dusty bank”中“bank”翻译为“河岸”而不是“银行”，因为图像中出现了河床，因此译文单词的歧义大大降低。换句话说，对于同一图像或者视觉场景的描述，源语言和目标语言描述的本质意义是一致的，只不过，体现在语言上会有表达方法上的差异。那么，图像就会存在一些源语言和目标语言的隐含对齐“约束”，将这种“约束”融入到机器翻译系统，会让模型加深对某些歧义词语上下文的理解，从而进一步提高机器翻译质量。
+\parinterval 在文本翻译中引入图像信息是最典型的多模态机器翻译任务。虽然多模态机器翻译还是一种从源语言文本到目标语言文本的转换，但是在转换的过程中，融入了其他模态的信息减少了歧义的产生。例如前文提到的通过与源语言相关的图像信息，将“A medium sized  child jumps off of a dusty bank”中“bank”翻译为“河岸”而不是“银行”，因为图像中出现了河床，因此“bank”的歧义大大降低。换句话说，对于同一图像或者视觉场景的描述，源语言和目标语言描述的信息是一致的，只不过，体现在不同语言上会有表达方法上的差异。那么，图像就会存在一些源语言和目标语言的隐含对齐“约束”，而这种“约束”可以捕捉语言中不易表达的隐含信息。
-\parinterval 如何融入视觉信息，更好的理解多模态上下文语义是多模态机器翻译研究的热点\upcite{DBLP:conf/wmt/SpeciaFSE16,DBLP:conf/wmt/CaglayanABGBBMH17,DBLP:conf/wmt/LibovickyHTBP16}，大体的研究方向包括基于特征融合的方法\upcite{DBLP:conf/emnlp/CalixtoL17,DBLP:journals/corr/abs-1712-03449,DBLP:conf/wmt/HelclLV18}、基于多任务学习的方法\upcite{DBLP:conf/ijcnlp/ElliottK17,DBLP:conf/acl/YinMSZYZL20}。下面是具体介绍。
+\parinterval 如何融入视觉信息，更好的理解多模态上下文语义是多模态机器翻译研究的重点\upcite{DBLP:conf/wmt/SpeciaFSE16,DBLP:conf/wmt/CaglayanABGBBMH17,DBLP:conf/wmt/LibovickyHTBP16}，主要方向包括基于特征融合的方法\upcite{DBLP:conf/emnlp/CalixtoL17,DBLP:journals/corr/abs-1712-03449,DBLP:conf/wmt/HelclLV18}、基于联合模型的方法\upcite{DBLP:conf/ijcnlp/ElliottK17,DBLP:conf/acl/YinMSZYZL20}。下面是具体介绍。
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -316,7 +316,7 @@
    \vspace{0.5em}
    \item 图像信息不全都是有用的，往往存在一些与源语言或目标语言无关的信息，作为全局特征会引入噪音。
    \vspace{0.5em}
-    \item 图像信息作为源语言的一部分或者初始化状态，间接参与目标语言单词的生成，在神经网络的计算过程中，图像信息会有一定的损失。
+    \item 图像信息作为源语言的一部分或者初始化状态，间接地参与了译文的生成，在神经网络的计算过程中，图像信息会有一定的损失。
    \vspace{0.5em}
 \end{itemize}
@@ -324,7 +324,7 @@
 \begin{figure}[htp]
 \centering
 \input{./Chapter17/Figures/figure-modeling-a-global-approach-to-visual-characteristics}
-\caption{建模全局的视觉特征方法}
+\caption{基于全局视觉特征的多模态翻译方法}
 \label{fig:17-12}
 \end{figure}
 %----------------------------------------------------------------------------------------------------
@@ -335,36 +335,35 @@
 \centerline{中午\ 没\ 吃饭\ ，\ 又\ 刚\ 打\ 了\ 一\ 下午\ 篮球\ ，\ 我\ 现在\ 很\ 饿\ ，\ 我\ 想\underline{\quad \quad \quad} 。}
 \vspace{0.8em}
-\parinterval 想在横线处填写“吃饭”，“吃东西”的原因是我们在读句子的过程中，关注到了“没/吃饭”，“很/饿”等关键息。这是在自然语言处理中注意力机制解决的问题，即对于要生成的目标语言单词，相关性更高的源语言片段应该更加“重要”，而不是将所有的源语言单词一视同仁。同样的，注意力机制也用在多模态机器翻译中，即在生成目标单词时，对于图像而言，更应该关注与目标单词相关的图像部分，而弱化对其他部分的关注，这样就达到了降噪的目的，另外，注意力机制的引入，也使图像信息直接参与目标语言的生成，解决了在编码器中图像信息传递损失的问题。
+\parinterval 想在横线处填写“吃饭”，“吃东西”的原因是我们在读句子的过程中，关注到了“没/吃饭”，“很/饿”等关键息。这是在语言生成中注意力机制所解决的问题，即对于要生成的目标语言单词，相关性更高的语言片段应该更加“重要”，而不是将所有单词一视同仁。同样的，注意力机制也应用在多模态机器翻译中，即在生成目标单词时，更应该关注与目标单词相关的图像部分，而弱化对其他部分的关注。另外，注意力机制的引入，也使图像信息更加直接地参与目标语言的生成，解决了在不使用注意力机制的方法中图像信息传递损失的问题。
 %----------------------------------------------------------------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter17/Figures/figure-comparison-of-attention-mechanism-of-target-word-bank}
-\caption{目标词“bank”注意力机制前后对比}
+\caption{使用注意力机制前后图像中对单词“bank”的关注程度对比}
 \label{tab:17-2-3-c}
 \end{figure}
 %----------------------------------------------------------------------------------------------------
-\parinterval 那么，多模态机器翻译是如何计算上下文向量的呢？这里仿照第十章的内容给出具体解释(参考图10.19)。假设编码器输出的状态序列$\{\mathbi{h}_1,\mathbi{h}_2,...\mathbi{h}_m\}$，需要注意的是，这里的状态序列不是源语言句子的状态序列，而是通过基于卷积循环网络提取到的图像的状态序列。假设图像的特征维度16×16×512，其中前两个维度分别表示图像的高和宽，这里会将图像的维度映射为256×512 的状态序列，512为每个状态的维度。对于目标语位置$j$，上下文向量$\mathbi{C}_{j}$被定义为对序列的编码器输出进行加权求和，如下：
+\parinterval 那么，多模态机器翻译是如何计算上下文向量的呢？这里仿照第十章的内容给出具体解释。假设编码器输出的状态序列为$\{\mathbi{h}_1,\mathbi{h}_2,...\mathbi{h}_m\}$，需要注意的是，这里的状态序列不是源语言句子的状态序列，而是通过基于卷积等操作提取到的图像的状态序列。假设图像的特征维度是16×16×512，其中前两个维度分别表示图像的高和宽，这里会将图像映射为256×512 的状态序列，其中512 为每个状态的维度。对于目标语位置$j$，上下文向量$\mathbi{C}_{j}$被定义为对序列的编码器输出进行加权求和，如下：
 \begin{eqnarray}
 \mathbi{C}_{j}&=& \sum_{i}{{\alpha}_{i,j}{\mathbi{h}}_{i}}
-\label{fig:17-13}
 \end{eqnarray}
 \noindent 其中，${\alpha}_{i,j}$是注意力权重，它表示目标语言第$j$个位置与图片编码状态序列第$i$个位置的相关性大小，计算方式与{\chapterten}描述的注意力函数一致。
-\parinterval 这里，将每个时间步编码器的输出$\mathbi{h}_{i}$看作源图像序列位置$i$的表示结果。图\ref{fig:17-13}说明了模型在生成目标词“bank”时，图像经过注意力机制对图像区域关注度的可视化效果，可以看到，经过注意力机制后，模型更关注与目标词相关的图像部分。当然，多模态机器翻译的输入还包括源语言文字序列。通常，源语言文字对于翻译的作用比图像更大\upcite{DBLP:conf/acl/YaoW20}。从这个角度说，图像信息更多的是作为文字信息的补充，而不是替代。除此之外，注意力机制在多模态机器翻译中也有很多研究，不仅仅在解码器端将经过注意力机制的文本特征和视觉特征作为解码输入的一部分，还有工作在编码器端将源语言与图像信息进行注意力建模，得到更好的源语言特征表示\upcite{DBLP:journals/corr/abs-1712-03449,DBLP:conf/acl/YaoW20}。
+\parinterval 这里，将$\mathbi{h}_{i}$看作图像表示序列位置$i$上的表示结果。图\ref{tab:17-2-3-c}给出了模型在生成目标词“bank”时，图像经过注意力机制对图像区域关注度的可视化效果。可以看到，经过注意力机制后，模型更关注与目标词相关的图像部分。当然，多模态机器翻译的输入还包括源语言文字序列。通常，源语言文字对于翻译的作用比图像更大\upcite{DBLP:conf/acl/YaoW20}。从这个角度说，在当下的多模态翻译任务中，图像信息更多的是作为文字信息的补充，而不是替代。除此之外，注意力机制在多模态机器翻译中也有很多研究，不仅仅在解码器端将经过注意力机制的文本特征和视觉特征作为解码输入的一部分，还有工作在编码器端将源语言与图像信息进行注意力建模，得到更好的源语言特征表示\upcite{DBLP:journals/corr/abs-1712-03449,DBLP:conf/acl/YaoW20}。
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------
-\subsubsection{2. 基于多任务学习的方法}
+\subsubsection{2. 基于联合模型的方法}
-\parinterval 基于多任务学习的方法通常是把翻译任务与其他视觉任务结合，进行联合训练。一种常见的多任务学习框架是针对多个相关的任务，共享模型的部分参数来学习不同任务之间相似的部分，并通过特定的模块来学习每个任务特有的部分。在多模态机器翻译中，应用多任务学习的主要策略就是将翻译作为主任务，同时设置一些与其他模态相关的子任务，通过这些子任务来辅助源语言理解自身的语言知识。
+\parinterval 基于联合模型的方法通常是把翻译任务与其他视觉任务结合，进行联合训练。这种方法也可以被看做是一种多任务学习，只不过这里仅关注翻译和视觉任务。一种常见的方法是共享模型的部分参数来学习不同任务之间相似的部分，并通过特定的模块来学习每个任务特有的部分。
-\parinterval 如图\ref{fig:17-14}所示，可以将多模态机器翻译任务分解为两个子任务：机器翻译和图片生成\upcite{DBLP:conf/ijcnlp/ElliottK17}。其中机器翻译作为主任务，图片生成作为子任务，图片生成这里指的是从一个图片描述生成对应图片，对于图片生成任务在后面叙述。通过单个编码器对源语言数据进行建模，然后通过两个解码器（翻译解码器和图像解码器）来学习翻译任务和图像生成任务。顶层任务学习每个任务的独立特征，底层共享参数层能够学习到更丰富的文本特征表示。
+\parinterval 如图\ref{fig:17-14}所示，可以将多模态机器翻译任务分解为两个子任务：机器翻译和图片生成\upcite{DBLP:conf/ijcnlp/ElliottK17}。其中机器翻译作为主任务，图片生成作为子任务。这里的图片生成指的是从一个图片描述生成对应图片，对于图片生成任务在后面还会有描述。通过单个编码器对源语言数据进行建模，然后通过两个解码器（翻译解码器和图像解码器）来学习翻译任务和图像生成任务。顶层任务学习每个任务的独立特征，底层共享参数层能够学习到更丰富的文本表示。
 \parinterval 另外在视觉问答领域有研究表明，在多模态任务中，不宜引入过多层的注意力机制，因为过深的模型会导致多模态模型的过拟合\upcite{DBLP:conf/nips/LuYBP16}。这一方面是由于深模型本身对数据的拟合能力，另一方面也是由于多模态任务的数据普遍较小，容易造成复杂模型的过拟合。从另一角度来说，利用多任务学习的方式，提高模型的泛化能力，也是一种有效防止过拟合现象的方式。类似的思想，也大量使用在多模态自然语言处理中，例如图像描述生成、视觉问答等\upcite{DBLP:conf/iccv/AntolALMBZP15}。
@@ -372,7 +371,7 @@
 \begin{figure}[htp]
 \centering
 \input{./Chapter17/Figures/figure-application-of-multimodal-machine-translation-to-multitask-learning.tex}
-\caption{多模态机器翻译多任务学习的应用}
+\caption{翻译+图片生成联合学习模型}
 \label{fig:17-14}
 \end{figure}
 %----------------------------------------------------------------------------------------------------
@@ -383,7 +382,7 @@
 \subsection{图像到文本的翻译}
-\parinterval 图像到文本的转换也可以看作是广义上的翻译，简单来说，就是把图像作为了源语言的唯一输入，而输出是文本。其中，图像描述生成是最典型的图像到文本的翻译任务。虽然，这部分内容并不是本书的重点，不过为了保证多模态翻译内容的完整性，这里对相关技术进行简要介绍。图像描述生成是指给定图像生成文字描述，有时也被称作图说话、图像字幕生成。如何理解图像信息、在理解图像信息基础上生成描述是图像描述任务要解决的问题，可以发现，该任务涉及到自然语言处理和计算机视觉两个领域，是一项很有挑战的任务。同时，图像描述在图像检索、智能导盲、人机交互等领域有着广泛的应用场景。
+\parinterval 图像到文本的转换也可以看作是广义上的翻译，简单来说，就是把图像作为了源语言的唯一输入，而输出是文本。其中，图像描述生成是最典型的图像到文本的翻译任务。虽然，这部分内容并不是本书的重点，不过为了保证多模态翻译内容的完整性，这里对相关技术进行简要介绍。图像描述有时也被称作图说话、图像字幕生成，它在图像检索、智能导盲、人机交互等领域有着广泛的应用场景。
 %----------------------------------------------------------------------------------------------------
 \begin{figure}[htp]
@@ -394,7 +393,7 @@
 \end{figure}
 %----------------------------------------------------------------------------------------------------
-\parinterval 传统图像描述生成有两种范式：基于检索的方法和基于模板的方法。其中图\ref{fig:17-15}(a)展示了一个基于检索的方法的实例，这种方法在图像描述候选中选择一个描述输出。但是，弊端是所选择的句子可能会和图像很大程度上不相符。而\ref{fig:17-15}(b)展示的是一种基于模版的方法，这种方法需要在图像上提取视觉特征，然后把内容填在实现设计好的模板当中，这种方法的缺点是生成的图像描述过于呆板，“像是在一个模子中刻出来的”说的就是这个意思。近几年来 ，由于卷积神经网络在计算机视觉领域效果显著，而循环神经网络在自然语言处理领域卓有成效，受到机器翻译领域编码器-解码器框架的启发，逐渐的，这种基于卷积神经网络作为编码器编码图像，循环神经网络作为解码器解码描述的编码器-解码器框架成了图像描述任务的基础范式。本章节，从基础的图像描述范式编码器-解码器框架展开\upcite{DBLP:conf/cvpr/VinyalsTBE15,DBLP:conf/icml/XuBKCCSZB15}，从编码器的改进、解码器的改进两个方面进行介绍。
+\parinterval 传统图像描述生成有两种范式：基于检索的方法和基于模板的方法。其中图\ref{fig:17-15}(a)展示了一个基于检索的图像描述生成实例，这种方法在图像描述的候选中选择一个描述输出。但是，弊端是所选择的句子可能会和图像很大程度上不相符。而\ref{fig:17-15}(b)展示的是一种基于模版的方法，这种方法需要在图像上提取视觉特征，然后把内容填在实现设计好的模板当中，这种方法的缺点是生成的图像描述过于呆板，“像是在一个模子中刻出来的”说的就是这个意思。近几年来 ，受到机器翻译领域编码器-解码器框架的启发，逐渐的，人们开始用卷积神经网络作为编码器编码图像、循环神经网络作为解码器生成描述。而这种方法也成为了图像描述生成的基础范式。这里会从基础的图像描述范式编码器-解码器框架展开\upcite{DBLP:conf/cvpr/VinyalsTBE15,DBLP:conf/icml/XuBKCCSZB15}，并从编码器的改进和解码器的改进两个方面进行介绍。
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION