wording (sec 16, mono data)

8c9e62b0 · xiaotong · 2d433262 · 8c9e62b0
Commit 8c9e62b0 authored Nov 12, 2020 by xiaotong
--- a/Chapter16/chapter16.tex
+++ b/Chapter16/chapter16.tex
@@ -31,19 +31,13 @@
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
-\section{单语数据的使用}
+\section{数据的有效使用}
-\parinterval 在统计机器翻译时代，使用单语数据训练语言模型就是构建机器翻译系统的关键步骤。好的语言模型往往会带来性能的增益。而这个现象在神经机器翻译中似乎并不明显，因为在大多数神经机器翻译的范式中，并不要求使用大规模单语数据来帮助机器翻译系统。甚至，连语言模型都不会作为一个独立的模块。这一方面是由于神经机器翻译系统的解码端本身就起着语言模型的作用，另一方面是由于数据的增多使得翻译模型可以更好的捕捉目标语言的规律。但是，双语数据总是有限的。很多场景下，单语数据的规模会远大于双语数据。比如，在专利翻译的很多细分领域中，双语数据的规模十分有限，但是有大量的和领域相关的单语数据。如果能够让这些单语数据发挥作用，显然是一种非常好的选择。在神经机器翻译中使用单语数据主要面临着两方面问题：
+\parinterval 数据稀缺是低资源机器翻译所面临的主要问题。因此，充分使用既有的数据是一种解决问题的思路。比如，在双语训练不充分的时候，可以考虑用转述等方式生成更多的双语训练数据（{\color{red} 参考文献！}）。也可以简单地对双语数据的部分单词用近义词进行替换，达到丰富双语数据的目的（{\color{red} 参考文献！}）。
-\begin{itemize}
+\parinterval 另一种思路是充分利用单语数据。实际上，在统计机器翻译时代，使用单语数据训练语言模型是构建机器翻译系统的关键步骤。好的语言模型往往会带来性能的增益。而这个现象在神经机器翻译中似乎并不明显，因为在大多数神经机器翻译的范式中，并不要求使用大规模单语数据来帮助机器翻译系统。甚至，连语言模型都不会作为一个独立的模块。这一方面是由于神经机器翻译系统的解码端本身就起着语言模型的作用，另一方面是由于数据的增多使得翻译模型可以更好的捕捉目标语言的规律。但是，双语数据总是有限的。很多场景下，单语数据的规模会远大于双语数据。如果能够让这些单语数据发挥作用，显然是一种非常好的选择。
-    \vspace{0.5em}
-    \item 从单语数据中学习什么样的知识？
-    \vspace{0.5em}
-    \item 如何在神经机器翻译中集成单语数据的知识？
-    \vspace{0.5em}
-\end{itemize}
-下面将从数据增强、基于语言模型的单语数据使用、翻译建模等方面对这两个问题展开讨论。
+\parinterval 下面将从数据增强、基于语言模型的单语数据使用等方面展开讨论。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -214,7 +208,7 @@
 \begin{figure}[htp]
    \centering
    \input{./Chapter16/Figures/lm-fusion}
-    \caption{语言模型的浅融合与深融合} 
+    \caption{语言模型的浅融合与深融合}
    \label{fig:16-6-xc}
 \end{figure}
 %-------------------------------------------
@@ -337,13 +331,13 @@ g_{t} = \sigma (w^{T}s_{t}^{TM} + b)
 %    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------
-\subsection{翻译建模}
+\subsection{同时学习双向翻译模型}
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------
-{\red 下面这部分是从以前的内容中拷贝过来的，对偶学习和无监督部分的关联比较大，可以把对偶学习拆出去变成新的一小节？把Semi-Supervised Learning for Neural Machine Translation和Mirror-Generative Neural Machine Translation加进来？}
+{\red 下面这部分是从以前的内容中拷贝过来的，对偶学习和无监督部分的关联比较大，可以把对偶学习拆出去变成新的一小节？把Semi-Supervised Learning for Neural Machine Translation和Mirror-Generative Neural Machine Translation加进来？}{\color{blue} [肖]：我同意，不过感觉Semi-Supervised Learning for Neural Machine Translation有些意思，Mirror-Generative Neural Machine Translation一般，不过可以简单提及一下，或者对核心思想进行介绍。还有，无监督对偶学习是不是应该放到李炎洋那部分？这里面我们还是放有监督的方法，可以和李炎洋讨论一下。}
 \subsubsection{1. 双向训练}
@@ -383,7 +377,7 @@ g_{t} = \sigma (w^{T}s_{t}^{TM} + b)
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------
-\subsubsection{3. 无监督对偶学习}
+\subsubsection{3. 无监督对偶学习（{\color{red} 放到李炎洋那部分？}）}
 \parinterval 在有监督对偶学习对联合分布$\funp{P}(\mathbi{s},\mathbi{t})$建模的基础上，如果把$\mathbf  t$看作一个隐变量，那么可以得到边缘分布$\funp{P}(\mathbi{s})$，也就是关于$\mathbi{s}$的语言模型：