wording (sec 16, dict induction)

4f021ff4 · xiaotong · 84605d47 · 4f021ff4
Commit 4f021ff4 authored Nov 16, 2020 by xiaotong
--- a/Chapter16/chapter16.tex
+++ b/Chapter16/chapter16.tex
@@ -421,7 +421,7 @@ Joint training for neural machine translation models with monolingual data
 \parinterval 重新回顾公式\ref{eq:16-9-xc}对应的目标函数，无监督对偶学习跟回译（假设现在只在一个句对$(\mathbi{x},\mathbi{y})$上做回译）之间有着很深的内在联系：给定一个句子$\mathbi{x}$，无监督对偶学习和回译都首先用$\funp{P}(\mathbi{y}|\mathbi{x})$把$\mathbi{x}$翻译成$\mathbi{y}$，然后无监督对偶学习最大化$\funp{P}(\mathbi{x}|\mathbi{y})\funp{P}(\mathbi{y}|\mathbi{x})$，而回译则是最大化$\funp{P}(\mathbi{x}|\mathbi{y})$。可以看到，当无监督对偶学习假设$\funp{P}(\mathbi{y}|\mathbi{x})$是一个完美的翻译模型的时候，它与回译是等价的。此外，在共享两个方向的模型参数$\theta$的情况下，可以看到无监督对偶学习的梯度为

 \begin{equation}
-\frac{\partial \funp{P}(\mathbi{x})}{\partial \theta} =\funp{P}(\mathbi{y}|\mathbi{x}) \frac{\partial \funp{P}(\mathbi{x}|\mathbi{y})}{\partial \theta}+\funp{P}(\mathbi{x}|\mathbi{y}) \frac{\partial \funp{P}(\mathbi{y}|\mathbi{x})}{\partial \theta} 
+\frac{\partial \funp{P}(\mathbi{x})}{\partial \theta} =\funp{P}(\mathbi{y}|\mathbi{x}) \frac{\partial \funp{P}(\mathbi{x}|\mathbi{y})}{\partial \theta}+\funp{P}(\mathbi{x}|\mathbi{y}) \frac{\partial \funp{P}(\mathbi{y}|\mathbi{x})}{\partial \theta}
 \end{equation}

 \noindent 而回译的梯度为$\frac{\partial \funp{P}(\mathbi{x}|\mathbi{y})}{\partial \theta}$。从这个角度出发，无监督对偶学习与回译都在优化语言模型$\funp{P}(\mathbi{x})$这个目标函数，只不过回译使用对$\theta$有偏的梯度估计。
@@ -439,9 +439,9 @@ Joint training for neural machine translation models with monolingual data

 \section{无监督机器翻译}

-\parinterval 低资源机器翻译的一种极端情况就是：对于想要互译的两个语言，我们没有任何双语数据，只有单语数据。在这种情况下，我们是否仍然可以训练一个有效的翻译模型呢？我们称这种不需要双语数据的机器翻译方法为{\small\bfnew{无监督机器翻译}}。
+\parinterval 低资源机器翻译的一种极端情况是：没有任何可以用于模型训练的双语平行数据。一种思路是借用多语言翻译方面的技术（XXX节），利用基于中介语或者零样本学习的方法构建翻译系统。但是，这类方法仍然需要多个语种的平行数据。对于某一个语言对，在只有源语言和目标语言单语数据的前提下，是否仍然可以训练一个有效的翻译模型呢？我们称这种不需要双语数据的机器翻译方法为{\small\bfnew{无监督机器翻译}}\index{无监督机器翻译}（Un-supervised Machine Translation\index{Un-supervised Machine Translation}）。

-\parinterval 直接进行无监督机器翻译是困难的。一个简单可行的思路是，我们可以先把问题进行分解，然后分别解决各个子问题，最后把完整的解决方案拼凑出来。放到无监督机器翻译里面，我们可以首先使用无监督方法寻找词与词之间的翻译，然后在这基础上，进一步得到句子到句子的翻译模型。
+\parinterval 直接进行无监督机器翻译是困难的。一个简单可行的思路是先把问题进行分解，然后分别解决各个子问题，最后形成完整的解决方案。放到无监督机器翻译里面，可以首先使用无监督方法寻找词与词之间的翻译，然后在这基础上，进一步得到句子到句子的翻译模型。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -449,9 +449,9 @@ Joint training for neural machine translation models with monolingual data

 \subsection{无监督词典归纳}

-\parinterval 词典归纳（Bilingual Dictionary Induction，BDI），也叫词典推断，是实现语种间单词级别翻译的任务。在统计机器翻译中，词典归纳是一项核心的任务，它从双语平行语料中发掘互为翻译的单词，是翻译知识的主要来源\cite{黄书剑0统计机器翻译中的词对齐研究}。在端到端的神经机器翻译中，词典归纳通常作为一个下游任务被用到无监督机器翻译、多语言机器翻译等任务中。在神经机器翻译中，单词通过连续化的向量来表示，词表分布在一个高维的空间中，基于人们对embedding空间的观察发现：连续的单词嵌入空间在各种语言中显示出类似的结构，这使得直接利用embedding来诱导双语词典成为可能。其基本想法是先将来自不同语言的embedding投影到共享嵌入空间中，然后在此共享空间中诱导出双语词典。研究人员们进行了众多的尝试，较早的尝试是使用一个包含数千词对的种子词典作为锚点来学习从源语到目标语词嵌入空间的线性映射，将两个语言的词汇投影到共享的嵌入空间之后，执行一些对齐算法即可得到双语词典\cite{DBLP:journals/corr/MikolovLS13}。最近的研究表明，词典归纳可以在更弱的监督信号下被诱导，这些监督信号来自数百对小词典\cite{DBLP:conf/acl/VulicK16}、相同的字符串\cite{DBLP:conf/iclr/SmithTHH17}，甚至仅仅是共享的数字\cite{DBLP:conf/acl/ArtetxeLA17}。
+\parinterval {\small\bfnew{词典归纳}}\index{词典归纳}（Bilingual Dictionary Induction，BDI\index{Bilingual Dictionary Induction}），也叫{\small\bfnew{词典推断}}，是实现语种间单词级别翻译的任务。在统计机器翻译中，词典归纳是一项核心的任务，它从双语平行语料中发掘互为翻译的单词，是翻译知识的主要来源\cite{黄书剑0统计机器翻译中的词对齐研究}。在端到端神经机器翻译中，词典归纳通常作为一个下游任务被用到无监督机器翻译、多语言机器翻译等任务中。在神经机器翻译中，单词通过连续化的向量来表示，即词嵌入。所有单词分布在一个高维的空间中，基于人们对词嵌入空间的观察发现：连续的单词嵌入空间在各种语言中显示出类似的结构，这使得直接利用词嵌入来构建双语词典成为可能（{\color{red} 参考文献！}）。其基本想法是先将来自不同语言的词嵌入投影到共享嵌入空间中，然后在此共享空间中归纳出双语词典（{\color{red} 最好有一个图！}）。研究人员们进行了众多的尝试，较早的尝试是使用一个包含数千词对的种子词典作为锚点来学习从源语到目标语词嵌入空间的线性映射，将两个语言的词汇投影到共享的嵌入空间之后，执行一些对齐算法即可得到双语词典\cite{DBLP:journals/corr/MikolovLS13}。最近的研究表明，词典归纳可以在更弱的监督信号下完成，这些监督信号来自数百对小词典\cite{DBLP:conf/acl/VulicK16}、 相同的字符串\cite{DBLP:conf/iclr/SmithTHH17}，甚至仅仅是共享的数字\cite{DBLP:conf/acl/ArtetxeLA17}。

-\parinterval 在最近，有人提出了完全无监督的词典归纳方法，这类方法不依赖于任何种子词典即可实现词典归纳，下面进行介绍。
+\parinterval 研究人员也提出了完全无监督的词典归纳方法，这类方法不依赖于任何种子词典即可实现词典归纳，下面进行介绍。

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -459,58 +459,64 @@ Joint training for neural machine translation models with monolingual data

 \subsubsection{1. 方法框架}

-\parinterval 无监督词典归纳的核心思想是充分利用embedding空间近似同构的假设，基于一些无监督匹配的方法来得到一个初始化的种子词典，之后利用该种子词典作为起始监督信号不断进行微调进一步提高性能，总结起来，无监督词典归纳系统通常包括以下两个阶段：
+\parinterval 无监督词典归纳的核心思想是充分利用词嵌入空间近似同构的假设（{\color{red} 参考文献！}），基于一些无监督匹配的方法来得到一个初始化的种子词典，之后利用该种子词典作为起始监督信号不断进行微调进一步提高性能。总结起来，无监督词典归纳系统通常包括以下两个阶段：

 \begin{itemize}
 \vspace{0.5em}
 \item 基于无监督的分布匹配。该步骤利用一些无监督的方法来得到一个包含噪声的初始化词典D。
 \vspace{0.5em}
-\item 基于有监督的微调。利用两个单语embedding和第一步阶段中学习到的种子字典执行一些对齐算法例如Procrustes Analysis\cite{1966ASchnemann}来迭代微调。
+\item 基于有监督的微调。利用两个单语词嵌入和第一步阶段中学习到的种子字典执行一些对齐算法来迭代微调，例如，{\small\bfnew{普氏分析}}\index{普氏分析}（Procrustes Analysis\index{Procrustes Analysis}）\cite{1966ASchnemann}。
 \vspace{0.5em}
 \end{itemize}

-\parinterval 其原理图如下所示:
-
-\begin{figure}[h]
-\centering
-\includegraphics[scale=0.6]{Chapter16/Figures/figure-bilingual-dictionary-Induction}
-\caption{无监督词典归纳原理图}
-\label{fig:16-1}
-\end{figure}
+\parinterval 其原理图XXX所示（{\color{red} 如果这个图是别人论文里的，需要加参考文献！}），包括：

 \begin{itemize}
 \vspace{0.5em}
-\item 对于图A中的分布在不同空间中的两个单语embedding X和Y，基于两者近似同构的假设，利用无监督匹配的方法来得到一个粗糙的线性映射W，结果如图B所示。
+\item 对于图XX(a)中的分布在不同空间中的两个单语词嵌入X和Y，基于两者近似同构的假设，利用无监督匹配的方法来得到一个粗糙的线性映射W，结果如图XX(b)所示。
 \vspace{0.5em}
-\item 利用映射W可以执行一些对齐算法从而诱导出一个种子词典，如图C所示。
+\item 利用映射W可以执行对齐算法从而归纳出一个种子词典，如图XX(c)所示。
 \vspace{0.5em}
-\item 利用种子词典不断迭代微调进一步提高映射性能，最终映射的效果如图D所示，之后即可从中推断出词典作为最后的结果。
+\item 利用种子词典不断迭代微调进一步提高映射性能，最终映射的效果如图XX(d)所示，之后即可从中推断出词典作为最后的结果。
 \vspace{0.5em}
 \end{itemize}

+\begin{figure}[h]
+\centering
+\includegraphics[scale=0.6]{Chapter16/Figures/figure-bilingual-dictionary-Induction}
+\caption{无监督词典归纳原理图（{\color{red} A->a}）}
+\label{fig:16-1}
+\end{figure}
+
 \parinterval 不同的无监督方法最大的区别主要在于第一阶段，获得初始种子词典的手段，第二阶段微调的原理都大同小异。第一阶段的主流方法主要有两大类：

 \begin{itemize}
 \vspace{0.5em}
-\item 基于GAN的方法\cite{DBLP:conf/iclr/LampleCRDJ18,DBLP:conf/acl/ZhangLLS17,DBLP:conf/emnlp/XuYOW18,DBLP:conf/naacl/MohiuddinJ19}。GAN 是被广泛用于解决无监督学习问题的模型，在这个任务中，通过生成器来产生映射W，鉴别器负责区分随机抽样的元素WX 和Y，两者共同优化收敛后即可得到映射W。
+\item 基于GAN的方法\cite{DBLP:conf/iclr/LampleCRDJ18,DBLP:conf/acl/ZhangLLS17,DBLP:conf/emnlp/XuYOW18,DBLP:conf/naacl/MohiuddinJ19}。在这个任务中，通过生成器来产生映射W，鉴别器负责区分随机抽样的元素WX 和Y，两者共同优化收敛后即可得到映射W。
 \vspace{0.5em}
-\item 基于Gromov-Wasserstein 的方法\cite{DBLP:conf/emnlp/Alvarez-MelisJ18,DBLP:conf/lrec/GarneauGBDL20,DBLP:journals/corr/abs-1811-01124,DBLP:conf/emnlp/XuYOW18}。Wasserstein distance是在度量空间中定义两个概率分布之间距离的函数，在这个任务中，它用来衡量不同语言中单词对之间的相似性，利用空间近似同构的信息可以定义出一些目标函数，之后通过优化该目标函数也可以得到映射W。
+\item 基于Gromov-Wasserstein 的方法\cite{DBLP:conf/emnlp/Alvarez-MelisJ18,DBLP:conf/lrec/GarneauGBDL20,DBLP:journals/corr/abs-1811-01124,DBLP:conf/emnlp/XuYOW18}。Wasserstein距离是度量空间中定义两个概率分布之间距离的函数。在这个任务中，它用来衡量不同语言中单词对之间的相似性，利用空间近似同构的信息可以定义出一些目标函数，之后通过优化该目标函数也可以得到映射W。
 \vspace{0.5em}
 \end{itemize}

-\parinterval 在得到映射W之后，对于X中的任意一个单词x，通过 Wx将其映射到空间Y中，然后在Y中找到该点的最近邻点y，于是y就是x的翻译词，重复该过程即可归纳出种子词典D，第一阶段结束。事实上，由于第一阶段缺乏监督信号，因此得到的种子词典D会包含大量的噪音，性能并不高，因此需要进行进一步的微调。微调的原理普遍基于Procrustes\cite{DBLP:journals/corr/MikolovLS13}，该方法的原理如下：
+\parinterval 在得到映射W之后，对于X中的任意一个单词x，通过 Wx将其映射到空间Y中，然后在Y中找到该点的最近邻点y，于是y就是x的翻译词，重复该过程即可归纳出种子词典D，第一阶段结束。事实上，由于第一阶段缺乏监督信号，得到的种子词典D会包含大量的噪音，性能并不高，因此需要进行进一步的微调。
+
+\parinterval 微调的原理普遍基于普氏分析\cite{DBLP:journals/corr/MikolovLS13}。假设现在有一个种子词典$D=\left\{x_{i}, y_{i}\right\}$其中${i \in\{1, n\}}$，和两个单语词嵌入X和Y，那么就可以将D 作为{\small\bfnew{映射锚点}}\index{映射锚点}（Anchor\index{Anchor}）学习一个转移矩阵 W，使得 WX与 Y这两个空间尽可能相近，此外通过对W施加正交约束可以显著提高能\cite{DBLP:conf/naacl/XingWLL15}，于是这个优化问题就转变成了{\small\bfnew{普鲁克问题}}\index{普鲁克问题}（Procrustes Problem\index{Procrustes Problem}）\cite{DBLP:conf/iclr/SmithTHH17}，可以通过{\small\bfnew{奇异值分解}}\index{奇异值分解}（Singular Value Decomposition，SVD\index{Singular Value Decomposition，SVD}）来获得近似解：

-\parinterval 假设现在有一个种子词典$D=\left\{x_{i}, y_{i}\right\}_{i \in\{1, n\}}$，和两个单语embedding X、Y，那么我们就可以将D作为映射锚点（anchor）学习一个转移矩阵 W，使得 WX与 Y这两个空间尽可能相近，此外通过对W施加正交约束可以显著提高能\cite{DBLP:conf/naacl/XingWLL15}，于是这个优化问题就转变成了Procrustes问题\cite{DBLP:conf/iclr/SmithTHH17}，可以通过奇异值分解（Singular Value Decomposition，SVD）来获得近似解：
 \begin{eqnarray}
-W^{\star}=\underset{W \in O_{d}(\mathbb{R})}{\operatorname{argmin}}\|W X-Y\|_{\mathrm{F}}=U V^{T}, \text { with } U \Sigma V^{T}=\operatorname{SVD}\left(Y X^{T}\right)
+W^{\star} & = &\underset{W \in O_{d}(\mathbb{R})}{\operatorname{argmin}}\|W X-Y\|_{\mathrm{F}}=U V^{T} \\
+\textrm{s.t.\ \ \ \ } U \Sigma V^{T} &= &\operatorname{SVD}\left(Y X^{T}\right)
 \label{eq:16-1}
 \end{eqnarray}

-\parinterval 上式子中，SVD中的Y和X行对齐，利用上式可以获得新的W，通过W可以归纳出新的D，如此迭代进行微调最后即可以得到收敛的D。
+\noindent 其中，{\color{red} $\operatorname{SVD}(\cdot)$表示XXX}，Y和X行对齐。利用上式可以获得新的W，通过W可以归纳出新的D，如此迭代进行微调最后即可以得到收敛的D。
+
+\parinterval 目前，无监督词典归纳工作主要集中在两个方向，一个方向是通过用新的建模方法或改进上述两阶段方法来提升无监督词典归纳的性能。{\color{red} 稍微扩展一下说，把下面的参考文献使用上可以}。

-\parinterval 目前整体的无监督词典归纳工作主要集中在两个方向，一个方向是通过用新的建模方法或改进上述两阶段方法来提升无监督词典归纳的性能，另外一个方向是旨在分析或提升无监督词典归纳的鲁棒性，相关工作如下：
+\parinterval 另外一个方向是旨在分析或提升无监督词典归纳的鲁棒性。{\color{red} 稍微扩展一下说，把下面的参考文献使用上可以}。
+
+{\color{red} 下面有些罗列的感觉，不能这么写，还是要有一些提炼和归纳。}
 \begin{itemize}
-\vspace{0.5em} 
+\vspace{0.5em}
 \item 提升词典归纳的性能。比如，基于变分自编码器（Variational Autoencoders，VAEs）的方法\cite{DBLP:conf/emnlp/DouZH18}；基于PCA的方法\cite{DBLP:conf/emnlp/HoshenW18}；基于语言模型和噪声自编码器的方法\cite{DBLP:conf/emnlp/KimGN18}；基于互信息的方法\cite{DBLP:conf/emnlp/MukherjeeYH18}；基于GAN的方法（WORD TRANSLATION WITHOUT PARALLEL DATA）；基于Gromov-Wasserstein匹配的方法\cite{DBLP:conf/emnlp/Alvarez-MelisJ18}；多语言无监督词典归纳\cite{DBLP:conf/emnlp/ChenC18,DBLP:conf/emnlp/TaitelbaumCG19,DBLP:journals/corr/abs-1811-01124,DBLP:conf/naacl/HeymanVVM19}；基于Sinkhorn距离和反向翻译的方法\cite{DBLP:conf/emnlp/XuYOW18}；改进归纳阶段寻找最近邻点的度量函数\cite{DBLP:conf/acl/HuangQC19}；基于对抗自编码器的方法\cite{DBLP:conf/naacl/MohiuddinJ19}；基于语言形态学感知的方法\cite{DBLP:conf/acl/YangLCLS19}；基于无监督机器翻译的方法\cite{DBLP:conf/acl/ArtetxeLA19a}；基于后处理embedding的方法\cite{DBLP:conf/rep4nlp/VulicKG20}。
 \item 分析或提升无监督词典归纳的鲁棒性。分析无监督词典归纳的局限性\cite{DBLP:conf/acl/SogaardVR18,DBLP:conf/acl/OrmazabalALSA19,DBLP:conf/emnlp/VulicGRK19}；提出新的初始化方法和改进迭代阶段\cite{DBLP:conf/lrec/GarneauGBDL20}；改进优化目标函数\cite{DBLP:conf/emnlp/JoulinBMJG18}；通过降维改进初始化阶段\cite{A2020Li}；分析基于GAN方法的稳定性\cite{hartmann2018empirical}；分析和对比各种无监督方法性能\cite{DBLP:conf/nips/HartmannKS19}；分析无监督对齐方法的挑战和难点\cite{DBLP:conf/emnlp/HartmannKS18}；通过实验分析指出目前所用的数据集存在一些问题\cite{DBLP:conf/emnlp/Kementchedjhieva19}。
 \vspace{0.5em}
@@ -522,21 +528,21 @@ W^{\star}=\underset{W \in O_{d}(\mathbb{R})}{\operatorname{argmin}}\|W X-Y\|_{\m

 \subsubsection{2. 鲁棒性问题}

-\parinterval 目前很多无监督词典归纳方法在相似语言对比如英-法，英-德已经取得不错的结果，然而在远距离语言对比如英-中，英-日等性能仍然很差，很多甚至为0\cite{DBLP:conf/emnlp/VulicGRK19,A2020Li}，无监督词典归纳的鲁棒性仍然存在巨大的挑战。这有多个层面的原因：
+\parinterval 目前很多无监督词典归纳方法在相似语言对比如英-法，英-德已经取得不错的结果，然而在远距离语言对比如英-中，英-日等性能仍然很差\cite{DBLP:conf/emnlp/VulicGRK19,A2020Li}。无监督词典归纳的鲁棒性仍然存在巨大的挑战。这有多个层面的原因：

 \begin{itemize}
 \vspace{0.5em}
-\item 首先词典归纳依赖于基于大规模单语语料训练出来的embedding，而embedding会受到单语数据的来源领域及数量、词向量训练算法、超参数配置等多方面因素的影响，这很容易导致假设的失效，从而使得模型运行失败。
+\item 首先词典归纳依赖于基于大规模单语语料训练出来的词嵌入，而词嵌入会受到单语数据的来源领域及数量、词向量训练算法、超参数配置等多方面因素的影响，这很容易导致假设的失效，从而使得模型运行失败。
 \vspace{0.5em}

-\item 词典归纳强烈依赖于embedding空间近似同构的假设，然而许多语言对由于语言本身天然的差异导致该假设往往很弱，无监督系统通常是基于两阶段的方法，起始阶段由于缺乏监督信号的引导很容易就失败，从而导致后面的阶段无法有效运行。\cite{DBLP:conf/acl/SogaardVR18,A2020Li}
+\item 词典归纳强烈依赖于词嵌入空间近似同构的假设，然而许多语言对由于语言本身天然的差异导致该假设往往很弱，无监督系统通常是基于两阶段的方法，起始阶段由于缺乏监督信号的引导很容易就失败，从而导致后面的阶段无法有效运行。\cite{DBLP:conf/acl/SogaardVR18,A2020Li}
 \vspace{0.5em}

-\item 由于embedding本身表示上的局限性，模型无法实现单词多对多的对齐，而且对于一些相似的词或者实体名词模型也很难实现对齐。
+\item 由于词嵌入这种表示方式的局限性，模型无法实现单词多对多的对齐，而且对于一些相似的词或者实体名词模型也很难实现对齐。
 \vspace{0.5em}
 \end{itemize}

-\parinterval 无监督方法的鲁棒性是一个很难解决的问题，对于词典推断这个任务来说，是否有必要无监督值得商榷，因为其作为一个底层任务，不仅可以利用embedding，还可以利用单语、甚至是双语信息，此外，基于弱监督的方法代价也不是很大，只需要数千个词典即可，有了监督信号的引导，鲁棒性问题就能得到一定的缓解。
+\parinterval 无监督方法的鲁棒性是一个很难解决的问题。对于词典推断这个任务来说，是否有必要无监督值得商榷，因为其作为一个底层任务，不仅可以利用词嵌入，还可以利用单语、甚至是双语信息。此外，基于弱监督的方法代价也不是很大，只需要数千个词典即可，有了监督信号的引导，鲁棒性问题就能得到一定的缓解。


 %----------------------------------------------------------------------------------------
@@ -545,36 +551,34 @@ W^{\star}=\underset{W \in O_{d}(\mathbb{R})}{\operatorname{argmin}}\|W X-Y\|_{\m

 \subsection{无监督统计机器翻译}

-\parinterval 上一节提到的无监督词典归纳允许我们在没有任何人类标注的情况下获得双语词典。在这个基础上，我们可以进一步得到句子间的翻译，实现无监督机器翻译\cite{DBLP:journals/talip/MarieF20}。
-
-\parinterval 回顾统计机器翻译，它主要涉及短语表，语言模型，调序模型以及模型调优四个模块。其中短语表和模型调优需要双语数据，而语言模型和调序模型只依赖于单语数据。因此，如果我们可以通过无监督的方法完成短语表和模型调优，那么我们就得到了无监督统计机器翻译系统。
+\parinterval 在无监督词典归纳的基础上，可以进一步得到句子间的翻译，实现无监督机器翻译\cite{DBLP:journals/talip/MarieF20}。统计机器翻译作为机器翻译的主流方法，对其进行无监督学习可以帮助我们构建初始的无监督机器翻译系统。这样，它可以进一步被用于训练更为先进的无监督神经机器翻译系统。统计机器翻译系统主要包含短语表、语言模型、调序模型以及模型调优等模块（见{\chapterseven}）。其中短语表和模型调优需要双语数据，而语言模型和调序模型只依赖于单语数据。因此，如果可以通过无监督的方法完成短语表和模型调优，那么就得到了无监督统计机器翻译系统（{\color{red} 参考文献！}）。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{1. 短语表}
+\subsubsection{1. 无监督短语归纳（{\color{red} 参考文献！}）}

-\parinterval 回顾短语表的概念，其实它类似于一个词典，对一个源语短语给出相应的目标语短语翻译，只不过词典的基本单元是词，而短语表的是短语。此外短语表还提供短语翻译的得分。
+\parinterval 回顾统计机器翻译中的短语表，其实它类似于一个词典，对一个源语言短语给出相应的短语翻译。只不过词典的基本单元是词，而短语表的基本单元是短语（或$n$-gram）。此外短语表还提供短语翻译的得分。既然短语表跟词典如此相似，那么很容易就可以把无监督词典归纳的方法移植到处理短语上，也就是把里面的词替换成短语，就可以无监督地得到短语表。

-\parinterval 既然短语表跟词典如此相似，那么我们很容易就可以把无监督词典归纳的方法套用到短语的情况，也就是把里面的词替换成短语，就可以无监督地得到短语表。
+\parinterval 如XXX节所示，无监督词典归纳的方法依赖于词的分布式表达，也就是词嵌入。因此当把无监督词典归纳拓展到短语上时，首先需要获得短语的分布式表达。比较简单的方法是把词换成短语，然后借助无监督词典归纳相同的算法得到短语的分布式表达。最后直接应用无监督词典归纳方法，得到源语言短语与目标语言短语之间的对应。

-\parinterval 如上节所示，无监督词典归纳的方法依赖于词的分布式表达，也就是词嵌入，因此当我们想要拓展无监督词典归纳到短语的情景的时候，我们首先需要获得短语的分布式表达。一般训练词嵌入的算法都是基于n-gram，而我们可以对它稍作改动，把n-gram里的词替换成短语，然后借助相同的算法得到短语的分布式表达。最后直接应用无监督词典归纳方法，得到源语短语与目标语短语之间的翻译。
+\parinterval 尽管已经得到了短语的翻译，短语表的另外一个重要的组成部分，也就是短语对的得分（概率）无法直接由词典归纳方法直接给出，而这些得分在统计机器翻译模型中非常重要。在无监督词典归纳中，在推断词典的时候会为一对源语言单词和目标语言单词打分（词嵌入之间的相似度），然后根据打分来决定哪一个目标语言单词更有可能是当前源语言单词的翻译。在无监督短语归纳中，这样一个打分已经提供了对短语对质量的度量，因此经过适当的归一化处理后就可以得到短语对的得分：

-\parinterval 尽管我们已经得到了短语和短语之间的翻译，短语表的另外一个重要的组成部分，也就是短语对的得分（概率）无法直接由词典归纳方法直接给出，而这些得分在统计机器翻译模型中非常重要。在无监督词典归纳中我们知道，在推断词典的时候我们会为一对源语词和目标语词打分（词嵌入之间的相似度），然后根据打分来决定哪一个目标语词更有可能是当前源语词的翻译。在短语的情况下，这样一个打分已经告诉我们一个短语对的质量，因此经过适当的归一化处理后我们就可以得到短语对的得分：
 \begin{eqnarray}
 P(t|s)=\frac{\mathrm{cos}(s,t)/\tau}{\sum_{t'}\mathrm{cos}(s,t')\tau}
 \label{eq:16-2}
 \end{eqnarray}
-其中$\mathrm{cos}$是余弦相似度，$s$是经过无监督词典归纳里$W$转换的源语短语嵌入，$t$是目标语短语嵌入，$t'$是所有可能的目标语短语嵌入，$\tau$控制产生的分布$P$的尖锐程度的一个超参数。

-\parinterval 一个问题是在无监督的情景下我们没有任何双语数据，那么我们如何得到最优的$\tau$？由于$\tau$会影响$P$的大小，而我们通常希望概率越大越好，因此我们可以寻找一个$\tau$使得所有$P(t|s)$最大。通常我们取离一个给定的$t$最接近的$s$而不是给定$s$选取最近的$t$来计算$P(t|s)$，因为给定$s$得到的最近$t$总是$P(t|s)$里概率最大的元素，这时候$\tau$总是可以通过逼近0来使得所有$P$的取值都接近1。实际中为了选取最优$\tau$我们会为$P(t|s)$和$P(s|t)$同时优化$\tau$。
+\noindent 其中，$\mathrm{cos}$是余弦相似度，$s$是经过无监督词典归纳里$W$转换的源语言短语嵌入，$t$是目标语言短语嵌入，$t'$是所有可能的目标语短语嵌入，$\tau$控制产生的分布$P$的尖锐程度的一个超参数。
+
+\parinterval 一个问题是在无监督的情景下我们没有任何双语数据，那么如何得到最优的$\tau$？这里，可以寻找一个$\tau$使得所有$P(t|s)$ 最大（{\color{red} 参考文献！}）。通常，取离一个给定的$t$最接近的$s$ 而不是给定$s$ 选取最近的$t$来计算$P(t|s)$，因为给定$s$得到的最近$t$总是$P(t|s)$里概率最大的元素，这时候$\tau$总是可以通过逼近0来使得所有$P$的取值都接近1。实际中为了选取最优$\tau$我们会为$P(t|s)$ 和$P(s|t)$ 同时优化$\tau$。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{2. 模型调优}
+\subsubsection{2. 无监督模型调优}

 \parinterval 有了短语表之后，最后一个问题就是如何在没有双语数据的情况下进行模型调优，从而把短语表、语言模型、调序模型等模块融合起来。我们知道短语表可以提供短语的翻译，而语言模型可以保证从单个短语的翻译拼装得到的句子的流畅度，因此统计机器翻译模型即使在没有模型调优的基础上已经具备了一定的翻译能力。所以一个简单而有效的无监督方法就是使用未经过模型调优的统计机器翻译模型进行回译，也就是把目标语句子翻译成源语句子后把翻译得到的源语句子当成输入而目标语句子当成目标进行训练，从而达到了模型调优的目的。