更新 chapter16.tex

ff2be15e · 曹润柘 · ff40f325 · ff2be15e
Commit ff2be15e authored Nov 16, 2020 by 曹润柘
--- a/Chapter16/chapter16.tex
+++ b/Chapter16/chapter16.tex
@@ -711,7 +711,7 @@ W^{\star} & = &\underset{W \in O_{d}(\mathbb{R})}{\operatorname{argmin}}\|W X-Y\

 \subsection{无监督统计机器翻译}

-\parinterval 在无监督词典归纳的基础上，可以进一步得到句子间的翻译，实现无监督机器翻译\upcite{DBLP:journals/talip/MarieF20}。统计机器翻译作为机器翻译的主流方法，对其进行无监督学习可以帮助我们构建初始的无监督机器翻译系统。这样，它可以进一步被用于训练更为先进的无监督神经机器翻译系统。统计机器翻译系统主要包含短语表、语言模型、调序模型以及模型调优等模块（见{\chapterseven}）。其中短语表和模型调优需要双语数据，而语言模型和调序模型只依赖于单语数据。因此，如果可以通过无监督的方法完成短语表和模型调优，那么就得到了无监督统计机器翻译系统（{\color{red} 参考文献！}）。
+\parinterval 在无监督词典归纳的基础上，可以进一步得到句子间的翻译，实现无监督机器翻译\upcite{DBLP:journals/talip/MarieF20}。统计机器翻译作为机器翻译的主流方法，对其进行无监督学习可以帮助我们构建初始的无监督机器翻译系统。这样，它可以进一步被用于训练更为先进的无监督神经机器翻译系统。以基于短语的统计机器翻译为例，系统主要包含短语表、语言模型、调序模型以及权重调优等模块（见{\chapterseven}）。其中短语表和模型调优需要双语数据，而语言模型和调序模型只依赖于单语数据。因此，如果可以通过无监督的方法完成短语表和权重调优，那么就得到了无监督统计机器翻译系统（{\color{red} 参考文献！}）。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SUB-SECTION
@@ -719,7 +719,7 @@ W^{\star} & = &\underset{W \in O_{d}(\mathbb{R})}{\operatorname{argmin}}\|W X-Y\

 \subsubsection{1. 无监督短语归纳（{\color{red} 参考文献！}）}

-\parinterval 回顾统计机器翻译中的短语表，其实它类似于一个词典，对一个源语言短语给出相应的短语翻译。只不过词典的基本单元是词，而短语表的基本单元是短语（或$n$-gram）。此外短语表还提供短语翻译的得分。既然短语表跟词典如此相似，那么很容易就可以把无监督词典归纳的方法移植到处理短语上，也就是把里面的词替换成短语，就可以无监督地得到短语表。
+\parinterval 回顾统计机器翻译中的短语表，其实它类似于一个词典，对一个源语言短语给出相应的短语翻译（{\color{red} 引用PBMT的论文，NAACL2003！}）。只不过词典的基本单元是词，而短语表的基本单元是短语（或$n$-gram）。此外短语表还提供短语翻译的得分。既然短语表跟词典如此相似，那么很容易就可以把无监督词典归纳的方法移植到处理短语上，也就是把里面的词替换成短语，就可以无监督地得到短语表。

 \parinterval 如XXX节所示，无监督词典归纳的方法依赖于词的分布式表达，也就是词嵌入。因此当把无监督词典归纳拓展到短语上时，首先需要获得短语的分布式表达。比较简单的方法是把词换成短语，然后借助无监督词典归纳相同的算法得到短语的分布式表达。最后直接应用无监督词典归纳方法，得到源语言短语与目标语言短语之间的对应。

@@ -738,13 +738,13 @@ P(t|s)=\frac{\mathrm{cos}(s,t)/\tau}{\sum_{t'}\mathrm{cos}(s,t')\tau}
 %    NEW SUB-SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{2. 无监督模型调优}
+\subsubsection{2. 无监督权重调优}

-\parinterval 有了短语表之后，最后一个问题就是如何在没有双语数据的情况下进行模型调优，从而把短语表、语言模型、调序模型等模块融合起来。我们知道短语表可以提供短语的翻译，而语言模型可以保证从单个短语的翻译拼装得到的句子的流畅度，因此统计机器翻译模型即使在没有模型调优的基础上已经具备了一定的翻译能力。所以一个简单而有效的无监督方法就是使用未经过模型调优的统计机器翻译模型进行回译，也就是把目标语句子翻译成源语句子后把翻译得到的源语句子当成输入而目标语句子当成目标进行训练，从而达到了模型调优的目的。
+\parinterval 有了短语表之后，剩下的问题是如何在没有双语数据的情况下进行模型调优，从而把短语表、语言模型、调序模型等模块融合起来（{\color{red} 引用MERT的论文！}）。在统计机器翻译系统中，短语表可以提供短语的翻译，而语言模型可以保证从短语的翻译拼装得到的句子的流畅度，因此统计机器翻译模型即使在没有权重调优的基础上已经具备了一定的翻译能力。所以一个简单而有效的无监督方法就是使用未经过模型调优的统计机器翻译模型进行回译，也就是把目标语句子翻译成源语句子后把翻译得到的源语句子当成输入而目标语句子当成标准答案，完成权重调优。

-\parinterval 经过上述的无监督模型调优后，我们获得了一个比未经调优效果更好的翻译模型。这时候一个自然的想法就是我们可以使用这个更好更强的翻译模型去产生质量更高的数据，然后用这些数据来继续对我们的翻译模型进行调优，如此反复迭代一定次数后停止。这个方法也被称为{\small\bfnew{迭代优化}}（Iterative Refinement）。
+\parinterval 经过上述的无监督模型调优后，就获得了一个比未经调优效果更好的翻译模型。这时候一个自然的想法就是可以使用这个更好更强的翻译模型去产生质量更高的数据，然后用这些数据来继续对翻译模型进行调优，如此反复迭代一定次数后停止。这个方法也被称为{\small\bfnew{迭代优化}}\index{迭代优化}（Iterative Refinement\index{Iterative Refinement}）（{\color{red} 参考文献！}）。

-\parinterval 迭代优化也会带来另外一个问题：在每一次迭代中都会产生新的模型，我们应该什么时候停止生成新模型，并且最终挑选哪一个模型？因为在无监督的场景当中我们没有任何双语数据，所以我们无法使用监督学习里的校验集来对每个模型进行检验并筛选。另外，即使我们有很少量的双语数据（比如100条双语句对），直接在上面挑选超参数会导致非常严重的过拟合，使得最后结果越来越差。一个经验上非常高效的挑选标准是我们可以挑选一些句子，然后使用我们的模型把这些句子翻译过去之后再翻译回来（源语$\to$目标语$\to$源语或者目标语$\to$源语$\to$目标语），得到的结果跟原始的结果计算BLEU，得分越高则效果越好。这样一个无监督模型挑选标准经验上被证明是跟使用大的双语校验集的结果高度相关\upcite{DBLP:conf/emnlp/LampleOCDR18}。
+\parinterval 迭代优化也会带来另外一个问题：在每一次迭代中都会产生新的模型，应该什么时候停止生成新模型，挑选哪一个模型？因为在无监督的场景当中，没有任何真实的双语数据可以使用，所以无法使用监督学习里的校验集来对每个模型进行检验并筛选。另外，即使有很少量的双语数据（比如数百条双语句对），直接在上面挑选模型和调整超参数会导致过拟合问题，使得最后结果越来越差。一个经验上非常高效的模型选择方法是：可以（{\color{red} 从？？？里}）挑选一些句子，然后使用当前的模型把这些句子翻译过去之后再翻译回来（源语言$\to$目标语言$\to$源语言，或者目标语言$\to$源语言$\to$目标语言），得到的结果跟原始的结果计算BLEU，得分越高则效果越好。这样一种无监督模型挑选标准经验上被证明是跟使用大的双语校验集的结果高度相关的\upcite{DBLP:conf/emnlp/LampleOCDR18}。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION