更新 chapter16.tex

ef5f227c · 曹润柘 · 38faae4e · ef5f227c
Commit ef5f227c authored Nov 24, 2020 by 曹润柘
--- a/Chapter16/chapter16.tex
+++ b/Chapter16/chapter16.tex
@@ -601,12 +601,12 @@ Joint training for neural machine translation models with monolingual data

 \subsection{无监督词典归纳}\label{unsupervised-dictionary-induction}

-\parinterval {\small\bfnew{词典归纳}}\index{词典归纳}（Bilingual Dictionary Induction，BDI\index{Bilingual Dictionary Induction}），也叫{\small\bfnew{词典推断}}，是实现语种间单词级别翻译的任务。在统计机器翻译中，词典归纳是一项核心的任务，它从双语平行语料中发掘互为翻译的单词，是翻译知识的主要来源\upcite{黄书剑0统计机器翻译中的词对齐研究}。在端到端神经机器翻译中，词典归纳通常作为一个下游任务被用到无监督机器翻译、多语言机器翻译等任务中。在神经机器翻译中，单词通过连续化的向量来表示，即词嵌入。所有单词分布在一个高维的空间中，基于人们对词嵌入空间的观察发现：连续的单词嵌入空间在各种语言中显示出类似的结构，这使得直接利用词嵌入来构建双语词典成为可能\upcite{DBLP:journals/corr/MikolovLS13}。如图\ref{fig:16-1-lyf}所示，其基本想法是先将来自不同语言的词嵌入投影到共享嵌入空间中，然后在此共享空间中归纳出双语词典。研究人员们进行了众多的尝试，较早的尝试是使用一个包含数千词对的种子词典作为锚点来学习从源语到目标语词嵌入空间的线性映射，将两个语言的词汇投影到共享的嵌入空间之后，执行一些对齐算法即可得到双语词典\upcite{DBLP:journals/corr/MikolovLS13}。最近的研究表明，词典归纳可以在更弱的监督信号下完成，这些监督信号来自数百对小词典\upcite{DBLP:conf/acl/VulicK16}、 相同的字符串\upcite{DBLP:conf/iclr/SmithTHH17}，甚至仅仅是共享的数字\upcite{DBLP:conf/acl/ArtetxeLA17}。
+\parinterval {\small\bfnew{词典归纳}}\index{词典归纳}（Bilingual Dictionary Induction，BDI\index{Bilingual Dictionary Induction}），也叫{\small\bfnew{词典推断}}，是实现语种间单词级别翻译的任务。在统计机器翻译中，词典归纳是一项核心的任务，它从双语平行语料中发掘互为翻译的单词，是翻译知识的主要来源\upcite{黄书剑0统计机器翻译中的词对齐研究}。在端到端神经机器翻译中，词典归纳通常作为一个下游任务被用到无监督机器翻译、多语言机器翻译等任务中。在神经机器翻译中，单词通过连续化的向量来表示，即词嵌入。所有单词分布在一个高维的空间中，基于人们对词嵌入空间的观察发现：连续的单词嵌入空间在各种语言中显示出类似的结构，这使得直接利用词嵌入来构建双语词典成为可能\upcite{DBLP:journals/corr/MikolovLS13}。其基本想法是先将来自不同语言的词嵌入投影到共享嵌入空间中，然后在此共享空间中归纳出双语词典，原理图如图\ref{fig:16-1-lyf}所示。研究人员们进行了众多的尝试，较早的尝试是使用一个包含数千词对的种子词典作为锚点来学习从源语到目标语词嵌入空间的线性映射，将两个语言的词汇投影到共享的嵌入空间之后，执行一些对齐算法即可得到双语词典\upcite{DBLP:journals/corr/MikolovLS13}。最近的研究表明，词典归纳可以在更弱的监督信号下完成，这些监督信号来自数百对小词典\upcite{DBLP:conf/acl/VulicK16}、 相同的字符串\upcite{DBLP:conf/iclr/SmithTHH17}，甚至仅仅是共享的数字\upcite{DBLP:conf/acl/ArtetxeLA17}。

 \begin{figure}[h]
 \centering
 \includegraphics[scale=0.8]{Chapter16/Figures/figure-shared-space-inductive-bilingual-dictionary.png}
-\caption{无监督词典归纳原理图（{\color{red} A->a}）}
+\caption{词典归纳原理图（{\color{red} A->a}）}
 \label{fig:16-1-lyf}
 \end{figure}

@@ -628,22 +628,22 @@ Joint training for neural machine translation models with monolingual data
 \vspace{0.5em}
 \end{itemize}

-\parinterval 其原理图\ref{fig:16-2-lyf}所示，包括：
+\parinterval 其具体流程图如\ref{fig:16-2-lyf}所示，包括：

 \begin{itemize}
 \vspace{0.5em}
-\item 对于图\ref{fig:16-2-lyf}(a)中的分布在不同空间中的两个单语词嵌入$\mathbi{X}$和$\mathbi{Y}$，基于两者近似同构的假设，利用无监督匹配的方法来得到一个粗糙的线性映射$\mathbi{W}$，结果如图\ref{fig:16-2-lyf}(b)所示。
+\item 对于图\ref{fig:16-2-lyf}(a)中的分布在不同空间中的两个单语词嵌入$\mathbi{X}$和$\mathbi{Y}$，基于两者近似同构的假设，利用无监督匹配的方法来得到一个粗糙的线性映射$\mathbi{W}$，使得两个空间能大致对齐，结果如图\ref{fig:16-2-lyf}(b)所示。
 \vspace{0.5em}
-\item 利用映射$\mathbi{W}$可以执行对齐算法从而归纳出一个种子词典，如图\ref{fig:16-2-lyf}(c)所示。
+\item 在此共享空间中执行对齐算法从而归纳出一个种子词典，如图\ref{fig:16-2-lyf}(c)所示。
 \vspace{0.5em}
-\item 利用种子词典不断迭代微调进一步提高映射性能，最终映射的效果如图\ref{fig:16-2-lyf}(d)所示，之后即可从中推断出词典作为最后的结果。
+\item 利用种子词典不断迭代微调进一步提高映射$\mathbi{W}$的性能，最终映射的效果如图\ref{fig:16-2-lyf}(d)所示，之后即可从中推断出词典作为最后的结果。
 \vspace{0.5em}
 \end{itemize}

 \begin{figure}[h]
 \centering
 \includegraphics[scale=0.6]{Chapter16/Figures/figure-bilingual-dictionary-Induction}
-\caption{无监督词典归纳原理图（{\color{red} A->a}）\upcite{DBLP:conf/iclr/LampleCRDJ18}}
+\caption{无监督词典归纳流程图（{\color{red} A->a}）\upcite{DBLP:conf/iclr/LampleCRDJ18}}
 \label{fig:16-2-lyf}
 \end{figure}

@@ -669,7 +669,7 @@ Joint training for neural machine translation models with monolingual data

 \noindent 其中， $\operatorname{SVD}(\cdot)$表示奇异值分解，$\mathbi{Y}'$和$\mathbi{X}'$中的单词来自$D$且行对齐。利用上式可以获得新的$\mathbi{W}$，通过$\mathbi{W}$可以归纳出新的$D$，如此迭代进行微调最后即可以得到收敛的$D$。

-\parinterval 较早的无监督方法是基于GAN\upcite{DBLP:conf/acl/ZhangLLS17,DBLP:conf/emnlp/ZhangLLS17,DBLP:conf/iclr/LampleCRDJ18}，这是一个很自然的想法，利用生成器产生映射然后用判别器来区别两个空间，尽管它取得了不错的效果，然而研究表明GAN缺乏稳定性，容易在低资源语言对上失败\upcite{hartmann2018empirical}，因此有不少改进的工作，比如：利用{\small\bfnew{变分自编码器}}（Variational Autoencoders，VAEs）来捕获更深层次的语义信息并结合对抗训练的方法\upcite{DBLP:conf/emnlp/DouZH18,DBLP:conf/naacl/MohiuddinJ19}；通过改进最近邻点的度量函数来提升性能的方法\upcite{DBLP:conf/acl/HuangQC19,DBLP:conf/emnlp/JoulinBMJG18}；利用多语言信号来提升性能的方法\upcite{DBLP:conf/emnlp/ChenC18,DBLP:conf/emnlp/TaitelbaumCG19,DBLP:journals/corr/abs-1811-01124,DBLP:conf/naacl/HeymanVVM19}；也有一些工作舍弃GAN，通过直接优化度量空间距离来进行匹配的方法\upcite{DBLP:conf/emnlp/HoshenW18,DBLP:conf/emnlp/XuYOW18,DBLP:conf/emnlp/Alvarez-MelisJ18,DBLP:conf/emnlp/MukherjeeYH18}。此外，也有一些工作是旨在分析或提升无监督词典归纳的鲁棒性。比如通过大量实验来分析无监督词典归纳任务的局限性、难点以及挑战\upcite{DBLP:conf/acl/SogaardVR18,DBLP:conf/acl/OrmazabalALSA19,DBLP:conf/emnlp/VulicGRK19,DBLP:conf/emnlp/HartmannKS18}；分析和对比目前各种无监督方法的性能\upcite{DBLP:conf/nips/HartmannKS19}；通过实验分析指出目前所用的数据集存在的问题\upcite{DBLP:conf/emnlp/Kementchedjhieva19}。
+\parinterval 较早的无监督方法是基于GAN\upcite{DBLP:conf/acl/ZhangLLS17,DBLP:conf/emnlp/ZhangLLS17,DBLP:conf/iclr/LampleCRDJ18}，这是一个很自然的想法，利用生成器产生映射然后用判别器来区别两个空间，尽管它取得了不错的效果，然而研究表明GAN缺乏稳定性，容易在低资源语言对上失败\upcite{hartmann2018empirical}，因此有不少改进的工作，比如：利用{\small\bfnew{变分自编码器}}（Variational Autoencoders，VAEs）来捕获更深层次的语义信息并结合对抗训练的方法\upcite{DBLP:conf/emnlp/DouZH18,DBLP:conf/naacl/MohiuddinJ19}；通过改进最近邻点的度量函数来提升性能的方法\upcite{DBLP:conf/acl/HuangQC19,DBLP:conf/emnlp/JoulinBMJG18}；利用多语言信号来提升性能的方法\upcite{DBLP:conf/emnlp/ChenC18,DBLP:conf/emnlp/TaitelbaumCG19,DBLP:journals/corr/abs-1811-01124,DBLP:conf/naacl/HeymanVVM19}；也有一些工作舍弃GAN，通过直接优化度量空间距离来进行匹配的方法\upcite{DBLP:conf/emnlp/HoshenW18,DBLP:conf/emnlp/XuYOW18,DBLP:conf/emnlp/Alvarez-MelisJ18,DBLP:conf/emnlp/MukherjeeYH18}。此外，也有另外一些工作是旨在分析或提升无监督词典归纳的鲁棒性。比如通过大量实验来分析无监督词典归纳任务的局限性、难点以及挑战\upcite{DBLP:conf/acl/SogaardVR18,DBLP:conf/acl/OrmazabalALSA19,DBLP:conf/emnlp/VulicGRK19,DBLP:conf/emnlp/HartmannKS18}；分析和对比目前各种无监督方法的性能\upcite{DBLP:conf/nips/HartmannKS19}；通过实验分析指出目前所用的数据集存在的问题\upcite{DBLP:conf/emnlp/Kementchedjhieva19}。


 %----------------------------------------------------------------------------------------