Commit 154912d2 by 曹润柘

更新 chapter16.tex

parent 6f24b3a5
......@@ -609,7 +609,7 @@ Joint training for neural machine translation models with monolingual data
\subsection{无监督词典归纳}
\parinterval 词典归纳(Bilingual Dictionary Induction,BDI),也叫词典推断,是实现语种间单词级别翻译的任务。在统计机器翻译中,词典归纳是一项核心的任务,它从双语平行语料中发掘互为翻译的单词,是翻译知识的主要来源\upcite{黄书剑0统计机器翻译中的词对齐研究}。在端到端的神经机器翻译中,词典归纳通常作为一个下游任务被用到无监督机器翻译、多语言机器翻译等任务中。在神经机器翻译中,单词通过连续化的向量来表示,词表分布在一个高维的空间中,基于人们对embedding空间的观察发现:连续的单词嵌入空间在各种语言中显示出类似的结构,这使得直接利用embedding来诱导双语词典成为可能。其基本想法是先将来自不同语言的embedding投影到共享嵌入空间中,然后在此共享空间中诱导出双语词典。研究人员们进行了众多的尝试,较早的尝试是使用一个包含数千词对的种子词典作为锚点来学习从源语到目标语词嵌入空间的线性映射,将两个语言的词汇投影到共享的嵌入空间之后,执行一些对齐算法即可得到双语词典\upcite{DBLP:journals/corr/MikolovLS13}。最近的研究表明,词典归纳可以在更弱的监督信号下被诱导,这些监督信号来自数百对小词典\upcite{DBLP:conf/acl/VulicK16}、相同的字符串\upcite{DBLP:conf/iclr/SmithTHH17},甚至仅仅是共享的数字\upcite{DBLP:conf/acl/ArtetxeLA17}
\parinterval 词典归纳(Bilingual Dictionary Induction,BDI),也叫词典推断,是实现语种间单词级别翻译的任务。在统计机器翻译中,词典归纳是一项核心的任务,它从双语平行语料中发掘互为翻译的单词,是翻译知识的主要来源\upcite{黄书剑0统计机器翻译中的词对齐研究}。在端到端的神经机器翻译中,词典归纳通常作为一个下游任务被用到无监督机器翻译、多语言机器翻译等任务中(Do We Really Need Fully Unsupervised Cross-Lingual Embeddings?)。在神经机器翻译中,单词通过连续化的向量来表示,词表分布在一个高维的空间中,基于人们对embedding空间的观察发现:连续的单词嵌入空间在各种语言中显示出类似的结构,这使得直接利用embedding来诱导双语词典成为可能(Exploiting similarities among languages for machine translation)。其基本想法是先将来自不同语言的embedding投影到共享嵌入空间中,然后在此共享空间中诱导出双语词典。研究人员们进行了众多的尝试,较早的尝试是使用一个包含数千词对的种子词典作为锚点来学习从源语到目标语词嵌入空间的线性映射,将两个语言的词汇投影到共享的嵌入空间之后,执行一些对齐算法即可得到双语词典\upcite{DBLP:journals/corr/MikolovLS13}。此后的一些研究表明,词典归纳可以在更弱的监督信号下被诱导,这些监督信号可以是数百对小词典\upcite{DBLP:conf/acl/VulicK16}、相同的字符串\upcite{DBLP:conf/iclr/SmithTHH17},甚至仅仅是共享的数字\upcite{DBLP:conf/acl/ArtetxeLA17}
\parinterval 在最近,有人提出了完全无监督的词典归纳方法,这类方法不依赖于任何种子词典即可实现词典归纳,下面进行介绍。
......@@ -619,11 +619,11 @@ Joint training for neural machine translation models with monolingual data
\subsubsection{1. 方法框架}
\parinterval 无监督词典归纳的核心思想是充分利用embedding空间近似同构的假设,基于一些无监督匹配的方法来得到一个初始化的种子词典,之后利用该种子词典作为起始监督信号不断进行微调进一步提高性能,总结起来,无监督词典归纳系统通常包括以下两个阶段:
\parinterval 实现词典推断的核心步骤是把来自不同语言的embedding投影到共享嵌入空间中,那么缺乏监督信号怎样才能得到两个embedding空间的映射矩阵呢?目前仅有的信息是本任务的基本假设\ \dash\ embedding空间近似同构,所以无监督词典归纳的核心思想是充分利用该假设所提供的信息,首先基于一些无监督匹配的方法来得到一个初始化的种子词典,之后利用该种子词典作为起始的监督信号不断进行微调进一步提高性能,总结起来,无监督词典归纳系统通常包括以下两个阶段:
\begin{itemize}
\vspace{0.5em}
\item 基于无监督的分布匹配。该步骤利用一些无监督的方法来得到一个包含噪声的初始化词典D
\item 基于无监督的分布匹配。该步骤利用一些无监督的方法来得到一个包含噪声的初始化词典$D$
\vspace{0.5em}
\item 基于有监督的微调。利用两个单语embedding和第一步阶段中学习到的种子字典执行一些对齐算法例如Procrustes Analysis\upcite{1966ASchnemann}来迭代微调。
\vspace{0.5em}
......@@ -640,9 +640,9 @@ Joint training for neural machine translation models with monolingual data
\begin{itemize}
\vspace{0.5em}
\item 对于图A中的分布在不同空间中的两个单语embedding X和Y,基于两者近似同构的假设,利用无监督匹配的方法来得到一个粗糙的线性映射W,结果如图B所示。
\item 对于图A中的分布在不同空间中的两个单语embedding $X$$Y$,基于两者近似同构的假设,利用无监督匹配的方法来得到一个粗糙的线性映射$W$,结果如图B所示。
\vspace{0.5em}
\item 利用映射W可以执行一些对齐算法从而诱导出一个种子词典,如图C所示。
\item 在共享的空间中执行一些对齐算法从而诱导出一个种子词典,如图C所示。
\vspace{0.5em}
\item 利用种子词典不断迭代微调进一步提高映射性能,最终映射的效果如图D所示,之后即可从中推断出词典作为最后的结果。
\vspace{0.5em}
......@@ -652,29 +652,24 @@ Joint training for neural machine translation models with monolingual data
\begin{itemize}
\vspace{0.5em}
\item 基于GAN的方法\upcite{DBLP:conf/iclr/LampleCRDJ18,DBLP:conf/acl/ZhangLLS17,DBLP:conf/emnlp/XuYOW18,DBLP:conf/naacl/MohiuddinJ19}。GAN 是被广泛用于解决无监督学习问题的模型,在这个任务中,通过生成器来产生映射W,鉴别器负责区分随机抽样的元素WX 和Y,两者共同优化收敛后即可得到映射W
\item 基于GAN的方法\upcite{DBLP:conf/iclr/LampleCRDJ18,DBLP:conf/acl/ZhangLLS17,DBLP:conf/emnlp/XuYOW18,DBLP:conf/naacl/MohiuddinJ19}。GAN 是被广泛用于解决无监督学习问题的模型,在这个任务中,通过生成器来产生映射$W$,鉴别器负责区分随机抽样的元素$WX$$Y$,两者共同优化收敛后即可得到映射$W$
\vspace{0.5em}
\item 基于Gromov-Wasserstein 的方法\upcite{DBLP:conf/emnlp/Alvarez-MelisJ18,DBLP:conf/lrec/GarneauGBDL20,DBLP:journals/corr/abs-1811-01124,DBLP:conf/emnlp/XuYOW18}。Wasserstein distance是在度量空间中定义两个概率分布之间距离的函数,在这个任务中,它用来衡量不同语言中单词对之间的相似性,利用空间近似同构的信息可以定义出一些目标函数,之后通过优化该目标函数也可以得到映射W
\item 基于Gromov-Wasserstein 的方法\upcite{DBLP:conf/emnlp/Alvarez-MelisJ18,DBLP:conf/lrec/GarneauGBDL20,DBLP:journals/corr/abs-1811-01124,DBLP:conf/emnlp/XuYOW18}。Wasserstein 距离是在度量空间中定义两个概率分布之间距离的函数,在这个任务中,它用来衡量不同语言中单词对之间的相似性,利用空间近似同构的信息可以定义出一些目标函数,之后通过优化该目标函数也可以得到映射$W$
\vspace{0.5em}
\end{itemize}
\parinterval 在得到映射W之后,对于X中的任意一个单词x,通过 Wx将其映射到空间Y中,然后在Y中找到该点的最近邻点y,于是y就是x的翻译词,重复该过程即可归纳出种子词典D,第一阶段结束。事实上,由于第一阶段缺乏监督信号,因此得到的种子词典D会包含大量的噪音,性能并不高,因此需要进行进一步的微调。微调的原理普遍基于Procrustes\upcite{DBLP:journals/corr/MikolovLS13},该方法的原理如下:
\parinterval 在得到映射$W$之后,对于$X$中的任意一个单词$x$,通过$Wx$将其映射到空间$Y$中,然后在$Y$中找到该点的最近邻点$y$,于是$y$就是$x$的翻译词,重复该过程即可归纳出种子词典$D$,第一阶段结束。事实上,由于第一阶段缺乏监督信号,因此得到的种子词典$D$会包含大量的噪音,性能并不高,因此需要进行进一步的微调。微调的原理普遍基于Procrustes\upcite{DBLP:journals/corr/MikolovLS13},该方法的原理如下:
\parinterval 假设现在有一个种子词典$D=\left\{x_{i}, y_{i}\right\}_{i \in\{1, n\}}$,和两个单语embedding X、Y,那么我们就可以将D作为映射锚点(anchor)学习一个转移矩阵 W,使得 WX与 Y这两个空间尽可能相近,此外通过对W施加正交约束可以显著提高能\upcite{DBLP:conf/naacl/XingWLL15},于是这个优化问题就转变成了Procrustes问题\upcite{DBLP:conf/iclr/SmithTHH17},可以通过奇异值分解(Singular Value Decomposition,SVD)来获得近似解:
\parinterval 假设现在有一个种子词典$D=\left\{x_{i}, y_{i}\right\}_{i \in\{1, n\}}$,和两个单语embedding $X$$Y$,那么我们就可以将$D$作为映射锚点(anchor)学习一个转移矩阵$W$,使得$WX^{'}$$Y^{'}$这两个空间尽可能相近($X^{'}$$Y^{'}$是取$D$中的单词按行对齐构成),此外通过对$W$施加正交约束可以显著提高能\upcite{DBLP:conf/naacl/XingWLL15},于是这个优化问题就转变成了Procrustes问题\upcite{DBLP:conf/iclr/SmithTHH17},可以通过奇异值分解(Singular Value Decomposition,SVD)来获得近似解:
\begin{eqnarray}
W^{\star}=\underset{W \in O_{d}(\mathbb{R})}{\operatorname{argmin}}\|W X-Y\|_{\mathrm{F}}=U V^{T}, \text { with } U \Sigma V^{T}=\operatorname{SVD}\left(Y X^{T}\right)
W^{\star}=\underset{W \in O_{d}(\mathbb{R})}{\operatorname{argmin}}\|W X{'}-Y{'}\|_{\mathrm{F}}=U V^{T}, \text { with } U \Sigma V^{T}=\operatorname{SVD}\left(Y{'} X^{'T}\right)
\label{eq:16-1}
\end{eqnarray}
\parinterval 上式子中,SVD中的Y和X行对齐,利用上式可以获得新的W,通过W可以归纳出新的D,如此迭代进行微调最后即可以得到收敛的D。
\parinterval 利用上式可以获得新的$W$,通过$W$可以归纳出新的$D$,如此迭代进行微调最后即可以得到收敛的$D$
\parinterval 整体的无监督词典归纳工作主要集中在两个方向,一个方向是通过新的建模方法或改进上述两阶段来提升无监督词典归纳的性能\upcite{DBLP:conf/emnlp/DouZH18,DBLP:conf/emnlp/HoshenW18,DBLP:conf/emnlp/KimGN18,DBLP:conf/emnlp/MukherjeeYH18,DBLP:conf/emnlp/Alvarez-MelisJ18,DBLP:conf/emnlp/XuYOW18,DBLP:conf/acl/HuangQC19,DBLP:conf/naacl/MohiuddinJ19,DBLP:conf/acl/YangLCLS19,DBLP:conf/acl/ArtetxeLA19a,DBLP:conf/rep4nlp/VulicKG20,DBLP:conf/emnlp/ChenC18,DBLP:conf/emnlp/TaitelbaumCG19,DBLP:journals/corr/abs-1811-01124,DBLP:conf/naacl/HeymanVVM19},一个方向是分析或提升无监督词典归纳的鲁棒性\upcite{DBLP:conf/acl/SogaardVR18,DBLP:conf/acl/OrmazabalALSA19,DBLP:conf/emnlp/VulicGRK19,DBLP:conf/emnlp/JoulinBMJG18,DBLP:conf/lrec/GarneauGBDL20,A2020Li,hartmann2018empirical,DBLP:conf/nips/HartmannKS19,DBLP:conf/emnlp/HartmannKS18,DBLP:conf/emnlp/Kementchedjhieva19}
\parinterval 目前整体的无监督词典归纳工作主要集中在两个方向,一个方向是通过用新的建模方法或改进上述两阶段方法来提升无监督词典归纳的性能,另外一个方向是旨在分析或提升无监督词典归纳的鲁棒性,相关工作如下:
\begin{itemize}
\vspace{0.5em}
\item 提升词典归纳的性能。比如,基于变分自编码器(Variational Autoencoders,VAEs)的方法\upcite{DBLP:conf/emnlp/DouZH18};基于PCA的方法\upcite{DBLP:conf/emnlp/HoshenW18};基于语言模型和噪声自编码器的方法\upcite{DBLP:conf/emnlp/KimGN18};基于互信息的方法\upcite{DBLP:conf/emnlp/MukherjeeYH18};基于GAN的方法(WORD TRANSLATION WITHOUT PARALLEL DATA);基于Gromov-Wasserstein匹配的方法\upcite{DBLP:conf/emnlp/Alvarez-MelisJ18};多语言无监督词典归纳\upcite{DBLP:conf/emnlp/ChenC18,DBLP:conf/emnlp/TaitelbaumCG19,DBLP:journals/corr/abs-1811-01124,DBLP:conf/naacl/HeymanVVM19};基于Sinkhorn距离和反向翻译的方法\upcite{DBLP:conf/emnlp/XuYOW18};改进归纳阶段寻找最近邻点的度量函数\upcite{DBLP:conf/acl/HuangQC19};基于对抗自编码器的方法\upcite{DBLP:conf/naacl/MohiuddinJ19};基于语言形态学感知的方法\upcite{DBLP:conf/acl/YangLCLS19};基于无监督机器翻译的方法\upcite{DBLP:conf/acl/ArtetxeLA19a};基于后处理embedding的方法\upcite{DBLP:conf/rep4nlp/VulicKG20}
\item 分析或提升无监督词典归纳的鲁棒性。分析无监督词典归纳的局限性\upcite{DBLP:conf/acl/SogaardVR18,DBLP:conf/acl/OrmazabalALSA19,DBLP:conf/emnlp/VulicGRK19};提出新的初始化方法和改进迭代阶段\upcite{DBLP:conf/lrec/GarneauGBDL20};改进优化目标函数\upcite{DBLP:conf/emnlp/JoulinBMJG18};通过降维改进初始化阶段\upcite{A2020Li};分析基于GAN方法的稳定性\upcite{hartmann2018empirical};分析和对比各种无监督方法性能\upcite{DBLP:conf/nips/HartmannKS19};分析无监督对齐方法的挑战和难点\upcite{DBLP:conf/emnlp/HartmannKS18};通过实验分析指出目前所用的数据集存在一些问题\upcite{DBLP:conf/emnlp/Kementchedjhieva19}
\vspace{0.5em}
\end{itemize}
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论