Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
ef5f227c
Commit
ef5f227c
authored
Nov 24, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
更新 chapter16.tex
parent
38faae4e
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
8 行增加
和
8 行删除
+8
-8
Chapter16/chapter16.tex
+8
-8
没有找到文件。
Chapter16/chapter16.tex
查看文件 @
ef5f227c
...
@@ -601,12 +601,12 @@ Joint training for neural machine translation models with monolingual data
...
@@ -601,12 +601,12 @@ Joint training for neural machine translation models with monolingual data
\subsection
{
无监督词典归纳
}
\label
{
unsupervised-dictionary-induction
}
\subsection
{
无监督词典归纳
}
\label
{
unsupervised-dictionary-induction
}
\parinterval
{
\small\bfnew
{
词典归纳
}}
\index
{
词典归纳
}
(Bilingual Dictionary Induction,BDI
\index
{
Bilingual Dictionary Induction
}
),也叫
{
\small\bfnew
{
词典推断
}}
,是实现语种间单词级别翻译的任务。在统计机器翻译中,词典归纳是一项核心的任务,它从双语平行语料中发掘互为翻译的单词,是翻译知识的主要来源
\upcite
{
黄书剑0统计机器翻译中的词对齐研究
}
。在端到端神经机器翻译中,词典归纳通常作为一个下游任务被用到无监督机器翻译、多语言机器翻译等任务中。在神经机器翻译中,单词通过连续化的向量来表示,即词嵌入。所有单词分布在一个高维的空间中,基于人们对词嵌入空间的观察发现:连续的单词嵌入空间在各种语言中显示出类似的结构,这使得直接利用词嵌入来构建双语词典成为可能
\upcite
{
DBLP:journals/corr/MikolovLS13
}
。
如图
\ref
{
fig:16-1-lyf
}
所示,其基本想法是先将来自不同语言的词嵌入投影到共享嵌入空间中,然后在此共享空间中归纳出双语词典
。研究人员们进行了众多的尝试,较早的尝试是使用一个包含数千词对的种子词典作为锚点来学习从源语到目标语词嵌入空间的线性映射,将两个语言的词汇投影到共享的嵌入空间之后,执行一些对齐算法即可得到双语词典
\upcite
{
DBLP:journals/corr/MikolovLS13
}
。最近的研究表明,词典归纳可以在更弱的监督信号下完成,这些监督信号来自数百对小词典
\upcite
{
DBLP:conf/acl/VulicK16
}
、 相同的字符串
\upcite
{
DBLP:conf/iclr/SmithTHH17
}
,甚至仅仅是共享的数字
\upcite
{
DBLP:conf/acl/ArtetxeLA17
}
。
\parinterval
{
\small\bfnew
{
词典归纳
}}
\index
{
词典归纳
}
(Bilingual Dictionary Induction,BDI
\index
{
Bilingual Dictionary Induction
}
),也叫
{
\small\bfnew
{
词典推断
}}
,是实现语种间单词级别翻译的任务。在统计机器翻译中,词典归纳是一项核心的任务,它从双语平行语料中发掘互为翻译的单词,是翻译知识的主要来源
\upcite
{
黄书剑0统计机器翻译中的词对齐研究
}
。在端到端神经机器翻译中,词典归纳通常作为一个下游任务被用到无监督机器翻译、多语言机器翻译等任务中。在神经机器翻译中,单词通过连续化的向量来表示,即词嵌入。所有单词分布在一个高维的空间中,基于人们对词嵌入空间的观察发现:连续的单词嵌入空间在各种语言中显示出类似的结构,这使得直接利用词嵌入来构建双语词典成为可能
\upcite
{
DBLP:journals/corr/MikolovLS13
}
。
其基本想法是先将来自不同语言的词嵌入投影到共享嵌入空间中,然后在此共享空间中归纳出双语词典,原理图如图
\ref
{
fig:16-1-lyf
}
所示
。研究人员们进行了众多的尝试,较早的尝试是使用一个包含数千词对的种子词典作为锚点来学习从源语到目标语词嵌入空间的线性映射,将两个语言的词汇投影到共享的嵌入空间之后,执行一些对齐算法即可得到双语词典
\upcite
{
DBLP:journals/corr/MikolovLS13
}
。最近的研究表明,词典归纳可以在更弱的监督信号下完成,这些监督信号来自数百对小词典
\upcite
{
DBLP:conf/acl/VulicK16
}
、 相同的字符串
\upcite
{
DBLP:conf/iclr/SmithTHH17
}
,甚至仅仅是共享的数字
\upcite
{
DBLP:conf/acl/ArtetxeLA17
}
。
\begin{figure}
[h]
\begin{figure}
[h]
\centering
\centering
\includegraphics
[scale=0.8]
{
Chapter16/Figures/figure-shared-space-inductive-bilingual-dictionary.png
}
\includegraphics
[scale=0.8]
{
Chapter16/Figures/figure-shared-space-inductive-bilingual-dictionary.png
}
\caption
{
无监督
词典归纳原理图(
{
\color
{
red
}
A->a
}
)
}
\caption
{
词典归纳原理图(
{
\color
{
red
}
A->a
}
)
}
\label
{
fig:16-1-lyf
}
\label
{
fig:16-1-lyf
}
\end{figure}
\end{figure}
...
@@ -628,22 +628,22 @@ Joint training for neural machine translation models with monolingual data
...
@@ -628,22 +628,22 @@ Joint training for neural machine translation models with monolingual data
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\end{itemize}
\end{itemize}
\parinterval
其
原理图
\ref
{
fig:16-2-lyf
}
所示,包括:
\parinterval
其
具体流程图如
\ref
{
fig:16-2-lyf
}
所示,包括:
\begin{itemize}
\begin{itemize}
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
对于图
\ref
{
fig:16-2-lyf
}
(a)中的分布在不同空间中的两个单语词嵌入
$
\mathbi
{
X
}$
和
$
\mathbi
{
Y
}$
,基于两者近似同构的假设,利用无监督匹配的方法来得到一个粗糙的线性映射
$
\mathbi
{
W
}$
,结果如图
\ref
{
fig:16-2-lyf
}
(b)所示。
\item
对于图
\ref
{
fig:16-2-lyf
}
(a)中的分布在不同空间中的两个单语词嵌入
$
\mathbi
{
X
}$
和
$
\mathbi
{
Y
}$
,基于两者近似同构的假设,利用无监督匹配的方法来得到一个粗糙的线性映射
$
\mathbi
{
W
}$
,
使得两个空间能大致对齐,
结果如图
\ref
{
fig:16-2-lyf
}
(b)所示。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
利用映射
$
\mathbi
{
W
}$
可以
执行对齐算法从而归纳出一个种子词典,如图
\ref
{
fig:16-2-lyf
}
(c)所示。
\item
在此共享空间中
执行对齐算法从而归纳出一个种子词典,如图
\ref
{
fig:16-2-lyf
}
(c)所示。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
利用种子词典不断迭代微调进一步提高映射性能,最终映射的效果如图
\ref
{
fig:16-2-lyf
}
(d)所示,之后即可从中推断出词典作为最后的结果。
\item
利用种子词典不断迭代微调进一步提高映射
$
\mathbi
{
W
}$
的
性能,最终映射的效果如图
\ref
{
fig:16-2-lyf
}
(d)所示,之后即可从中推断出词典作为最后的结果。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\end{itemize}
\end{itemize}
\begin{figure}
[h]
\begin{figure}
[h]
\centering
\centering
\includegraphics
[scale=0.6]
{
Chapter16/Figures/figure-bilingual-dictionary-Induction
}
\includegraphics
[scale=0.6]
{
Chapter16/Figures/figure-bilingual-dictionary-Induction
}
\caption
{
无监督词典归纳
原理
图(
{
\color
{
red
}
A->a
}
)
\upcite
{
DBLP:conf/iclr/LampleCRDJ18
}}
\caption
{
无监督词典归纳
流程
图(
{
\color
{
red
}
A->a
}
)
\upcite
{
DBLP:conf/iclr/LampleCRDJ18
}}
\label
{
fig:16-2-lyf
}
\label
{
fig:16-2-lyf
}
\end{figure}
\end{figure}
...
@@ -669,7 +669,7 @@ Joint training for neural machine translation models with monolingual data
...
@@ -669,7 +669,7 @@ Joint training for neural machine translation models with monolingual data
\noindent
其中,
$
\operatorname
{
SVD
}
(
\cdot
)
$
表示奇异值分解,
$
\mathbi
{
Y
}
'
$
和
$
\mathbi
{
X
}
'
$
中的单词来自
$
D
$
且行对齐。利用上式可以获得新的
$
\mathbi
{
W
}$
,通过
$
\mathbi
{
W
}$
可以归纳出新的
$
D
$
,如此迭代进行微调最后即可以得到收敛的
$
D
$
。
\noindent
其中,
$
\operatorname
{
SVD
}
(
\cdot
)
$
表示奇异值分解,
$
\mathbi
{
Y
}
'
$
和
$
\mathbi
{
X
}
'
$
中的单词来自
$
D
$
且行对齐。利用上式可以获得新的
$
\mathbi
{
W
}$
,通过
$
\mathbi
{
W
}$
可以归纳出新的
$
D
$
,如此迭代进行微调最后即可以得到收敛的
$
D
$
。
\parinterval
较早的无监督方法是基于GAN
\upcite
{
DBLP:conf/acl/ZhangLLS17,DBLP:conf/emnlp/ZhangLLS17,DBLP:conf/iclr/LampleCRDJ18
}
,这是一个很自然的想法,利用生成器产生映射然后用判别器来区别两个空间,尽管它取得了不错的效果,然而研究表明GAN缺乏稳定性,容易在低资源语言对上失败
\upcite
{
hartmann2018empirical
}
,因此有不少改进的工作,比如:利用
{
\small\bfnew
{
变分自编码器
}}
(Variational Autoencoders,VAEs)来捕获更深层次的语义信息并结合对抗训练的方法
\upcite
{
DBLP:conf/emnlp/DouZH18,DBLP:conf/naacl/MohiuddinJ19
}
;通过改进最近邻点的度量函数来提升性能的方法
\upcite
{
DBLP:conf/acl/HuangQC19,DBLP:conf/emnlp/JoulinBMJG18
}
;利用多语言信号来提升性能的方法
\upcite
{
DBLP:conf/emnlp/ChenC18,DBLP:conf/emnlp/TaitelbaumCG19,DBLP:journals/corr/abs-1811-01124,DBLP:conf/naacl/HeymanVVM19
}
;也有一些工作舍弃GAN,通过直接优化度量空间距离来进行匹配的方法
\upcite
{
DBLP:conf/emnlp/HoshenW18,DBLP:conf/emnlp/XuYOW18,DBLP:conf/emnlp/Alvarez-MelisJ18,DBLP:conf/emnlp/MukherjeeYH18
}
。此外,也有一些工作是旨在分析或提升无监督词典归纳的鲁棒性。比如通过大量实验来分析无监督词典归纳任务的局限性、难点以及挑战
\upcite
{
DBLP:conf/acl/SogaardVR18,DBLP:conf/acl/OrmazabalALSA19,DBLP:conf/emnlp/VulicGRK19,DBLP:conf/emnlp/HartmannKS18
}
;分析和对比目前各种无监督方法的性能
\upcite
{
DBLP:conf/nips/HartmannKS19
}
;通过实验分析指出目前所用的数据集存在的问题
\upcite
{
DBLP:conf/emnlp/Kementchedjhieva19
}
。
\parinterval
较早的无监督方法是基于GAN
\upcite
{
DBLP:conf/acl/ZhangLLS17,DBLP:conf/emnlp/ZhangLLS17,DBLP:conf/iclr/LampleCRDJ18
}
,这是一个很自然的想法,利用生成器产生映射然后用判别器来区别两个空间,尽管它取得了不错的效果,然而研究表明GAN缺乏稳定性,容易在低资源语言对上失败
\upcite
{
hartmann2018empirical
}
,因此有不少改进的工作,比如:利用
{
\small\bfnew
{
变分自编码器
}}
(Variational Autoencoders,VAEs)来捕获更深层次的语义信息并结合对抗训练的方法
\upcite
{
DBLP:conf/emnlp/DouZH18,DBLP:conf/naacl/MohiuddinJ19
}
;通过改进最近邻点的度量函数来提升性能的方法
\upcite
{
DBLP:conf/acl/HuangQC19,DBLP:conf/emnlp/JoulinBMJG18
}
;利用多语言信号来提升性能的方法
\upcite
{
DBLP:conf/emnlp/ChenC18,DBLP:conf/emnlp/TaitelbaumCG19,DBLP:journals/corr/abs-1811-01124,DBLP:conf/naacl/HeymanVVM19
}
;也有一些工作舍弃GAN,通过直接优化度量空间距离来进行匹配的方法
\upcite
{
DBLP:conf/emnlp/HoshenW18,DBLP:conf/emnlp/XuYOW18,DBLP:conf/emnlp/Alvarez-MelisJ18,DBLP:conf/emnlp/MukherjeeYH18
}
。此外,也有
另外
一些工作是旨在分析或提升无监督词典归纳的鲁棒性。比如通过大量实验来分析无监督词典归纳任务的局限性、难点以及挑战
\upcite
{
DBLP:conf/acl/SogaardVR18,DBLP:conf/acl/OrmazabalALSA19,DBLP:conf/emnlp/VulicGRK19,DBLP:conf/emnlp/HartmannKS18
}
;分析和对比目前各种无监督方法的性能
\upcite
{
DBLP:conf/nips/HartmannKS19
}
;通过实验分析指出目前所用的数据集存在的问题
\upcite
{
DBLP:conf/emnlp/Kementchedjhieva19
}
。
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论