Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
f2d428b4
Commit
f2d428b4
authored
Mar 23, 2021
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
更新 chapter16.tex
parent
12fbb3aa
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
1 行增加
和
1 行删除
+1
-1
Chapter16/chapter16.tex
+1
-1
没有找到文件。
Chapter16/chapter16.tex
查看文件 @
f2d428b4
...
...
@@ -492,7 +492,7 @@
\subsection
{
无监督词典归纳
}
\label
{
unsupervised-dictionary-induction
}
\parinterval
{
\small\bfnew
{
词典归纳
}}
\index
{
词典归纳或双语词典归纳
}
(Bilingual Dictionary Induction,BDI
\index
{
Bilingual Dictionary Induction
}
)可用于处理不同语言间单词级别的翻译任务。在统计机器翻译中,词典归纳是一项核心的任务,它从双语平行语料中发掘互为翻译的单词,是翻译知识的主要来源
\upcite
{
黄书剑0统计机器翻译中的词对齐研究
}
。在神经机器翻译中,词典归纳通常被用在无监督机器翻译、多语言机器翻译等任务中。这里,单词通过实数向量进行表示,即词嵌入。所有单词分布在一个多维空间中,而且研究人员发现:词嵌入空间在一些语言中显示出类似的结构,这使得直接利用词嵌入来构建双语词典成为可能
\upcite
{
DBLP:journals/corr/MikolovLS13
}
。其基本想法是先将来自不同语言的词嵌入投影到共享嵌入空间中,然后在这个共享空间中归纳出双语词典,原理如图
\ref
{
fig:16-16
}
所示。较早的尝试是使用一个包含数千词对的种子词典作为锚点来学习从源语言到目标语词言嵌入空间的线性映射,将两个语言的单词投影到共享的嵌入空间之后,执行一些对齐算法即可得到双语词典
\upcite
{
DBLP:journals/corr/MikolovLS13
}
。最近的研究表明,词典归纳可以在更弱的监督信号下完成,这些监督信号来自更小的种子词典
\upcite
{
DBLP:conf/acl/VulicK16
}
、 相同的字符串
\upcite
{
DBLP:conf/iclr/SmithTHH17
}
,甚至仅仅是共享的数字
\upcite
{
DBLP:conf/acl/ArtetxeLA17
}
。
\parinterval
{
\small\bfnew
{
双语
词典归纳
}}
\index
{
词典归纳或双语词典归纳
}
(Bilingual Dictionary Induction,BDI
\index
{
Bilingual Dictionary Induction
}
)可用于处理不同语言间单词级别的翻译任务。在统计机器翻译中,词典归纳是一项核心的任务,它从双语平行语料中发掘互为翻译的单词,是翻译知识的主要来源
\upcite
{
黄书剑0统计机器翻译中的词对齐研究
}
。在神经机器翻译中,词典归纳通常被用在无监督机器翻译、多语言机器翻译等任务中。这里,单词通过实数向量进行表示,即词嵌入。所有单词分布在一个多维空间中,而且研究人员发现:词嵌入空间在一些语言中显示出类似的结构,这使得直接利用词嵌入来构建双语词典成为可能
\upcite
{
DBLP:journals/corr/MikolovLS13
}
。其基本想法是先将来自不同语言的词嵌入投影到共享嵌入空间中,然后在这个共享空间中归纳出双语词典,原理如图
\ref
{
fig:16-16
}
所示。较早的尝试是使用一个包含数千词对的种子词典作为锚点来学习从源语言到目标语词言嵌入空间的线性映射,将两个语言的单词投影到共享的嵌入空间之后,执行一些对齐算法即可得到双语词典
\upcite
{
DBLP:journals/corr/MikolovLS13
}
。最近的研究表明,词典归纳可以在更弱的监督信号下完成,这些监督信号来自更小的种子词典
\upcite
{
DBLP:conf/acl/VulicK16
}
、 相同的字符串
\upcite
{
DBLP:conf/iclr/SmithTHH17
}
,甚至仅仅是共享的数字
\upcite
{
DBLP:conf/acl/ArtetxeLA17
}
。
%----------------------------------------------
\begin{figure}
[h]
\centering
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论