Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
211b400f
Commit
211b400f
authored
Nov 25, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
更新 chapter16.tex
parent
93129287
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
1 行增加
和
1 行删除
+1
-1
Chapter16/chapter16.tex
+1
-1
没有找到文件。
Chapter16/chapter16.tex
查看文件 @
211b400f
...
@@ -154,7 +154,7 @@
...
@@ -154,7 +154,7 @@
\parinterval
可比语料大多存在于网页中,内容较为复杂,可能会存在较大比例的噪声干扰,如HTML字符、乱码等。首先需要对内容进行充分的数据清洗操作,得到干净的可比语料,然后从中抽取出可用的双语句对。传统的抽取方法一般通过统计模型或双语词典来得到,比如,通过计算两个不同语言句子之间的单词重叠数或BLEU值
\upcite
{
finding2006adafre,method2008keiji
}
;通过排序模型或二分类器判断一个目标语言句子和一个源语言句子互译的可能性
\upcite
{
DBLP:journals/coling/MunteanuM05,DBLP:conf/naacl/SmithQT10
}
。
\parinterval
可比语料大多存在于网页中,内容较为复杂,可能会存在较大比例的噪声干扰,如HTML字符、乱码等。首先需要对内容进行充分的数据清洗操作,得到干净的可比语料,然后从中抽取出可用的双语句对。传统的抽取方法一般通过统计模型或双语词典来得到,比如,通过计算两个不同语言句子之间的单词重叠数或BLEU值
\upcite
{
finding2006adafre,method2008keiji
}
;通过排序模型或二分类器判断一个目标语言句子和一个源语言句子互译的可能性
\upcite
{
DBLP:journals/coling/MunteanuM05,DBLP:conf/naacl/SmithQT10
}
。
\parinterval
另外一种比较有效的方法是根据两种语言中每个句子的表示向量来抽取
\upcite
{
DBLP:conf/emnlp/WuZHGQLL19
}
。首先,对于两种语言的每个句子,分别使用词嵌入加权平均等方法计算得到句子的表示向量,然后计算每个源语言句子和目标语言句子之间的余弦相似度,相似度大于一定阈值的句对则认为是可用的双语句对
\upcite
{
DBLP:conf/emnlp/WuZHGQLL19
}
。然而,不同语言单独训练得到的词嵌入可能多对应不同的表示空间,因此得到的表示向量无法用于衡量两个句子的相似度
\upcite
{
DBLP:journals/corr/MikolovLS13
}
。为了解决这个问题,一般使用在同一表示空间的跨语言词嵌入来表示两种语言的单词
\upcite
{
DBLP:journals/jair/RuderVS19
}
。在跨语言词嵌入中,不同语言相同意思的词对应的词嵌入具有较高的相似性,因此得到的句向量也就可以用于衡量两个句子是否表示相似的语义
\upcite
{
DBLP:conf/icml/LeM14
}
。关于跨语言词嵌入的具体内容,可以参考
\ref
{
unsupervised-dictionary-induction
}
。
\parinterval
另外一种比较有效的方法是根据两种语言中每个句子的表示向量来抽取
\upcite
{
DBLP:conf/emnlp/WuZHGQLL19
}
。首先,对于两种语言的每个句子,分别使用词嵌入加权平均等方法计算得到句子的表示向量,然后计算每个源语言句子和目标语言句子之间的余弦相似度,相似度大于一定阈值的句对则认为是可用的双语句对
\upcite
{
DBLP:conf/emnlp/WuZHGQLL19
}
。然而,不同语言单独训练得到的词嵌入可能多对应不同的表示空间,因此得到的表示向量无法用于衡量两个句子的相似度
\upcite
{
DBLP:journals/corr/MikolovLS13
}
。为了解决这个问题,一般使用在同一表示空间的跨语言词嵌入来表示两种语言的单词
\upcite
{
DBLP:journals/jair/RuderVS19
}
。在跨语言词嵌入中,不同语言相同意思的词对应的词嵌入具有较高的相似性,因此得到的句向量也就可以用于衡量两个句子是否表示相似的语义
\upcite
{
DBLP:conf/icml/LeM14
}
。关于跨语言词嵌入的具体内容,可以参考
\ref
{
unsupervised-dictionary-induction
}
小节
。
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
% NEW SUB-SECTION
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论