Commit f25c24da by 曹润柘

合并分支 'master' 到 'caorunzhe'

Master

查看合并请求 !388
parents 85f54a60 2d433262
......@@ -22,9 +22,10 @@
%----------------------------------------------------------------------------------------
\chapter{低资源神经机器机器翻译}
\parinterval 相比传统的统计机器翻译,神经机器翻译的性能得到了显著的提升,随之带来的问题是对海量训练双语句对的依赖。想要得到一个高质量的神经机器翻译模型,需要大量的训练数据,然而双语句对的获取代价相对较高,在很多场景下都很难获取到充分的训练数据。如汉语、英语这种使用范围广泛或使用人数较多的语言,很容易获取到语言之间大量的双语句对,我们称之为富资源语言,而对于一些少数民族语言或者中小国家的语言,如乌尔都语、斐济语等,很难获取到与其他语言的双语句对,我们称之为低资源语言。世界上现存6000余种语言,仅有很少一部分为富资源语言,绝大多数均为低资源语言。即使在富资源语言对中,对于一些特定的领域,如物理、天文等,双语句对也是十分稀缺的。因此,一直以来,低资源机器翻译都是备受研究人员关注的一个问题。
\parinterval 神经机器翻译带来的性能提升是显著的,随之而来的问题是对海量双语训练数据的依赖。不同语言可使用的数据规模是不同的。如汉语、英语这种使用范围广泛的语言,存在着大量的双语平行句对,这些语言被称为{\small\bfnew{富资源语言}}\index{富资源语言}(High-resource Language\index{High-resource Language})。而对于其它一些使用范围稍小的语言,如斐济语等,相关的数据非常稀少,这些语言被称为{\small\bfnew{低资源语言}}\index{低资源语言}(Low-resource Language\index{Low-resource Language})。世界上现存语言超过5000种,仅有很少一部分为富资源语言,绝大多数均为低资源语言。即使在富资源语言中,对于一些特定的领域,双语平行语料也是十分稀缺的。有时,一些特殊的语种或者领域会面临“零资源”的问题。因此,{\small\bfnew{低资源机器翻译}}\index{低资源机器翻译}(Low-resource Machine Translation)是急需解决且颇具挑战的问题。
\parinterval 本章对低资源神经机器机器翻译的相关问题、模型和方法展开介绍,内容涉及数据的有效使用、多语言翻译建模、无监督机器翻译、领域适应四个方面。这些均为机器翻译真实应用中所面临的问题,对其进行求解可以大大促进低资源机器翻译的发展。
{\red{(几种方法的概述,最后加)}}
%----------------------------------------------------------------------------------------
% NEW SECTION
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论