Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
abd750d7
Commit
abd750d7
authored
Dec 22, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求
!667
parents
8e88ef58
0fd7dc69
全部展开
隐藏空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
4 行增加
和
4 行删除
+4
-4
Chapter16/chapter16.tex
+4
-4
Chapter19/chapter19.tex
+0
-0
没有找到文件。
Chapter16/chapter16.tex
查看文件 @
abd750d7
...
@@ -108,7 +108,7 @@
...
@@ -108,7 +108,7 @@
\end{figure}
\end{figure}
%----------------------------------------------
%----------------------------------------------
\parinterval
和回译方法相似,加噪方法一般仅在源语言句子上进行操作,既保证了目标语言句子的流畅度,又可以
提高训练数据量,增加数据的多样性、
提高模型的健壮性和泛化能力
\upcite
{
DBLP:conf/icml/VincentLBM08
}
。加噪作为一种简单有效的方法,实际的应用场景很多,比如:
\parinterval
和回译方法相似,加噪方法一般仅在源语言句子上进行操作,既保证了目标语言句子的流畅度,又可以
增加数据的多样性,
提高模型的健壮性和泛化能力
\upcite
{
DBLP:conf/icml/VincentLBM08
}
。加噪作为一种简单有效的方法,实际的应用场景很多,比如:
%----------------------------------------------
%----------------------------------------------
\begin{itemize}
\begin{itemize}
\vspace
{
0.5em
}
\vspace
{
0.5em
}
...
@@ -123,7 +123,7 @@
...
@@ -123,7 +123,7 @@
\parinterval
另外一种加噪方法是进行词替换。将一个句子中的某个词替换为其他词,可能并不会影响句子的合理性和流畅度。比如,对于“我/出去/玩。”这句话,将“我”替换为“你”、“他”、“我们”或者将“玩”替换为“骑车”、“学习”、“吃饭”等,虽然改变了语义,但句子在语法上仍然是合理的。词替换方法即是将双语数据中的部分词替换为词表中的其他词,在保证句子的语义或语法正确性的前提下,增加了训练数据的多样性。
\parinterval
另外一种加噪方法是进行词替换。将一个句子中的某个词替换为其他词,可能并不会影响句子的合理性和流畅度。比如,对于“我/出去/玩。”这句话,将“我”替换为“你”、“他”、“我们”或者将“玩”替换为“骑车”、“学习”、“吃饭”等,虽然改变了语义,但句子在语法上仍然是合理的。词替换方法即是将双语数据中的部分词替换为词表中的其他词,在保证句子的语义或语法正确性的前提下,增加了训练数据的多样性。
\parinterval
词替换的另一种策略是将
目标
语言中的稀有词替换为语义相近的词
\upcite
{
DBLP:conf/acl/FadaeeBM17a
}
。词表中的稀有词由于出现次数较少,很容易导致训练不充分问题,从而无法准确预测稀有词
\upcite
{
DBLP:conf/acl/SennrichHB16a
}
。通过语言模型将源语言句子中的某个词替换为满足语法或语义条件的稀有词,再通过词对齐工具找到源语言句子中被替换的词在目标语言句子中对应的位置,借助翻译词典将这个目标语言位置的单词替换为词典中的翻译结果,从而得到伪双语数据。
\parinterval
词替换的另一种策略是将
源
语言中的稀有词替换为语义相近的词
\upcite
{
DBLP:conf/acl/FadaeeBM17a
}
。词表中的稀有词由于出现次数较少,很容易导致训练不充分问题,从而无法准确预测稀有词
\upcite
{
DBLP:conf/acl/SennrichHB16a
}
。通过语言模型将源语言句子中的某个词替换为满足语法或语义条件的稀有词,再通过词对齐工具找到源语言句子中被替换的词在目标语言句子中对应的位置,借助翻译词典将这个目标语言位置的单词替换为词典中的翻译结果,从而得到伪双语数据。
\parinterval
此外,通过在源语言或目标语言中随机选择某些词,将这些词替换为词表中一个随机词,也可以得到伪双语数据
\upcite
{
DBLP:conf/emnlp/WangPDN18
}
。随机选择句子中的某个词,将这个词的词嵌入替换为其他词的词嵌入加权表示融合,权重可以通过语言模型来计算,相比离散的替换方式(替换为其他词等),这种丰富的分布式表示相比直接使用词嵌入可以包含更多的语义信息,同一个词在不同的上下文中也会被替换为不同的上下文表示结果
\upcite
{
DBLP:conf/acl/GaoZWXQCZL19
}
。
\parinterval
此外,通过在源语言或目标语言中随机选择某些词,将这些词替换为词表中一个随机词,也可以得到伪双语数据
\upcite
{
DBLP:conf/emnlp/WangPDN18
}
。随机选择句子中的某个词,将这个词的词嵌入替换为其他词的词嵌入加权表示融合,权重可以通过语言模型来计算,相比离散的替换方式(替换为其他词等),这种丰富的分布式表示相比直接使用词嵌入可以包含更多的语义信息,同一个词在不同的上下文中也会被替换为不同的上下文表示结果
\upcite
{
DBLP:conf/acl/GaoZWXQCZL19
}
。
...
@@ -235,7 +235,7 @@
...
@@ -235,7 +235,7 @@
\parinterval
在训练一个神经网络的时候,会给定模型一个训练目标,希望模型通过不断训练在这个目标上表现得越来越好。同时也希望模型在训练过程中可以自动提取到与训练目标相关的所有信息。然而,过分地关注单个训练目标,可能使模型忽略掉其他可能有帮助的信息,这些信息可能来自于一些其他相关的任务
\upcite
{
DBLP:journals/corr/Ruder17a
}
。通过联合多个独立但相关的任务共同学习,任务之间相互``促进'',就是
{
\small\sffamily\bfnew
{
多任务学习
}}
\index
{
多任务学习
}
(Multitask Learning)
\index
{
Multitask Learning
}
方法
\upcite
{
DBLP:journals/corr/Ruder17a,DBLP:books/sp/98/Caruana98,liu2019multi
}
。多任务学习的常用做法是针对多个相关的任务,共享模型的部分参数来学习不同任务之间相似的特征,并通过特定的模块来学习每个任务独立的特征(见
\chapterfifteen
)。常用的策略是对底层的模型参数进行共享,顶层的模型参数用于独立学习各个不同的任务。
\parinterval
在训练一个神经网络的时候,会给定模型一个训练目标,希望模型通过不断训练在这个目标上表现得越来越好。同时也希望模型在训练过程中可以自动提取到与训练目标相关的所有信息。然而,过分地关注单个训练目标,可能使模型忽略掉其他可能有帮助的信息,这些信息可能来自于一些其他相关的任务
\upcite
{
DBLP:journals/corr/Ruder17a
}
。通过联合多个独立但相关的任务共同学习,任务之间相互``促进'',就是
{
\small\sffamily\bfnew
{
多任务学习
}}
\index
{
多任务学习
}
(Multitask Learning)
\index
{
Multitask Learning
}
方法
\upcite
{
DBLP:journals/corr/Ruder17a,DBLP:books/sp/98/Caruana98,liu2019multi
}
。多任务学习的常用做法是针对多个相关的任务,共享模型的部分参数来学习不同任务之间相似的特征,并通过特定的模块来学习每个任务独立的特征(见
\chapterfifteen
)。常用的策略是对底层的模型参数进行共享,顶层的模型参数用于独立学习各个不同的任务。
\parinterval
在神经机器翻译中,应用多任务学习的主要策略是将翻译任务作为主任务,同时设置一些仅使用单语数据的子任务,通过这些子任务来捕捉单语数据中的语言知识
\upcite
{
DBLP:conf/emnlp/DomhanH17,DBLP:conf/emnlp/ZhangZ16,DBLP:journals/corr/LuongLSVK15
}
。一种多任务学习的方法是利用源语言单语数据,通过单个编码器对源语言数据进行建模,再分别使用两个解码器来学习源语言排序和翻译任务。源语言排序任务是指
对句子
的顺序进行调整,可以通过单语数据来构造训练数据,从而使编码器被训练得更加充分
\upcite
{
DBLP:conf/emnlp/ZhangZ16
}
,如图
\ref
{
fig:16-7
}
所示。
\parinterval
在神经机器翻译中,应用多任务学习的主要策略是将翻译任务作为主任务,同时设置一些仅使用单语数据的子任务,通过这些子任务来捕捉单语数据中的语言知识
\upcite
{
DBLP:conf/emnlp/DomhanH17,DBLP:conf/emnlp/ZhangZ16,DBLP:journals/corr/LuongLSVK15
}
。一种多任务学习的方法是利用源语言单语数据,通过单个编码器对源语言数据进行建模,再分别使用两个解码器来学习源语言排序和翻译任务。源语言排序任务是指
利用预排序规则
\upcite
{
DBLP:conf/emnlp/WangCK07
}
对源语言句子中词
的顺序进行调整,可以通过单语数据来构造训练数据,从而使编码器被训练得更加充分
\upcite
{
DBLP:conf/emnlp/ZhangZ16
}
,如图
\ref
{
fig:16-7
}
所示。
%----------------------------------------------
%----------------------------------------------
\begin{figure}
[htp]
\begin{figure}
[htp]
\centering
\centering
...
@@ -296,7 +296,7 @@
...
@@ -296,7 +296,7 @@
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\subsection
{
对偶学习
}
\subsection
{
对偶学习
}
\parinterval
对称,也许是人类最喜欢的美,其始终贯穿在整个人类文明的诞生与发展之中。古语“夫美者,上下、内外、大小、远近皆无害焉,故曰美”描述的即是这样的美。在人工智能的任务中,也存在着这样的对称结构,比如机器翻译中英译汉和汉译英、图像处理中的图像标注和图像生成以及语音处理中的语音识别和语音合成等。利用这些任务的对称性质(也称对偶性),可以使互为对偶的两个任务获得更有效的反馈,从而使对应的模型相互学习、相互提高。目前,对偶学习的思想已经广泛应用于
低资源机器翻译
领域,它不仅能够提升在有限双语资源下的翻译模型性能(
{
\small\bfnew
{
有监督对偶学习
}}
,Dual Supervised Learning
\index
{
Dual Supervised Learning
}
)
\upcite
{
DBLP:conf/icml/XiaQCBYL17,DBLP:conf/acl/SuHC19,DBLP:journals/ejasmp/RadzikowskiNWY19
}
,而且能够利用未标注的单语数据来进行学习(
{
\small\bfnew
{
无监督对偶学习
}}
,Dual Unsupervised Learning
\index
{
Dual Unsupervised Learning
}
)
\upcite
{
qin2020dual,DBLP:conf/iccv/YiZTG17,DBLP:journals/access/DuRZH20
}
。下面将一一展开讨论。
\parinterval
对称,也许是人类最喜欢的美,其始终贯穿在整个人类文明的诞生与发展之中。古语“夫美者,上下、内外、大小、远近皆无害焉,故曰美”描述的即是这样的美。在人工智能的任务中,也存在着这样的对称结构,比如机器翻译中英译汉和汉译英、图像处理中的图像标注和图像生成以及语音处理中的语音识别和语音合成等。利用这些任务的对称性质(也称对偶性),可以使互为对偶的两个任务获得更有效的反馈,从而使对应的模型相互学习、相互提高。目前,对偶学习的思想已经广泛应用于
自然语言处理、图像处理等
领域,它不仅能够提升在有限双语资源下的翻译模型性能(
{
\small\bfnew
{
有监督对偶学习
}}
,Dual Supervised Learning
\index
{
Dual Supervised Learning
}
)
\upcite
{
DBLP:conf/icml/XiaQCBYL17,DBLP:conf/acl/SuHC19,DBLP:journals/ejasmp/RadzikowskiNWY19
}
,而且能够利用未标注的单语数据来进行学习(
{
\small\bfnew
{
无监督对偶学习
}}
,Dual Unsupervised Learning
\index
{
Dual Unsupervised Learning
}
)
\upcite
{
qin2020dual,DBLP:conf/iccv/YiZTG17,DBLP:journals/access/DuRZH20
}
。下面将一一展开讨论。
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUB-SUB-SECTION
% NEW SUB-SUB-SECTION
...
...
Chapter19/chapter19.tex
查看文件 @
abd750d7
差异被折叠。
点击展开。
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论