Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
fb55913d
Commit
fb55913d
authored
Jan 05, 2021
by
曹润柘
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求
!781
parents
9c83d94f
cb56db23
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
3 行增加
和
3 行删除
+3
-3
Chapter16/chapter16.tex
+3
-3
没有找到文件。
Chapter16/chapter16.tex
查看文件 @
fb55913d
...
...
@@ -194,7 +194,7 @@
%----------------------------------------------------------------------------------------
\subsubsection
{
3. 预训练模型
}
\parinterval
相比固定的词嵌入,上下文词嵌入包含了在当前语境中的语义信息,丰富了模型的输入表示,降低了训练难度。但是,模型仍有大量的参数需要从零学习,来进一步提取整个句子的表示。一种可行的方案是在预训练阶段中直接得到预训练好的模型参数,在下游任务中仅仅通过任务特定的数据对模型参数进行微调,来得到一个较强的模型。基于这个想法,有大量的预训练模型被提出。比如,
{
\small\bfnew
{
生成式预训练
}}
(Generative Pre-training,GPT)
\index
{
生成式预训练
}
\index
{
GPT
}
和
{
\small\bfnew
{
基于
Transformer的双向编码器表示
}}
(Bidirectional Encoder Representations From Transformers,BERT)
\index
{
双向编码器表示
}
\index
{
BERT
}
就是两种典型的预训练模型。图
\ref
{
fig:16-5
}
对比了二者的模型结构。
\parinterval
相比固定的词嵌入,上下文词嵌入包含了在当前语境中的语义信息,丰富了模型的输入表示,降低了训练难度。但是,模型仍有大量的参数需要从零学习,来进一步提取整个句子的表示。一种可行的方案是在预训练阶段中直接得到预训练好的模型参数,在下游任务中仅仅通过任务特定的数据对模型参数进行微调,来得到一个较强的模型。基于这个想法,有大量的预训练模型被提出。比如,
{
\small\bfnew
{
生成式预训练
}}
(Generative Pre-training,GPT)
\index
{
生成式预训练
}
\index
{
GPT
}
和
{
\small\bfnew
{
来自
Transformer的双向编码器表示
}}
(Bidirectional Encoder Representations From Transformers,BERT)
\index
{
双向编码器表示
}
\index
{
BERT
}
就是两种典型的预训练模型。图
\ref
{
fig:16-5
}
对比了二者的模型结构。
%----------------------------------------------
\begin{figure}
[htp]
...
...
@@ -785,7 +785,7 @@
%----------------------------------------------------------------------------------------
\subsubsection
{
2. 基于伪数据的方法
}
\parinterval
数据选择方法可以从源领域中选择出和目标领域相似的训练数据用于训练,但可用的数据是较为有限的。因此,另外一种思路是对现有的双语数据进行修改
\upcite
{
DBLP:conf/acl/UtiyamaI03
}
(如抽取双语短语对等)或通过单语数据生成伪数据来增加数据量
\upcite
{
DBLP:conf/wmt/BertoldiF09
}
。这个问题和
\ref
{
effective-use-of-data
}
节所面临的场景是基本一致的,因此可以直接复用
\ref
{
effective-use-of-data
}
所描述的方法。
\parinterval
数据选择方法可以从源领域中选择出和目标领域相似的训练数据用于训练,但可用的数据是较为有限的。因此,另外一种思路是对现有的双语数据进行修改
\upcite
{
DBLP:conf/acl/UtiyamaI03
}
(如抽取双语短语对等)或通过单语数据生成伪数据来增加数据量
\upcite
{
DBLP:conf/wmt/BertoldiF09
}
。这个问题和
\ref
{
effective-use-of-data
}
小节所面临的场景是基本一致的,因此可以直接复用
\ref
{
effective-use-of-data
}
小节
所描述的方法。
{
\color
{
red
}
图XX:基于数据的领域适应方法,三个子图分别描述上面三个方法,找孟霞、曾信讨论
}
...
...
@@ -843,7 +843,7 @@
%----------------------------------------------------------------------------------------
% NEW SUB-SUB-SECTION
%----------------------------------------------------------------------------------------
\subsubsection
{
2. 训练
策略优化
}{
\red
为了前后的呼应,这里改成训练阶段领域适应,或者后面改成推断策略优化会不会更好?
}
\subsubsection
{
2. 训练
阶段的领域适应
}
\parinterval
实际上,
\ref
{
sec:domain-adaptatoin-data-based-method
}
节所描述的数据加权和数据选择方法本身也与模型训练相关的,例如,数据选择方法会降低训练数据的数据量。所以具体实现时,需要对训练策略进行调整。一种方法是在不同的训练轮次动态地改变训练数据子集。动态数据选择既可以使得每轮的训练数据均小于全部数据量,从而加快训练进程,又可以缓解训练数据覆盖度不足的问题,具体做法有两种:
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论