合并分支 'caorunzhe' 到 'master'

Caorunzhe 查看合并请求 !781

合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求 !781
fb55913d · 曹润柘 · 9c83d94f · cb56db23 · fb55913d
Commit fb55913d authored Jan 05, 2021 by 曹润柘
--- a/Chapter16/chapter16.tex
+++ b/Chapter16/chapter16.tex
@@ -194,7 +194,7 @@
 %----------------------------------------------------------------------------------------
 \subsubsection{3. 预训练模型}

-\parinterval 相比固定的词嵌入，上下文词嵌入包含了在当前语境中的语义信息，丰富了模型的输入表示，降低了训练难度。但是，模型仍有大量的参数需要从零学习，来进一步提取整个句子的表示。一种可行的方案是在预训练阶段中直接得到预训练好的模型参数，在下游任务中仅仅通过任务特定的数据对模型参数进行微调，来得到一个较强的模型。基于这个想法，有大量的预训练模型被提出。比如，{\small\bfnew{生成式预训练}}（Generative Pre-training，GPT）\index{生成式预训练}\index{GPT}和{\small\bfnew{基于Transformer的双向编码器表示}}（Bidirectional Encoder Representations From Transformers，BERT）\index{双向编码器表示}\index{BERT}就是两种典型的预训练模型。图\ref{fig:16-5}对比了二者的模型结构。
+\parinterval 相比固定的词嵌入，上下文词嵌入包含了在当前语境中的语义信息，丰富了模型的输入表示，降低了训练难度。但是，模型仍有大量的参数需要从零学习，来进一步提取整个句子的表示。一种可行的方案是在预训练阶段中直接得到预训练好的模型参数，在下游任务中仅仅通过任务特定的数据对模型参数进行微调，来得到一个较强的模型。基于这个想法，有大量的预训练模型被提出。比如，{\small\bfnew{生成式预训练}}（Generative Pre-training，GPT）\index{生成式预训练}\index{GPT}和{\small\bfnew{来自Transformer的双向编码器表示}}（Bidirectional Encoder Representations From Transformers，BERT）\index{双向编码器表示}\index{BERT}就是两种典型的预训练模型。图\ref{fig:16-5}对比了二者的模型结构。

 %----------------------------------------------
 \begin{figure}[htp]
@@ -785,7 +785,7 @@
 %----------------------------------------------------------------------------------------
 \subsubsection{2. 基于伪数据的方法}

-\parinterval 数据选择方法可以从源领域中选择出和目标领域相似的训练数据用于训练，但可用的数据是较为有限的。因此，另外一种思路是对现有的双语数据进行修改\upcite{DBLP:conf/acl/UtiyamaI03}（如抽取双语短语对等）或通过单语数据生成伪数据来增加数据量\upcite{DBLP:conf/wmt/BertoldiF09}。这个问题和\ref{effective-use-of-data}节所面临的场景是基本一致的，因此可以直接复用\ref{effective-use-of-data}所描述的方法。
+\parinterval 数据选择方法可以从源领域中选择出和目标领域相似的训练数据用于训练，但可用的数据是较为有限的。因此，另外一种思路是对现有的双语数据进行修改\upcite{DBLP:conf/acl/UtiyamaI03}（如抽取双语短语对等）或通过单语数据生成伪数据来增加数据量\upcite{DBLP:conf/wmt/BertoldiF09}。这个问题和\ref{effective-use-of-data}小节所面临的场景是基本一致的，因此可以直接复用\ref{effective-use-of-data}小节所描述的方法。

 {\color{red} 图XX：基于数据的领域适应方法，三个子图分别描述上面三个方法，找孟霞、曾信讨论}

@@ -843,7 +843,7 @@
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SUB-SECTION
 %----------------------------------------------------------------------------------------
-\subsubsection{2. 训练策略优化}{\red 为了前后的呼应，这里改成训练阶段领域适应，或者后面改成推断策略优化会不会更好？}
+\subsubsection{2. 训练阶段的领域适应}

 \parinterval 实际上，\ref{sec:domain-adaptatoin-data-based-method}节所描述的数据加权和数据选择方法本身也与模型训练相关的，例如，数据选择方法会降低训练数据的数据量。所以具体实现时，需要对训练策略进行调整。一种方法是在不同的训练轮次动态地改变训练数据子集。动态数据选择既可以使得每轮的训练数据均小于全部数据量，从而加快训练进程，又可以缓解训练数据覆盖度不足的问题，具体做法有两种：