合并分支 'caorunzhe' 到 'zengxin'

Caorunzhe 查看合并请求 !1112

合并分支 'caorunzhe' 到 'zengxin'
Caorunzhe 查看合并请求 !1112
9d1b7089 · zengxin · 8bc50264 · 44254c21 · 9d1b7089 · 9d1b7089
Commit 9d1b7089 authored Jul 21, 2021 by zengxin
--- a/Chapter13/chapter13.tex
+++ b/Chapter13/chapter13.tex
@@ -41,7 +41,6 @@
 %    NEW SECTION
 %----------------------------------------------------------------------------------------

-\sectionnewpage
 \section{开放词表}

 \parinterval 对于神经机器翻译而言，研究人员通常希望使用更大的词表完成模型训练。因为大词表可以覆盖更多的语言现象，使模型对不同的语言现象有更强的区分能力。但是，人类的语言表达方式是十分多样的，这也体现在单词的构成上，甚至人们都无法想象数据中存在的不同单词的数量。比如，在WMT、CCMT等评测数据上，英语词表大小都会在100万以上。如果不加限制，机器翻译的词表将会很“大”。这也会导致模型参数量变大，模型训练变得极为困难。更严重的问题是，测试数据中的一些单词根本就没有在训练数据中出现过，这时会出现未登录词翻译问题（即OOV问题），即系统无法对未见单词进行翻译。在神经机器翻译中，通常会考虑使用更小的翻译单元来缓解数据稀疏问题。
@@ -707,7 +706,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\seq{y}} | \seq{x})
 \label{eq:13-24}
 \end{eqnarray}

-这样的损失函数最直接的好处是，知识蒸馏的流程会非常简单。因为只需要利用教师模型将训练数据（源语言）翻译一遍，之后把它的输出替换为训练数据的目标语言部分。之后，利用新得到的双语数据训练学生模型即可。图\ref{fig:13-12}对比了词级和序列级知识蒸馏方法。
+这样的损失函数最直接的好处是，知识蒸馏的流程会非常简单。因为只需要利用教师模型将训练数据（源语言）翻译一遍，之后把它的输出作为训练数据的目标语言部分构造出新的双语数据。之后，利用新得到的双语数据训练学生模型即可。图\ref{fig:13-12}对比了词级和序列级知识蒸馏方法。
 \vspace{0.5em}
 \end{itemize}


--- a/Chapter15/chapter15.tex
+++ b/Chapter15/chapter15.tex
@@ -31,7 +31,6 @@
 %    NEW SECTION
 %----------------------------------------------------------------------------------------

-\sectionnewpage
 \section{注意力机制的改进}

 \parinterval 注意力机制是神经机器翻译成功的关键。以Transformer模型为例，由于使用了自注意力机制，该模型展现出较高的训练并行性，同时在机器翻译、语言建模等任务上，该模型也取得了很好的表现。但是Transformer模型仍存在许多亟待解决的问题，例如，在处理长文本序列时（假设文本长度为$N$），自注意力机制的时间复杂度为$O(N^2)$，当$N$过大时翻译速度很低。此外，尽管Transformer模型的输入中包含了绝对位置编码表示，但是现有的自注意力机制仍然无法显性捕获局部窗口下不同位置之间的关系。而且注意力机制也需要更多样的手段进行特征提取，例如，采用多头或者多分支结构对不同空间特征进行提取。针对以上问题，本节将介绍注意力机制的优化策略，并重点讨论Transformer模型的若干改进方法。

--- a/Chapter2/chapter2.tex
+++ b/Chapter2/chapter2.tex
@@ -32,7 +32,6 @@
 %    NEW SECTION
 %----------------------------------------------------------------------------------------

-\sectionnewpage
 \section{概率论基础}
 \parinterval 为了便于后续内容的介绍，首先对本书中使用的概率和统计学概念进行简要说明。


--- a/Chapter3/chapter3.tex
+++ b/Chapter3/chapter3.tex
@@ -73,7 +73,7 @@
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
-
+\sectionnewpage
 \section{中文分词}

 \parinterval 对于机器翻译系统而言，输入的是已经切分好的单词序列，而不是原始的字符串（图\ref{fig:3.2-1}）。比如，对于一个中文句子，单词之间是没有间隔的，因此需要把一个个的单词切分出来，这样机器翻译系统可以区分不同的翻译单元。甚至，可以对语言学上的单词进行进一步切分，得到词片段序列（比如：中国人$\to$中国/人）。广义上，可以把上述过程看作是一种分词过程，即：将一个输入的自然语言字符串切割成单元序列，每个{\small\sffamily\bfseries{单元}}\index{单元}（Token）\index{Token}都对应可以处理的最小单位。
@@ -224,7 +224,7 @@ $计算这种切分的概率值。
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
-
+\sectionnewpage
 \section{命名实体识别}

 \parinterval 在人类使用语言的过程中，单词往往不是独立出现的。很多时候，多个单词会组合成一个更大的单元来表达特定的意思。其中，最典型的代表是{\small\sffamily\bfseries{命名实体}}\index{命名实体}（Named Entity）\index{Named Entity}。通常，命名实体是指名词性的专用短语，例如公司名称、品牌名称、产品名称等专有名词和行业术语。准确地识别出这些命名实体，是提高机器翻译质量的关键。比如，在翻译技术文献时，往往需要对术语进行识别并进行准确翻译，因此引入{\small\sffamily\bfseries{命名实体识别}}\index{命名实体识别}（Named Entity Recognition）\index{Named Entity Recognition} 可以帮助系统对特定术语进行更加细致的处理。
@@ -555,7 +555,7 @@ Z(\seq{x})&=&\sum_{\seq{y}}\exp(\sum_{i=1}^m\sum_{j=1}^k\lambda_{j}F_{j}(y_{i-1}
 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------
-
+\sectionnewpage
 \section{句法分析}

 \parinterval 前面已经介绍了什么叫做“词”以及如何对分词问题进行统计建模。同时，也介绍了如何对多个单词构成的命名实体进行识别。无论是分词还是命名实体识别都是句子浅层信息的一种表示。对于一个自然语言句子来说，它更深层次的结构信息可以通过更完整的句法结构来描述，而句法信息也是机器翻译和自然语言处理其他任务中常用的知识之一。