合并分支 'shanweiqiao' 到 'caorunzhe'

1、13章修改查看合并请求 !1073

合并分支 'shanweiqiao' 到 'caorunzhe'
1、13章修改查看合并请求 !1073
5ece0446 · 单韦乔 · a47ffe43 · a3fa0c69 · 5ece0446 · 5ece0446
Commit 5ece0446 authored Mar 29, 2021 by 单韦乔
--- a/Chapter1/chapter1.tex
+++ b/Chapter1/chapter1.tex
@@ -246,7 +246,7 @@
 \sectionnewpage
 \section{基于规则的方法}\label{section-1.4}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
-\parinterval 机器翻译技术大体上可以分为三种方法，分别为基于规则的机器翻译、统计机器翻译以及神经机器翻译。第一代机器翻译技术是主要使用基于规则的机器翻译方法，其主要思想是通过形式文法定义的规则引入源语言和目标语中的语言学知识。此类方法在机器翻译技术诞生之初就被人所关注，特别是在上世纪70年代，以基于规则方法为代表的专家系统是人工智能中最具代表性的研究领域。甚至到了统计机器翻译时代，很多系统中也大量地使用了基于规则的翻译知识表达形式。
+\parinterval 机器翻译技术大体上可以分为两种方法，分别为基于规则的机器翻译方法以及数据驱动的机器翻译方法。进一步，数据驱动的机器翻译方法又可以分为统计机器翻译方法以及神经机器翻译方法。第一代机器翻译技术是主要使用基于规则的机器翻译方法，其主要思想是通过形式文法定义的规则引入源语言和目标语中的语言学知识。此类方法在机器翻译技术诞生之初就被人所关注，特别是在上世纪70年代，以基于规则方法为代表的专家系统是人工智能中最具代表性的研究领域。甚至到了统计机器翻译时代，很多系统中也大量地使用了基于规则的翻译知识表达形式。

 \parinterval 早期，基于规则的机器翻译大多依赖人工定义及书写的规则。主要有两类方法\upcite{nirenburg1989knowledge,hutchins1986machine,zarechnak1979history}：一类是基于转换规则的机器翻译方法，简称转换法。另一类是基于中间语言的方法。它们都以词典和人工书写的规则库作为翻译知识，用一系列规则的组合完成翻译。


--- a/Chapter13/chapter13.tex
+++ b/Chapter13/chapter13.tex
@@ -448,7 +448,7 @@ R(\mathbi{w}) & = & ({\Vert{\mathbi{w}}\Vert}_2)^2 \\
 \end{figure}
 %----------------------------------------------

-\item {\small\bfnew{训练目标函数与任务评价指标不一致问题}}。在训练数据上使用极大似然估计，而在新数据上进行推断的时候，通常使用BLEU等外部评价指标来评价模型的性能。在机器翻译任务中，这个问题的一种体现是，训练数据上更低的困惑度不一定能带来BLEU的提升。更加理想的情况是，模型应该直接使性能评价指标最大化，而不是训练集数据上的似然函数\upcite{DBLP:conf/acl/ShenCHHWSL16}。但是很多模型性能评价指标不可微分，这使得研究人员无法直接利用基于梯度的方法来优化这些指标。
+\item {\small\bfnew{训练目标函数与任务评价指标不一致问题}}。通常，在训练过程中，模型采用极大似然估计对训练数据进行学习，而在推断过程中，通常使用BLEU等外部评价指标来评价模型的性能。在机器翻译任务中，这个问题的一种体现是，训练数据上更低的困惑度不一定能带来BLEU的提升。更加理想的情况是，模型应该直接使性能评价指标最大化，而不是训练集数据上的似然函数\upcite{DBLP:conf/acl/ShenCHHWSL16}。但是很多模型性能评价指标不可微分，这使得研究人员无法直接利用基于梯度的方法来优化这些指标。
 \vspace{0.5em}
 \end{itemize}

@@ -903,7 +903,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\seq{y}} | \seq{x})
 \vspace{0.5em}
 \item {\small\bfnew{基于正则化的方法}}。通过对模型参数的更新施加约束来减轻灾难性的遗忘，通常是在损失函数中引入了一个额外的正则化项，使得模型在学习新数据时巩固先前的知识\upcite{DBLP:journals/pami/LiH18a,DBLP:conf/iccv/TrikiABT17}。
 \vspace{0.5em}
-\item {\small\bfnew{基于实例的方法}}。基于实例的方法。在学习新任务的同时混合训练先前的任务样本以减轻遗忘，这些样本可以是从先前任务的训练数据中精心挑选出的子集，或者利用生成模型生成的伪样本\upcite{DBLP:conf/cvpr/RebuffiKSL17,DBLP:conf/eccv/CastroMGSA18}。
+\item {\small\bfnew{基于实例的方法}}。在学习新任务的同时混合训练先前的任务样本以减轻遗忘，这些样本可以是从先前任务的训练数据中精心挑选出的子集，或者利用生成模型生成的伪样本\upcite{DBLP:conf/cvpr/RebuffiKSL17,DBLP:conf/eccv/CastroMGSA18}。
 \vspace{0.5em}
 \item {\small\bfnew{基于动态模型架构的方法}}。例如，增加神经元或新的神经网络层进行重新训练，或者是在新任务训练时只更新部分参数\upcite{rusu2016progressive,DBLP:journals/corr/FernandoBBZHRPW17}。
 \vspace{0.5em}