改回来一部分：生成式模型、判别式模型、忠诚度

3507fbd1 · 孟霞 · e854e71c · 3507fbd1 · 3507fbd1
Commit 3507fbd1 authored Feb 22, 2021 by 孟霞
--- a/Chapter3/chapter3.tex
+++ b/Chapter3/chapter3.tex
@@ -372,7 +372,7 @@ $计算这种切分的概率值。
                                                   & = & \prod_{i=1}^{m} \funp{P}(x_i|y_i) \funp{P}(y_i | y_{i-1})  \label{eq:joint-prob-xy}
 \end{eqnarray}

-\noindent 这里，$y_{0}$表示一个虚拟的隐含状态。这样，可以定义$\funp{P}(y_1|y_{0}) \equiv \funp{P}(y_1)$，它表示起始隐含状态出现的概率。隐马尔可夫模型的假设也大大化简了问题，因此可以通过式\eqref{eq:joint-prob-xy}很容易地计算隐含状态序列和可见状态序列出现的概率。值得注意的是，发射概率和转移概率都可以被看作是描述序列生成过程的“特征”。但是，这些“特征”并不是随意定义的，而是符合问题的概率解释。而这种基于事件发生的逻辑所定义的概率生成模型，通常可以被看作是一种{\small\sffamily\bfseries{生成模型}}\index{生成模型}（Generative Model）\index{Generative Model}。
+\noindent 这里，$y_{0}$表示一个虚拟的隐含状态。这样，可以定义$\funp{P}(y_1|y_{0}) \equiv \funp{P}(y_1)$，它表示起始隐含状态出现的概率。隐马尔可夫模型的假设也大大化简了问题，因此可以通过式\eqref{eq:joint-prob-xy}很容易地计算隐含状态序列和可见状态序列出现的概率。值得注意的是，发射概率和转移概率都可以被看作是描述序列生成过程的“特征”。但是，这些“特征”并不是随意定义的，而是符合问题的概率解释。而这种基于事件发生的逻辑所定义的概率生成式模型，通常可以被看作是一种{\small\sffamily\bfseries{生成式模型}}\index{生成式模型}（Generative Model）\index{Generative Model}。

 \parinterval 一般来说，隐马尔可夫模型中包含下面三个问题：

@@ -869,7 +869,7 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber

 \begin{itemize}
 \vspace{0.5em}
-\item 在建模方面，本章描述了基于1-gram语言模型的分词、基于上下文无关文法的句法分析等，它们都是基于人工先验知识进行模型设计的思路。也就是，问题所表达的现象被“一步一步”生成出来。这是一种典型的生成式建模思想，它把要解决的问题看作一些观测结果的隐含变量（比如，句子是观测结果，分词结果是隐含在背后的变量），之后通过对隐含变量生成观测结果的过程进行建模，以达到对问题进行数学描述的目的。这类模型一般需要依赖一些独立性假设，假设的合理性对最终的性能有较大影响。相对于生成模型，另一类方法是{\small\sffamily\bfseries{判别模型}}\index{判别模型}（Discriminative Model）\index{Discriminative Model}。本章序列标注内容中提到一些模型就是判别模型，如条件随机场\upcite{lafferty2001conditional}。它直接描述了从隐含变量生成观测结果的过程，这样对问题的建模更加直接，同时这类模型可以更加灵活的引入不同的特征。判别模型在自然语言处理中也有广泛应用\upcite{ng2002discriminative,manning2008introduction,berger1996maximum,mitchell1996m,DBLP:conf/acl/OchN02}。 在本书的第七章也会使用到判别模型。
+\item 在建模方面，本章描述了基于1-gram语言模型的分词、基于上下文无关文法的句法分析等，它们都是基于人工先验知识进行模型设计的思路。也就是，问题所表达的现象被“一步一步”生成出来。这是一种典型的生成式建模思想，它把要解决的问题看作一些观测结果的隐含变量（比如，句子是观测结果，分词结果是隐含在背后的变量），之后通过对隐含变量生成观测结果的过程进行建模，以达到对问题进行数学描述的目的。这类模型一般需要依赖一些独立性假设，假设的合理性对最终的性能有较大影响。相对于生成式模型，另一类方法是{\small\sffamily\bfseries{判别式模型}}\index{判别式模型}（Discriminative Model）\index{Discriminative Model}。本章序列标注内容中提到一些模型就是判别式模型，如条件随机场\upcite{lafferty2001conditional}。它直接描述了从隐含变量生成观测结果的过程，这样对问题的建模更加直接，同时这类模型可以更加灵活的引入不同的特征。判别式模型在自然语言处理中也有广泛应用\upcite{ng2002discriminative,manning2008introduction,berger1996maximum,mitchell1996m,DBLP:conf/acl/OchN02}。 在本书的第七章也会使用到判别式模型。
 \vspace{0.5em}
 \item 事实上，本章并没有对分词、句法分析中的预测问题进行深入介绍。比如，如何找到概率最大的分词结果？这个问题的解决可以直接借鉴{\chaptertwo}中介绍的搜索方法：对于基于$n$-gram 语言模型的分词方法，可以使用动态规划方法\upcite{huang2008coling}进行搜索；在不满足动态规划的使用条件时，可以考虑使用更加复杂的搜索策略，并配合一定的剪枝方法找到最终的分词结果。实际上，无论是基于$n$-gram 语言模型的分词还是简单的上下文无关文法都有高效的推断方法。比如，$n$-gram语言模型可以被视为概率有限状态自动机，因此可以直接使用成熟的自动机工具\upcite{mohri2008speech}。对于更复杂的句法分析问题，可以考虑使用移进- 规约方法来解决预测问题\upcite{aho1972theory}。
 \vspace{0.5em}

--- a/Chapter4/chapter4.tex
+++ b/Chapter4/chapter4.tex
@@ -53,9 +53,9 @@
 \end{center}
 }\end{table}

-\parinterval 这里的一个核心问题是：从哪个角度对译文质量进行评价呢？常用的标准有：{\small\sffamily\bfseries{流畅度}}\index{流畅度}（Fluency）\index{Fluency}和{\small\sffamily\bfseries{保真度}}\index{保真度}（Fidelity）\index{Fidelity}\upcite{DBLP:journals/mt/ChurchH93}。其中流畅度是指译文在目标语言中的流畅程度，越通顺的译文流畅度越高；保真度是指译文表达源文意思的程度，如果译文能够全面、准确的表达源文的意思，那么它具有较高的翻译保真度。在一些极端的情况下，译文可以非常流畅，但是与源文完全不对应。或者，译文可以非常好的对应源文，但是读起来非常不连贯。这些译文都不是很好的译文。
+\parinterval 这里的一个核心问题是：从哪个角度对译文质量进行评价呢？常用的标准有：{\small\sffamily\bfseries{流畅度}}\index{流畅度}（Fluency）\index{Fluency}和{\small\sffamily\bfseries{忠诚度}}\index{忠诚度}（Fidelity）\index{Fidelity}\upcite{DBLP:journals/mt/ChurchH93}。其中流畅度是指译文在目标语言中的流畅程度，越通顺的译文流畅度越高；忠诚度是指译文表达源文意思的程度，如果译文能够全面、准确的表达源文的意思，那么它具有较高的翻译忠诚度。在一些极端的情况下，译文可以非常流畅，但是与源文完全不对应。或者，译文可以非常好的对应源文，但是读起来非常不连贯。这些译文都不是很好的译文。

-\parinterval 传统观点把翻译分为“信”、“达”、“雅”三个层次，而保真度体现的是一种“信”的思想，而流畅度体现的是一种“达”的思想。不过“雅”在机器翻译评价中还不是一个常用的标准，而且机器翻译还没有达到“雅”的水平，是未来所追求的目标。
+\parinterval 传统观点把翻译分为“信”、“达”、“雅”三个层次，而忠诚度体现的是一种“信”的思想，而流畅度体现的是一种“达”的思想。不过“雅”在机器翻译评价中还不是一个常用的标准，而且机器翻译还没有达到“雅”的水平，是未来所追求的目标。

 \parinterval 给定评价标准，译文质量评价有很多实现方式。比如，可以使用人工评价的方式让评委对每个译文进行打分（\ref{Manual evaluation}节），也可以用自动评价的方式让计算机比对译文和参考答案之间的匹配的程度（\ref{Automatic evaluation with reference answers}节）。但是，自然语言的翻译是最复杂的人工智能问题之一。这不仅仅体现在相关问题的建模和系统实现的复杂性上，译文质量评价也同样面临着诸多挑战。

@@ -63,7 +63,7 @@
 \vspace{0.5em}
 \item {\small\sffamily\bfseries{译文不唯一}}。自然语言表达的丰富性决定了同一个意思往往有很多种表达方式。同一句话，由不同译者的翻译也往往存在差异。译者的背景、翻译水平、翻译所处的语境，甚至译者的情绪都会对译文产生影响。如何在评价过程中尽可能考虑多样的译文，是译文质量评价中最具挑战的问题之一。
 \vspace{0.5em}
-\item {\small\sffamily\bfseries{评价标准不唯一}}。虽然流畅度和保真度给译文质量评价提供了很好的参考依据，但是在实践中往往会有更多样的需求。比如，在专利翻译中，术语翻译的准确性就是必须要考虑的因素，一个术语的翻译错误会导致整个译文不可用。此外，术语翻译的一致性也是非常重要的，即使同一个术语有多种正确的译文，但是在同一个专利文档中，术语翻译需要保持一致。不同的需求使得很难用统一的标准对译文质量进行评价。在实践中，往往需要针对不同应用场景设计不同的评价标准。
+\item {\small\sffamily\bfseries{评价标准不唯一}}。虽然流畅度和忠诚度给译文质量评价提供了很好的参考依据，但是在实践中往往会有更多样的需求。比如，在专利翻译中，术语翻译的准确性就是必须要考虑的因素，一个术语的翻译错误会导致整个译文不可用。此外，术语翻译的一致性也是非常重要的，即使同一个术语有多种正确的译文，但是在同一个专利文档中，术语翻译需要保持一致。不同的需求使得很难用统一的标准对译文质量进行评价。在实践中，往往需要针对不同应用场景设计不同的评价标准。
 \vspace{0.5em}
 \item {\small\sffamily\bfseries{自动评价与人工评价存在着偏差}}。固然使用人工的方式可以准确地评估译文质量，但是这种方式费时、费力。而且由于人工评价的主观性，其结果不易重现，也就是不同人的评价结果会有差异。这些因素也造成了人工评价不能被过于频繁的使用。翻译质量的自动评价可以充分利用计算机的计算能力，对译文与参考答案进行比对，具有速度快、结果可重现的优点，但是其精度不如人工评价。使用何种评价方法也是实践中需要考虑的重要问题之一。
 \vspace{0.5em}
@@ -101,7 +101,7 @@
 \sectionnewpage
 \section{人工评价}\label{Manual evaluation}

-\parinterval 顾名思义，人工评价是指评价者根据翻译结果好坏对译文进行评价。例如，可以根据句子的保真度和流畅度对其进行打分，这样能够准确评定出译文是否准确翻译出源文的意思以及译文是否通顺。在人工评价时，一般由多个评价者匿名对译文打分，之后综合所有评价者的评价结果给出最终的得分。人工评价可以准确反映句子的翻译质量，是最权威、可信度最高的评价方法，但是其缺点也十分明显：需要耗费人力物力，而且评价的周期长，不能及时得到有效的反馈。因此在实际系统开发中，纯人工评价不会过于频繁地被使用，它往往和自动评价一起配合，帮助系统研发人员准确的了解当前系统的状态。
+\parinterval 顾名思义，人工评价是指评价者根据翻译结果好坏对译文进行评价。例如，可以根据句子的忠诚度和流畅度对其进行打分，这样能够准确评定出译文是否准确翻译出源文的意思以及译文是否通顺。在人工评价时，一般由多个评价者匿名对译文打分，之后综合所有评价者的评价结果给出最终的得分。人工评价可以准确反映句子的翻译质量，是最权威、可信度最高的评价方法，但是其缺点也十分明显：需要耗费人力物力，而且评价的周期长，不能及时得到有效的反馈。因此在实际系统开发中，纯人工评价不会过于频繁地被使用，它往往和自动评价一起配合，帮助系统研发人员准确的了解当前系统的状态。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -109,7 +109,7 @@

 \subsection{评价策略}

-\parinterval 合理的评价指标是人工评价得以顺利进行的基础。机器译文质量的人工评价可以追溯到1966年，自然语言处理咨询委员会提出{\small\sffamily\bfseries{可理解度}}\index{可理解度}（Intelligibility）\index{Intelligibility}和保真度作为机器译文质量人工评价指标\upcite{DBLP:journals/mtcl/Carroll66}。1994 年，{\small\sffamily\bfseries{充分性}}\index{充分性}（Adequacy）\index{Adequacy}、流畅度和{\small\sffamily\bfseries{信息量}}\index{信息量}（Informativeness）\index{Informativeness}成为ARPA MT\footnote{ARPA MT计划是美国高级研究计划局软件和智能系统技术处人类语言技术计划的一部分。}的人工评价标准\upcite{DBLP:conf/amta/WhiteOO94}。此后，有不少研究者提出了更多的机器译文质量人工评估指标，例如将{\small\sffamily\bfseries{清晰度}}\index{清晰度}（Clarity）\index{Clarity}和{\small\sffamily\bfseries{连贯性}}\index{连贯性}（Coherence）\index{Coherence}加入人工评价指标中\upcite{Miller:2005:MTS}。甚至有人将各种人工评价指标集中在一起，组成了尽可能全面的机器翻译评估框架\upcite{king2003femti}。
+\parinterval 合理的评价指标是人工评价得以顺利进行的基础。机器译文质量的人工评价可以追溯到1966年，自然语言处理咨询委员会提出{\small\sffamily\bfseries{可理解度}}\index{可理解度}（Intelligibility）\index{Intelligibility}和忠诚度作为机器译文质量人工评价指标\upcite{DBLP:journals/mtcl/Carroll66}。1994 年，{\small\sffamily\bfseries{充分性}}\index{充分性}（Adequacy）\index{Adequacy}、流畅度和{\small\sffamily\bfseries{信息量}}\index{信息量}（Informativeness）\index{Informativeness}成为ARPA MT\footnote{ARPA MT计划是美国高级研究计划局软件和智能系统技术处人类语言技术计划的一部分。}的人工评价标准\upcite{DBLP:conf/amta/WhiteOO94}。此后，有不少研究者提出了更多的机器译文质量人工评估指标，例如将{\small\sffamily\bfseries{清晰度}}\index{清晰度}（Clarity）\index{Clarity}和{\small\sffamily\bfseries{连贯性}}\index{连贯性}（Coherence）\index{Coherence}加入人工评价指标中\upcite{Miller:2005:MTS}。甚至有人将各种人工评价指标集中在一起，组成了尽可能全面的机器翻译评估框架\upcite{king2003femti}。

 \parinterval 人工评价的策略非常多。考虑不同的因素，往往会使用不同的评价方案，比如：