Merge branch 'caorunzhe' into 'shanweiqiao'

# Conflicts: # bibliography.bib

Merge branch 'caorunzhe' into 'shanweiqiao'
# Conflicts: # bibliography.bib
74b1f6a0 · 单韦乔 · 32f4884e · c81038d5 · 74b1f6a0 · 74b1f6a0
Commit 74b1f6a0 authored Sep 04, 2020 by 单韦乔
--- a/Chapter4/chapter4.tex
+++ b/Chapter4/chapter4.tex
@@ -23,7 +23,7 @@
 \chapter{翻译质量评价}
-\parinterval 人们在使用机器翻译系统时需要评估系统输出结果的质量。这个过程也被称作机器翻译译文质量评价，简称为{\small\sffamily\bfseries{译文质量评价}}\index{译文质量评价}（Quality Evaluation of Translation）\index{Quality Evaluation of Translation}。在机器翻译的发展进程中，译文质量评价有着非常重要的作用，不论在系统研发的反复迭代中，还是在诸多的机器翻译应用场景中，都存在大量的译文质量评价环节。从某种意义上说，没有译文质量评价，机器翻译也不会发展成今天的样子。比如，本世纪初研究人员提出了译文质量自动评价方法BLEU\upcite{DBLP:conf/acl/PapineniRWZ02}。该方法使得机器系统的评价变得自动、快速、便捷，而且评价过程可以重复。正是由于BLEU等自动评价方法的提出，机器翻译研究人员可以在更短的时间内得到译文质量的评价结果，加速系统研发的进程。
+\parinterval 人们在使用机器翻译系统时需要评估系统输出结果的质量。这个过程也被称作机器翻译译文质量评价，简称为{\small\sffamily\bfseries{译文质量评价}}\index{译文质量评价}（Quality Evaluation of Translation）\index{Quality Evaluation of Translation}。在机器翻译的发展进程中，译文质量评价有着非常重要的作用。不论在系统研发的反复迭代中，还是在诸多的机器翻译应用场景中，都存在大量的译文质量评价环节。从某种意义上说，没有译文质量评价，机器翻译也不会发展成今天的样子。比如，本世纪初研究人员提出了译文质量自动评价方法BLEU\upcite{DBLP:conf/acl/PapineniRWZ02}。该方法使得机器系统的评价变得自动、快速、便捷，而且评价过程可以重复。正是由于BLEU等自动评价方法的提出，机器翻译研究人员可以在更短的时间内得到译文质量的评价结果，加速系统研发的进程。
 \parinterval 时至今日，译文质量评价方法已经非常丰富，针对不同的使用场景研究人员陆续提出了不同的方法。本章将会对其中的典型方法进行介绍，包括：人工评价、有参考答案自动评价、无参考答案自动评价等。相关方法及概念也会在本章的后续章节中被广泛使用。
@@ -40,7 +40,7 @@
 \caption{汉译英译文质量评价实例}
 {
 \begin{tabular}{c|l|c}
-源文 & 那只敏捷的棕色狐狸跳过了那只懒惰的狗。 & 打分 \\
+源文 & 那只敏捷的棕色狐狸跳过了那只懒惰的狗。 & 评价得分 \\
 \hline
 \rule{0pt}{10pt} 机器译文1 & The quick brown fox jumped over the lazy dog. & 5 \\
 \rule{0pt}{10pt} 机器译文2 & The fast brown fox jumped over a sleepy dog. & 4 \\
@@ -53,7 +53,7 @@
 \end{center}
 }\end{table}
-\parinterval 这里的一个核心问题是：从哪个角度对译文质量进行评价呢？常用的标准有：{\small\sffamily\bfseries{流畅度}}\index{流畅度}（Fluency）\index{Fluency}和{\small\sffamily\bfseries{忠实度}}\index{忠实度}（Adequacy）\index{Adequacy}\upcite{DBLP:journals/mt/ChurchH93}。其中流畅度是指译文在目标语言中的流畅程度，越通顺的译文流畅度越高；忠实度是指译文表达源文意思的程度，如果译文能够全面、准确的表达原文的意思，那么它具有较高的翻译忠实度。在一些极端的情况下，译文可以非常流畅，但是与原文完全不对应。或者，译文可以非常好的对应原文，但是读起来非常不连贯。这些译文都不是很好的译文。
+\parinterval 这里的一个核心问题是：从哪个角度对译文质量进行评价呢？常用的标准有：{\small\sffamily\bfseries{流畅度}}\index{流畅度}（Fluency）\index{Fluency}和{\small\sffamily\bfseries{忠实度}}\index{忠实度}（Adequacy）\index{Adequacy}\upcite{DBLP:journals/mt/ChurchH93}。其中流畅度是指译文在目标语言中的流畅程度，越通顺的译文流畅度越高；忠实度是指译文表达源文意思的程度，如果译文能够全面、准确的表达源文的意思，那么它具有较高的翻译忠实度。在一些极端的情况下，译文可以非常流畅，但是与源文完全不对应。或者，译文可以非常好的对应源文，但是读起来非常不连贯。这些译文都不是很好的译文。
 \parinterval 传统观点把翻译分为``信''、``达''、``雅''三个层次，而忠实度体现的是一种``信''的思想，而流畅度体现的是一种``达''的思想。不过``雅''在机器翻译评价中还不是一个常用的标准，而且机器翻译还没有达到``雅''的水平，是未来所追求的目标。
@@ -61,13 +61,13 @@
 \begin{itemize}
 \vspace{0.5em}
-\item {\small\sffamily\bfseries{译文不唯一}}。自然语言表达的丰富性决定了同一个意思往往有很多种表达方式。同一句话，由不同译者来的翻译也往往存在差异。译者的背景、翻译水平、翻译所处的语境，甚至译者的情绪都会对译文产生影响。如何在评价过程中尽可能考虑多样的译文，是译文质量评价中最具挑战的问题之一。
+\item {\small\sffamily\bfseries{译文不唯一}}。自然语言表达的丰富性决定了同一个意思往往有很多种表达方式。同一句话，由不同译者的翻译也往往存在差异。译者的背景、翻译水平、翻译所处的语境，甚至译者的情绪都会对译文产生影响。如何在评价过程中尽可能考虑多样的译文，是译文质量评价中最具挑战的问题之一。
 \vspace{0.5em}
 \item {\small\sffamily\bfseries{评价标准不唯一}}。虽然流畅度和忠实度给译文质量评价提供了很好的参考依据，但是在实践中往往会有更多样的需求。比如，在专利翻译中，术语翻译的准确性就是必须要考虑的因素，一个术语的翻译错误会导致整个译文不可用。此外，术语翻译的一致性也是非常重要的，即使同一个术语有多种正确的译文，但是在同一个专利文档中，术语翻译需要保持一致。不同的需求使得很难用统一的标准对译文质量进行评价。在实践中，往往需要针对不同应用场景设计不同的评价标准。
 \vspace{0.5em}
 \item {\small\sffamily\bfseries{自动评价与人工评价存在着偏差}}。固然使用人工的方式可以准确地评估译文质量，但是这种方式费时、费力。而且由于人工评价的主观性，其结果不易重现，也就是不同人的评价结果会有差异。这些因素也造成了人工评价不能被过于频繁的使用。翻译质量的自动评价可以充分利用计算机的计算能力，对译文与参考答案进行比对，具有速度快、结果可重现的优点，但是其精度不如人工评价。使用何种评价方法也是实践中需要考虑的重要问题之一。
 \vspace{0.5em}
-\item {\small\sffamily\bfseries{自动评价过程中会存在无法提供参考答案或者只能提供部分参考答案的情况}}。很多情况下，译文的正确答案并不容易获取。甚至对于某些低资源语种，相关的语言学家都很稀缺。这时很难进行基于标准答案的评价。如何在没有参考答案的情况下对译文质量进行估计是极具应用前景且颇具挑战的方向。
+\item {\small\sffamily\bfseries{参考答案不容易获得}}。很多情况下，译文的正确答案并不容易获取。甚至对于某些低资源语种，相关的语言学家都很稀缺。这时很难进行基于标准答案的评价。如何在没有参考答案的情况下对译文质量进行估计是极具应用前景且颇具挑战的方向。
 \vspace{0.5em}
 \end{itemize}
@@ -75,7 +75,7 @@
 \begin{itemize}
 \vspace{0.5em}
-\item {\small\sffamily\bfseries{人工评价}}。当需要对系统进行准确的评估时，往往采用人工评价。比如机器翻译的一些互联网上应用，在系统上线前都会采用人工评价对机器翻译系统性能进行测试。当然，这种方法的时间和人力成本是最高的。
+\item {\small\sffamily\bfseries{人工评价}}。当需要对系统进行准确的评估时，往往采用人工评价。比如，对于机器翻译的一些互联网应用，在系统上线前都会采用人工评价对机器翻译系统性能进行测试。当然，这种方法的时间和人力成本是最高的。
 \vspace{0.5em}
 \item {\small\sffamily\bfseries{有参考答案的自动评价}}。由于机器翻译系统研发过程中需要频繁地对系统性能进行评价，这时可以让人标注一些正确的译文，之后把这些译文作为参考答案与机器翻译系统输出的结果进行比对。这种自动评价的结果获取成本低，可以多次重复，而且可以用于对系统结果的快速反馈，指导系统优化的方向。
 \vspace{0.5em}
@@ -83,7 +83,7 @@
 \vspace{0.5em}
 \end{itemize}
-\parinterval 图\ref{fig:4-2}给出了机器翻译译文评价方法的逻辑关系图。需要注意的是，很多时候，译文质量评价结果是用于机器翻译系统优化的。在随后的章节中也会看到，译文评价的结果会被用于不同的机器翻译模型优化中。甚至说，很多统计指标（如极大似然）也可以被看作是一种对译文的``评价''，这样也就把机器翻译的统计建模和译文评价联系在了一起。本章的后半部分将重点介绍传统的译文质量评价方法。与译文质量评价相关的模型优化方法将会在后续章节详细论述。
+\parinterval 图\ref{fig:4-2}给出了机器翻译译文评价方法的逻辑关系图。需要注意的是，很多时候，译文质量评价结果是用于机器翻译系统优化的。在随后的章节中也会看到，译文评价的结果会被用于不同的机器翻译模型优化中。甚至说，很多统计指标（如极大似然）也可以被看作是一种对译文的``评价''，这样也就把机器翻译的建模和译文评价联系在了一起。本章的后半部分将重点介绍传统的译文质量评价方法。与译文质量评价相关的模型优化方法将会在后续章节详细论述。
 %----------------------------------------------
 \begin{figure}[htp]
@@ -109,13 +109,13 @@
 \subsection{评价策略}
-\parinterval 合理的评价指标是人工评价得以顺利进行的基础。机器译文质量的人工评价可以追溯到1966年，自然语言处理咨询委员会提出{\small\sffamily\bfseries{可理解度}}\index{可理解度}（Intelligibility）\index{Intelligibility}和{\small\sffamily\bfseries{忠诚度}}\index{忠诚度}（Fidelity）\index{Fidelity}作为机器译文质量人工评价指标\upcite{DBLP:journals/mtcl/Carroll66}。1994年，{\small\sffamily\bfseries{充分性}}\index{充分性}（Adequacy）\index{Adequacy}、{\small\sffamily\bfseries{流利度}}\index{流利度}（Fluency）\index{Fluency}和{\small\sffamily\bfseries{信息性}}\index{信息性}（Informativeness）\index{Informativeness}成为为ARPA MT\footnote{ARPA MT计划是美国高级研究计划局软件和智能系统技术处人类语言技术计划的一部分。}的人工评价标准\upcite{DBLP:conf/amta/WhiteOO94}。此后，有不少研究者提出了更多的机器译文质量人工评估指标，例如将{\small\sffamily\bfseries{清晰度}}\index{清晰度}（Clarity）\index{Clarity}和{\small\sffamily\bfseries{连贯性}}\index{连贯性}（Coherence）\index{Coherence}加入人工评价指标中\upcite{Miller:2005:MTS}。甚至有人将各种人工评价指标集中在一起，组成了尽可能详尽无遗的机器翻译评估框架\upcite{king2003femti}。
+\parinterval 合理的评价指标是人工评价得以顺利进行的基础。机器译文质量的人工评价可以追溯到1966年，自然语言处理咨询委员会提出{\small\sffamily\bfseries{可理解度}}\index{可理解度}（Intelligibility）\index{Intelligibility}和{\small\sffamily\bfseries{忠诚度}}\index{忠诚度}（Fidelity）\index{Fidelity}作为机器译文质量人工评价指标\upcite{DBLP:journals/mtcl/Carroll66}。1994 年，{\small\sffamily\bfseries{充分性}}\index{充分性}（Adequacy）\index{Adequacy}、{\small\sffamily\bfseries{流利度}}\index{流利度}（Fluency）\index{Fluency}和{\small\sffamily\bfseries{信息性}}\index{信息性}（Informativeness）\index{Informativeness}成为为ARPA MT\footnote{ARPA MT计划是美国高级研究计划局软件和智能系统技术处人类语言技术计划的一部分。}的人工评价标准\upcite{DBLP:conf/amta/WhiteOO94}。此后，有不少研究者提出了更多的机器译文质量人工评估指标，例如将{\small\sffamily\bfseries{清晰度}}\index{清晰度}（Clarity）\index{Clarity}和{\small\sffamily\bfseries{连贯性}}\index{连贯性}（Coherence）\index{Coherence}加入人工评价指标中\upcite{Miller:2005:MTS}。甚至有人将各种人工评价指标集中在一起，组成了尽可能全面的机器翻译评估框架\upcite{king2003femti}。
 \parinterval 人工评价的策略非常多。考虑不同的因素，往往会使用不同的评价方案，比如：
 \begin{itemize}
 \vspace{0.5em}
-\item {\small\sffamily\bfseries{是否呈现源语言文本}}。在进行人工评价时，可以向评价者提供源语言文本或参考答案、或同时提供源语言文本和参考答案。从评价的角度，参考答案已经能够帮助评价者进行正确评价，但是源语言文本可以提供更多信息帮助评估译文的准确性。
+\item {\small\sffamily\bfseries{是否呈现源语言文本}}。在进行人工评价时，可以向评价者提供源语言文本或参考答案，也可以同时提供源语言文本和参考答案。从评价的角度，参考答案已经能够帮助评价者进行正确评价，但是源语言文本可以提供更多信息帮助评估译文的准确性。
 \vspace{0.5em}
 \item {\small\sffamily\bfseries{评价者选择}}。理想情况下，评价者应同时具有源语言和目标语言的语言能力。但是，很多时候双语能力的评价者很难招募，因此这时会考虑使用目标语为母语的评价者。配合参考答案，单语评价者也可以准确地评价译文质量。
 \vspace{0.5em}
@@ -133,7 +133,7 @@
 \subsection{打分标准}
-\parinterval 如何对译文进行打分是机器翻译评价的核心问题。在人工评价方法中，一种被广泛使用的方法是{\small\sffamily\bfseries{直接评估}}\index{直接评估}（Direct Assessment，DA）\index{Direct Assessment}\upcite{DBLP:conf/amta/WhiteOO94}，这种评价方法需要评价者给出对机器译文绝对的评分：在给定一个机器译文和一个参考答案的情况下，评价者直接给出1-100的分数用来表征机器译文的质量。与其类似的策略是对机器翻译质量进行等级评定\upcite{DBLP:journals/mt/PrzybockiPBS09}，常见的是在5级或7级标准中指定单一等级用以反映机器翻译质量。也有研究者提出利用语言测试技术对机器翻译质量进行评价\upcite{reeder2006direct}，其中涉及多等级内容的评价：第一等级测试简单的短语、成语、词汇等；第二等级利用简单的句子测试机器翻译在简单文本上的表现；第三等级利用稍复杂的句子测试机器翻译在复杂语法结构上的表现；第四等级测试引入更加复杂的补语结构和附加语等等。
+\parinterval 如何对译文进行打分是机器翻译评价的核心问题。在人工评价方法中，一种被广泛使用的方法是{\small\sffamily\bfseries{直接评估}}\index{直接评估}（Direct Assessment，DA）\index{Direct Assessment}\upcite{DBLP:conf/amta/WhiteOO94}，这种评价方法需要评价者给出对机器译文的绝对评分：在给定一个机器译文和一个参考答案的情况下，评价者直接给出1-100的分数用来表征机器译文的质量。与其类似的策略是对机器翻译质量进行等级评定\upcite{DBLP:journals/mt/PrzybockiPBS09}，常见的是在5级或7级标准中指定单一等级用以反映机器翻译质量。也有研究者提出利用语言测试技术对机器翻译质量进行评价\upcite{reeder2006direct}，其中涉及多等级内容的评价：第一等级测试简单的短语、成语、词汇等；第二等级利用简单的句子测试机器翻译在简单文本上的表现；第三等级利用稍复杂的句子测试机器翻译在复杂语法结构上的表现；第四等级测试引入更加复杂的补语结构和附加语等等。
 \parinterval 除了对译文进行简单的打分，另一种经典的人工评价方法是{\small\sffamily\bfseries{相对排序}}\index{相对排序}（Relative Ranking，RR）\index{Relative Ranking}\upcite{DBLP:conf/wmt/Callison-BurchF07}。这种方法通过对不同机器翻译的译文质量进行相对排序得到最终的评价结果。举例来说：
@@ -145,23 +145,27 @@
 \begin{itemize}
 \vspace{0.5em}
-\item {\small\sffamily\bfseries{根据某系统比其他系统更好的频率进行排序}}\upcite{DBLP:conf/wmt/Callison-BurchK12}。以系统${S}_j$和系统${S}_k$为例，两个系统都被比较了$\mathrm{C}_n^5 \times 4 \times 3$次，其中系统${S}_j$获胜20次，系统${S}_k$获胜30次，总体排名中系统${S}_k$优于系统${S}_j$。
+\item {\small\sffamily\bfseries{根据系统胜出的次数进行排序}}\upcite{DBLP:conf/wmt/Callison-BurchK12}。以系统${S}_j$和系统${S}_k$为例，两个系统都被比较了$\mathrm{C}_n^5 \times 4 \times 3$ 次，其中系统${S}_j$获胜20次，系统${S}_k$获胜30次，总体排名中系统${S}_k$优于系统${S}_j$。
 \vspace{0.5em}
-\item {\small\sffamily\bfseries{选取与成对比较中冲突最少的排序作为最终排序}}\upcite{DBLP:conf/wmt/Lopez12}。第一种排序策略中存在冲突现象：例如在每次两两比较中，系统${S}_j$胜过系统${S}_k$的次数比系统${S}_j$不敌系统${S}_k$的次数多，若待评价系统仅有系统${S}_j$、${S}_k$，显然系统${S}_j$的排名高于系统${S}_k$。但当待评价系统很多时，可能系统${S}_j$在所有比较中获胜的频率低于系统${S}_k$，此时就出现了总体排序与局部排序不一致的冲突。因此，有研究者提出，能够与局部排序冲突最少的总体排序才是最合理的。该方法中用公式\ref{eq:4-1}定义排名的``冲突'',其中${R}$是待评价的系统集合，${S}_j$、${S}_k$分别是成对比较的两个系统，$\mathrm{Count}_{win}({S}_j,{S}_k)$和$\mathrm{Count}_{loss}({S}_j,{S}_k)$分别是${S}_j$、${S}_k$进行成对比较时系统${S}_j$胜利和失败的频率。
+\item {\small\sffamily\bfseries{根据冲突次数进行排序}}\upcite{DBLP:conf/wmt/Lopez12}。第一种排序策略中存在冲突现象：例如在每次两两比较中，系统${S}_j$胜过系统${S}_k$ 的次数比系统${S}_j$不敌系统${S}_k$的次数多，若待评价系统仅有系统${S}_j$、${S}_k$，显然系统${S}_j$的排名高于系统${S}_k$。但当待评价系统很多时，可能系统${S}_j$在所有比较中获胜的次数低于系统${S}_k$，此时就出现了总体排序与局部排序不一致的冲突。因此，有研究者提出，能够与局部排序冲突最少的总体排序才是最合理的。令$R$表示一个对若干个系统的排序，该排序所对应的冲突得分为：
 \begin{eqnarray}
-\mathrm{conflic} = \sum\limits_{{{S}_j} \in R,{{S}_k} \in R,j \ne k} {{\rm{max}}(0,\mathrm{Count}_{win}({{S}_j},{{S}_k}) - \mathrm{Count}_{loss}({{S}_j},{{S}_k}))}
+\mathrm{score}(R) = \sum\limits_{{{S}_j} \in R,{{S}_k} \in R,j \ne k} {{\rm{max}}(0,\mathrm{Count}_{win}({{S}_j},{{S}_k}) - \mathrm{Count}_{loss}({{S}_j},{{S}_k}))}
 \label{eq:4-1}
 \end{eqnarray}
+    其中，${S}_j$和${S}_k$是成对比较的两个系统，$\mathrm{Count}_{win}({S}_j,{S}_k)$和$\mathrm{Count}_{loss}({S}_j,{S}_k)$分别是${S}_j$、${S}_k$进行成对比较时系统${S}_j$ 胜利和失败的次数。而使得$\textrm{score}(R)$得分最低的$R$就是最终的系统排序结果。
 \vspace{0.5em}
-\item {\small\sffamily\bfseries{根据某系统最终获胜的期望进行排序}}\upcite{DBLP:conf/iwslt/Koehn12}。以系统$\mathrm{S}_j$为例，若共有$n$个待评价的系统，则进行总体排序时系统 $\mathrm{S}_j$ 的得分其最终获胜的期望\footnote{根据公式\ref{eq:4-2}可以看出，该策略去除了平局的影响。}，即：
+\item {\small\sffamily\bfseries{根据某系统最终获胜的期望进行排序}}\upcite{DBLP:conf/iwslt/Koehn12}。以系统$\mathrm{S}_j$为例，若共有$n$个待评价的系统，则进行总体排序时系统 $\mathrm{S}_j$ 的得分为其最终获胜的期望，即：
 \begin{eqnarray}
 \mathrm{score}({{S}_j}) = \frac{1}{n}\sum\limits_{k,k \ne j} {\frac{\mathrm{Count}_{win}({{S}_j},{{S}_k})}{{\mathrm{Count}_{win}({{S}_j},{{S}_k}) + \mathrm{Count}_{loss}({{S}_j},{{S}_k})}}}
 \label{eq:4-2}
 \end{eqnarray}
+根据公式\ref{eq:4-2}可以看出，该策略去除了平局的影响。
 \vspace{0.5em}
 \end{itemize}
@@ -175,11 +179,9 @@
 \sectionnewpage
 \section{有参考答案的自动评价}\label{Automatic evaluation with reference answers}
-\parinterval 由于人工评价费事费力，同时具有一定的主观性，甚至不同人在不同时刻面对同一篇文章的理解都会不同，为了克服这种限制，另一种思路是将人类专家翻译的结果看作是参考答案，将译文与答案的近似程度作为评价结果。即译文与答案越接近，评价结果越好；反之，评价结果较差。这种评价方式叫做自动评价。
+\parinterval 人工评价费事费力，同时具有一定的主观性，甚至不同人在不同时刻面对同一篇文章的理解都会不同。为了克服这些问题，另一种思路是将人类专家翻译的结果看作是参考答案，将译文与答案的近似程度作为评价结果。即译文与答案越接近，评价结果越好；反之，评价结果较差。这种评价方式叫做{\small\bfnew{自动评价}}\index{自动评价}（Automatic Evaluation）。自动评价具有速度快，成本低、一致性高的优点，因此自动评价是也是机器翻译系统研发人员所青睐的方法。
-\parinterval 自动评价的方式虽然不如人工评价准确，但是具有速度快，成本低、一致性高的优点，因此自动评价是也是机器翻译系统研发人员所青睐的方法。
+\parinterval 随着评价技术的不断发展，自动评价结果已经具有了比较好的指导性，可以帮助使用者快速了解当前译文的质量。在机器翻译领域，自动评价已经成为了一个重要的研究分支。至今，已经有不下几十种自动评价方法被提出。这里无法对这些方法一一列举，为了便于后续章节中对自动评价方法的使用，这里仅对一些代表性的方法进行简要介绍。
-\parinterval 随着评价技术的不断发展，自动评价方式已经具有了比较好的指导性，可以帮助使用者快速了解当前机器翻译译文的质量。在机器翻译领域，自动评价已经成为了一个重要分支，被提出的自动评价方法不下几十种。这里无法对这些方法一一列举，为了便于后续章节的描述，这里仅对一些代表性的方法进行简要介绍。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -187,7 +189,7 @@
 \subsection{基于词串比对的方法}
-\parinterval 这种方法比较关注译文中的词汇及译文语序，其思想是将译文看成是符号序列，通过计算机器译文和参考答案间的序列相似性来评价机器翻译的质量。
+\parinterval 这种方法比较关注译文单词及$n$-gram的翻译准确性。其思想是将译文看成是符号序列，通过计算参考答案和机器译文间的序列相似性来评价机器翻译的质量。
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -195,34 +197,34 @@
 \subsubsection{1.基于距离的方法}
-\parinterval 基于距离的自动评价方法的基本思想是根据将机器译文转化为参考答案所需要的最小编辑步骤数来衡量机器译文的质量，基于此类思想的自动评价方法主要有{\small\sffamily\bfseries{单词错误率}}\index{单词错误率}（Word Error Rate，WER）\index{Word Error Rate}\upcite{DBLP:conf/coling/SuWC92}、{\small\sffamily\bfseries{与位置无关的单词错误率}}\index{与位置无关的单词错误率}（Position-independent word Error Rate，PER）\index{Position-independent word Error Rate}\upcite{DBLP:conf/interspeech/TillmannVNZS97}和{\small\sffamily\bfseries{翻译错误率}}\index{翻译错误率}（Translation Error Rate，TER）\index{Translation Error Rate}\upcite{snover2006study}等，下面主要介绍TER方法以深入理解此类自动评价方法的思想。
+\parinterval 基于距离的自动评价方法的基本思想是：将机器译文转化为参考答案所需要的最小编辑步骤数作为译文质量的度量，基于此类思想的自动评价方法主要有{\small\sffamily\bfseries{单词错误率}}\index{单词错误率}（Word Error Rate，WER）\index{Word Error Rate}\upcite{DBLP:conf/coling/SuWC92}、{\small\sffamily\bfseries{与位置无关的单词错误率}}\index{与位置无关的单词错误率}（Position-independent word Error Rate，PER）\index{Position-independent word Error Rate}\upcite{DBLP:conf/interspeech/TillmannVNZS97}和{\small\sffamily\bfseries{翻译错误率}}\index{翻译错误率}（Translation Error Rate，TER）\index{Translation Error Rate}\upcite{snover2006study}等。下面介绍其中比较有代表性的方法\ \dash \ 翻译错误率，即TER。
-\parinterval 翻译错误率是一种典型的基于距离的评价方法，通过评定机器译文的译后编辑工作量来衡量机器译文质量。在这里``距离''被定义为将一个序列转换成另一个序列所需要的最少编辑操作次数，操作次数越多，距离越大，序列之间的相似性越低；相反距离越小，表示一个句子越容易改写成另一个句子，序列之间的相似性越高。TER 使用的编辑操作包括：增加、删除、替换和移位。其中增加、删除、替换操作计算得到的距离被称为编辑距离。TER根据错误率的形式给出评分：
+\parinterval TER是一种典型的基于距离的评价方法，通过评定机器译文的译后编辑工作量来衡量机器译文质量。在这里``距离''被定义为将一个序列转换成另一个序列所需要的最少编辑操作次数，操作次数越多，距离越大，序列之间的相似性越低；相反距离越小，表示一个句子越容易改写成另一个句子，序列之间的相似性越高。TER 使用的编辑操作包括：增加、删除、替换和移位。其中增加、删除、替换操作计算得到的距离被称为编辑距离。TER根据错误率的形式给出评分：
 \begin{eqnarray}
-\mathrm{score}= \frac{\mathrm{edit}(c,r)}{l}
+\mathrm{score}= \frac{\mathrm{edit}(o,g)}{l}
 \label{eq:4-3}
 \end{eqnarray}
-\parinterval 其中$\mathrm{edit}(c,r)$是指机器翻译生成的译文$c$和参考答案$r$之间的距离，$l$是归一化因子,通常为参考答案的长度。在距离计算中所有的操作的代价都为1。在计算距离时，优先考虑移位操作，再计算编辑距离（即增加、删除和替换操作的次数）。直到增加、移位操作无法减少编辑距离时，将编辑距离和移位操作的次数累加得到TER计算的距离。
+\noindent 其中，$\mathrm{edit}(o,g)$表示系统生成的译文$o$和参考答案$g$之间的距离，$l$是归一化因子,通常为参考答案的长度。在距离计算中所有的操作的代价都为1。在计算距离时，优先考虑移位操作，再计算编辑距离（即增加、删除和替换操作的次数）。直到增加、移位操作无法减少编辑距离时，将编辑距离和移位操作的次数累加得到TER计算的距离。
 \begin{example}
 Candidate：cat is standing in the ground
-\qquad\ \ \ Reference：The cat is standing on the ground
+\qquad\ Reference：The cat is standing on the ground
 \label{eg:4-1}
 \end{example}
-\parinterval 将Candidate序列 转换为Reference序列，需要进行一次增加操作，在句首增加``The''；一次替换操作，将``in'' 替换为``on''。所以$\mathrm{edit}(c,r)$ = 2，归一化因子$l$为Reference的长度7，所以该机器译文的TER 错误率为2/7。
+\parinterval 在这个实例中，将Candidate序列 转换为Reference序列，需要进行一次增加操作，在句首增加``The''；一次替换操作，将``in'' 替换为``on''。所以$\mathrm{edit}(c,r)$ = 2，归一化因子$l$为Reference的长度7，所以该机器译文的TER 结果为2/7。
-\parinterval WER和PER与TER的基本思想相同，这三种方法的主要区别在于对``错误'' 的定义和考虑的操作类型略有不同。WER使用的编辑操作包括：增加、删除、替换，由于没有移位操作，当机器译文出现词序问题时，会发生多次替代，因而一般会低估译文质量；而PER只考虑增加和删除两个动作，在不考虑词序的情况下，PER计算两个句子中出现相同单词的次数，根据翻译句子比参考答案长或短，其余操作无非是插入词或删除词，这样往往会高估译文质量。
+\parinterval PER与TER的基本思想与WER相同，这三种方法的主要区别在于对``错误'' 的定义和考虑的操作类型略有不同。WER使用的编辑操作包括：增加、删除、替换，由于没有移位操作，当机器译文出现词序问题时，会发生多次替代，因而一般会低估译文质量；而PER只考虑增加和删除两个动作，在不考虑词序的情况下，PER计算两个句子中出现相同单词的次数，根据翻译句子比参考答案长或短，其余操作无非是插入词或删除词，这样往往会高估译文质量。
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------
-\subsubsection{2.基于$\bm{n}$元语法的方法}
+\subsubsection{2.基于$\bm{n}$-gram的方法}
-\parinterval BLUE是目前使用最广泛的自动评价指标。BLEU 是Bilingual Evaluation Understudy的缩写，最早由IBM 在2002 年提出\upcite{DBLP:conf/acl/PapineniRWZ02}。通过采用$n$-gram匹配的方式评定机器翻译结果和参考答案之间的相似度，机器译文越接近参考答案就认定它的质量越高。$n$-gram是指$n$个连续单词组成的单元，称为{\small\sffamily\bfseries{$\bm{n}$元语法单元}}\index{$\bm{n}$元语法单元}（见{\chapterthree}）。$n$越大表示评价时考虑的匹配片段越大。
+\parinterval BLUE是目前使用最广泛的自动评价指标。BLEU 是Bilingual Evaluation Understudy的缩写，由IBM 的研究人员在2002 年提出\upcite{DBLP:conf/acl/PapineniRWZ02}。通过采用$n$-gram匹配的方式评定机器翻译结果和参考答案之间的相似度，机器译文越接近参考答案就认定它的质量越高。$n$-gram是指$n$个连续单词组成的单元，称为{\small\sffamily\bfseries{$\bm{n}$元语法单元}}\index{$\bm{n}$元语法单元}（见{\chapterthree}）。$n$越大表示评价时考虑的匹配片段越大。
 \parinterval BLEU 的计算首先考虑待评价机器译文中$n$-gram在参考答案中的匹配率，称为{\small\sffamily\bfseries{$\bm{n}$-gram准确率}}\index{$\bm{n}$-gram准确率}（$n$-gram Precision）\index{$n$-gram Precision}。其计算方法如下：
 \begin{eqnarray}
@@ -230,7 +232,14 @@ Candidate：cat is standing in the ground
 \label{eq:4-4}
 \end{eqnarray}
-\parinterval 其中$\mathrm{Count_{hit}}$表示机器译文中$n$-gram在参考答案中命中的次数，$\mathrm{Count_{output}}$表示机器译文中总共有多少$n$-gram。为了避免同一个词被重复计算，BLEU的定义中使用了截断的方式定义$\mathrm{Count_{hit}}$和$\mathrm{Count_{output}}$。
+\noindent 其中，$\mathrm{Count_{hit}}$表示机器译文中$n$-gram在参考答案中命中的次数，$\mathrm{Count_{output}}$表示机器译文中总共有多少$n$-gram。为了避免同一个词被重复计算，BLEU的定义中使用了截断的方式定义$\mathrm{Count_{hit}}$和$\mathrm{Count_{output}}$。
+\begin{example}
+Candidate：the the the the
+\qquad \ Reference：The cat is standing on the ground
+\label{eg:4-bleu-example}
+\end{example}
 \parinterval 在引入截断方式之前，该译文的1-gram准确率为4/4 = 1，这显然是不合理的。在引入截断的方式之后，``the'' 在译文中出现4 次，在参考答案中出现2 次，截断操作则是取二者的最小值，即$\mathrm{Count_{hit}}$= 2，$\mathrm{Count_{output}}$= 4，该译文的1-gram准确率为2/4。
@@ -249,19 +258,19 @@ Candidate：cat is standing in the ground
 \label{eq:4-6}
 \end{eqnarray}
-\parinterval 其中$c$表示机器译文的句子长度，$r$表示参考答案的句子长度。最终BLEU的计算公式为：
+\noindent 其中，$c$表示机器译文的句子长度，$r$表示参考答案的句子长度。最终BLEU的计算公式为：
 \begin{eqnarray}
-\mathrm {BLEU} = \mathrm {BP} \cdot \mathrm {exp}(\sum\limits_{i = 1}^N {{w_n} \cdot {{{\mathop{\mathrm {log}}\nolimits} }\mathrm P_n}} )
+\mathrm {BLEU} = \mathrm {BP} \cdot \exp(\sum\limits_{i = 1}^N {{w_n} \cdot {{{\mathop{\mathrm {log}}\nolimits} }\mathrm P_n}} )
 \label{eq:4-7}
 \end{eqnarray}
-\parinterval 实际上，BLEU的计算也是一种综合考虑{\small\sffamily\bfseries{准确率}}\index{准确率}（Precision）\index{Precision}和{\small\sffamily\bfseries{召回率}}\index{召回率}（Recall）\index{Recall}的方法。公式中，${\rm{exp}}( \cdot )$是一种准确率的表示。BP本是一种召回率的度量，它会惩罚过短的结果。这种设计同分类系统中评价指标F1值是有相通之处的\upcite{DBLP:conf/muc/Chinchor92}。
+\parinterval 实际上，BLEU的计算也是一种综合考虑{\small\sffamily\bfseries{准确率}}\index{准确率}（Precision）\index{Precision}和{\small\sffamily\bfseries{召回率}}\index{召回率}（Recall）\index{Recall}的方法。公式中，$\exp(\sum\limits_{i = 1}^N {{w_n} \cdot {{{\mathop{\mathrm {log}}\nolimits} }\mathrm P_n}} )$是一种准确率的表示。BP本是一种召回率的度量，它会惩罚过短的结果。这种设计同分类系统中评价指标F1值是有相通之处的\upcite{DBLP:conf/muc/Chinchor92}。
-\parinterval 从机器翻译的发展来看，BLEU 的意义在于它给系统研发人员提供了一种简单、高效、可重复的自动评价手段，在研发机器翻译系统时可以不需要依赖人工评价。同时，BLEU 也有很多创新之处，包括引入$n$-gram的匹配，截断计数和短句惩罚等等，包括NIST 等很多评价指标都是受到BLEU 的启发。此外，BLEU本身也有很多不同的实现方式，包括IBM-BLEU\upcite{DBLP:conf/acl/PapineniRWZ02}、NIST-BLEU\upcite{doddington2002automatic}、BLEU-SBP\upcite{DBLP:conf/emnlp/ChiangDCN08}、ScareBLEU等，使用不同实现方式得到评价结果会有差异。因此在实际使用BLEU进行评价时需要确认其实现细节，以保证结果与相关工作评价要求相符。
+\parinterval 从机器翻译的发展来看，BLEU 的意义在于它给系统研发人员提供了一种简单、高效、可重复的自动评价手段，在研发机器翻译系统时可以不需要依赖人工评价。同时，BLEU 也有很多创新之处，包括引入$n$-gram的匹配，截断计数和短句惩罚等等，包括NIST 等很多评价指标都是受到BLEU 的启发。此外，BLEU本身也有很多不同的实现方式，包括IBM-BLEU\upcite{DBLP:conf/acl/PapineniRWZ02}、NIST-BLEU\footnote{NIST-BLEU是指美国国家标准与技术研究院（NIST）开发的机器翻译评价工具mteval中实现的一种BLEU计算的方法。}、BLEU-SBP\upcite{DBLP:conf/emnlp/ChiangDCN08}、ScareBLEU等，使用不同实现方式得到评价结果会有差异。因此在实际使用BLEU进行评价时需要确认其实现细节，以保证结果与相关工作评价要求相符。
-\parinterval 还需要注意的是，BLEU的评价结果与所使用的参考答案数量有很大相关性。如果参考答案数量多，$n$-gram匹配的几率变大，BLEU的结果也会偏高。同一个系统，在不同数量的参考答案下进行BLEU评价，结果相差10个点都十分正常。此外，考虑测试的同源性等因素，相似系统在不同测试条件下的BLEU结果差异可能会更大，这时可以采用人工评价的方式得到更准确的评价结果。
+\parinterval 还需要注意的是，BLEU的评价结果与所使用的参考答案数量有很大相关性。如果参考答案数量多，$n$-gram匹配的几率变大，BLEU的结果也会偏高。同一个系统，在不同数量的参考答案下进行BLEU评价，结果相差10个点都十分正常。此外，考虑测试的同源性等因素，相似系统在不同测试条件下的BLEU结果差异可能会更大，这时可以采用人工评价的方式会得到更准确的评价结果。
-\parinterval 虽然BLEU被广泛使用，但也并不完美，甚至经常被人诟病。比如，它需要依赖参考答案，而且评价结果有时与人工评价不一致，同时BLEU 评价只是单纯地从匹配度的角度思考翻译质量的好坏，并没有真正考虑句子的语义是否翻译正确。但是，毫无疑问，BLEU 仍然是机器翻译中最常用的评价方法。在没有找到更好的替代方案之前，BLEU 还是机器翻译研究所使用的标准评价指标。
+\parinterval 虽然BLEU被广泛使用，但也并不完美，甚至经常被人诟病。比如，它需要依赖参考答案，而且评价结果有时与人工评价不一致，同时BLEU 评价只是单纯地从词串匹配的角度思考翻译质量的好坏，并没有真正考虑句子的语义是否翻译正确。但是，毫无疑问，BLEU 仍然是机器翻译中最常用的评价方法。在没有找到更好的替代方案之前，BLEU 还是机器翻译研究中最重要的评价指标之一。
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -497,7 +506,7 @@ His house is on the south bank of the river.
 \parinterval 但是在捷克语中主语``městská rada''或是``zastupitelstvo města''的性别必须由动词来反映，那么上述捷克语的参考答案集中有部分存在语法错误。为了避免此类现象的出现，研究人员在同义单元中加入了将同义单元组合在一起必须满足的限制条件\upcite{DBLP:conf/tsd/BojarMTZ13}，从而在增大参考答案集地同时确保了每个参考答案的准确性
-\parinterval 将参考答案集扩大后，可以继续沿用BLEU或NIST等基于$n$元语法的方法进行自动评价，但是传统方法往往会忽略多重参考答案中的重复信息，于是对每个$n$元语法进行加权的自动评价方法被提出\upcite{DBLP:conf/eamt/QinS15}。该方法根据每个$n$元语法单元的长度、在参考答案集中出现的频率、被虚词（如``the''``by''``a''等）分开后的分散度等方面，确定其在计算最终分数时所占的权重。以BLEU方法为例，原分数计算方式如公式13所示：
+\parinterval 将参考答案集扩大后，可以继续沿用BLEU或NIST等基于$n$元语法的方法进行自动评价，但是传统方法往往会忽略多重参考答案中的重复信息，于是对每个$n$元语法进行加权的自动评价方法被提出\upcite{DBLP:conf/eamt/QinS15}。该方法根据每个$n$元语法单元的长度、在参考答案集中出现的次数、被虚词（如``the''``by''``a''等）分开后的分散度等方面，确定其在计算最终分数时所占的权重。以BLEU方法为例，原分数计算方式如公式13所示：
 \begin{eqnarray}
 \mathrm {BLEU} &=& \mathrm {BP} \cdot {\rm{exp}}(\sum\limits_{i = 1}^N {{w_n} \cdot {{{\mathop{\rm log}\nolimits} }\mathrm{P}_n}} )
 \label{eq:4-13}\\
@@ -820,7 +829,7 @@ Reference： A few days ago, {\red he} contacted the News Channel and said that 
 \vspace{0.5em}
 \item 流畅度特征：反映了译文的自然度、流畅度、语法合理程度。为了衡量译文的流畅度，往往需要借助大型目标语言语料库、语言模型和语法检查工具等。例如借助大型目标语料库和统计语言模型获取的译文3-gram语言模型概率、利用语法检查工具获取的译文语法正确性等等，这些数学性指标均可用来衡量译文的流畅度。
 \vspace{0.5em}
-\item 置信度特征：反映了机器翻译系统对输出的译文的置信程度。翻译系统解码过程中对应的译文的全局概率、最终$n$-best清单中翻译假设的数量、译文中的词语在$n$-best输出中的出现频率等指标都可以作为机器翻译提供的置信度特征用于质量评估。
+\item 置信度特征：反映了机器翻译系统对输出的译文的置信程度。翻译系统解码过程中对应的译文的全局概率、最终$n$-best清单中翻译假设的数量、译文中的词语在$n$-best输出中的出现次数等指标都可以作为机器翻译提供的置信度特征用于质量评估。
 \item 充分度特征：反映了源文和机器译文在不同语言层次上的密切程度或关联程度。比较常用的充分度特征包括源文和译文的长度比、源文和译文的词对齐信息、源文和译文表层结构（例如括号、数字、标点符号等）数量的绝对差异、源文和译文句法树的深度和宽度差异、源文和译文中命名实体数量的差异、源文和译文之间$n$元语法单元的匹配比例，此外，还可以用源文和译文的分布式表示衡量其间的相似性。由于源文和译文之间语言的不同，充分度特征是最难可靠提取的特征类型。
 \vspace{0.5em}
 \end{itemize}

--- a/Chapter5/chapter5.tex
+++ b/Chapter5/chapter5.tex
@@ -50,7 +50,7 @@ IBM模型由Peter F. Brown等人于上世纪九十年代初提出\cite{DBLP:jour
 \end{figure}
 %----------------------------------------------
-\parinterval 上面的例子反映了人在做翻译时所使用的一些知识：首先，两种语言单词的顺序可能不一致，而且译文需要符合目标语的习惯，这也就是常说的翻译的{\small\sffamily\bfseries{流畅度}}\index{流畅度}问题（Fluency）\index{Fluency}；其次，源语言单词需要准确的被翻译出来，也就是常说的翻译的{\small\sffamily\bfseries{准确性}}\index{准确性}(Accuracy)\index{Accuracy}问题和{\small\sffamily\bfseries{充分性}}\index{充分性}（Adequacy）\index{Adequacy}问题。为了达到以上目的，传统观点认为翻译过程需要包含三个步骤\cite{jurafsky2000speech}：
+\parinterval 上面的例子反映了人在做翻译时所使用的一些知识：首先，两种语言单词的顺序可能不一致，而且译文需要符合目标语的习惯，这也就是常说的翻译的{\small\sffamily\bfseries{流畅度}}\index{流畅度}问题（Fluency）\index{Fluency}；其次，源语言单词需要准确的被翻译出来，也就是常说的翻译的{\small\sffamily\bfseries{准确性}}\index{准确性}(Accuracy)\index{Accuracy}问题和{\small\sffamily\bfseries{充分性}}\index{充分性}（Adequacy）\index{Adequacy}问题。为了达到以上目的，传统观点认为翻译过程需要包含三个步骤\cite{parsing2009speech}：
 \begin{itemize}
 \vspace{0.5em}

--- a/bibliography.bib
+++ b/bibliography.bib
@@ -706,7 +706,7 @@
 }
 @inproceedings{DBLP:conf/acl/WangW97,
-  author    = {Ye$\dash$Yi Wang and
+  author    = {Ye-Yi Wang and
               Alex Waibel},
  title     = {Decoding Algorithm in Statistical Machine Translation},
  pages     = {366--372},
@@ -744,7 +744,7 @@
  author    = {Philipp Koehn and
               Hieu Hoang and
               Alexandra Birch and
-               Chris Callison$\dash$Burch and
+               Chris Callison-Burch and
               Marcello Federico and
               Nicola Bertoldi and
               Brooke Cowan and
@@ -1050,7 +1050,7 @@
  author    = {Kishore Papineni and
               Salim Roukos and
               Todd Ward and
-               Wei{-}Jing Zhu},
+               Wei-jing Zhu},
  title     = {Bleu: a Method for Automatic Evaluation of Machine Translation},
  pages     = {311--318},
  publisher = {Annual Meeting of the Association for Computational Linguistics},
@@ -1066,9 +1066,9 @@
  publisher={Springer}
 }
 @inproceedings{DBLP:conf/coling/SuWC92,
-  author    = {Keh{-}Yih Su and
+  author    = {Keh-Yih Su and
-               Ming{-}Wen Wu and
+               Ming-Wen Wu and
-               Jing{-}Shin Chang},
+               Jing-Shin Chang},
  title     = {A New Quantitative Quality Measure for Machine Translation Systems},
  publisher = {International Conference on Computational Linguistics},
  pages     = {433--439},
@@ -1480,7 +1480,7 @@
  year={2006}
 }
 @inproceedings{DBLP:conf/wmt/Callison-BurchF07,
-  author    = {Chris Callison$\dash$Burch and
+  author    = {Chris Callison-Burch and
               Cameron S. Fordyce and
               Philipp Koehn and
               Christof Monz and
@@ -1491,7 +1491,7 @@
  year      = {2007}
 }
 @inproceedings{DBLP:conf/wmt/Callison-BurchK12,
-  author    = {Chris Callison$\dash$Burch and
+  author    = {Chris Callison-Burch and
               Philipp Koehn and
               Christof Monz and
               Matt Post and
@@ -1621,7 +1621,7 @@
  year={2006}
 }
 @inproceedings{DBLP:conf/acl/LoBSW14,
-  author    = {Chi$\dash$kiu Lo and
+  author    = {Chi-kiu Lo and
               Meriem Beloucif and
               Markus Saers and
               Dekai Wu},