Commit 2ef4c0f1 by 曹润柘

合并分支 'master' 到 'caorunzhe'

Master

查看合并请求 !142
parents 641369c3 d79659b6
......@@ -4,7 +4,7 @@
\node[unit] (u1)at (0,0){};
\node[unit,anchor=west](u2) at ([xshift=7em]u1.east){};
\node[unit,anchor=west](u3) at ([xshift=1.5em]u2.east){};
\node[unit,anchor=west](u4) at ([xshift=8em]u3.east){};
\node[unit,anchor=west](u4) at ([xshift=5em]u3.east){};
\node[unit,anchor=west](u5) at ([xshift=1.5em]u4.east){};
\node[unit,anchor=west](u6) at ([xshift=5em]u5.east){};
\node[unit,anchor=west,line width=1.5pt](u7) at ([xshift=2em]u6.east){};
......@@ -14,7 +14,7 @@
\draw[->,red,line width=1.5pt](u1.east)-- node[inner sep=0pt,color=red,above]{\footnotesize the approval rate}(u2.west);
\draw[->,out=-30,in=-150,red,line width=1.5pt] (u1.south east) to node[inner sep=0pt,color=red,below]{\footnotesize the approval level}(u2.south west);
\draw[->,line width=1.5pt](u2.east) -- node[above]{\footnotesize for} (u3.west);
\draw[->,line width=1.5pt](u3.east) -- node[above]{\footnotesize national football team} (u4.west);
\draw[->,line width=1.5pt](u3.east) -- node[above]{\footnotesize the proposal} (u4.west);
\draw[->,line width=1.5pt](u4.east) -- node[above]{\footnotesize was} (u5.west);
\draw[->,out=40,in=140,blue,line width=1.5pt] (u5.north east) to node[inner sep=0pt,color=blue,above]{\footnotesize pratically}(u6.north west);
\draw[->,blue,line width=1.5pt](u5.east)-- node[inner sep=0pt,color=blue,above]{\footnotesize close to}(u6.west);
......
......@@ -131,7 +131,7 @@
% NEW SUB-SECTION
%----------------------------------------------------------------------------------------
\subsection{打分标准}
\subsection{打分标准} \label{sec:human-eval-scoring}
\parinterval 如何对译文进行打分是机器翻译评价的核心问题。在人工评价方法中,一种被广泛使用的方法是{\small\sffamily\bfseries{直接评估}}\index{直接评估}(Direct Assessment,DA)\index{Direct Assessment}\upcite{DBLP:conf/amta/WhiteOO94},这种评价方法需要评价者给出对机器译文的绝对评分:在给定一个机器译文和一个参考答案的情况下,评价者直接给出1-100的分数用来表征机器译文的质量。与其类似的策略是对机器翻译质量进行等级评定\upcite{DBLP:journals/mt/PrzybockiPBS09},常见的是在5级或7级标准中指定单一等级用以反映机器翻译质量。也有研究者提出利用语言测试技术对机器翻译质量进行评价\upcite{reeder2006direct},其中涉及多等级内容的评价:第一等级测试简单的短语、成语、词汇等;第二等级利用简单的句子测试机器翻译在简单文本上的表现;第三等级利用稍复杂的句子测试机器翻译在复杂语法结构上的表现;第四等级测试引入更加复杂的补语结构和附加语等等。
......@@ -222,9 +222,9 @@ Candidate:cat is standing in the ground
% NEW SUBSUB-SECTION
%----------------------------------------------------------------------------------------
\subsubsection{2.基于$\bm{n}$-gram的方法}
\subsubsection{2.基于$\bm{n}$-gram的方法} \label{sec:ngram-eval}
\parinterval BLUE是目前使用最广泛的自动评价指标。BLEU 是Bilingual Evaluation Understudy的缩写,由IBM 的研究人员在2002 年提出\upcite{DBLP:conf/acl/PapineniRWZ02}。通过采用$n$-gram匹配的方式评定机器翻译结果和参考答案之间的相似度,机器译文越接近参考答案就认定它的质量越高。$n$-gram是指$n$个连续单词组成的单元,称为{\small\sffamily\bfseries{$\bm{n}$元语法单元}}\index{$\bm{n}$元语法单元}(见{\chapterthree})。$n$越大表示评价时考虑的匹配片段越大。
\parinterval BLEU是目前使用最广泛的自动评价指标。BLEU 是Bilingual Evaluation Understudy的缩写,由IBM 的研究人员在2002 年提出\upcite{DBLP:conf/acl/PapineniRWZ02}。通过采用$n$-gram匹配的方式评定机器翻译结果和参考答案之间的相似度,机器译文越接近参考答案就认定它的质量越高。$n$-gram是指$n$个连续单词组成的单元,称为{\small\sffamily\bfseries{$\bm{n}$元语法单元}}\index{$\bm{n}$元语法单元}(见{\chapterthree})。$n$越大表示评价时考虑的匹配片段越大。
\parinterval BLEU 的计算首先考虑待评价机器译文中$n$-gram在参考答案中的匹配率,称为{\small\sffamily\bfseries{$\bm{n}$-gram准确率}}\index{$\bm{n}$-gram准确率}$n$-gram Precision)\index{$n$-gram Precision}。其计算方法如下:
\begin{eqnarray}
......@@ -243,7 +243,7 @@ Candidate:the the the the
\parinterval 在引入截断方式之前,该译文的1-gram准确率为4/4 = 1,这显然是不合理的。在引入截断的方式之后,``the'' 在译文中出现4 次,在参考答案中出现2 次,截断操作则是取二者的最小值,即$\mathrm{Count_{hit}}$= 2,$\mathrm{Count_{output}}$= 4,该译文的1-gram准确率为2/4。
\parinterval 译文整体的准确率等于各$n$-gram的加权平均:
\parinterval $N$表示考虑的最大$n$-gram的大小,则译文整体的准确率等于各$n$-gram的加权平均:
\begin{eqnarray}
{\rm P_{{\rm{avg}}}} = \exp (\sum\limits_{n = 1}^N {{w_n} \cdot {{{\mathop{\rm logP}\nolimits} }_n}} )
\label{eq:4-5}
......@@ -260,11 +260,11 @@ Candidate:the the the the
\noindent 其中,$c$表示机器译文的句子长度,$r$表示参考答案的句子长度。最终BLEU的计算公式为:
\begin{eqnarray}
\mathrm {BLEU} = \mathrm {BP} \cdot \exp(\sum\limits_{i = 1}^N {{w_n} \cdot {{{\mathop{\mathrm {log}}\nolimits} }\mathrm P_n}} )
\mathrm {BLEU} = \mathrm {BP} \cdot \exp(\sum\limits_{n = 1}^N {{w_n} \cdot {{{\mathop{\mathrm {log}}\nolimits} }\mathrm P_n}} )
\label{eq:4-7}
\end{eqnarray}
\parinterval 实际上,BLEU的计算也是一种综合考虑{\small\sffamily\bfseries{准确率}}\index{准确率}(Precision)\index{Precision}{\small\sffamily\bfseries{召回率}}\index{召回率}(Recall)\index{Recall}的方法。公式中,$\exp(\sum\limits_{i = 1}^N {{w_n} \cdot {{{\mathop{\mathrm {log}}\nolimits} }\mathrm P_n}} )$是一种准确率的表示。BP本是一种召回率的度量,它会惩罚过短的结果。这种设计同分类系统中评价指标F1值是有相通之处的\upcite{DBLP:conf/muc/Chinchor92}
\parinterval 实际上,BLEU的计算也是一种综合考虑{\small\sffamily\bfseries{准确率}}\index{准确率}(Precision)\index{Precision}{\small\sffamily\bfseries{召回率}}\index{召回率}(Recall)\index{Recall}的方法。公式中,$\exp(\sum\limits_{n = 1}^N {{w_n} \cdot {{{\mathop{\mathrm {log}}\nolimits} }\mathrm P_n}} )$是一种准确率的表示。BP本是一种召回率的度量,它会惩罚过短的结果。这种设计同分类系统中评价指标F1值是有相通之处的\upcite{DBLP:conf/muc/Chinchor92}
\parinterval 从机器翻译的发展来看,BLEU 的意义在于它给系统研发人员提供了一种简单、高效、可重复的自动评价手段,在研发机器翻译系统时可以不需要依赖人工评价。同时,BLEU 也有很多创新之处,包括引入$n$-gram的匹配,截断计数和短句惩罚等等,包括NIST 等很多评价指标都是受到BLEU 的启发。此外,BLEU本身也有很多不同的实现方式,包括IBM-BLEU\upcite{DBLP:conf/acl/PapineniRWZ02}、NIST-BLEU\footnote{NIST-BLEU是指美国国家标准与技术研究院(NIST)开发的机器翻译评价工具mteval中实现的一种BLEU计算的方法。}、BLEU-SBP\upcite{DBLP:conf/emnlp/ChiangDCN08}、ScareBLEU等,使用不同实现方式得到评价结果会有差异。因此在实际使用BLEU进行评价时需要确认其实现细节,以保证结果与相关工作评价要求相符。
......@@ -278,13 +278,9 @@ Candidate:the the the the
\subsection{基于词对齐的方法}
\parinterval 基于词对齐的方法,顾名思义就是根据参考答案中的单词与译文中的单词之间的对齐关系对机器翻译译文进行评价。词对齐的概念也被用于统计机器翻译的建模(\chapterfive),这里借用了相同的思想来度量机器译文与参考答案之间的匹配程度。在基于$n$-gram匹配的评价方法中(如BLEU),BP可以起到一些度量召回率的作用,但是这类方法并没有对召回率进行准确的定义。与其不同的是,基于词对齐的方法在机器译文和参考答案的单词之间建立一对一的对应关系,这种评价方法在引入准确率的同时还能显性引入召回率作为评价指标
\parinterval 基于词对齐的方法,顾名思义就是根据参考答案中的单词与译文中的单词之间的对齐关系对机器翻译译文进行评价。词对齐的概念也被用于统计机器翻译的建模(\chapterfive),这里借用了相同的思想来度量机器译文与参考答案之间的匹配程度。在基于$n$-gram匹配的评价方法中(如BLEU),BP可以起到一些度量召回率的作用,但是这类方法并没有对召回率进行准确的定义。与其不同的是,基于词对齐的方法在机器译文和参考答案的单词之间建立一对一的对应关系,这种评价方法在引入准确率的同时还能显性引入召回率作为评价所考虑的因素
\parinterval 在基于词对齐的自动评价方法中,一种典型的方法是Meteor。该方法通过计算精确的word-to-word匹配来度量一个译文的质量\upcite{DBLP:conf/acl/BanerjeeL05},并且在``绝对''匹配之外,还引入了``波特词干匹配''和``同义词''匹配。在下面的内容中,将利用实例对Meteor方法进行介绍。
\parinterval 在Meteor方法中,首先在机器译文与参考答案之间建立单词之间的对应关系,再根据其对应关系计算精确率和召回率。
\parinterval (1)单词之间的对应关系在建立过程中主要涉及三个模型,在对齐过程中依次使用这三个模型进行匹配:\\\\\\
\parinterval 在基于词对齐的自动评价方法中,一种典型的方法是Meteor。该方法通过计算精确的{\small\bfnew{单词到单词}}\index{单词到单词}(Word-to-Word\index{Word-to-Word})的匹配来度量一个译文的质量\upcite{DBLP:conf/acl/BanerjeeL05},并且在`` 绝对''匹配之外,还引入了`` 波特词干匹配''和``同义词''匹配。在下面的内容中,将利用实例对Meteor方法进行介绍。
\begin{example}
Candidate:Can I have it like he ?
......@@ -293,9 +289,13 @@ Candidate:Can I have it like he ?
\label{eg:4-2}
\end{example}
\parinterval 在Meteor方法中,首先在机器译文与参考答案之间建立单词之间的对应关系,再根据其对应关系计算准确率和召回率。
\parinterval (1)单词之间的对应关系在建立过程中主要涉及三个模型,在对齐过程中依次使用这三个模型进行匹配:\\\\\\
\begin{itemize}
\vspace{0.5em}
\item {\small\sffamily\bfseries{``绝对''匹配模型}}\index{``绝对''匹配模型}(Exact Module)\index{Exact Module}。绝对匹配模型在建立单词对应关系时,要求机器译文端的单词与参考答案端的单词完全一致,并且在参考答案端至多有1个单词与机器译文端的单词对应,否则会将其视为多种对应情况。对于实例\ref{eg:4-2},使用``绝对''匹配模型,共有两种匹配结果
\item {\small\sffamily\bfseries{``绝对''匹配模型}}\index{``绝对''匹配模型}(Exact Module)\index{Exact Module}。绝对匹配模型在建立单词对应关系时,要求机器译文端的单词与参考答案端的单词完全一致,并且在参考答案端至多有1个单词与机器译文端的单词对应,否则会将其视为多种对应情况。对于实例\ref{eg:4-2},使用``绝对''匹配模型,共有两种匹配结果,如图\ref{fig:4-3}所示。
%----------------------------------------------
\begin{figure}[htp]
......@@ -308,7 +308,7 @@ Candidate:Can I have it like he ?
%----------------------------------------------
\vspace{0.5em}
\item {\small\sffamily\bfseries{``波特词干''匹配模型}}\index{``波特词干''匹配模型}(Porter Stem Module)\index{Porter Stem Module}。该模型在``绝对''匹配结果的基础上,对尚未对齐的单词进行基于词干的匹配,只需机器译文端单词与参考答案端单词的词干相同即可,如上文中的``do''和``did''。对于图\ref{fig:4-3}的结果,再使用``波特词干'' 匹配模型,结果如下:
\item {\small\sffamily\bfseries{``波特词干''匹配模型}}\index{``波特词干''匹配模型}(Porter Stem Module)\index{Porter Stem Module}。该模型在``绝对''匹配结果的基础上,对尚未对齐的单词进行基于词干的匹配,只需机器译文端单词与参考答案端单词的词干相同即可,如上文中的``do''和``did''。对于图\ref{fig:4-3}的结果,再使用``波特词干'' 匹配模型,得到如图\ref{fig:4-4}所示的结果。
%----------------------------------------------
\begin{figure}[htp]
......@@ -320,7 +320,7 @@ Candidate:Can I have it like he ?
%----------------------------------------------
\vspace{0.5em}
\item {\small\sffamily\bfseries{``同义词''匹配模型}}\index{``同义词''匹配模型}(WN synonymy module)\index{WN Synonymy Module}。该模型在前两个模型匹配结果的基础上,对尚未对齐的单词进行同义词的匹配,即基于WordNet词典匹配机器译文与参考答案中的同义词。如上例中的``eat''和``have''。
\item {\small\sffamily\bfseries{``同义词''匹配模型}}\index{``同义词''匹配模型}(WN synonymy module)\index{WN Synonymy Module}。该模型在前两个模型匹配结果的基础上,对尚未对齐的单词进行同义词的匹配,即基于WordNet词典匹配机器译文与参考答案中的同义词。如上例中的``eat''和``have''。\ref{fig:4-5}给出了一个真实的例子。
%----------------------------------------------
\begin{figure}[htp]
......@@ -334,7 +334,7 @@ Candidate:Can I have it like he ?
\vspace{0.5em}
\end{itemize}
\parinterval 经过上面的处理,可以得到若干对机器译文与参考答案的对齐关系,下一步需要从中确定一个拥有最大的子集的对齐关系(即机器译文中被对齐的单词个数最多的对齐关系)。但是在上例中的两种对齐关系子集基数相同,这种情况下,需要选择一个对齐关系中交叉现象出现最少的对齐关系。于是,最终的对齐关系如图\ref{fig:4-6}所示:
\parinterval 经过上面的处理,可以得到机器译文与参考答案之间的单词对齐关系。下一步需要从中确定一个拥有最大的子集的对齐关系,即机器译文中被对齐的单词个数最多的对齐关系。但是在上例中的两种对齐关系子集基数相同,这种情况下,需要选择一个对齐关系中交叉现象出现最少的对齐关系。于是,最终的对齐关系如图\ref{fig:4-6}所示。
%----------------------------------------------
\begin{figure}[htp]
......@@ -347,13 +347,13 @@ Candidate:Can I have it like he ?
\parinterval (2)在得到机器译文与参考答案的对齐关系后,需要基于对齐关系计算准确率和召回率。
\parinterval 准确率:机器译文中命中单词与机器译文单词总数的比值。即:
\parinterval 准确率:机器译文中命中单词与机器译文单词总数的比值。即:
\begin{eqnarray}
\mathrm P = \frac {\rm{Count}_{hit}}{\rm{Count}_{candidate}}
\label{eq:4-8}
\end{eqnarray}
\parinterval 召回率:机器译文中命中单词数与参考答案单词总数的比值。即:
\parinterval 召回率:机器译文中命中单词数与参考答案单词总数的比值。即:
\begin{eqnarray}
\mathrm R = \frac {\rm{Count}_{hit}}{\rm{Count}_{reference}}
\label{eq:4-9}
......@@ -365,21 +365,21 @@ Candidate:Can I have it like he ?
\label{eq:4-10}
\end{eqnarray}
\parinterval 在上文提到的评价指标中,无论是准确率、召回率还是$\rm F_{mean}$,都是基于单个词汇信息衡量译文质量,而忽略了语序问题。为了将语序问题纳入道评价内容中,Meteor会考虑更长的匹配:将机器译文按照最长匹配长度分块,并对``块数''较多的机器译文给予惩罚。例如上例中,机器译文被分为了三个``块''——``Can I have this''、``like he do''、``?''在这种情况下,看起来上例中的准确率、召回率都还不错,但最终会受到很严重的惩罚。这种罚分机制能够识别出机器译文中的词序问题,因为当待测译文词序与参考答案相差较大时,机器译文将会被分割得比较零散,这种惩罚机制的计算公式如式\ref{eq:4-11},其中$\rm Count_{chunks}$表示匹配的块数。
\parinterval 在上文提到的评价指标中,无论是准确率、召回率还是$\rm F_{mean}$,都是基于单个词汇信息衡量译文质量,而忽略了语序问题。为了将语序问题考虑进来,Meteor会考虑更长的匹配:将机器译文按照最长匹配长度分块,并对``块数''较多的机器译文给予惩罚。例如上例中,机器译文被分为了三个``块''——``Can I have this''、``like he do''、``?''在这种情况下,看起来上例中的准确率、召回率都还不错,但最终会受到很严重的惩罚。这种罚分机制能够识别出机器译文中的词序问题,因为当待测译文词序与参考答案相差较大时,机器译文将会被分割得比较零散,这种惩罚机制的计算公式如式\ref{eq:4-11},其中$\rm Count_{chunks}$表示匹配的块数。
\begin{eqnarray}
\rm P = 0.5*{\left({\frac{\rm Count_{chunks}}{\rm Count_{hit}}} \right)^3}
\rm P = 0.5 \cdot {\left({\frac{\rm Count_{chunks}}{\rm Count_{hit}}} \right)^3}
\label{eq:4-11}
\end{eqnarray}
\parinterval Meteor评价方法的最终评分为:
\begin{eqnarray}
\rm score = {F_{mean}}*(1 - P)
\rm score = {F_{mean}} \cdot (1 - P)
\label{eq:4-12}
\end{eqnarray}
\parinterval Meteor方法也是目前使用最广泛的自动评价方法之一,它的创新点之一在于引入了词干匹配和同义词匹配,扩大了词汇匹配的范围。Meteor方法被提出后,很多人尝试对其进行了改进,使其评价结果与人工评价结果更相近。例如Meteor-next在Meteor的基础上增加{\small\sffamily\bfseries{释义匹配器}}\index{释义匹配器}(Paraphrase Matcher)\index{Paraphrase Matcher},利用该匹配器能够捕获机器译文中与参考答案意思相近的短语,从而在短语层面进行匹配。此外这种方法还引入了{\small\sffamily\bfseries{可调权值向量}}\index{可调权值向量}(Tunable Weight Vector)\index{Tunable Weight Vector},用于调节每个匹配类型的相应贡献\upcite{DBLP:conf/wmt/DenkowskiL10};Meteor 1.3在Meteor的基础上增加了改进的{\small\sffamily\bfseries{文本规范器}}\index{文本规范器}(Meteor Normalizer)\index{Meteor Normalizer}、更高精度的释义匹配以及区分内容词和功能词等指标,其中文本规范器能够根据一些规范化规则,将机器译文中意义等价的标点减少到通用的形式。而区分内容词和功能词则能够得到更为准确地词汇对应关系\upcite{DBLP:conf/wmt/DenkowskiL11};Meteor Universial则通过机器学习方法学习不同语言的可调权值,在对低资源语言进行评价时可对其进行复用,从而实现对低资源语言的译文更准确的评价\upcite{DBLP:conf/wmt/DenkowskiL14}
\parinterval Meteor方法是经典的自动评价方法之一。它的创新点在于引入了词干匹配和同义词匹配,扩大了词汇匹配的范围。Meteor方法被提出后,很多人尝试对其进行了改进,使其评价结果与人工评价结果更相近。例如Meteor-next在Meteor的基础上增加{\small\sffamily\bfseries{释义匹配器}}\index{释义匹配器}(Paraphrase Matcher)\index{Paraphrase Matcher},利用该匹配器能够捕获机器译文中与参考答案意思相近的短语,从而在短语层面进行匹配。此外这种方法还引入了{\small\sffamily\bfseries{可调权值向量}}\index{可调权值向量}(Tunable Weight Vector)\index{Tunable Weight Vector},用于调节每个匹配类型的相应贡献\upcite{DBLP:conf/wmt/DenkowskiL10};Meteor 1.3在Meteor的基础上增加了改进的{\small\sffamily\bfseries{文本规范器}}\index{文本规范器}(Meteor Normalizer)\index{Meteor Normalizer}、更高精度的释义匹配以及区分内容词和功能词等指标,其中文本规范器能够根据一些规范化规则,将机器译文中意义等价的标点减少到通用的形式。而区分内容词和功能词则能够得到更为准确地词汇对应关系\upcite{DBLP:conf/wmt/DenkowskiL11};Meteor Universial则通过机器学习方法学习不同语言的可调权值,在对低资源语言进行评价时可对其进行复用,从而实现对低资源语言的译文更准确的评价\upcite{DBLP:conf/wmt/DenkowskiL14}
\parinterval 由于召回率反映参考答案在何种程度上覆盖目标译文的全部内容,而Meteor在评价过程中显式引入召回率,所以Meteor的评价与人工评价更为接近。但Meteor方法需要借助同义词表、功能词表等外部数据,当外部数据中的目标词对应不正确或缺失相应的目标词时,评价水准就会降低。不仅如此,超参数的设置和使用,对于评分影响较大
\parinterval 由于召回率反映参考答案在何种程度上覆盖目标译文的全部内容,而Meteor在评价过程中显式引入召回率,所以Meteor的评价与人工评价更为接近。但Meteor方法需要借助同义词表、功能词表等外部数据,当外部数据中的目标词对应不正确或缺失相应的目标词时,评价水准就会降低。特别是,针对汉语等于英语差异较大的语言,使用Meteor方法也会面临很多挑战。不仅如此,超参数的设置和使用,对于评分也有较大影响
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
......@@ -387,42 +387,42 @@ Candidate:Can I have it like he ?
\subsection{基于检测点的方法}
\parinterval 基于词串比对和词对齐的自动评价方法中提出的BLEU、TER 等评价指标可以对译文的整体质量进行评估,但是缺乏对具体问题的细致评价。很多情况下,研究人员需要知道系统是否能够处理特定类型的翻译问题,而不是得到一个笼统的评价结果。基于检测点的方法正是基于此想法\upcite{DBLP:journals/mt/Shiwen93}。基于检测点的评价的优点在于对机器翻译系统给出一个总体评价的同时针对系统在各个具体问题上的翻译能力进行评估,方便比较不同翻译模型的性能。这种方法也被多次用于机器翻译比赛的质量评测
\parinterval 基于词串比对和基于词对齐的自动评价方法中提出的BLEU、TER 等评价指标可以对译文的整体质量进行评估,但是缺乏对具体问题的细致评价。很多情况下,研究人员需要知道系统是否能够处理特定类型的翻译问题,而不是得到一个笼统的评价结果。基于检测点的方法正是基于此想法\upcite{DBLP:journals/mt/Shiwen93}。这种评价方法的优点在于对机器翻译系统给出一个总体评价的同时针对系统在各个具体问题上的翻译能力进行评估,方便比较不同翻译模型的性能。这种方法也被多次用于机器翻译比赛的译文质量评估
\parinterval 基于检测点的评价根据事先定义好的语言学检测点对译文的相应部分进行打分。如下是几个英中翻译中的检测点实例:
\begin{example}
They got up at six this morning.
\qquad\ \ \ 他们今天早晨六点钟起床。
\qquad\ \ 他们今天早晨六点钟起床。
\qquad\ \ \ 检测点:时间词的顺序
\qquad\ \ 检测点:时间词的顺序
\label{eg:4-3}
\end{example}
\begin{example}
There are nine cows on the farm.
\qquad\ \ \ 农场里有九头牛。
\qquad\ \ 农场里有九头牛。
\qquad\ \ \ 检测点:量词``头''
\qquad\ \ 检测点:量词``头''
\label{eg:4-4}
\end{example}
\begin{example}
His house is on the south bank of the river.
\qquad\ \ \ 他的房子在河的南岸。
\qquad\ \ 他的房子在河的南岸。
\qquad\ \ \ We keep our money in a bank.
\qquad\ \ We keep our money in a bank.
\qquad\ \ \ 我们在一家银行存钱。
\qquad\ \ 我们在一家银行存钱。
\qquad\ \ \ 检测点:bank 的多义翻译
\qquad\ \ 检测点:bank 的多义翻译
\label{eg:4-5}
\end{example}
\parinterval 该方法的关键在于检测点的获取,有工作曾提出一种从平行双语句子中自动提取检查点的方法\upcite{DBLP:conf/coling/ZhouWLLZZ08},借助大量的双语词对齐平行语料,利用自然语言处理工具对其进行词性标注、依存分析、成分分析等处理,利用预先构建的人工词典和人为定义的规则,识别语料中不同类别的检查点,从而构建检查点数据库。其中,将检查点分别设计为单词级(如介词、歧义词等)、短语级(如固定搭配)、句子级(特殊句型、复合句型等)三个层面,在对机器翻译系统进行评价时,在检查点数据库中分别选取不同类别检查点对应的测试数据进行测试,从而了解机器翻译系统在各种重要语言现象方面的翻译能力。除此之外,这种方法也能应用于机器翻译系统之间的性能比较中,通过为各个检查点分配合理的权重,用翻译系统在各个检查点得分的加权平均作为系统得分,从而对机器翻译系统的整体水平作出评价。
\parinterval 该方法的关键在于检测点的获取。有工作曾提出一种从平行双语句子中自动提取检查点的方法\upcite{DBLP:conf/coling/ZhouWLLZZ08},借助大量的双语词对齐平行语料,利用自然语言处理工具对其进行词性标注、句法分析等处理,利用预先构建的词典和人工定义的规则,识别语料中不同类别的检查点,从而构建检查点数据库。其中,将检查点分别设计为单词级(如介词、歧义词等)、短语级(如固定搭配)、句子级(特殊句型、复合句型等)三个层面,在对机器翻译系统进行评价时,在检查点数据库中分别选取不同类别检查点对应的测试数据进行测试,从而了解机器翻译系统在各种重要语言现象方面的翻译能力。除此之外,这种方法也能应用于机器翻译系统之间的性能比较中,通过为各个检查点分配合理的权重,用翻译系统在各个检查点得分的加权平均作为系统得分,从而对机器翻译系统的整体水平作出评价。
\parinterval 基于检测点的评价方法的意义在于,它并不是简单给出一个分数,反而更像是一种诊断型评估方法,能够帮助系统研发人员定位系统问题。因此这类方法更多地使用在对机器翻译系统的翻译能力进行分析上,是对BLEU 等整体评价指标的一种很好的补充。
......@@ -432,7 +432,7 @@ His house is on the south bank of the river.
\subsection{多策略融合的评价方法}\label{Evaluation method of Multi Strategy fusion}
\parinterval 前面介绍的几种自动评价方法中,大多是从某个单一的角度比对机器译文与参考答案之间的相似度,例如BLEU更关注$n$-gram是否命中、Meteor更关注机器译文与参考答案之间的词对齐信息、WER、PER与TER等方法只关注机器译文与参考译文之间的编辑距离,此外还有一些并不常见的自动评价方法比较关注机器译文和参考译文在语法、句法方面的相似度。但无一例外的是,每种自动评价的关注点都是单一的,无法对译文质量进行全面、综合的评价。为了克服这种限制,研究人员们提出了一些基于多策略融合的译文质量评估方法,以期提高自动评价方法与人工评价方法的结果一致性。
\parinterval 前面介绍的几种自动评价方法中,大多是从某个单一的角度比对机器译文与参考答案之间的相似度,例如BLEU更关注$n$-gram是否命中、Meteor更关注机器译文与参考答案之间的词对齐信息、WER、PER 与TER等方法只关注机器译文与参考译文之间的编辑距离,此外还有一些方法比较关注机器译文和参考译文在语法、句法方面的相似度。但无一例外的是,每种自动评价的关注点都是单一的,无法对译文质量进行全面、综合的评价。为了克服这种限制,研究人员们提出了一些基于多策略融合的译文质量评估方法,以期提高自动评价与人工评价结果的一致性。
\parinterval 基于策略融合的自动评价方法往往会将多个基于词汇、句法和语义的自动评价方法融合在内,其中比较核心的问题是如何将多个评价方法进行合理地组合。目前提出的方法中颇具代表性的是使用参数化方式和非参数化方式对多种自动评价方法进行筛选和组合。
......@@ -456,13 +456,13 @@ His house is on the south bank of the river.
\subsubsection{1.增大参考答案集}
\parinterval BLUE、Meteor、TER等自动评价方法的结果往往与人工评价结果存在差距,其主要原因是这些自动评价方法往往通过直接比对机器译文与有限的参考答案之间的``外在差异'',由于参考答案集可覆盖的人类译文数量过少,当机器译文本来十分合理但却未被包含在参考答案集中时,就会将其质量过分低估。
\parinterval BLEU、Meteor、TER等自动评价方法的结果往往与人工评价结果存在差距,一个主要原因是这些自动评价方法通过直接比对机器译文与有限的参考答案之间的``外在差异'',由于参考答案集可覆盖的人类译文数量过少,当机器译文本来十分合理但却未被包含在参考答案集中时,就会将其质量过分低估。
\parinterval HyTER是2012年被提出的一种自动评价方法,它致力于得到所有可能译文的紧凑编码,从而实现自动评价过程中访问所有合理译文\upcite{DBLP:conf/naacl/DreyerM12}。这种评价方法的原理非常简单直观:
\parinterval 针对这个问题,HyTER自动评价方法致力于得到所有可能译文的紧凑编码,从而实现自动评价过程中访问所有合理的译文\upcite{DBLP:conf/naacl/DreyerM12}。这种评价方法的原理非常简单直观:
\begin{itemize}
\vspace{0.5em}
\item 通过注释工具标记出一个短语的所有备选含义(同义词)并存储在一起作为一个同义单元。可以认为每个同义单元表达了一个语义概念。在生成参考答案时,可以通过对某参考答案中的短语用同义单元进行替换生成一个新的参考答案。例如,将中文句子``对国足的支持率接近于0''翻译为英文,同义单元有以下几种:
\item 通过注释工具标记出一个短语的所有备选含义(同义词)并存储在一起作为一个同义单元。可以认为每个同义单元表达了一个语义概念。在生成参考答案时,可以通过对某参考答案中的短语用同义单元进行替换生成一个新的参考答案。例如,将中文句子``对提案的支持率接近于0''翻译为英文,同义单元有以下几种:
\noindent [THE-SUPPORT-RATE]:
......@@ -504,19 +504,19 @@ His house is on the south bank of the river.
\end{figure}
%----------------------------------------------
\parinterval 但是在捷克语中主语``městská rada''或是``zastupitelstvo města''的性别必须由动词来反映,那么上述捷克语的参考答案集中有部分存在语法错误。为了避免此类现象的出现,研究人员在同义单元中加入了将同义单元组合在一起必须满足的限制条件\upcite{DBLP:conf/tsd/BojarMTZ13},从而在增大参考答案集同时确保了每个参考答案的准确性
\parinterval 但是在捷克语中主语``městská rada''或是``zastupitelstvo města''的性别必须由动词来反映,那么上述捷克语的参考答案集中有部分存在语法错误。为了避免此类现象的出现,研究人员在同义单元中加入了将同义单元组合在一起必须满足的限制条件\upcite{DBLP:conf/tsd/BojarMTZ13},从而在增大参考答案集同时确保了每个参考答案的准确性
\parinterval 将参考答案集扩大后,可以继续沿用BLEU或NIST等基于$n$元语法的方法进行自动评价,但是传统方法往往会忽略多重参考答案中的重复信息,于是对每个$n$元语法进行加权的自动评价方法被提出\upcite{DBLP:conf/eamt/QinS15}。该方法根据每个$n$元语法单元的长度、在参考答案集中出现的次数、被虚词(如``the''``by''``a''等)分开后的分散度等方面,确定其在计算最终分数时所占的权重。以BLEU方法为例,原分数计算方式如公式13所示
\parinterval 将参考答案集扩大后,可以继续沿用BLEU或NIST等基于$n$元语法的方法进行自动评价,但是传统方法往往会忽略多重参考答案中的重复信息,于是对每个$n$元语法进行加权的自动评价方法被提出\upcite{DBLP:conf/eamt/QinS15}。该方法根据每个$n$元语法单元的长度、在参考答案集中出现的次数、被虚词(如“the”,“by”,“a”等)分开后的分散度等方面,确定其在计算最终分数时所占的权重。以BLEU方法为例(\ref{sec:ngram-eval}节),可以将式\ref{eq:4-7}改写为
\begin{eqnarray}
\mathrm {BLEU} &=& \mathrm {BP} \cdot {\rm{exp}}(\sum\limits_{i = 1}^N {{w_n} \cdot {{{\mathop{\rm log}\nolimits} }\mathrm{P}_n}} )
\label{eq:4-13}\\
\mathrm{BLEU} &=& \mathrm {BP} \cdot {\rm{exp}}(\sum\limits_{i = 1}^N {{w_n} \cdot \log (\mathrm{S}_n \times \mathrm{P}_n} ))
\mathrm{BLEU} &=& \mathrm {BP} \cdot {\rm{exp}}(\sum\limits_{n = 1}^N {{w_n} \cdot \log (\mathrm{S}_n \times \mathrm{P}_n} ))
\label{eq:4-14}\\
\mathrm{S}_n &=& \mathrm{Ngram_{diver}} \times \log (n + \frac{M}{\rm{Count_{ref}}})
\mathrm{S}_n &=& n\mathrm{-gram_{diver}} \cdot \log (n + \frac{M}{\rm{Count_{ref}}})
\label{eq:4-15}
\end{eqnarray}
\parinterval 本方法分数的计算方法见公式\ref{eq:4-14},其中$\mathrm{S}_n$即为为某个$n$元语法单元分配的权重,计算方式见公式\ref{eq:4-15},公式中$n$为语法单语的长度,$M$为参考答案集中出现该$n$元语法单元的参考答案数量,$\rm{Count_{ref}}$为参考答案集大小。$\mathrm{Ngram_{diver}}$为该$n$元语法单元的分散度,用$n$元语法单元种类数量与语法单元总数的比值计算。
\noindent 其中,$\mathrm{S}_n$即为为某个$n$元语法单元分配的权重,$M$为参考答案集中出现该$n$-gram中的参考答案数量,$\rm{Count_{ref}}$ 为参考答案集大小。$n\mathrm{-gram_{diver}}$为该$n$-gram的分散度,用$n$-gram种类数量与语法单元总数的比值计算。
\parinterval 需要注意的是,HyTER方法对参考译文的标注有特殊要求,因此需要单独培训译员并开发相应的标注系统。这在一定程度上也增加了该方法被使用的难度。
%----------------------------------------------------------------------------------------
% NEW SUBSUB-SECTION
......@@ -524,11 +524,11 @@ His house is on the south bank of the river.
\subsubsection{2.利用分布式表示进行质量评价}
\parinterval 2003年,在自然语言处理的神经语言建模任务中引入了词嵌入技术,其思想是把每个单词映射为多维实数空间中的一个点(具体表现为一个实数向量),这种技术也被称作单词的分布式表示。在这项技术中,研究人员们发现单词之间的关系可以通过空间的几何性质进行刻画,意义相近的单词之间的欧式距离也十分相近。(单词分布式表示的具体内容,将在书的{\chapternine}详细介绍,在此不再赘述。)
\parinterval {\small\bfnew{词嵌入}}\index{词嵌入}(Word Embedding\index{Word Embedding})技术是近些年自然语言处理中的重要成果,其思想是把每个单词映射为多维实数空间中的一个点(具体表现为一个实数向量),这种技术也被称作单词的{\small\bfnew{分布式表示}}\index{分布式表示}(Distributed Representation\index{Distributed Representation})。在这项技术中,单词之间的关系可以通过空间的几何性质进行刻画,意义相近的单词之间的欧式距离也十分相近(单词分布式表示的具体内容,将在书的{\chapternine} 详细介绍,在此不再赘述)。
\parinterval 受词嵌入技术的启发,研究人员尝试借助参考答案和机器译文的分布式表示来进行译文质量评价,为译文质量评价提供了新思路。在自然语言的上下文中,表示是与每个单词、句子或文档相关联的数学对象。这个对象通常是一个向量,其中每个元素的值在某种程度上描述了相关单词、句子或文档的语义或句法属性。{\small\sffamily\bfseries{分布式表示评价度量}}\index{分布式表示评价度量}(Distributed Representations Evaluation Metrics,DREEM)\index{Distributed Representations Evaluation Metrics}将单词或句子的分布式表示映射到连续的低维空间,发现在该空间中,具有相似句法和语义属性的单词彼此接近\upcite{bengio2003a,DBLP:conf/emnlp/SocherPHNM11,DBLP:conf/emnlp/SocherPWCMNP13},证明了利用分布式表示实现译文质量评估的可行性
\parinterval 受词嵌入技术的启发,研究人员尝试借助参考答案和机器译文的分布式表示来进行译文质量评价,为译文质量评价提供了新思路。在自然语言的上下文中,表示是与每个单词、句子或文档相关联的数学对象。这个对象通常是一个向量,其中每个元素的值在某种程度上描述了相关单词、句子或文档的语义或句法属性。基于这个想法,研究人员提出了{\small\sffamily\bfseries{分布式表示评价度量}}\index{分布式表示评价度量}(Distributed Representations Evaluation Metrics,DREEM)\index{Distributed Representations Evaluation Metrics}\upcite{chen-guo-2015-representation}。这种方法将单词或句子的分布式表示映射到连续的低维空间,发现在该空间中,具有相似句法和语义属性的单词彼此接近,类似的结论也出现在相关工作中\upcite{bengio2003a,DBLP:conf/emnlp/SocherPHNM11,DBLP:conf/emnlp/SocherPWCMNP13}。而这个特点可以被应用到译文质量评估中
\parinterval该类方法中,分布式表示的选取是一个十分关键的问题,理想的情况下,分布式表示应该涵盖句子在词汇、句法、语法、语义、依存关系等各个方面的信息。目前常见的分布式表示方式如表\ref{tab:4-2}所示。除此之外,还可以通过词袋模型、循环神经网路、卷积神经网络、深层平均网络\upcite{iyyer-etal-2015-deep}、Quick-Thought模型\upcite{DBLP:conf/iclr/LogeswaranL18}等将词向量表示转换为句子向量表示。
\parintervalDREEM中,分布式表示的选取是一个十分关键的问题,理想的情况下,分布式表示应该涵盖句子在词汇、句法、语法、语义、依存关系等各个方面的信息。目前常见的分布式表示方式如表\ref{tab:4-2}所示。除此之外,还可以通过词袋模型、循环神经网路等将词向量表示转换为句子向量表示。
\begin{table}[htp]{
\begin{center}
......@@ -549,41 +549,45 @@ His house is on the south bank of the river.
\end{center}
}\end{table}
\parinterval DREEM方法中选取了能够反映句子中使用的特定词汇的One-hot向量、能够反映词汇信息的词嵌入向量\upcite{bengio2003a}、能够反映句子的合成语义信息的{\small\sffamily\bfseries{递归自动编码}}\index{递归自动编码}(Recursive Autoencoder Embedding, RAE)\index{Recursive Autoencoder Embedding},这三种表示级联在一起,最终形成句子的向量表示。在得到机器译文和参考答案的上述分布式表示后,利用余弦相似度和长度惩罚对机器译文质量进行评价。机器译文$t$和参考答案$r$之间的相似度如公式\ref{eq:4-16}所示,其中${v_i}(t)$${v_i}(r)$分别是机器译文和参考答案的向量表示中的第$i$个元素,$N$是向量表示的维度大小。
\parinterval DREEM方法中选取了能够反映句子中使用的特定词汇的One-hot向量、能够反映词汇信息的词嵌入向量\upcite{bengio2003a}、能够反映句子的合成语义信息的{\small\sffamily\bfseries{递归自动编码}}\index{递归自动编码}(Recursive Autoencoder Embedding, RAE)\index{Recursive Autoencoder Embedding},这三种表示级联在一起,最终形成句子的向量表示。在得到机器译文和参考答案的上述分布式表示后,利用余弦相似度和长度惩罚对机器译文质量进行评价。机器译文$o$和参考答案$g$之间的相似度如公式\ref{eq:4-16}所示,其中${v_i}(o)$${v_i}(g)$分别是机器译文和参考答案的向量表示中的第$i$个元素,$N$是向量表示的维度大小。
\begin{eqnarray}
\mathrm {cos}(t,r) = \frac{{\sum\limits_{i = 1}^N {{v_i}(t) \cdot {v_i}(r)} }}{{\sqrt {\sum\limits_{i = 1}^N {v_i^2(t)} } \sqrt {\sum\limits_{i = 1}^N {v_i^2(r)} } }}
\mathrm {cos}(t,r) = \frac{{\sum\limits_{i = 1}^N {{v_i}(o) \cdot {v_i}(g)} }}{{\sqrt {\sum\limits_{i = 1}^N {v_i^2(o)} } \sqrt {\sum\limits_{i = 1}^N {v_i^2(g)} } }}
\label{eq:4-16}
\end{eqnarray}
\parinterval 在此基础上,DREEM方法还引入了长度惩罚项,对与参考答案长度相差太多的机器译文进行惩罚,长度惩罚项如公式\ref{eq:4-17}所示,其中${l_t}$${l_r}$分别是机器译文和参考答案长度:
\parinterval 在此基础上,DREEM方法还引入了长度惩罚项,对与参考答案长度相差太多的机器译文进行惩罚,长度惩罚项如公式\ref{eq:4-17}所示,其中${l_o}$${l_g}$分别是机器译文和参考答案长度:
\begin{eqnarray}
\mathrm{BP} = \left\{ \begin{array}{l}
\exp (1 - {{{l_r}} \mathord{\left/
{\vphantom {{{l_r}} {{l_t}}}} \right.
\kern-\nulldelimiterspace} {{l_t}}})\quad {l_t} < {l_r}\\
\exp (1 - {{{l_t}} \mathord{\left/
{\vphantom {{{l_t}} {{l_r}}}} \right.
\kern-\nulldelimiterspace} {{l_r}}})\quad {l_t} \ge {l_r}
\exp (1 - {{{l_g}} \mathord{\left/
{\vphantom {{{l_g}} {{l_o}}}} \right.
\kern-\nulldelimiterspace} {{l_o}}})\quad {l_o} < {l_g}\\
\exp (1 - {{{l_o}} \mathord{\left/
{\vphantom {{{l_o}} {{l_g}}}} \right.
\kern-\nulldelimiterspace} {{l_g}}})\quad {l_o} \ge {l_g}
\end{array} \right.
\label{eq:4-17}
\end{eqnarray}
\parinterval 机器译文的最终得分如下,其中$\alpha$是一个需要手动设置的参数:
\begin{eqnarray}
\mathrm{score}(t,r) = \mathrm{cos}{^\alpha }(t,r) \times \mathrm{BP}
\mathrm{score}(o,g) = \mathrm{cos}{^\alpha }(o,g) \times \mathrm{BP}
\label{eq:4-18}
\end{eqnarray}
\parinterval 与传统自动评价方法中对机器译文与参考答案的外在的词汇或是$n$元语法单元进行比较不同,该方法观察到的不只是单词的多余、缺少、乱序等问题,还可以从句法、语义等更深层的内容对两者进行相似度对比。此方法在译文质量评价方面的成功,也鼓励了更多研究人员利用分布式表示方法进行译文质量评价。
\parinterval 在DREEM方法取得成功后,基于词嵌入的词对齐自动评价方法被提出\upcite{DBLP:journals/corr/MatsuoKS17},该方法中先得到机器译文与参考答案的词对齐关系后,通过平均对齐关系$x_i$$y_i$中两者的词嵌入相似度来计算机器译文与参考答案的相似度,具体见公式\ref{eq:4-19},其中$x$是机器译文,$y$是参考答案,函数$\varphi(\cdot)$用来计算对齐关系$x_i$$y_i$的相似度。
\parinterval 本质上,分布式表示是一种对句子语义的一种统计表示。因此,它可以帮助评价系统捕捉一些从简单的词或者句子片段中不易发现的现象,进而进行更深层的句子匹配。
\parinterval 在DREEM方法取得成功后,基于词嵌入的词对齐自动评价方法被提出\upcite{DBLP:journals/corr/MatsuoKS17},该方法中先得到机器译文与参考答案的词对齐关系后,通过对齐关系中两者的词嵌入相似度来计算机器译文与参考答案的相似度,公式如下:
\begin{eqnarray}
\mathrm{ASS}(x,y) = \frac{1}{{\left| x \right|\left| y \right|}}\sum\limits_{i = 1}^{\left| x \right|} {\sum\limits_{j = 1}^{\left| y \right|} {\varphi ({x_i},{y_j})} }
\mathrm{ASS}(o,g) = \frac{1}{{m \cdot l}}\sum\limits_{i = 1}^{m} {\sum\limits_{j = 1}^{l} {\varphi (o,g,i,j)} }
\label{eq:4-19}
\end{eqnarray}
\noindent 其中,$o$是机器译文,$g$是参考答案,$m$表示译文$o$的长度,$l$表示参考答案$g$的长度,函数$\varphi(o,g,i,j)$用来计算$o$中第$i$个词和$g$中第$j$个词之间对齐关系的相似度。
\parinterval 此外,将分布式表示与相对排序融合也是一个很有趣的想法\upcite{DBLP:journals/csl/GuzmanJMN17},在这个尝试中,研究人员利用分布式表示提取参考答案和多个机器译文中的句法信息和语义信息,利用神经网络模型对多个机器译文进行排序。
\parinterval 在基于分布式表示的这类译文质量评价方法中,译文和参考答案的所有词汇信息和句法语义信息都被包含在句子的分布式表示中,克服了单一参考答案的限制。但是同时也带来了新的问题,一方面将句子转化成分布式表示使评价过程变得不太直观,另一方面该类评价方法的优劣与分布式表示的选取息息相关,为了获得与人工评价更相关的评价效果,分布式表示的选取和组合方式还需要进一步的研究
\parinterval 在基于分布式表示的这类译文质量评价方法中,译文和参考答案的所有词汇信息和句法语义信息都被包含在句子的分布式表示中,克服了单一参考答案的限制。但是同时也带来了新的问题,一方面将句子转化成分布式表示使评价过程变得不那么具有可解释性,另一方面分布式表示的质量也会对评价结果有较大的影响
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
......@@ -609,7 +613,7 @@ His house is on the south bank of the river.
\vspace{0.5em}
\end{itemize}
\parinterval 目前在机器译文质量评价的领域中,有很多研究工作尝试比较各种有参考答案的自动评价方法(主要以BLEU、NIST等基于$n$元语法的方法为主)与人工评价方法的相关性。整体来看,这些方法与人工评价具有一定的相关性,自动评价结果能够较好地翻译译文质量\upcite{coughlin2003correlating}\upcite{doddington2002automatic}
\parinterval 目前在机器译文质量评价的领域中,有很多研究工作尝试比较各种有参考答案的自动评价方法(主要以BLEU、NIST等基于$n$元语法的方法为主)与人工评价方法的相关性。整体来看,这些方法与人工评价具有一定的相关性,自动评价结果能够较好地翻译译文质量\upcite{coughlin2003correlating,doddington2002automatic}
\parinterval 但是也有相关研究指出,不应该对有参考答案的自动评价方法过于乐观,而应该存谨慎态度,因为目前的自动评价方法对于流利度的评价并不可靠,同时参考答案的体裁和风格往往会对自动评价结果产生很大影响\upcite{culy2003limits}。同时,有研究者提出,在机器翻译研究过程中,忽略实际的示例翻译而仅仅通过BLEU等自动评价方式得分的提高来表明机器翻译质量的提高是不可取的,因为BLEU的提高并不足以反映翻译质量的真正提高,而在另一些情况下,为了实现翻译质量的显著提高,并不需要提高BLEU\upcite{callison2006re}
......@@ -620,9 +624,9 @@ His house is on the south bank of the river.
\sectionnewpage
\section{无参考答案的自动评价}
\parinterval 无参考答案自动评价在机器翻译领域又被称作{\small\sffamily\bfseries{质量评估}}\index{质量评估}(Quality Estimation,\\QE)\index{Quality Estimation,QE}。与传统的译文质量评价方法不同,质量评估旨在不参照标准译文的情况下,对机器翻译系统的输出在单词、短语、句子、文档等各个层次进行评价,于是在质量评估这个任务的基础上衍生出了单词级质量评估、短语级质量评估、句子级质量评估和文档级质量评估几种相关任务
\parinterval 无参考答案自动评价在机器翻译领域又被称作{\small\sffamily\bfseries{质量评估}}\index{质量评估}(Quality Estimation,\\QE)\index{Quality Estimation,QE}。与传统的译文质量评价方法不同,质量评估旨在不参照标准译文的情况下,对机器翻译系统的输出在单词、短语、句子、文档等各个层次进行评价。
\parinterval 人们对于无参考答案自动评价的需求大多来源于机器翻译的实际应用。例如,在机器翻译的译后编辑过程中,译员不仅仅希望了解机器翻译系统的整体翻译质量,还需要了解该系统在某个句子上的表现如何:该机器译文的质量是否很差?需要修改的内容有多少?是否值得进行后编辑?这时,译员更加关注系统在单个数据点上(比如一段话)的可信度而非系统在测试数据集上的平均质量。这时,太多的人工介入就无法保证使用机器翻译所带来的高效性,因此在机器翻译输出译文的同时,需要质量评估系统给出对译文质量的预估结果。这些需求也促使研究人员在质量评估问题上投入了更多的研究力量。包括WMT、CCMT等知名机器翻译评测中也都设置了相关任务,受到了业界的认可
\parinterval 人们对于无参考答案自动评价的需求大多来源于机器翻译的实际应用。例如,在机器翻译的译后编辑过程中,译员不仅仅希望了解机器翻译系统的整体翻译质量,还需要了解该系统在某个句子上的表现如何:该机器译文的质量是否很差?需要修改的内容有多少?是否值得进行后编辑?这时,译员更加关注系统在单个数据点上(比如一段话)的可信度而非系统在测试数据集上的平均质量。这时,太多的人工介入就无法保证使用机器翻译所带来的高效性,因此在机器翻译输出译文的同时,需要质量评估系统给出对译文质量的预估结果。这些需求也促使研究人员在质量评估问题上投入了更多的研究力量。包括WMT、CCMT等知名机器翻译评测中也都设置了相关任务,受到了业界的关注
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
......@@ -674,7 +678,7 @@ scharfzeichnen.(德语)
\vspace{0.5em}
\item {\small\sffamily\bfseries{找出译文中翻译错误的单词}}。单词级质量评估任务要求预测一个与译文等长的质量标签序列,该标签序列反映译文端的每个单词是否能够准确表达出其对应的源端单词的含义,若是可以,则标签为``OK'',反之则为``BAD''。图\ref{fig:4-11}中的连线表示单词之间的对齐关系,图\ref{fig:4-11}中的MT tags即为该过程中需要预测的质量标签序列。
\vspace{0.5em}
\item {\small\sffamily\bfseries{找出源文中导致翻译错误的单词}}。单词级质量评估任务还要求预测一个与源文等长的质量标签序列,该标签序列反映源文端的每个单词是否会导致本次翻译出现错误,若是不会,则标签为``OK'',反之则为``BAD''。图\ref{fig:4-11}中的Source tags即为该过程中的质量标签序列。在实际实现中,质量评估系统往往先预测译文端的质量标签序列,并根据源文与译文之间的对齐关系,推测源端的质量标签序列。
\item {\small\sffamily\bfseries{找出源文中导致翻译错误的单词}}。单词级质量评估任务还要求预测一个与源文等长的质量标签序列,该标签序列反映源文端的每个单词是否会导致本次翻译出现错误,若是不会,则标签为``OK'',反之则为``BAD''。图\ref{fig:4-11}中的Source tags即为该过程中的质量标签序列。在具体应用时,质量评估系统往往先预测译文端的质量标签序列,并根据源文与译文之间的对齐关系,推测源端的质量标签序列。
\vspace{0.5em}
\item {\small\sffamily\bfseries{找出在翻译句子时出现漏译现象的位置}}。单词级质量评估任务同时也要求预测一个能够捕捉到漏译现象的质量标签序列,在译文端单词的两侧位置进行预测,若某位置未出现漏译,则该位置的质量标签为``OK'',否则为``BAD''。图\ref{fig:4-11}中的Gap tags即为该过程中的质量标签序列。为了检测句子翻译中的漏译现象,需要在译文中标记缺口,即译文中的每个单词两边都各有一个``GAP''标记,如图\ref{fig:4-11}所示。
\vspace{0.5em}
......@@ -686,7 +690,7 @@ scharfzeichnen.(德语)
\subsubsection{2.短语级质量评估}
\parinterval 短语级质量评估可以看做是单词级质量评估任务的扩展:机器翻译系统引发的错误往往都是相互关联的,解码过程中某个单词出错会导致更多的错误,特别是在其局部上下文当中,以单词的``局部上下文''为基本单元进行指令评估即为短语级质量评估。
\parinterval 短语级质量评估可以看做是单词级质量评估任务的扩展:机器翻译系统引发的错误往往都是相互关联的,解码过程中某个单词出错会导致更多的错误,特别是在其局部上下文当中,以单词的``局部上下文''为基本单元进行质量评估即为短语级质量评估。
\parinterval 短语级质量评估与单词级质量评估类似,其目标是找出短语中翻译错误、短语内部语序问题及漏译问题。短语级质量评估任务可以被定义为:以若干个连续单词组成的短语为基本评估单位,参照源语言句子,自动标记出短语内部短语错误以及短语之间的是否存在漏译。其中的短语错误包括短语内部单词的错译和漏译、短语内部单词的语序错误,而漏译问题则特指短语之间的漏译错误。在短语级质量评估任务中,输入是机器译文和源语言句子,输出是一系列标签序列,即图\ref{fig:4-12}中的Phrase-target tags、Gap tags,标签序列中的每个标签对应翻译中的每个单词,并表明该位置是否出现错误。
......@@ -702,7 +706,7 @@ scharfzeichnen.(德语)
\parinterval 下面以实例\ref{eg:4-8}为例介绍该任务的具体内容:
\begin{example}
短语级质量评估任务
短语级质量评估任务(短语间用 || 分隔)
源句:Bei Patienten mit || eingeschränkter Nierenfunktion kann || Insulinabbaus ||
......@@ -732,28 +736,28 @@ scharfzeichnen.(德语)
\subsubsection{3.句子级质量评估}
\parinterval 迄今为止,质量评估的大部分工作都集中在句子层次的预测上,这是因为多数情况下机器翻译系统的处理都是逐句进行,系统用户也总是每次翻译一个句子或是以句子为单位组成的文本块(段落、文档等),因此以句子作为质量评估的基本单元是相当自然的。
\parinterval 迄今为止,质量评估的大部分工作都集中在句子层次的预测上,这是因为多数情况下机器翻译系统的处理都是逐句进行,系统用户也总是每次翻译一个句子或是以句子为单位组成的文本块(段落、文档等),因此以句子作为质量评估的基本单元是自然的。
\parinterval 句子级质量评估的目标是生成能够反映译文句子整体质量的质量标签——可以是离散型的表示某种质量等级的标签,也可以是连续型的基于评分的标签。虽然以不同的标准进行评估,同一个译文句子的质量标签可能有所不同,但可以肯定的是句子的最终质量绝不是句子中单词质量的简单累加。因为与词级的质量评估相比,句子级质量评估也会关注是否保留源句的语义、译文的语义是否连贯、译文中的单词顺序是否合理等因素。
\parinterval 句子级质量评估的目标是生成能够反映译文句子整体质量的标签\ \dash \ 可以是离散型的表示某种质量等级的标签,也可以是连续型的基于评分的标签。虽然以不同的标准进行评估,同一个译文句子的质量标签可能有所不同,但可以肯定的是句子的最终质量绝不是句子中单词质量的简单累加。因为与词级的质量评估相比,句子级质量评估也会关注是否保留源句的语义、译文的语义是否连贯、译文中的单词顺序是否合理等因素。
\parinterval 句子级质量评估,顾名思义就是根据某种评价标准,通过建立模型来预测一个反映句子质量的标签。人们可以根据句子翻译的目的、后编辑的工作难度、是否达到发表要求或是是否能让非母语者读懂等各个角度、各个标准去设定句子级质量评估的标准。句子级质量评估任务的发展经历过下面几个阶段
\parinterval 句子级质量系统需要根据某种评价标准,通过建立预测模型来生成一个反映句子质量的标签。人们可以根据句子翻译的目的、后编辑的工作难度、是否达到发表要求或是是否能让非母语者读懂等各个角度、各个标准去设定句子级质量评估的标准。句子级质量评估任务有多种形式
\begin{itemize}
\vspace{0.5em}
\item 区分``人工翻译''和``机器翻译''。在最初的工作中,研究人员试图训练一个能够区分人工翻译和机器翻译的二分类器完成句子级的质量评估\upcite{gamon2005sentence},将被分类器判断为``人工翻译''的机器译文视为优秀的译文,将被分类器判断为``机器翻译''的机器译文视为较差的译文。一方面,这种评估方式不够直观,另一方面,这种评估方式并不十分合理,因为通过人工比对发现很多被判定为``机器翻译''的译文具有与人们期望的人类翻译相同的质量水平。
\item 区分``人工翻译''和``机器翻译''。在早期的工作中,研究人员试图训练一个能够区分人工翻译和机器翻译的二分类器完成句子级的质量评估\upcite{gamon2005sentence},将被分类器判断为``人工翻译''的机器译文视为优秀的译文,将被分类器判断为``机器翻译''的机器译文视为较差的译文。一方面,这种评估方式不够直观,另一方面,这种评估方式并不十分准确,因为通过人工比对发现很多被判定为``机器翻译''的译文具有与人们期望的人类翻译相同的质量水平。
\vspace{0.5em}
\item 预测反映译文句子质量的``质量标签''。此后,研究人员们试图使用人工为机器译文分配能够反映译文质量的标签\upcite{DBLP:conf/lrec/Quirk04},例如``不可接受''``一定程度上可接受''``可接受''``理想''等,同时将获取机器译文的质量标签作为句子级质量评估的任务目标。
\item 预测反映译文句子质量的``质量标签''。在同一时期,研究人员们也尝试使用人工为机器译文分配能够反映译文质量的标签\upcite{DBLP:conf/lrec/Quirk04},例如``不可接受''、``一定程度上可接受''、`` 可接受''、`` 理想''等类型的质量标签,同时将获取机器译文的质量标签作为句子级质量评估的任务目标。
\vspace{0.5em}
\item 预测译文句子的相对排名。当相对排序(详见4.2节)的译文评价方法被引入后,给出机器译文的相对排名成为句子级质量评估的任务目标。
\item 预测译文句子的相对排名。当相对排序(详见\ref{sec:human-eval-scoring}节)的译文评价方法被引入后,给出机器译文的相对排名成为句子级质量评估的任务目标。
\vspace{0.5em}
\item 预测译文句子的后编辑工作量。在最近的研究中,句子级地质量评估一直在探索各种类型的离散或连续的后编辑标签。例如,通过测量以秒为单位的后编辑时间对译文句子进行评分;通过测量预测后编辑过程所需的击键数对译文句子进行评分;通过计算{\small\sffamily\bfseries{人工译后编辑距离}}\index{人工译后编辑距离}(Human Translation Error Rate,HTER)\index{Human Translation Error Rate,HTER},即在后编辑过程中编辑(插入/删除/替换))数量与参考翻译长度的占比率对译文句子进行评分。HTER的计算公式为:
\item 预测译文句子的后编辑工作量。在最近的研究中,句子级地质量评估一直在探索各种类型的离散或连续的后编辑标签。例如,通过测量以秒为单位的后编辑时间对译文句子进行评分;通过测量预测后编辑过程所需的击键数对译文句子进行评分;通过计算{\small\sffamily\bfseries{人工译后编辑距离}}\index{人工译后编辑距离}(Human Translation Error Rate,HTER)\index{Human Translation Error Rate,HTER},即在后编辑过程中编辑(插入/删除/替换)数量与参考翻译长度的占比率对译文句子进行评分。HTER的计算公式为:
\vspace{0.5em}
\begin{eqnarray}
\rm{HTER}= \frac{\mbox{编辑操作数目}}{\mbox{翻译后编辑结果长度}}
\label{eq:4-20}
\end{eqnarray}
\parinterval 这种质量评估方式往往以单词级质量评估为基础,在其结果的基础上进行计算。以实例\ref{eg:4-7}中词级质量评估结果为例,与编辑后结果相比较,机器翻译译文中有四处漏译(``Mit''``können''``Sie''``einzelne'')、三处误译(``dem''``Scharfzeichner''\\``scharfzeichnen''分别被误译为``Der''``Schärfen-Werkezug''``Schärfer'')、一处多译(``erscheint''),因而需要进行4次插入操作、3次替换操作和1次删除操作,而最终译文长度为12,则有$\rm HTER=(4+3+1)/12=0.667$。需要注意的是,即便这种评估方式以单词级质量评估为基础,也不意味这句子级质量评估只是在单词级质量评估的结果上通过简单的计算来获得其得分,在实际研究中,常将其视为一个回归问题,利用大量数据学习其评分规则。
\parinterval 这种质量评估方式往往以单词级质量评估为基础,在其结果的基础上进行计算。以实例\ref{eg:4-7}中词级质量评估结果为例,与编辑后结果相比较,机器翻译译文中有四处漏译(``Mit''、``können''、``Sie''、``einzelne'')、三处误译(``dem''、\\``Scharfzeichner''、``scharfzeichnen''分别被误译为``Der''、``Schärfen-Werkezug''、``Schärfer'')、一处多译(``erscheint''),因而需要进行4次插入操作、3次替换操作和1次删除操作,而最终译文长度为12,则有$\rm HTER=(4+3+1)/12=0.667$。需要注意的是,即便这种评估方式以单词级质量评估为基础,也不意味这句子级质量评估只是在单词级质量评估的结果上通过简单的计算来获得其得分,在实际研究中,常将其视为一个回归问题,利用大量数据学习其评分规则。
\vspace{0.5em}
\end{itemize}
......@@ -763,7 +767,7 @@ scharfzeichnen.(德语)
\subsubsection{4.文档级质量评估}
\parinterval 文档级质量评估的主要目的就是对机器翻译得到的译文文档进行打分。文档级质量评估中,``文档''这个术语很多时候并不单单指一整篇文档,而是指包含多个句子的文本,例如包含3到5个句子的段落或是像新闻文章一样的长文本。
\parinterval 文档级质量评估的主要目的是对机器翻译得到的整个译文文档进行打分。文档级质量评估中,``文档''很多时候并不单单指一整篇文档,而是指包含多个句子的文本,例如包含3到5个句子的段落或是像新闻文章一样的长文本。
\parinterval 传统的机器翻译任务中,往往以一个句子作为输入和翻译的单元,而忽略了文档中句子之间的联系,这可能会使文档的论述要素受到影响,最终导致整个文档的语义不连贯。如实例1所示,在第二句中``he''原本指代第一句中的``housewife'',这里出现了错误,但这种错误在句子级的质量评估中并不能被发现。
......@@ -786,13 +790,15 @@ Reference: A few days ago, {\red he} contacted the News Channel and said that
\vspace{0.5em}
\item 阅读理解测试得分情况。以往衡量文档译文质量的主要方法是采用理解测试\upcite{,DBLP:conf/icassp/JonesGSGHRW05},即利用提前设计好的与文档相关的阅读理解题目(包括多项选择题类型和问答题类型)对母语为目标语言的多个测试者进行测试,将代表测试者在给定文档上的问卷中的所有问题所得到的分数作为质量标签。
\vspace{0.5em}
\item 两阶段后编辑工作量。 最近的研究工作中,多是采用对文档译文进行后编辑的工作量作为评价指标评估文档译文的质量,为了准确获取文档后编辑的工作量,两阶段后编辑方法被提出\upcite{DBLP:conf/eamt/ScartonZVGS15},即第一阶段对文档中的句子单独在无语境情况下进行后编辑,第二阶段将所有句子重新合并成文档后再进行后编辑。两阶段中后编辑工作量的总和越多,意味着文档译文质量越差。
\item 后编辑工作量。 最近的研究工作中,多是采用对文档译文进行后编辑的工作量评估文档译文的质量。为了准确获取文档后编辑的工作量,两阶段后编辑方法被提出\upcite{DBLP:conf/eamt/ScartonZVGS15},即第一阶段对文档中的句子单独在无语境情况下进行后编辑,第二阶段将所有句子重新合并成文档后再进行后编辑。两阶段中后编辑工作量的总和越多,意味着文档译文质量越差。
\vspace{0.5em}
\end{itemize}
\parinterval 在文档级质量评估任务中,需要对译文文档做一些更细粒度的注释,注释内容包括错误、错误类型和错误的严重程度,最终在注释的基础上对译文文档质量进行评估。
\parinterval 在文档级质量评估任务中,需要对译文文档做一些更细粒度的注释,注释内容包括错误位置、错误类型和错误的严重程度,最终在注释的基础上对译文文档质量进行评估。
\parinterval 与更细粒度的词级和句子级的质量评价相比,文档级质量评估更加复杂。其难点之一在于文档级的质量评估过程中需要根据一些主观的质量标准去对文档进行评分,例如在注释的过程中,对于错误的严重程度并没有严格的界限和规定,只能靠评测人员主观判断,这就意味着随着出现主观偏差的注释的增多,文档级质量评估的参考价值会大打折扣。另一方面,根据所有注释(错误位置、错误类型及其严重程度)对整个文档进行评分本身就具有不合理性,因为译文中有些在抛开上下文环境的情况下可以并判定为``翻译的不错的''单词和句子,一旦被放在文档中的语境后就可能变得不合理,而某些在无语境条件下看起来翻译得`` 糟糕透了''的单词和句子,一旦被放在文档中的语境中可能会变得恰到好处。此外,构建一个质量评测模型势必需要大量的标注数据,而文档级质量评测所需要的带有注释的数据的获取代价相当高。
\parinterval 文档级质量评估与更细粒度的词级和句子级的质量评价相比更加复杂、更加难以实现。其难点之一在于文档级的质量评估过程中需要根据一些主观的质量标准去对文档进行评分,例如在注释的过程中,对于错误的严重程度并没有严格的界限和规定,只能靠评测人员主观判断,这就意味着随着出现主观偏差的注释的增多,文档级质量评估的参考价值会大打折扣。另一方面,根据所有注释(错误、错误类型及其严重程度)对整个文档进行评分本身就具有不合理性,因为译文中有些在抛开上下文环境的情况下可以并判定为``翻译的不错的''单词和句子,一旦被放在文档中的语境后就可能变得不合理,而某些在无语境条件下看起来翻译得``糟糕透了''的单词和句子,一旦被放在文档中的语境中可能会变得恰到好处。此外,构建一个质量评测模型势必需要大量的标注数据,而文档级质量评测所需要的带有注释的数据的获取代价相当高
\parinterval 实际上,文档级集质量评估与其它文档级自然语言处理任务面临的问题是一样的。由于数据稀缺,无论是系统研发,还是结果评价都面临很大挑战。这些问题也会在本书的{\chaptersixteen}{\chapterseventeen} 进行讨论
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
......
......@@ -1770,6 +1770,16 @@
year = {2003},
}
@inproceedings{chen-guo-2015-representation,
title = "Representation Based Translation Evaluation Metrics",
author = "Chen, Boxing and Guo, Hongyu",
booktitle = "Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers)",
year = "2015",
address = "Beijing, China",
publisher = "Association for Computational Linguistics",
pages = "150--155",
}
%%%%% chapter 4------------------------------------------------------
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
......
......@@ -149,7 +149,7 @@
%\include{Chapter16/chapter16}
%\include{Chapter17/chapter17}
%\include{Chapter18/chapter18}
%\include{ChapterAppend/chapterappend}
%\include{ChapterAppend/chapterappend}
%----------------------------------------------------------------------------------------
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论