Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
c3c343bd
Commit
c3c343bd
authored
Sep 03, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
wording (ter and bleu, sec 4)
parent
659eb43e
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
30 行增加
和
25 行删除
+30
-25
Chapter4/chapter4.tex
+30
-25
没有找到文件。
Chapter4/chapter4.tex
查看文件 @
c3c343bd
...
@@ -147,14 +147,14 @@
...
@@ -147,14 +147,14 @@
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
{
\small\sffamily\bfseries
{
根据系统胜出的次数进行排序
}}
\upcite
{
DBLP:conf/wmt/Callison-BurchK12
}
。以系统
${
S
}_
j
$
和系统
${
S
}_
k
$
为例,两个系统都被比较了
$
\mathrm
{
C
}_
n
^
5
\times
4
\times
3
$
次,其中系统
${
S
}_
j
$
获胜20次,系统
${
S
}_
k
$
获胜30次,总体排名中系统
${
S
}_
k
$
优于系统
${
S
}_
j
$
。
\item
{
\small\sffamily\bfseries
{
根据系统胜出的次数进行排序
}}
\upcite
{
DBLP:conf/wmt/Callison-BurchK12
}
。以系统
${
S
}_
j
$
和系统
${
S
}_
k
$
为例,两个系统都被比较了
$
\mathrm
{
C
}_
n
^
5
\times
4
\times
3
$
次,其中系统
${
S
}_
j
$
获胜20次,系统
${
S
}_
k
$
获胜30次,总体排名中系统
${
S
}_
k
$
优于系统
${
S
}_
j
$
。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
{
\small\sffamily\bfseries
{
根据冲突次数进行排序
}}
\upcite
{
DBLP:conf/wmt/Lopez12
}
。第一种排序策略中存在冲突现象:例如在每次两两比较中,系统
${
S
}_
j
$
胜过系统
${
S
}_
k
$
的次数比系统
${
S
}_
j
$
不敌系统
${
S
}_
k
$
的次数多,若待评价系统仅有系统
${
S
}_
j
$
、
${
S
}_
k
$
,显然系统
${
S
}_
j
$
的排名高于系统
${
S
}_
k
$
。但当待评价系统很多时,可能系统
${
S
}_
j
$
在所有比较中获胜的
频率
低于系统
${
S
}_
k
$
,此时就出现了总体排序与局部排序不一致的冲突。因此,有研究者提出,能够与局部排序冲突最少的总体排序才是最合理的。令
$
R
$
表示一个对若干个系统的排序,该排序所对应的冲突得分为:
\item
{
\small\sffamily\bfseries
{
根据冲突次数进行排序
}}
\upcite
{
DBLP:conf/wmt/Lopez12
}
。第一种排序策略中存在冲突现象:例如在每次两两比较中,系统
${
S
}_
j
$
胜过系统
${
S
}_
k
$
的次数比系统
${
S
}_
j
$
不敌系统
${
S
}_
k
$
的次数多,若待评价系统仅有系统
${
S
}_
j
$
、
${
S
}_
k
$
,显然系统
${
S
}_
j
$
的排名高于系统
${
S
}_
k
$
。但当待评价系统很多时,可能系统
${
S
}_
j
$
在所有比较中获胜的
次数
低于系统
${
S
}_
k
$
,此时就出现了总体排序与局部排序不一致的冲突。因此,有研究者提出,能够与局部排序冲突最少的总体排序才是最合理的。令
$
R
$
表示一个对若干个系统的排序,该排序所对应的冲突得分为:
\begin{eqnarray}
\begin{eqnarray}
\mathrm
{
score
}
(R) =
\sum\limits
_{{{
S
}_
j
}
\in
R,
{{
S
}_
k
}
\in
R,j
\ne
k
}
{{
\rm
{
max
}}
(0,
\mathrm
{
Count
}_{
win
}
(
{{
S
}_
j
}
,
{{
S
}_
k
}
) -
\mathrm
{
Count
}_{
loss
}
(
{{
S
}_
j
}
,
{{
S
}_
k
}
))
}
\mathrm
{
score
}
(R) =
\sum\limits
_{{{
S
}_
j
}
\in
R,
{{
S
}_
k
}
\in
R,j
\ne
k
}
{{
\rm
{
max
}}
(0,
\mathrm
{
Count
}_{
win
}
(
{{
S
}_
j
}
,
{{
S
}_
k
}
) -
\mathrm
{
Count
}_{
loss
}
(
{{
S
}_
j
}
,
{{
S
}_
k
}
))
}
\label
{
eq:4-1
}
\label
{
eq:4-1
}
\end{eqnarray}
\end{eqnarray}
其中,
${
S
}_
j
$
和
${
S
}_
k
$
是成对比较的两个系统,
$
\mathrm
{
Count
}_{
win
}
(
{
S
}_
j,
{
S
}_
k
)
$
和
$
\mathrm
{
Count
}_{
loss
}
(
{
S
}_
j,
{
S
}_
k
)
$
分别是
${
S
}_
j
$
、
${
S
}_
k
$
进行成对比较时系统
${
S
}_
j
$
胜利和失败的
频率。而最终的系统排序就是使得
$
\textrm
{
score
}
(
R
)
$
达到最少的
结果。
其中,
${
S
}_
j
$
和
${
S
}_
k
$
是成对比较的两个系统,
$
\mathrm
{
Count
}_{
win
}
(
{
S
}_
j,
{
S
}_
k
)
$
和
$
\mathrm
{
Count
}_{
loss
}
(
{
S
}_
j,
{
S
}_
k
)
$
分别是
${
S
}_
j
$
、
${
S
}_
k
$
进行成对比较时系统
${
S
}_
j
$
胜利和失败的
次数。而使得
$
\textrm
{
score
}
(
R
)
$
得分最低的
$
R
$
就是最终的系统排序
结果。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
{
\small\sffamily\bfseries
{
根据某系统最终获胜的期望进行排序
}}
\upcite
{
DBLP:conf/iwslt/Koehn12
}
。以系统
$
\mathrm
{
S
}_
j
$
为例,若共有
$
n
$
个待评价的系统,则进行总体排序时系统
$
\mathrm
{
S
}_
j
$
的得分为其最终获胜的期望,即:
\item
{
\small\sffamily\bfseries
{
根据某系统最终获胜的期望进行排序
}}
\upcite
{
DBLP:conf/iwslt/Koehn12
}
。以系统
$
\mathrm
{
S
}_
j
$
为例,若共有
$
n
$
个待评价的系统,则进行总体排序时系统
$
\mathrm
{
S
}_
j
$
的得分为其最终获胜的期望,即:
...
@@ -179,11 +179,9 @@
...
@@ -179,11 +179,9 @@
\sectionnewpage
\sectionnewpage
\section
{
有参考答案的自动评价
}
\label
{
Automatic evaluation with reference answers
}
\section
{
有参考答案的自动评价
}
\label
{
Automatic evaluation with reference answers
}
\parinterval
由于人工评价费事费力,同时具有一定的主观性,甚至不同人在不同时刻面对同一篇文章的理解都会不同,为了克服这种限制,另一种思路是将人类专家翻译的结果看作是参考答案,将译文与答案的近似程度作为评价结果。即译文与答案越接近,评价结果越好;反之,评价结果较差。这种评价方式叫做自动评价
。
\parinterval
人工评价费事费力,同时具有一定的主观性,甚至不同人在不同时刻面对同一篇文章的理解都会不同。为了克服这些问题,另一种思路是将人类专家翻译的结果看作是参考答案,将译文与答案的近似程度作为评价结果。即译文与答案越接近,评价结果越好;反之,评价结果较差。这种评价方式叫做
{
\small\bfnew
{
自动评价
}}
\index
{
自动评价
}
(Automatic Evaluation)。自动评价具有速度快,成本低、一致性高的优点,因此自动评价是也是机器翻译系统研发人员所青睐的方法
。
\parinterval
自动评价的方式虽然不如人工评价准确,但是具有速度快,成本低、一致性高的优点,因此自动评价是也是机器翻译系统研发人员所青睐的方法。
\parinterval
随着评价技术的不断发展,自动评价结果已经具有了比较好的指导性,可以帮助使用者快速了解当前译文的质量。在机器翻译领域,自动评价已经成为了一个重要的研究分支。至今,已经有不下几十种自动评价方法被提出。这里无法对这些方法一一列举,为了便于后续章节中对自动评价方法的使用,这里仅对一些代表性的方法进行简要介绍。
\parinterval
随着评价技术的不断发展,自动评价方式已经具有了比较好的指导性,可以帮助使用者快速了解当前机器翻译译文的质量。在机器翻译领域,自动评价已经成为了一个重要分支,被提出的自动评价方法不下几十种。这里无法对这些方法一一列举,为了便于后续章节的描述,这里仅对一些代表性的方法进行简要介绍。
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
% NEW SUB-SECTION
...
@@ -191,7 +189,7 @@
...
@@ -191,7 +189,7 @@
\subsection
{
基于词串比对的方法
}
\subsection
{
基于词串比对的方法
}
\parinterval
这种方法比较关注译文
中的词汇及译文语序,其思想是将译文看成是符号序列,通过计算机器译文和参考答案
间的序列相似性来评价机器翻译的质量。
\parinterval
这种方法比较关注译文
单词及
$
n
$
-gram的翻译准确性。其思想是将译文看成是符号序列,通过计算参考答案和机器译文
间的序列相似性来评价机器翻译的质量。
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUBSUB-SECTION
% NEW SUBSUB-SECTION
...
@@ -199,34 +197,34 @@
...
@@ -199,34 +197,34 @@
\subsubsection
{
1.基于距离的方法
}
\subsubsection
{
1.基于距离的方法
}
\parinterval
基于距离的自动评价方法的基本思想是
根据将机器译文转化为参考答案所需要的最小编辑步骤数来衡量机器译文的质量,基于此类思想的自动评价方法主要有
{
\small\sffamily\bfseries
{
单词错误率
}}
\index
{
单词错误率
}
(Word Error Rate,WER)
\index
{
Word Error Rate
}
\upcite
{
DBLP:conf/coling/SuWC92
}
、
{
\small\sffamily\bfseries
{
与位置无关的单词错误率
}}
\index
{
与位置无关的单词错误率
}
(Position-independent word Error Rate,PER)
\index
{
Position-independent word Error Rate
}
\upcite
{
DBLP:conf/interspeech/TillmannVNZS97
}
和
{
\small\sffamily\bfseries
{
翻译错误率
}}
\index
{
翻译错误率
}
(Translation Error Rate,TER)
\index
{
Translation Error Rate
}
\upcite
{
snover2006study
}
等,下面主要介绍TER方法以深入理解此类自动评价方法的思想
。
\parinterval
基于距离的自动评价方法的基本思想是
:将机器译文转化为参考答案所需要的最小编辑步骤数作为译文质量的度量,基于此类思想的自动评价方法主要有
{
\small\sffamily\bfseries
{
单词错误率
}}
\index
{
单词错误率
}
(Word Error Rate,WER)
\index
{
Word Error Rate
}
\upcite
{
DBLP:conf/coling/SuWC92
}
、
{
\small\sffamily\bfseries
{
与位置无关的单词错误率
}}
\index
{
与位置无关的单词错误率
}
(Position-independent word Error Rate,PER)
\index
{
Position-independent word Error Rate
}
\upcite
{
DBLP:conf/interspeech/TillmannVNZS97
}
和
{
\small\sffamily\bfseries
{
翻译错误率
}}
\index
{
翻译错误率
}
(Translation Error Rate,TER)
\index
{
Translation Error Rate
}
\upcite
{
snover2006study
}
等。下面介绍其中比较有代表性的方法
\ \dash
\
翻译错误率,即TER
。
\parinterval
翻译错误率
是一种典型的基于距离的评价方法,通过评定机器译文的译后编辑工作量来衡量机器译文质量。在这里``距离''被定义为将一个序列转换成另一个序列所需要的最少编辑操作次数,操作次数越多,距离越大,序列之间的相似性越低;相反距离越小,表示一个句子越容易改写成另一个句子,序列之间的相似性越高。TER 使用的编辑操作包括:增加、删除、替换和移位。其中增加、删除、替换操作计算得到的距离被称为编辑距离。TER根据错误率的形式给出评分:
\parinterval
TER
是一种典型的基于距离的评价方法,通过评定机器译文的译后编辑工作量来衡量机器译文质量。在这里``距离''被定义为将一个序列转换成另一个序列所需要的最少编辑操作次数,操作次数越多,距离越大,序列之间的相似性越低;相反距离越小,表示一个句子越容易改写成另一个句子,序列之间的相似性越高。TER 使用的编辑操作包括:增加、删除、替换和移位。其中增加、删除、替换操作计算得到的距离被称为编辑距离。TER根据错误率的形式给出评分:
\begin{eqnarray}
\begin{eqnarray}
\mathrm
{
score
}
=
\frac
{
\mathrm
{
edit
}
(
c,r
)
}{
l
}
\mathrm
{
score
}
=
\frac
{
\mathrm
{
edit
}
(
o,g
)
}{
l
}
\label
{
eq:4-3
}
\label
{
eq:4-3
}
\end{eqnarray}
\end{eqnarray}
\
parinterval
其中
$
\mathrm
{
edit
}
(
c,r
)
$
是指机器翻译生成的译文
$
c
$
和参考答案
$
r
$
之间的距离,
$
l
$
是归一化因子,通常为参考答案的长度。在距离计算中所有的操作的代价都为1。在计算距离时,优先考虑移位操作,再计算编辑距离(即增加、删除和替换操作的次数)。直到增加、移位操作无法减少编辑距离时,将编辑距离和移位操作的次数累加得到TER计算的距离。
\
noindent
其中,
$
\mathrm
{
edit
}
(
o,g
)
$
表示系统生成的译文
$
o
$
和参考答案
$
g
$
之间的距离,
$
l
$
是归一化因子,通常为参考答案的长度。在距离计算中所有的操作的代价都为1。在计算距离时,优先考虑移位操作,再计算编辑距离(即增加、删除和替换操作的次数)。直到增加、移位操作无法减少编辑距离时,将编辑距离和移位操作的次数累加得到TER计算的距离。
\begin{example}
\begin{example}
Candidate:cat is standing in the ground
Candidate:cat is standing in the ground
\qquad\
\ \
Reference:The cat is standing on the ground
\qquad\
Reference:The cat is standing on the ground
\label
{
eg:4-1
}
\label
{
eg:4-1
}
\end{example}
\end{example}
\parinterval
将Candidate序列 转换为Reference序列,需要进行一次增加操作,在句首增加``The'';一次替换操作,将``in'' 替换为``on''。所以
$
\mathrm
{
edit
}
(
c,r
)
$
= 2,归一化因子
$
l
$
为Reference的长度7,所以该机器译文的TER 错误率
为2/7。
\parinterval
在这个实例中,将Candidate序列 转换为Reference序列,需要进行一次增加操作,在句首增加``The'';一次替换操作,将``in'' 替换为``on''。所以
$
\mathrm
{
edit
}
(
c,r
)
$
= 2,归一化因子
$
l
$
为Reference的长度7,所以该机器译文的TER 结果
为2/7。
\parinterval
WER和PER与TER的基本思想
相同,这三种方法的主要区别在于对``错误'' 的定义和考虑的操作类型略有不同。WER使用的编辑操作包括:增加、删除、替换,由于没有移位操作,当机器译文出现词序问题时,会发生多次替代,因而一般会低估译文质量;而PER只考虑增加和删除两个动作,在不考虑词序的情况下,PER计算两个句子中出现相同单词的次数,根据翻译句子比参考答案长或短,其余操作无非是插入词或删除词,这样往往会高估译文质量。
\parinterval
PER与TER的基本思想与WER
相同,这三种方法的主要区别在于对``错误'' 的定义和考虑的操作类型略有不同。WER使用的编辑操作包括:增加、删除、替换,由于没有移位操作,当机器译文出现词序问题时,会发生多次替代,因而一般会低估译文质量;而PER只考虑增加和删除两个动作,在不考虑词序的情况下,PER计算两个句子中出现相同单词的次数,根据翻译句子比参考答案长或短,其余操作无非是插入词或删除词,这样往往会高估译文质量。
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUBSUB-SECTION
% NEW SUBSUB-SECTION
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\subsubsection
{
2.基于
$
\bm
{
n
}$
元语法
的方法
}
\subsubsection
{
2.基于
$
\bm
{
n
}$
-gram
的方法
}
\parinterval
BLUE是目前使用最广泛的自动评价指标。BLEU 是Bilingual Evaluation Understudy的缩写,
最早由IBM
在2002 年提出
\upcite
{
DBLP:conf/acl/PapineniRWZ02
}
。通过采用
$
n
$
-gram匹配的方式评定机器翻译结果和参考答案之间的相似度,机器译文越接近参考答案就认定它的质量越高。
$
n
$
-gram是指
$
n
$
个连续单词组成的单元,称为
{
\small\sffamily\bfseries
{$
\bm
{
n
}$
元语法单元
}}
\index
{$
\bm
{
n
}$
元语法单元
}
(见
{
\chapterthree
}
)。
$
n
$
越大表示评价时考虑的匹配片段越大。
\parinterval
BLUE是目前使用最广泛的自动评价指标。BLEU 是Bilingual Evaluation Understudy的缩写,
由IBM 的研究人员
在2002 年提出
\upcite
{
DBLP:conf/acl/PapineniRWZ02
}
。通过采用
$
n
$
-gram匹配的方式评定机器翻译结果和参考答案之间的相似度,机器译文越接近参考答案就认定它的质量越高。
$
n
$
-gram是指
$
n
$
个连续单词组成的单元,称为
{
\small\sffamily\bfseries
{$
\bm
{
n
}$
元语法单元
}}
\index
{$
\bm
{
n
}$
元语法单元
}
(见
{
\chapterthree
}
)。
$
n
$
越大表示评价时考虑的匹配片段越大。
\parinterval
BLEU 的计算首先考虑待评价机器译文中
$
n
$
-gram在参考答案中的匹配率,称为
{
\small\sffamily\bfseries
{$
\bm
{
n
}$
-gram准确率
}}
\index
{$
\bm
{
n
}$
-gram准确率
}
(
$
n
$
-gram Precision)
\index
{$
n
$
-gram Precision
}
。其计算方法如下:
\parinterval
BLEU 的计算首先考虑待评价机器译文中
$
n
$
-gram在参考答案中的匹配率,称为
{
\small\sffamily\bfseries
{$
\bm
{
n
}$
-gram准确率
}}
\index
{$
\bm
{
n
}$
-gram准确率
}
(
$
n
$
-gram Precision)
\index
{$
n
$
-gram Precision
}
。其计算方法如下:
\begin{eqnarray}
\begin{eqnarray}
...
@@ -234,7 +232,14 @@ Candidate:cat is standing in the ground
...
@@ -234,7 +232,14 @@ Candidate:cat is standing in the ground
\label
{
eq:4-4
}
\label
{
eq:4-4
}
\end{eqnarray}
\end{eqnarray}
\parinterval
其中
$
\mathrm
{
Count
_{
hit
}}$
表示机器译文中
$
n
$
-gram在参考答案中命中的次数,
$
\mathrm
{
Count
_{
output
}}$
表示机器译文中总共有多少
$
n
$
-gram。为了避免同一个词被重复计算,BLEU的定义中使用了截断的方式定义
$
\mathrm
{
Count
_{
hit
}}$
和
$
\mathrm
{
Count
_{
output
}}$
。
\noindent
其中,
$
\mathrm
{
Count
_{
hit
}}$
表示机器译文中
$
n
$
-gram在参考答案中命中的次数,
$
\mathrm
{
Count
_{
output
}}$
表示机器译文中总共有多少
$
n
$
-gram。为了避免同一个词被重复计算,BLEU的定义中使用了截断的方式定义
$
\mathrm
{
Count
_{
hit
}}$
和
$
\mathrm
{
Count
_{
output
}}$
。
\begin{example}
Candidate:the the the the
\qquad
\
Reference:The cat is standing on the ground
\label
{
eg:4-bleu-example
}
\end{example}
\parinterval
在引入截断方式之前,该译文的1-gram准确率为4/4 = 1,这显然是不合理的。在引入截断的方式之后,``the'' 在译文中出现4 次,在参考答案中出现2 次,截断操作则是取二者的最小值,即
$
\mathrm
{
Count
_{
hit
}}$
= 2,
$
\mathrm
{
Count
_{
output
}}$
= 4,该译文的1-gram准确率为2/4。
\parinterval
在引入截断方式之前,该译文的1-gram准确率为4/4 = 1,这显然是不合理的。在引入截断的方式之后,``the'' 在译文中出现4 次,在参考答案中出现2 次,截断操作则是取二者的最小值,即
$
\mathrm
{
Count
_{
hit
}}$
= 2,
$
\mathrm
{
Count
_{
output
}}$
= 4,该译文的1-gram准确率为2/4。
...
@@ -253,19 +258,19 @@ Candidate:cat is standing in the ground
...
@@ -253,19 +258,19 @@ Candidate:cat is standing in the ground
\label
{
eq:4-6
}
\label
{
eq:4-6
}
\end{eqnarray}
\end{eqnarray}
\
parinterval
其中
$
c
$
表示机器译文的句子长度,
$
r
$
表示参考答案的句子长度。最终BLEU的计算公式为:
\
noindent
其中,
$
c
$
表示机器译文的句子长度,
$
r
$
表示参考答案的句子长度。最终BLEU的计算公式为:
\begin{eqnarray}
\begin{eqnarray}
\mathrm
{
BLEU
}
=
\mathrm
{
BP
}
\cdot
\
mathrm
{
exp
}
(
\sum\limits
_{
i = 1
}^
N
{{
w
_
n
}
\cdot
{{{
\mathop
{
\mathrm
{
log
}}
\nolimits
}
}
\mathrm
P
_
n
}}
)
\mathrm
{
BLEU
}
=
\mathrm
{
BP
}
\cdot
\
exp
(
\sum\limits
_{
i = 1
}^
N
{{
w
_
n
}
\cdot
{{{
\mathop
{
\mathrm
{
log
}}
\nolimits
}
}
\mathrm
P
_
n
}}
)
\label
{
eq:4-7
}
\label
{
eq:4-7
}
\end{eqnarray}
\end{eqnarray}
\parinterval
实际上,BLEU的计算也是一种综合考虑
{
\small\sffamily\bfseries
{
准确率
}}
\index
{
准确率
}
(Precision)
\index
{
Precision
}
和
{
\small\sffamily\bfseries
{
召回率
}}
\index
{
召回率
}
(Recall)
\index
{
Recall
}
的方法。公式中,
$
{
\rm
{
exp
}}
(
\cdot
)
$
是一种准确率的表示。BP本是一种召回率的度量,它会惩罚过短的结果。这种设计同分类系统中评价指标F1值是有相通之处的
\upcite
{
DBLP:conf/muc/Chinchor92
}
。
\parinterval
实际上,BLEU的计算也是一种综合考虑
{
\small\sffamily\bfseries
{
准确率
}}
\index
{
准确率
}
(Precision)
\index
{
Precision
}
和
{
\small\sffamily\bfseries
{
召回率
}}
\index
{
召回率
}
(Recall)
\index
{
Recall
}
的方法。公式中,
$
\exp
(
\sum\limits
_{
i
=
1
}^
N
{{
w
_
n
}
\cdot
{{{
\mathop
{
\mathrm
{
log
}}
\nolimits
}
}
\mathrm
P
_
n
}}
)
$
是一种准确率的表示。BP本是一种召回率的度量,它会惩罚过短的结果。这种设计同分类系统中评价指标F1值是有相通之处的
\upcite
{
DBLP:conf/muc/Chinchor92
}
。
\parinterval
从机器翻译的发展来看,BLEU 的意义在于它给系统研发人员提供了一种简单、高效、可重复的自动评价手段,在研发机器翻译系统时可以不需要依赖人工评价。同时,BLEU 也有很多创新之处,包括引入
$
n
$
-gram的匹配,截断计数和短句惩罚等等,包括NIST 等很多评价指标都是受到BLEU 的启发。此外,BLEU本身也有很多不同的实现方式,包括IBM-BLEU
\upcite
{
DBLP:conf/acl/PapineniRWZ02
}
、NIST-BLEU
\
upcite
{
doddington2002automatic
}
、BLEU-SBP
\upcite
{
DBLP:conf/emnlp/ChiangDCN08
}
、ScareBLEU等,使用不同实现方式得到评价结果会有差异。因此在实际使用BLEU进行评价时需要确认其实现细节,以保证结果与相关工作评价要求相符。
\parinterval
从机器翻译的发展来看,BLEU 的意义在于它给系统研发人员提供了一种简单、高效、可重复的自动评价手段,在研发机器翻译系统时可以不需要依赖人工评价。同时,BLEU 也有很多创新之处,包括引入
$
n
$
-gram的匹配,截断计数和短句惩罚等等,包括NIST 等很多评价指标都是受到BLEU 的启发。此外,BLEU本身也有很多不同的实现方式,包括IBM-BLEU
\upcite
{
DBLP:conf/acl/PapineniRWZ02
}
、NIST-BLEU
\
footnote
{
NIST-BLEU是指美国国家标准与技术研究院(NIST)开发的机器翻译评价工具mteval中实现的一种BLEU计算的方法。
}
、BLEU-SBP
\upcite
{
DBLP:conf/emnlp/ChiangDCN08
}
、ScareBLEU等,使用不同实现方式得到评价结果会有差异。因此在实际使用BLEU进行评价时需要确认其实现细节,以保证结果与相关工作评价要求相符。
\parinterval
还需要注意的是,BLEU的评价结果与所使用的参考答案数量有很大相关性。如果参考答案数量多,
$
n
$
-gram匹配的几率变大,BLEU的结果也会偏高。同一个系统,在不同数量的参考答案下进行BLEU评价,结果相差10个点都十分正常。此外,考虑测试的同源性等因素,相似系统在不同测试条件下的BLEU结果差异可能会更大,这时可以采用人工评价的方式得到更准确的评价结果。
\parinterval
还需要注意的是,BLEU的评价结果与所使用的参考答案数量有很大相关性。如果参考答案数量多,
$
n
$
-gram匹配的几率变大,BLEU的结果也会偏高。同一个系统,在不同数量的参考答案下进行BLEU评价,结果相差10个点都十分正常。此外,考虑测试的同源性等因素,相似系统在不同测试条件下的BLEU结果差异可能会更大,这时可以采用人工评价的方式
会
得到更准确的评价结果。
\parinterval
虽然BLEU被广泛使用,但也并不完美,甚至经常被人诟病。比如,它需要依赖参考答案,而且评价结果有时与人工评价不一致,同时BLEU 评价只是单纯地从
匹配度的角度思考翻译质量的好坏,并没有真正考虑句子的语义是否翻译正确。但是,毫无疑问,BLEU 仍然是机器翻译中最常用的评价方法。在没有找到更好的替代方案之前,BLEU 还是机器翻译研究所使用的标准评价指标
。
\parinterval
虽然BLEU被广泛使用,但也并不完美,甚至经常被人诟病。比如,它需要依赖参考答案,而且评价结果有时与人工评价不一致,同时BLEU 评价只是单纯地从
词串匹配的角度思考翻译质量的好坏,并没有真正考虑句子的语义是否翻译正确。但是,毫无疑问,BLEU 仍然是机器翻译中最常用的评价方法。在没有找到更好的替代方案之前,BLEU 还是机器翻译研究中最重要的评价指标之一
。
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
% NEW SUB-SECTION
...
@@ -501,7 +506,7 @@ His house is on the south bank of the river.
...
@@ -501,7 +506,7 @@ His house is on the south bank of the river.
\parinterval
但是在捷克语中主语``městská rada''或是``zastupitelstvo města''的性别必须由动词来反映,那么上述捷克语的参考答案集中有部分存在语法错误。为了避免此类现象的出现,研究人员在同义单元中加入了将同义单元组合在一起必须满足的限制条件
\upcite
{
DBLP:conf/tsd/BojarMTZ13
}
,从而在增大参考答案集地同时确保了每个参考答案的准确性
\parinterval
但是在捷克语中主语``městská rada''或是``zastupitelstvo města''的性别必须由动词来反映,那么上述捷克语的参考答案集中有部分存在语法错误。为了避免此类现象的出现,研究人员在同义单元中加入了将同义单元组合在一起必须满足的限制条件
\upcite
{
DBLP:conf/tsd/BojarMTZ13
}
,从而在增大参考答案集地同时确保了每个参考答案的准确性
\parinterval
将参考答案集扩大后,可以继续沿用BLEU或NIST等基于
$
n
$
元语法的方法进行自动评价,但是传统方法往往会忽略多重参考答案中的重复信息,于是对每个
$
n
$
元语法进行加权的自动评价方法被提出
\upcite
{
DBLP:conf/eamt/QinS15
}
。该方法根据每个
$
n
$
元语法单元的长度、在参考答案集中出现的
频率
、被虚词(如``the''``by''``a''等)分开后的分散度等方面,确定其在计算最终分数时所占的权重。以BLEU方法为例,原分数计算方式如公式13所示:
\parinterval
将参考答案集扩大后,可以继续沿用BLEU或NIST等基于
$
n
$
元语法的方法进行自动评价,但是传统方法往往会忽略多重参考答案中的重复信息,于是对每个
$
n
$
元语法进行加权的自动评价方法被提出
\upcite
{
DBLP:conf/eamt/QinS15
}
。该方法根据每个
$
n
$
元语法单元的长度、在参考答案集中出现的
次数
、被虚词(如``the''``by''``a''等)分开后的分散度等方面,确定其在计算最终分数时所占的权重。以BLEU方法为例,原分数计算方式如公式13所示:
\begin{eqnarray}
\begin{eqnarray}
\mathrm
{
BLEU
}
&
=
&
\mathrm
{
BP
}
\cdot
{
\rm
{
exp
}}
(
\sum\limits
_{
i = 1
}^
N
{{
w
_
n
}
\cdot
{{{
\mathop
{
\rm
log
}
\nolimits
}
}
\mathrm
{
P
}_
n
}}
)
\mathrm
{
BLEU
}
&
=
&
\mathrm
{
BP
}
\cdot
{
\rm
{
exp
}}
(
\sum\limits
_{
i = 1
}^
N
{{
w
_
n
}
\cdot
{{{
\mathop
{
\rm
log
}
\nolimits
}
}
\mathrm
{
P
}_
n
}}
)
\label
{
eq:4-13
}
\\
\label
{
eq:4-13
}
\\
...
@@ -824,7 +829,7 @@ Reference: A few days ago, {\red he} contacted the News Channel and said that
...
@@ -824,7 +829,7 @@ Reference: A few days ago, {\red he} contacted the News Channel and said that
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
流畅度特征:反映了译文的自然度、流畅度、语法合理程度。为了衡量译文的流畅度,往往需要借助大型目标语言语料库、语言模型和语法检查工具等。例如借助大型目标语料库和统计语言模型获取的译文3-gram语言模型概率、利用语法检查工具获取的译文语法正确性等等,这些数学性指标均可用来衡量译文的流畅度。
\item
流畅度特征:反映了译文的自然度、流畅度、语法合理程度。为了衡量译文的流畅度,往往需要借助大型目标语言语料库、语言模型和语法检查工具等。例如借助大型目标语料库和统计语言模型获取的译文3-gram语言模型概率、利用语法检查工具获取的译文语法正确性等等,这些数学性指标均可用来衡量译文的流畅度。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
置信度特征:反映了机器翻译系统对输出的译文的置信程度。翻译系统解码过程中对应的译文的全局概率、最终
$
n
$
-best清单中翻译假设的数量、译文中的词语在
$
n
$
-best输出中的出现
频率
等指标都可以作为机器翻译提供的置信度特征用于质量评估。
\item
置信度特征:反映了机器翻译系统对输出的译文的置信程度。翻译系统解码过程中对应的译文的全局概率、最终
$
n
$
-best清单中翻译假设的数量、译文中的词语在
$
n
$
-best输出中的出现
次数
等指标都可以作为机器翻译提供的置信度特征用于质量评估。
\item
充分度特征:反映了源文和机器译文在不同语言层次上的密切程度或关联程度。比较常用的充分度特征包括源文和译文的长度比、源文和译文的词对齐信息、源文和译文表层结构(例如括号、数字、标点符号等)数量的绝对差异、源文和译文句法树的深度和宽度差异、源文和译文中命名实体数量的差异、源文和译文之间
$
n
$
元语法单元的匹配比例,此外,还可以用源文和译文的分布式表示衡量其间的相似性。由于源文和译文之间语言的不同,充分度特征是最难可靠提取的特征类型。
\item
充分度特征:反映了源文和机器译文在不同语言层次上的密切程度或关联程度。比较常用的充分度特征包括源文和译文的长度比、源文和译文的词对齐信息、源文和译文表层结构(例如括号、数字、标点符号等)数量的绝对差异、源文和译文句法树的深度和宽度差异、源文和译文中命名实体数量的差异、源文和译文之间
$
n
$
元语法单元的匹配比例,此外,还可以用源文和译文的分布式表示衡量其间的相似性。由于源文和译文之间语言的不同,充分度特征是最难可靠提取的特征类型。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\end{itemize}
\end{itemize}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论