Commit 8e5e9829 by 孟霞

合并分支 'mengxia' 到 'caorunzhe'

阿杜曹润柘反馈

查看合并请求 !1078
parents b471957e 6b2252bb
......@@ -74,7 +74,7 @@
\node [] (d1) at (-11.9em,-10em) {$d_1$};
\node [] (d2) at (-2.9em,-10em) {$d_2$};
\node [] (d3) at (6.2em,-10em) {$d_2$};
\node [] (d3) at (6.2em,-10em) {$d_3$};
\node [anchor=east] (d1p) at ([xshift=0.4em]d1.west) {$\funp{P}($};
\node [anchor=west] (d1p2) at ([xshift=-0.4em]d1.east) {$)=0.0123$};
......
......@@ -593,7 +593,7 @@ His house is on the south bank of the river .
\parinterval 在机器译文质量评价工作中,相比人工评价,有参考答案的自动评价具有效率高、成本低的优点,因而广受机器翻译系统研发人员青睐。在这种情况下,自动评价结果的可信度一般取决于它们与可靠的人工评价之间的相关性。随着越来越多有参考答案的自动评价方法的提出,“与人工评价之间的相关性”也被视为衡量一种新的自动评价方法是否可靠的衡量标准。
\parinterval 很多研究工作中都曾对BLEU、NIST等有参考答案的自动评价与人工评价的相关性进行研究和讨论,其中也有很多工作对“相关性”的统计过程作过比较详细的阐述。在“相关性”的统计过程中,一般是分别利用人工评价方法和某种有参考答案的自动评价方法对若干个机器翻译系统的输出进行等级评价\upcite{coughlin2003correlating}或是相对排序\upcite{popescu2003experiment},从而对比两种评价手段的评价结果是否一致。该过程中的几个关键问题可能会对最终结果产生影响。
\parinterval 很多研究工作中都曾对BLEU、NIST等有参考答案的自动评价与人工评价的相关性进行研究和讨论,其中也有很多工作对“相关性”的统计过程作过比较详细的阐述。在“相关性”的统计过程中,一般是分别利用人工评价方法和某种有参考答案的自动评价方法对若干个机器翻译系统的输出进行等级评价\upcite{coughlin2003correlating}或是相对排序\upcite{popescu2003experiment},从而对比两种评价手段的评价结果是否一致。该过程中的几个关键问题可能会对最终结果产生影响。
\begin{itemize}
\vspace{0.5em}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论