\mathrm P = \frac{\rm{Count}_{hit}}{\rm{Count}_{candidate}}
\label{eq:4-8}
\end{eqnarray}
\parinterval 召回率:机器译文中命中单词个数与参考答案单词总数的比值。即:
\parinterval 召回率:机器译文中命中单词数与参考答案单词总数的比值。即:
\begin{eqnarray}
\mathrm R = \frac{\rm{Count}_{hit}}{\rm{Count}_{reference}}
\label{eq:4-9}
...
...
@@ -365,21 +365,21 @@ Candidate:Can I have it like he ?
\label{eq:4-10}
\end{eqnarray}
\parinterval 在上文提到的评价指标中,无论是准确率、召回率还是$\rm F_{mean}$,都是基于单个词汇信息衡量译文质量,而忽略了语序问题。为了将语序问题纳入道评价内容中,Meteor会考虑更长的匹配:将机器译文按照最长匹配长度分块,并对``块数''较多的机器译文给予惩罚。例如上例中,机器译文被分为了三个``块''——``Can I have this''、``like he do''、``?''在这种情况下,看起来上例中的准确率、召回率都还不错,但最终会受到很严重的惩罚。这种罚分机制能够识别出机器译文中的词序问题,因为当待测译文词序与参考答案相差较大时,机器译文将会被分割得比较零散,这种惩罚机制的计算公式如式\ref{eq:4-11},其中$\rm Count_{chunks}$表示匹配的块数。
\parinterval 在上文提到的评价指标中,无论是准确率、召回率还是$\rm F_{mean}$,都是基于单个词汇信息衡量译文质量,而忽略了语序问题。为了将语序问题考虑进来,Meteor会考虑更长的匹配:将机器译文按照最长匹配长度分块,并对``块数''较多的机器译文给予惩罚。例如上例中,机器译文被分为了三个``块''——``Can I have this''、``like he do''、``?''在这种情况下,看起来上例中的准确率、召回率都还不错,但最终会受到很严重的惩罚。这种罚分机制能够识别出机器译文中的词序问题,因为当待测译文词序与参考答案相差较大时,机器译文将会被分割得比较零散,这种惩罚机制的计算公式如式\ref{eq:4-11},其中$\rm Count_{chunks}$表示匹配的块数。
\begin{eqnarray}
\rm P = 0.5*{\left({\frac{\rm Count_{chunks}}{\rm Count_{hit}}}\right)^3}
\rm P = 0.5\cdot{\left({\frac{\rm Count_{chunks}}{\rm Count_{hit}}}\right)^3}
\mathrm{ASS}(x,y) = \frac{1}{{\left| x \right|\left| y \right|}}\sum\limits_{i = 1}^{\left| x \right|}{\sum\limits_{j = 1}^{\left| y \right|}{\varphi ({x_i},{y_j})}}
title = "Representation Based Translation Evaluation Metrics",
author = "Chen, Boxing and Guo, Hongyu",
booktitle = "Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers)",
year = "2015",
address = "Beijing, China",
publisher = "Association for Computational Linguistics",