bleu

e40923f8 · zengxin · 0ad7e18b · e40923f8
Commit e40923f8 authored Jan 04, 2021 by zengxin
--- a/evaluation/evaluation.md
+++ b/evaluation/evaluation.md
 ## Bleu: a Method for Automatic Evaluation of Machine Translation , ACL 2002

-* BLEU: **B**i**L**ingual **E**valuation **U**nderstudy
\ No newline at end of file
+* BLEU: **B**i**L**ingual **E**valuation **U**nderstudy
+
+* 算法详解： https://www.cnblogs.com/by-dream/p/7679284.html
+
+* “一般来说1-gram的结果代表了文中有多少个词被单独翻译出来了，因此它反映的是这篇译文的忠实度；而当我们计算2-gram以上时，更多时候结果反映的是译文的流畅度，值越高文章的可读性就越好。”
+
+* 优点：
+
+  * 计算快
+  * 与语言无关
+  * 与人类评价结果高度相关
+  * 被学术界和工业界广泛采样
+
+* 召回率（recall）：是用你查出来的正确的数量除以所有正确的数量
+
+* 准确率（precision）：是用你查出来的正确的数量除以所有的数量（包含正确和不正确的数量）。
+
+* **召回率**：
+
+  * 首先计算$n$-gram在译文中可能出现的最大次数：
+
+    $Count_{clip}=min(Count,Max\_Ref\_Count)$
+
+    其中$Count$是$n$-gram在机器翻译译文中出现的次数，$Max\_Ref\_Count$是该$n$-gram在参考译文中最大的出现次数。
+
+* 计算：
+
+  * $BLEU=BP\cdot exp(\sum_{n=1}^N w_n log P_n)$
+
+  * $BP=\left\{  \begin{array}{cl} 1 & if \ c > r \\ e^{1-r/c} & if\ c \leq r \end{array} \right. $
+
+  * baseline : $N=4,w_n=1/N$
+
+  * $c$ 候选译文长度，$r$参考译文长度
+
+  * $P_n =\frac{\sum_{c\in \{candidates\}} \sum_{n-gram \in c} Count_{clip}(n-gram)} {\sum_{c\in \{candidates\}} \sum_{n-gram \in c} Count(n-gram)}$
+
+    
+