符号修改

d9e336b7 · 孟霞 · 0415f784 · d9e336b7 · 0415f784 · d9e336b7
Commit d9e336b7 authored Sep 17, 2020 by 孟霞
--- a/Chapter3/chapter3.tex
+++ b/Chapter3/chapter3.tex
@@ -213,7 +213,7 @@ $计算这种切分的概率值。
 \parinterval 以“确实现在数据很多”这个实例来说，如果把这句话按照“确实/现在/数据/很/多”这样的方式进行切分，这个句子切分的概率$\funp{P}$(确实/现在/数据/很/多) 可以通过每个词出现概率相乘的方式进行计算。
 \begin{eqnarray}
-&\funp{P}&\textrm{(确实/现在/数据/很/多)} \nonumber \\
+&\funp&{P}\textrm{(确实/现在/数据/很/多)} \nonumber \\
 & = &\funp{P}\textrm{(确实)} \cdot \funp{P}\textrm{(现在)} \cdot \funp{P}\textrm{(数据)} \cdot \funp{P}\textrm{(很)} \cdot \funp{P}\textrm{(多)}
 \label{eq:3.2-1}
 \end{eqnarray}

--- a/Chapter4/chapter4.aux
+++ b/Chapter4/chapter4.aux
--- a/Chapter4/chapter4.tex
+++ b/Chapter4/chapter4.tex
@@ -147,14 +147,14 @@
 \vspace{0.5em}
 \item {\small\sffamily\bfseries{根据系统胜出的次数进行排序}}\upcite{DBLP:conf/wmt/Callison-BurchK12}。以系统${S}_j$和系统${S}_k$为例，两个系统都被比较了$\mathrm{C}_n^5 \times 4 \times 3$ 次，其中系统${S}_j$获胜20次，系统${S}_k$获胜30次，总体排名中系统${S}_k$优于系统${S}_j$。
 \vspace{0.5em}
-\item {\small\sffamily\bfseries{根据冲突次数进行排序}}\upcite{DBLP:conf/wmt/Lopez12}。第一种排序策略中存在冲突现象：例如在每次两两比较中，系统${S}_j$胜过系统${S}_k$ 的次数比系统${S}_j$不敌系统${S}_k$的次数多，若待评价系统仅有系统${S}_j$、${S}_k$，显然系统${S}_j$的排名高于系统${S}_k$。但当待评价系统很多时，可能系统${S}_j$在所有比较中获胜的次数低于系统${S}_k$，此时就出现了总体排序与局部排序不一致的冲突。因此，有研究者提出，能够与局部排序冲突最少的总体排序才是最合理的。令$O$表示一个对若干个系统的排序，该排序所对应的冲突得分为：
+\item {\small\sffamily\bfseries{根据冲突次数进行排序}}\upcite{DBLP:conf/wmt/Lopez12}。第一种排序策略中存在冲突现象：例如在每次两两比较中，系统${S}_j$胜过系统${S}_k$ 的次数比系统${S}_j$不敌系统${S}_k$的次数多，若待评价系统仅有系统${S}_j$、${S}_k$，显然系统${S}_j$的排名高于系统${S}_k$。但当待评价系统很多时，可能系统${S}_j$在所有比较中获胜的次数低于系统${S}_k$，此时就出现了总体排序与局部排序不一致的冲突。因此，有研究者提出，能够与局部排序冲突最少的总体排序才是最合理的。令$O$表示一个对若干个系统的排序，该排序所对应的冲突定义为：
 \begin{eqnarray}
-\mathrm{score}(O) = \sum\limits_{{{S}_j} \in O,{{S}_k} \in O,j \ne k} {{\rm{max}}(0,\mathrm{count}_{\rm{win}}({{S}_j},{{S}_k}) - \mathrm{count}_{\rm{loss}}({{S}_j},{{S}_k}))}
+\mathrm{conflict}(O) = \sum\limits_{{{S}_j} \in O,{{S}_k} \in O,j \ne k} {{\rm{max}}(0,\mathrm{count}_{\rm{win}}({{S}_j},{{S}_k}) - \mathrm{count}_{\rm{loss}}({{S}_j},{{S}_k}))}
 \label{eq:4-1}
 \end{eqnarray}
-    其中，${S}_j$和${S}_k$是成对比较的两个系统，$\mathrm{count}_{\rm{win}}({S}_j,{S}_k)$和$\mathrm{count}_{\rm{loss}}({S}_j,{S}_k)$分别是${S}_j$、${S}_k$进行成对比较时系统${S}_j$ 胜利和失败的次数。而使得$\textrm{score}(O)$得分最低的$O$就是最终的系统排序结果。
+    其中，${S}_j$和${S}_k$是成对比较的两个系统，$\mathrm{count}_{\rm{win}}({S}_j,{S}_k)$和$\mathrm{count}_{\rm{loss}}({S}_j,{S}_k)$分别是${S}_j$、${S}_k$进行成对比较时系统${S}_j$ 胜利和失败的次数。而使得$\textrm{conflict}(O)$最低的$O$就是最终的系统排序结果。
 \vspace{0.5em}
 \item {\small\sffamily\bfseries{根据某系统最终获胜的期望进行排序}}\upcite{DBLP:conf/iwslt/Koehn12}。以系统$\mathrm{S}_j$为例，若共有$n$个待评价的系统，则进行总体排序时系统 $\mathrm{S}_j$ 的得分为其最终获胜的期望，即：
@@ -367,13 +367,13 @@
 \parinterval 在上文提到的评价指标中，无论是准确率、召回率还是$\rm F_{mean}$，都是基于单个词汇信息衡量译文质量，而忽略了语序问题。为了将语序问题考虑进来，Meteor会考虑更长的匹配：将机器译文按照最长匹配长度分块，并对“块数”较多的机器译文给予惩罚。例如上例中，机器译文被分为了三个“块”——“Can I have this”、“like he do”、“？”在这种情况下，看起来上例中的准确率、召回率都还不错，但最终会受到很严重的惩罚。这种罚分机制能够识别出机器译文中的词序问题，因为当待测译文词序与参考答案相差较大时，机器译文将会被分割得比较零散，这种惩罚机制的计算公式如式\eqref{eq:4-11}，其中$\rm count_{chunks}$表示匹配的块数。
 \begin{eqnarray}
-{Penalty} = 0.5 \cdot {\left({\frac{\rm count_{chunks}}{\rm count_{hit}}} \right)^3}
+{\rm Penalty} = 0.5 \cdot {\left({\frac{\rm count_{chunks}}{\rm count_{hit}}} \right)^3}
 \label{eq:4-11}
 \end{eqnarray}
 \parinterval Meteor评价方法的最终评分为：
 \begin{eqnarray}
-{\rm score} = { F_{\rm mean}} \cdot {(1 - {Penalty})}
+{\rm score} = { F_{\rm mean}} \cdot {(1 - {\rm Penalty})}
 \label{eq:4-12}
 \end{eqnarray}