Commit ed77360f by 孟霞

更新 chapter4.tex

parent 72b8e7c9
......@@ -33,7 +33,7 @@
\section{译文质量评价所面临的挑战}
\parinterval 一般来说,译文质量评价可以被看作是一个对译文进行打分或者排序的过程,打分或者排序的结果代表了翻译质量的好坏。比如,表\ref{tab:4-1}展示一个汉译英的译文质量评价结果。这里采用了5分制打分,1代表最低分,5代表最高分。可以看出,流畅的高质量译文分较高,相反,存在问题的译文得分较低。
\parinterval 一般来说,译文质量评价可以被看作是一个对译文进行打分或者排序的过程,打分或者排序的结果代表了翻译质量的好坏。比如,表\ref{tab:4-1}展示一个汉译英的译文质量评价结果。这里采用了5分制打分,1代表最低分,5代表最高分。可以看出,流畅的高质量译文分较高,相反,存在问题的译文得分较低。
\begin{table}[htp]{
\begin{center}
......@@ -83,7 +83,7 @@
\vspace{0.5em}
\end{itemize}
\parinterval\ref{fig:4-2}给出了机器翻译译文评价方法的逻辑关系图。需要注意的是,很多时候,译文质量评价结果是用于机器翻译系统优化的。在随后的章节中也会看到,译文评价的结果会被用于不同的机器翻译模型优化中。甚至说,很多统计指标(如极大似然估计)也可以被看作是一种对译文的“评价”,这样也就把机器翻译的建模和译文评价联系在了一起。本章的后半部分将重点介绍传统的译文质量评价方法。与译文质量评价相关的模型优化方法将会在后续章节详细论述。
\parinterval\ref{fig:4-2}给出了机器翻译译文评价方法的逻辑关系图。需要注意的是,很多时候,译文质量评价结果是用于机器翻译系统优化的。在随后的章节中也会看到,译文评价的结果会被用于不同的机器翻译模型优化中。甚至很多统计指标(如极大似然估计)也可以被看作是一种对译文的“评价”,这样就可以把机器翻译的建模和译文评价联系在了一起。本章的后半部分将重点介绍传统的译文质量评价方法。与译文质量评价相关的模型优化方法将会在后续章节详细论述。
%----------------------------------------------
\begin{figure}[htp]
......@@ -117,7 +117,7 @@
\vspace{0.5em}
\item {\small\sffamily\bfseries{是否呈现源语言文本}}。在进行人工评价时,可以向评价者提供源语言文本或参考答案,也可以同时提供源语言文本和参考答案。从评价的角度,参考答案已经能够帮助评价者进行正确评价,但是源语言文本可以提供更多信息帮助评估译文的准确性。
\vspace{0.5em}
\item {\small\sffamily\bfseries{评价者选择}}。理想情况下,评价者应同时具有源语言和目标语言的语言能力。但是,很多时候双语能力的评价者很难招募,因此这时会考虑使用目标语为母语的评价者。配合参考答案,单语评价者也可以准确地评价译文质量。
\item {\small\sffamily\bfseries{评价者选择}}。理想情况下,评价者应同时具有源语言和目标语言的语言能力。但是,很多时候具备双语能力的评价者很难招募,因此这时会考虑使用目标语为母语的评价者。配合参考答案,单语评价者也可以准确地评价译文质量。
\vspace{0.5em}
\item {\small\sffamily\bfseries{多个系统同时评价}}。如果有多个不同系统的译文需要评价,可以直接使用每个系统单独打分的方法。但是,如果仅仅是想了解不同译文之间的相对好坏,也可以采用竞评的方式,即对于每个句子,对不同系统根据译文质量进行排序,这样做的效率会高于直接打分,而且评价准确性也能够得到保证。
\vspace{0.5em}
......@@ -169,7 +169,7 @@
\vspace{0.5em}
\end{itemize}
\parinterval 与相对排序相比,直接评估方法虽然更加直观,但是过度依赖评价者的主观性,因而直接评估适用于直观反映某机器翻译系统性能,而不适合用来比较机器翻译系统之间的性能差距。在需要对大量系统的进行快速人工评价时,找出不同译文质量之间的相关关系要比直接准确评估译文质量简单多,基于排序的评价方法可以大大降低评价者的工作量,所以也被系统研发人员经常使用。
\parinterval 与相对排序相比,直接评估方法虽然更加直观,但是过度依赖评价者的主观性,因而直接评估适用于直观反映某机器翻译系统性能,而不适合用来比较机器翻译系统之间的性能差距。在需要对大量系统的进行快速人工评价时,找出不同译文质量之间的相关关系要比直接准确评估译文质量简单多,基于排序的评价方法可以大大降低评价者的工作量,所以也被系统研发人员经常使用。
\parinterval 在实际应用中,研究者可以根据实际情况选择不同的人工评价方案,人工评价也没有统一的标准。WMT \upcite{DBLP:conf/wmt/BojarCFHHHKLMNP15}和CCMT \upcite{huang2019machine}机器翻译评测都有配套的人工评价方案,可以作为业界的参考标准。
%----------------------------------------------------------------------------------------
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论