Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
ed77360f
Commit
ed77360f
authored
Sep 25, 2020
by
孟霞
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
更新 chapter4.tex
parent
72b8e7c9
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
4 行增加
和
4 行删除
+4
-4
Chapter4/chapter4.tex
+4
-4
没有找到文件。
Chapter4/chapter4.tex
查看文件 @
ed77360f
...
...
@@ -33,7 +33,7 @@
\section
{
译文质量评价所面临的挑战
}
\parinterval
一般来说,译文质量评价可以被看作是一个对译文进行打分或者排序的过程,打分或者排序的结果代表了翻译质量的好坏。比如,表
\ref
{
tab:4-1
}
展示一个汉译英的译文质量评价结果。这里采用了5分制打分,1代表最低分,5代表最高分。可以看出,流畅的高质量译文分较高,相反,存在问题的译文得分较低。
\parinterval
一般来说,译文质量评价可以被看作是一个对译文进行打分或者排序的过程,打分或者排序的结果代表了翻译质量的好坏。比如,表
\ref
{
tab:4-1
}
展示一个汉译英的译文质量评价结果。这里采用了5分制打分,1代表最低分,5代表最高分。可以看出,流畅的高质量译文
得
分较高,相反,存在问题的译文得分较低。
\begin{table}
[htp]
{
\begin{center}
...
...
@@ -83,7 +83,7 @@
\vspace
{
0.5em
}
\end{itemize}
\parinterval
图
\ref
{
fig:4-2
}
给出了机器翻译译文评价方法的逻辑关系图。需要注意的是,很多时候,译文质量评价结果是用于机器翻译系统优化的。在随后的章节中也会看到,译文评价的结果会被用于不同的机器翻译模型优化中。甚至
说,很多统计指标(如极大似然估计)也可以被看作是一种对译文的“评价”,这样也就
把机器翻译的建模和译文评价联系在了一起。本章的后半部分将重点介绍传统的译文质量评价方法。与译文质量评价相关的模型优化方法将会在后续章节详细论述。
\parinterval
图
\ref
{
fig:4-2
}
给出了机器翻译译文评价方法的逻辑关系图。需要注意的是,很多时候,译文质量评价结果是用于机器翻译系统优化的。在随后的章节中也会看到,译文评价的结果会被用于不同的机器翻译模型优化中。甚至
很多统计指标(如极大似然估计)也可以被看作是一种对译文的“评价”,这样就可以
把机器翻译的建模和译文评价联系在了一起。本章的后半部分将重点介绍传统的译文质量评价方法。与译文质量评价相关的模型优化方法将会在后续章节详细论述。
%----------------------------------------------
\begin{figure}
[htp]
...
...
@@ -117,7 +117,7 @@
\vspace
{
0.5em
}
\item
{
\small\sffamily\bfseries
{
是否呈现源语言文本
}}
。在进行人工评价时,可以向评价者提供源语言文本或参考答案,也可以同时提供源语言文本和参考答案。从评价的角度,参考答案已经能够帮助评价者进行正确评价,但是源语言文本可以提供更多信息帮助评估译文的准确性。
\vspace
{
0.5em
}
\item
{
\small\sffamily\bfseries
{
评价者选择
}}
。理想情况下,评价者应同时具有源语言和目标语言的语言能力。但是,很多时候双语能力的评价者很难招募,因此这时会考虑使用目标语为母语的评价者。配合参考答案,单语评价者也可以准确地评价译文质量。
\item
{
\small\sffamily\bfseries
{
评价者选择
}}
。理想情况下,评价者应同时具有源语言和目标语言的语言能力。但是,很多时候
具备
双语能力的评价者很难招募,因此这时会考虑使用目标语为母语的评价者。配合参考答案,单语评价者也可以准确地评价译文质量。
\vspace
{
0.5em
}
\item
{
\small\sffamily\bfseries
{
多个系统同时评价
}}
。如果有多个不同系统的译文需要评价,可以直接使用每个系统单独打分的方法。但是,如果仅仅是想了解不同译文之间的相对好坏,也可以采用竞评的方式,即对于每个句子,对不同系统根据译文质量进行排序,这样做的效率会高于直接打分,而且评价准确性也能够得到保证。
\vspace
{
0.5em
}
...
...
@@ -169,7 +169,7 @@
\vspace
{
0.5em
}
\end{itemize}
\parinterval
与相对排序相比,直接评估方法虽然更加直观,但是过度依赖评价者的主观性,因而直接评估适用于直观反映某机器翻译系统性能,而不适合用来比较机器翻译系统之间的性能差距。在需要对大量系统的进行快速人工评价时,找出不同译文质量之间的相关关系要比直接准确评估译文质量简单
的
多,基于排序的评价方法可以大大降低评价者的工作量,所以也被系统研发人员经常使用。
\parinterval
与相对排序相比,直接评估方法虽然更加直观,但是过度依赖评价者的主观性,因而直接评估适用于直观反映某机器翻译系统性能,而不适合用来比较机器翻译系统之间的性能差距。在需要对大量系统的进行快速人工评价时,找出不同译文质量之间的相关关系要比直接准确评估译文质量简单
得
多,基于排序的评价方法可以大大降低评价者的工作量,所以也被系统研发人员经常使用。
\parinterval
在实际应用中,研究者可以根据实际情况选择不同的人工评价方案,人工评价也没有统一的标准。WMT
\upcite
{
DBLP:conf/wmt/BojarCFHHHKLMNP15
}
和CCMT
\upcite
{
huang2019machine
}
机器翻译评测都有配套的人工评价方案,可以作为业界的参考标准。
%----------------------------------------------------------------------------------------
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论