Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
70a169fd
Commit
70a169fd
authored
Jul 06, 2020
by
单韦乔
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
第一章
parent
3bf71052
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
6 行增加
和
6 行删除
+6
-6
Chapter1/chapter1.tex
+6
-6
没有找到文件。
Chapter1/chapter1.tex
查看文件 @
70a169fd
...
...
@@ -256,7 +256,7 @@
\sectionnewpage
\section
{
基于规则的方法
}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\parinterval
第一代机器翻译技术是主要使用基于规则的机器翻译方法,其主要思想是通过形式文法定义的规则引入源语言和目标语中的语言学知识。此类方法在机器翻译技术诞生之初就被人所关注,特别是在上世纪70年代,以基于规则方法为代表的专家系统是人工智能中最具代表性的研究领域。甚至到了统计机器翻译时代,很多系统中也大量的使用了基于规则的翻译知识表达形式。
\parinterval
机器翻译技术大体上可以分为三种方法,分别为基于规则的机器翻译、统计机器翻译以及神经机器翻译。
第一代机器翻译技术是主要使用基于规则的机器翻译方法,其主要思想是通过形式文法定义的规则引入源语言和目标语中的语言学知识。此类方法在机器翻译技术诞生之初就被人所关注,特别是在上世纪70年代,以基于规则方法为代表的专家系统是人工智能中最具代表性的研究领域。甚至到了统计机器翻译时代,很多系统中也大量的使用了基于规则的翻译知识表达形式。
\parinterval
早期,基于规则的机器翻译大多依赖人工定义及书写的规则。主要有两类方法
\cite
{
tripathi2010approaches
}
:一类是基于转换规则的机器翻译方法,简称转换法。另一类是基于中间语言的方法。它们都以词典和人工书写的规则库作为翻译知识,用一系列规则的组合完成翻译。
...
...
@@ -344,11 +344,11 @@
\parinterval
如图
\ref
{
fig:1-13
}
所示,基于中间语言的方法最大特点就是采用了一个称之为``中间语言''的知识表示结构,将``中间语言''作为独立源语分析和独立目标语生成的桥梁,真正实现独立分析和独立生成的思想。并且在基于中间语言的方法中不涉及``相关转换''这个过程,这一点十分不同于基于转换的方法。
\parinterval
从图
\ref
{
fig:1-10
}
可以发现,中间语言(知识表示)处于最顶端,本质上是独立于源语言和目标语言的,这
样也是基于中间语言的方法可以将分析过程和生成过程独立
分开的原因。
\parinterval
从图
\ref
{
fig:1-10
}
可以发现,中间语言(知识表示)处于最顶端,本质上是独立于源语言和目标语言的,这
也是基于中间语言的方法可以将分析过程和生成过程
分开的原因。
\parinterval
但是
基于中间语言的方法有上述优点,但是如何定义中间语言一个关键问题。严格上说,所谓中间语言本身是一种知识表示结构,承载着源语言句子的分析结果,应该包含和体现尽可能多的源语言知识,可以用于生成过程使用。如果中间语言的表示能力不强,会导致源语言句子信息丢失,这自然会影响目标语生成结果。
\parinterval
虽然
基于中间语言的方法有上述优点,但是如何定义中间语言一个关键问题。严格上说,所谓中间语言本身是一种知识表示结构,承载着源语言句子的分析结果,应该包含和体现尽可能多的源语言知识,可以用于生成过程使用。如果中间语言的表示能力不强,会导致源语言句子信息丢失,这自然会影响目标语生成结果。
\parinterval
在基于规则的机器翻译方法中,构建中间语言结构的知识表示方式很多,比较常见是语法树、语义网、逻辑结构表示或者多种结构的融合等。但不管哪种方法,实际上都无法充分地表达源语言句子所携带的信息。因此,在早期的基于规则的机器翻译研究中,基于中间语言的方法明显弱于基于转换的机器翻译方法。不过,近些年随着神经机器翻译等方法的兴起,使用统一的中间表示来刻画句子又受到了广泛关注。但是,神经机器翻译中的``中间表示''并不是规则系统中的中间语言,二者有着本质区别,这部分内容将会在第十章进行介绍。
\parinterval
在基于规则的机器翻译方法中,构建中间语言结构的知识表示方式
有
很多,比较常见是语法树、语义网、逻辑结构表示或者多种结构的融合等。但不管哪种方法,实际上都无法充分地表达源语言句子所携带的信息。因此,在早期的基于规则的机器翻译研究中,基于中间语言的方法明显弱于基于转换的机器翻译方法。不过,近些年随着神经机器翻译等方法的兴起,使用统一的中间表示来刻画句子又受到了广泛关注。但是,神经机器翻译中的``中间表示''并不是规则系统中的中间语言,二者有着本质区别,这部分内容将会在第十章进行介绍。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
...
...
@@ -356,9 +356,9 @@
\subsection
{
规则方法的优缺点
}
\parinterval
在基于规则的机器翻译时代,机器翻译技术研究有一个特点就是
{
\small\bfnew
{
语法
}}
\index
{
语法
}
(Grammer)和
{
\small\bfnew
{
算法
}}
\index
{
算法
}
(Algorithm)分开,本质上是把语言分析和程序设计分开。传统方式使用程序代码来实现翻译规则,并把所谓的翻译规则隐含在程序代码实现中。其中最大问题是一旦翻译规则发生修改,程序代码也需要进行相应修改,导致维护代价非常高。此外书写翻译规则的语言学家与编代码的程序员沟通代价也非常高,有时候会出现鸡同鸭讲的感觉。把语法和算法分开对于基于规则的机器翻译技术来说最大好处就是可以将语言学家和程序员的工作
独立
分开,各自发挥自己的优势。
\parinterval
在基于规则的机器翻译时代,机器翻译技术研究有一个特点就是
{
\small\bfnew
{
语法
}}
\index
{
语法
}
(Grammer)和
{
\small\bfnew
{
算法
}}
\index
{
算法
}
(Algorithm)分开,本质上是把语言分析和程序设计分开。传统方式使用程序代码来实现翻译规则,并把所谓的翻译规则隐含在程序代码实现中。其中最大问题是一旦翻译规则发生修改,程序代码也需要进行相应修改,导致维护代价非常高。此外书写翻译规则的语言学家与编代码的程序员沟通代价也非常高,有时候会出现鸡同鸭讲的感觉。把语法和算法分开对于基于规则的机器翻译技术来说最大好处就是可以将语言学家和程序员的工作分开,各自发挥自己的优势。
\parinterval
这种语言分析和程序设计分开实现方式也使得基于人工书写翻译规则的机器翻译方法非常直观,语言学家可以非常容易将翻译知识利用规则的方法表达出来,并且不需要修改系统代码。例如:1995年,北京大学冯志伟老师提出的“潜在歧义论”
\cite
{
冯志伟1995论歧义结构的潜在性
}
;2006年,清华大学黄昌宁老师提出的“由字构词”的分词方法
\cite
{
黄昌宁2006由字构词——中文分词新方法
}
;2001年,哈尔滨工业大学李生老师对当时机器词典编码问题进行论述
\cite
{
李生1994机器词典的信息表示及在汉英机器翻译中的实现
}
;1991年,东北大学自然语言处理实验室王宝库老师提出的规则描述语言(CTRDL)
\cite
{
王宝库1991机器翻译系统中一种规则描述语言
}
;1995年,东北大学自然语言处理实验室姚天顺老师提出的词汇语义驱动算法
\cite
{
唐泓英1995基于搭配词典的词汇语义驱动算法
}
,都是在这种思想上对机器翻译方法的一种改进。此外,使用规则本身就具有一定的优势。例如,翻译规则的书写颗粒度具有很大的可伸缩性。较大颗粒度的翻译规则有很强的概括能力,较小颗粒度的翻译规则具有精细的描述能力。同时翻译规则还便于处理复杂的句法结构和进行深层次的语义理解,比如解决翻译过程中的长距离依赖问题
\parinterval
这种语言分析和程序设计分开
的
实现方式也使得基于人工书写翻译规则的机器翻译方法非常直观,语言学家可以非常容易将翻译知识利用规则的方法表达出来,并且不需要修改系统代码。例如:1995年,北京大学冯志伟老师提出的“潜在歧义论”
\cite
{
冯志伟1995论歧义结构的潜在性
}
;2006年,清华大学黄昌宁老师提出的“由字构词”的分词方法
\cite
{
黄昌宁2006由字构词——中文分词新方法
}
;2001年,哈尔滨工业大学李生老师对当时机器词典编码问题进行论述
\cite
{
李生1994机器词典的信息表示及在汉英机器翻译中的实现
}
;1991年,东北大学自然语言处理实验室王宝库老师提出的规则描述语言(CTRDL)
\cite
{
王宝库1991机器翻译系统中一种规则描述语言
}
;1995年,东北大学自然语言处理实验室姚天顺老师提出的词汇语义驱动算法
\cite
{
唐泓英1995基于搭配词典的词汇语义驱动算法
}
,都是在这种思想上对机器翻译方法的一种改进。此外,使用规则本身就具有一定的优势。例如,翻译规则的书写颗粒度具有很大的可伸缩性。较大颗粒度的翻译规则有很强的概括能力,较小颗粒度的翻译规则具有精细的描述能力。同时翻译规则还便于处理复杂的句法结构和进行深层次的语义理解,比如解决翻译过程中的长距离依赖问题
\parinterval
通过图
\ref
{
fig:1-9
}
中规则的翻译实例中可以看出,规则的使用和人类进行翻译时所使用的思想非常类似,可以说基于规则的方法实际上在试图描述人类进行翻译的思维过程。虽然直接模仿人类的翻译方式对翻译问题建模是合理的,但是这一定程度上也暴露了基于规则的方法的弱点。基于规则的机器翻译方法中,人工书写翻译规则的主观因素重,有时与客观事实有一定差距。并且人工书写翻译规则的难度大,代价非常高,这也成为了后来基于数据驱动的机器翻译方法主要改进的方向。
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论