Commit dcf5b8d2 by 单韦乔

index

parent 70a169fd
......@@ -124,7 +124,7 @@
\parinterval 基于战时密码学领域与通讯领域的研究,香农(Claude Elwood Shannon)在1948年提出使用``噪声信道''描述语言的传输过程,并借用热力学中的``熵''(entropy)来刻画消息中的信息量\cite{DBLP:journals/bstj/Shannon48}。次年,香农和韦弗(Warren Weaver)更是合著了著名的《通讯的数学理论》(Communication Theory of Secrecy Systems),这都为后期的统计机器翻译打下了理论基础。
\parinterval 1949年,韦弗撰写了一篇名为《翻译》的备忘录,在这个备忘录中韦弗提出用密码学的方法解决人类语言翻译任务的想法,比如把汉语看成英语的一个加密文本,汉语翻译成英语就类似于解密的过程。并且在这篇备忘录中他也第一次提出了机器翻译,正式开创了{\small\bfnew{机器翻译}}\index{机器翻译}(Machine Translation)的概念,这个概念一直沿用至今。虽然,在那个年代进行机器翻译研究仍有很多不具备的条件,包括使用加密解密技术进行自动翻译的很多尝试很快也被验证是不可行的。不过,这些早期的探索为后来机器翻译的发展提供了思想的火种。
\parinterval 1949年,韦弗撰写了一篇名为《翻译》的备忘录,在这个备忘录中韦弗提出用密码学的方法解决人类语言翻译任务的想法,比如把汉语看成英语的一个加密文本,汉语翻译成英语就类似于解密的过程。并且在这篇备忘录中他也第一次提出了机器翻译,正式开创了{\small\bfnew{机器翻译}}\index{机器翻译}(Machine Translation)\index{Machine Translation}的概念,这个概念一直沿用至今。虽然,在那个年代进行机器翻译研究仍有很多不具备的条件,包括使用加密解密技术进行自动翻译的很多尝试很快也被验证是不可行的。不过,这些早期的探索为后来机器翻译的发展提供了思想的火种。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
......@@ -297,7 +297,7 @@
\subsection{转换法}
\parinterval 通常一个典型的{\small\bfnew{基于转换规则的机器翻译}}\index{基于转换规则的机器翻译}(Transfer Based Translation)过程可以被视为``独立分析-独立生成-相关转换''的过程\cite{jurafsky2000speech}。如图\ref{fig:1-11}所示,整个完整的机器翻译过程可以分成六个步骤,其中每一个步骤都是通过相应的翻译规则来完成,比如第一个步骤中需要构建源语词法分析规则,第二个步骤中需要构建源语句法分析规则,第三个和第四个步骤中需要构建源语-目标语词汇和结构转换规则等等。
\parinterval 通常一个典型的{\small\bfnew{基于转换规则的机器翻译}}\index{基于转换规则的机器翻译}(Transfer Based Translation)\index{Transfer Based Translation}过程可以被视为``独立分析-独立生成-相关转换''的过程\cite{jurafsky2000speech}。如图\ref{fig:1-11}所示,整个完整的机器翻译过程可以分成六个步骤,其中每一个步骤都是通过相应的翻译规则来完成,比如第一个步骤中需要构建源语词法分析规则,第二个步骤中需要构建源语句法分析规则,第三个和第四个步骤中需要构建源语-目标语词汇和结构转换规则等等。
%----------------------------------------------
\begin{figure}[htp]
......@@ -331,7 +331,7 @@
\subsection{基于中间语言的方法}
\parinterval 基于转换的方法可以通过词汇层、句法层和语义层完成源语和目标的转换过程,虽然采用了独立分析和独立生成的两个子过程,但中间包含一个从源语到目标语的相关转换过程。这就会导致一个实际问题,假设需要实现$N$个语言之间互译的机器翻译系统,采用基于转换的方法,需要构建$N(N-1)$个不同的机器翻译系统,这个构建代价是非常高的。为了解决这个问题,一种有效的解决方案是使用{\small\bfnew{基于中间语言的机器翻译}}\index{基于中间语言的机器翻译}(Interlingua Based Translation)方法。
\parinterval 基于转换的方法可以通过词汇层、句法层和语义层完成源语和目标的转换过程,虽然采用了独立分析和独立生成的两个子过程,但中间包含一个从源语到目标语的相关转换过程。这就会导致一个实际问题,假设需要实现$N$个语言之间互译的机器翻译系统,采用基于转换的方法,需要构建$N(N-1)$个不同的机器翻译系统,这个构建代价是非常高的。为了解决这个问题,一种有效的解决方案是使用{\small\bfnew{基于中间语言的机器翻译}}\index{基于中间语言的机器翻译}(Interlingua Based Translation)\index{Interlingua Based Translation}方法。
%----------------------------------------------
\begin{figure}[htp]
......@@ -356,7 +356,7 @@
\subsection{规则方法的优缺点}
\parinterval 在基于规则的机器翻译时代,机器翻译技术研究有一个特点就是{\small\bfnew{语法}}\index{语法}(Grammer){\small\bfnew{算法}}\index{算法}(Algorithm)分开,本质上是把语言分析和程序设计分开。传统方式使用程序代码来实现翻译规则,并把所谓的翻译规则隐含在程序代码实现中。其中最大问题是一旦翻译规则发生修改,程序代码也需要进行相应修改,导致维护代价非常高。此外书写翻译规则的语言学家与编代码的程序员沟通代价也非常高,有时候会出现鸡同鸭讲的感觉。把语法和算法分开对于基于规则的机器翻译技术来说最大好处就是可以将语言学家和程序员的工作分开,各自发挥自己的优势。
\parinterval 在基于规则的机器翻译时代,机器翻译技术研究有一个特点就是{\small\bfnew{语法}}\index{语法}(Grammer)\index{Grammer}{\small\bfnew{算法}}\index{算法}(Algorithm)\index{Algorithm}分开,本质上是把语言分析和程序设计分开。传统方式使用程序代码来实现翻译规则,并把所谓的翻译规则隐含在程序代码实现中。其中最大问题是一旦翻译规则发生修改,程序代码也需要进行相应修改,导致维护代价非常高。此外书写翻译规则的语言学家与编代码的程序员沟通代价也非常高,有时候会出现鸡同鸭讲的感觉。把语法和算法分开对于基于规则的机器翻译技术来说最大好处就是可以将语言学家和程序员的工作分开,各自发挥自己的优势。
\parinterval 这种语言分析和程序设计分开的实现方式也使得基于人工书写翻译规则的机器翻译方法非常直观,语言学家可以非常容易将翻译知识利用规则的方法表达出来,并且不需要修改系统代码。例如:1995年,北京大学冯志伟老师提出的“潜在歧义论”\cite{冯志伟1995论歧义结构的潜在性};2006年,清华大学黄昌宁老师提出的“由字构词”的分词方法\cite{黄昌宁2006由字构词——中文分词新方法};2001年,哈尔滨工业大学李生老师对当时机器词典编码问题进行论述\cite{李生1994机器词典的信息表示及在汉英机器翻译中的实现};1991年,东北大学自然语言处理实验室王宝库老师提出的规则描述语言(CTRDL)\cite{王宝库1991机器翻译系统中一种规则描述语言};1995年,东北大学自然语言处理实验室姚天顺老师提出的词汇语义驱动算法\cite{唐泓英1995基于搭配词典的词汇语义驱动算法},都是在这种思想上对机器翻译方法的一种改进。此外,使用规则本身就具有一定的优势。例如,翻译规则的书写颗粒度具有很大的可伸缩性。较大颗粒度的翻译规则有很强的概括能力,较小颗粒度的翻译规则具有精细的描述能力。同时翻译规则还便于处理复杂的句法结构和进行深层次的语义理解,比如解决翻译过程中的长距离依赖问题
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论