\noindent\hspace{2em}我们用前面图\ref{figureC3.24}中例子来对公式\ref{eqC3.22}进行说明。例子中,源语言句子``在 桌子 上''目标语译文``on the table''之间的词对齐为$a=\{1-0,2-3,3-1\}$。基于当前的假设,我们套用公式\ref{eqC3.22}用$t$生成$s$和$a$,即求概率$\textrm{P}(s,a|t)$。求解的过程如下所示:
% 图3.26
\begin{figure}[htp]
\centering
\input{./Chapter3/Figures/figure327}
\caption{汉译英词对齐实例}
\label{figureC3.27}
\end{figure}
%---------------------------
\noindent\hspace{2em}我们用一个简单的例子来对公式\ref{eqC3.22}进行进一步说明。如图\ref{figureC3.27}所示,源语言句子``在 桌子 上''目标语译文``on the table''之间的词对齐为$a=\{1-0,2-3,3-1\}$。基于当前的假设,我们套用公式\ref{eqC3.22}用$t$生成$s$和$a$,即求概率$\textrm{P}(s,a|t)$。求解的过程如下所示:
\noindent\hspace{2em}IBM的五个模型都是基于一个词对齐的假设 —— 一个源语言单词最多只能对齐到一个目标语言单词。这个约束大大化简了IBM模型的建模。最初,Brown等人提出这个假设可能是因为在法英翻译中一对多的对齐情况并不多见,这个假设带来的问题也不是那么严重。但是,在像汉英翻译这样的机器翻译任务中,一个中文单词对应多个英文单词的翻译很常见。这时IBM模型的词对齐假设就表现出了明显的问题。比如在翻译<I will have a try .|我 会 试一试 。>中,IBM模型根本不可能把单词“试一试”对齐到三个单词“have a try”,因而很难得到正确的翻译结果。可见IBM模型的词对齐假设所带来的问题还是很严重的。
\noindent\hspace{2em}IBM的五个模型都是基于一个词对齐的假设 —— 一个源语言单词最多只能对齐到一个目标语言单词。这个约束大大化简了IBM模型的建模。最初,Brown等人提出这个假设可能是因为在法英翻译中一对多的对齐情况并不多见,这个假设带来的问题也不是那么严重。但是,在像汉英翻译这样的机器翻译任务中,一个中文单词对应多个英文单词的翻译很常见。这时IBM模型的词对齐假设就表现出了明显的问题。比如在翻译``我 会 试一试 。''$\to$``I will have a try .|''时,IBM模型根本不能把单词``试一试''对齐到三个单词“have a try”,因而可能无法得到正确的翻译结果。
\noindent\hspace{2em}在IBM模型中翻译的单元是单词。但除了字符串它没有考虑单词的时态、语态、句法等信息。比如,在实验中我们发现,系统把“他 去…”翻译成了“He go to …”。这是由于“去”这个单词经常和“go”共现,这样系统很容易就把“去”翻译成了“go”,不管它是不是第三人称单数。类似的单词翻译问题还有一些。如在下面的实例1中,“year”使用的是单数形式,而实际上应该是复数形式。在实例2中,increase应该使用第三人称单数或者被动语态。而实例3中,“3月15日”被翻译成了“three month 15”这些显然都是不正确的翻译。