\noindent\hspace{2em}第二、源语言单词可以翻译为空,这时它对应到一个虚拟或伪造的目标语单词$t_0$。图\ref{figureC3.23}表示的例子中,“在”没有对应到“on the table”中的任意词,而是把它对应到$t_0$上。此时所有的源语言单词都能找到一个目标语单词对应,只不过有的单词对应到 上。这个条件或规则的提出主要建模对空翻译,即源语言单词对应第0个目标语单词$t_0$的情况。
\vspace{0.5em}
\item 源语言单词可以翻译为空,这时它对应到一个虚拟或伪造的目标语单词$t_0$。在图\ref{figureC3.23}表示的例子中,``在''没有对应到``on the table''中的任意一个词,而是把它对应到$t_0$上。这个条件保证了所有的源语言单词都能找到一个目标语单词对应。这个条件也很好的引入了\textbf{空对齐}的思想,即源语言单词不对应任何真实存在的单词的情况。而这种空对齐的情况在翻译中是频繁出现的,比如虚词的翻译。
%----------------------------------------------
% 图3.21
\begin{figure}[htp]
\centering
\input{./Chapter3/Figures/figure323}
\caption{此处为图片的描述...}
\caption{空翻译的对齐(``在''对应到$t_0$)}
\label{figureC3.23}
\end{figure}
%---------------------------
\vspace{0.5em}
\end{itemize}
\noindent\hspace{2em}那如何描述词对齐呢?给定源语句子$s$、目标译文$t$和词对齐$a$。其中$a_1$是由$a_m$\\到 共$m$个项依次组成,即$a=a_1...a_m$。$a_j$表示第$j$个源语单词$s_j$对应的目标语单词的位置。如图\ref{figureC3.24}所示,实线表示的是“在 桌子 上”和“on the table”单词之间的对应。该对应关系记为$a_1=0$,$a_2=3$,$a_3=1$。它表示第1个源语单词“在”对应到目标语译文的第0个位置,第2个源语单词“桌子”对应在目标语译文的位置是3,第3个源语单词“上”对应在目标语译文的位置是1。
\noindent\hspace{2em}通常,我们把词对齐记为$a$,它由$a_1$到$a_m$共$m$个词对齐连接组成,即$a=a_1...a_m$,其中$m$表示源语言句子长度。$a_j$表示第$j$个源语单词$s_j$对应的目标语单词的位置。如图\ref{figureC3.24}所示,实线表示的是``在 桌子 上''和``on the table''之间的词对齐。具体词对齐关系可以记为$a_1=0, a_2=3, a_3=1$。它表示第1个源语单词``在''对应到目标语译文的第0个位置,第2个源语单词``桌子''对应到目标语译文的第3个位置是,第3个源语单词``上''对应到目标语译文的第1个位置。
\noindent\hspace{2em}我们用一个简单的例子来说明公式\ref{eqC3.22}。如图3.25所示,源语句子$s$是“在 桌子 上”,目标语译文$t$是“on the table”,以及词对齐$a$等于${1-0,2-3,3-1}$。基于当前的假设,我们套用公式\ref{eqC3.22}用$t$生成$s$和$a$,即求概率$\textrm{P}(s,a|t)$。求解的过程如下所示。
\noindent\hspace{2em}我们用一个简单的例子来对公式\ref{eqC3.22}进行进一步说明。如图\ref{figureC3.27}所示,源语言句子``在 桌子 上''目标语译文``on the table''之间的词对齐为$a=\{1-0,2-3,3-1\}$。基于当前的假设,我们套用公式\ref{eqC3.22}用$t$生成$s$和$a$,即求概率$\textrm{P}(s,a|t)$。求解的过程如下所示:
&=&\textrm{P}(m=3 \mid\textrm{``$t_0$ on the table''}){\times}\nonumber\\
&&{\textrm{P}(a_1=0 \mid\phi,\phi,3,\textrm{``$t_0$ on the table''}){\times}}\nonumber\\
&&{\textrm{P}(f_1=\textrm{``在''}\mid\textrm{\{1-0\}},\phi,3,\textrm{``$t_0$ on the table''}){\times}}\nonumber\\
&&{\textrm{P}(a_2=3 \mid\textrm{\{1-0\}},\textrm{``在''},3,\textrm{``$t_0$ on the table''}) {\times}}\nonumber\\
&&{\textrm{P}(f_2=\textrm{``桌子''}\mid\textrm{\{1-0,2-3\}},\textrm{``在''},3,\textrm{``$t_0$ on the table''}) {\times}}\nonumber\\
&&{\textrm{P}(a_3=1 \mid\textrm{\{1-0,2-3\}},\textrm{``在 桌子''},3,\textrm{``$t_0$ on the table''}) {\times}}\nonumber\\
&&{\textrm{P}(f_3=\textrm{``上''}\mid\textrm{\{1-0,2-3,3-1\}},\textrm{``在 桌子''},3,\textrm{``$t_0$ on the table''}) }
\label{eqC3.27}
\end{split}
\end{equation}
\end{eqnarray}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section{IBM模型1-2}\index{Chapter3.4}
\noindent\hspace{2em}回顾公式\ref{eqC3.21}和公式\ref{eqC3.22},我们发现了两个严重的问题。问题一、对于公式(3.20),如何遍历所有的对齐$a$;问题二、对于公式\ref{eqC3.22},如何计算$\textrm{P}(m|t)$、$\textrm{P}(a_j|$\\$a_1^{j-1},s_1^{j-1},m,t)$和$\textrm{P}(s_j|a_1^{j},s_1^{j-1},m,t)$。Peter E. Brown等人总共提出了5种解决方法。第一个问题可以通过一定的数学技巧进行高效的求解;对于第二个问题,可以通过一些假设进行化简,依据化简的层次和复杂度不同,可以分为IBM模型1、IBM模型2、IBM模型3、IBM模型4以及IBM模型5。本节首先介绍较为简单的IBM模型1-2。
\noindent\hspace{2em}第二、对齐概率$\textrm{P}(a_j|a_1^{j-1},s_1^{j-1},m,t)$仅依赖于译文长度$l=1$,即假设对齐概率也是均匀分布。换句话说,对于任何$j$到它对齐到目标语句子的任何位置都是等概率的。比如译文为“on the table”,再加上$t_0$共4个位置,相应的源语句子的单词对齐到这4个位置的概率是一样的。
\vspace{0.5em}
\item 对齐概率$\textrm{P}(a_j|a_1^{j-1},s_1^{j-1},m,t)$仅依赖于译文长度$l$,即每个词对齐连接的概率也服从均匀分布。换句话说,对于任何$j$到它对齐到目标语句子的任何位置都是等概率的。比如译文为``on the table'',再加上$t_0$共4个位置,相应的任意源语单词对齐到这4个位置的概率是一样的。具体描述如下: