Commit 63e09f89 by xiaotong

chapter 3.4.2

parent 816a5471
...@@ -706,14 +706,14 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P ...@@ -706,14 +706,14 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\end{equation} \end{equation}
\vspace{0.5em} \vspace{0.5em}
\item 源语单词$s_j$生成概率$\textrm{P}(a_j|a_1^{j-1},s_1^{j-1},m,t)$仅依懒与其对齐的译文单词$t_{a_i}$,即词汇翻译概率$f(s_j|t_{a_i})$。此时词汇翻译概率满足$\sum_{s_j}{f(s_j|t_{a_i})}=1$。比如在图\ref{figureC3.27}表示的例子中,源语单词``上''生成的概率只和与它对齐的``on''有关系,与其他单词没有关系。 \item 源语单词$s_j$生成概率$\textrm{P}(a_j|a_1^{j-1},s_1^{j-1},m,t)$仅依懒与其对齐的译文单词$t_{a_i}$,即词汇翻译概率$f(s_j|t_{a_i})$。此时词汇翻译概率满足$\sum_{s_j}{f(s_j|t_{a_i})}=1$。比如在图\ref{figureC3.27}表示的例子中,源语单词``上''出现的概率只和与它对齐的单词``on''有关系,与其它单词没有关系。
\begin{equation} \begin{equation}
\textrm{P}(s_j|a_1^{j},s_1^{j-1},m,t) \equiv f(s_j|t_{a_i}) \textrm{P}(s_j|a_1^{j},s_1^{j-1},m,t) \equiv f(s_j|t_{a_i})
\label{eqC3.30} \label{eqC3.30}
\end{equation} \end{equation}
我们用一个简单的例子对公式\ref{eqC3.30}进行说明。比如,在图\ref{figureC3.28}所示的实例中,``桌子''对齐``table''可描述为$f(s_2 |t_{a_2})=f(\textrm{``桌子''}|\textrm{``table''})$,表示给定``table''翻译为``桌子''的概率。通常,$f(s_2 |t_{a_2})$以概率词典的形式进行维护,它反应了两种语言词汇一级的对应 我们用一个简单的例子对公式\ref{eqC3.30}进行说明。比如,在图\ref{figureC3.28}所示的实例中,``桌子''对齐到``table'',可被描述为$f(s_2 |t_{a_2})=f(\textrm{``桌子''}|\textrm{``table''})$,表示给定``table''翻译为``桌子''的概率。通常,$f(s_2 |t_{a_2})$被认为是一种概率词典,它反应了两种语言词汇一级的对应程度
\vspace{0.5em} \vspace{0.5em}
\end{itemize} \end{itemize}
...@@ -723,12 +723,12 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P ...@@ -723,12 +723,12 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\input{./Chapter3/Figures/figure328} \input{./Chapter3/Figures/figure328}
\caption{IBM模型1中词汇一级的对应} \caption{IBM模型1中单词级的对应}
\label{figureC3.28} \label{figureC3.28}
\end{figure} \end{figure}
%--------------------------- %---------------------------
\noindent\hspace{2em}将上述三个假设和公式\ref{eqC3.22}代入公式\ref{eqC3.21}中,得到概率$\textrm{P}(s|t)$的表达式: \noindent\hspace{2em}将上述三个假设和公式\ref{eqC3.22}代入公式\ref{eqC3.21}中,得到$\textrm{P}(s|t)$的表达式:
\begin{eqnarray} \begin{eqnarray}
\textrm{P}(s|t) & = & \sum_a{\textrm{P}(s,a|t)} \nonumber \\ \textrm{P}(s|t) & = & \sum_a{\textrm{P}(s,a|t)} \nonumber \\
...@@ -738,13 +738,13 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P ...@@ -738,13 +738,13 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\label{eqC3.31} \label{eqC3.31}
\end{eqnarray} \end{eqnarray}
\noindent\hspace{2em}在公式\ref{eqC3.31}中,我们需要遍历所有的对齐,即$\sum_a{\cdot}$。但这种表示不够直观,因此可以把这个过程重新表示为如下形式: \noindent\hspace{2em}在公式\ref{eqC3.31}中,我们需要遍历所有的对齐,即$\sum_a{\cdot}$。但这种表示不够直观,因此可以把这个过程重新表示为如下形式:
\begin{equation} \begin{equation}
\textrm{P}(s|t)={\sum_{a_1=0}^{l}\cdots}{\sum_{a_m=0}^{l}\frac{\varepsilon}{(l+1)^m}}{\prod_{j=1}^{m}f(s_j|t_{a_j})} \textrm{P}(s|t)={\sum_{a_1=0}^{l}\cdots}{\sum_{a_m=0}^{l}\frac{\varepsilon}{(l+1)^m}}{\prod_{j=1}^{m}f(s_j|t_{a_j})}
\label{eqC3.32} \label{eqC3.32}
\end{equation} \end{equation}
\noindent\hspace{2em}我们可以把公式\ref{eqC3.32}分为两个部分进行理解和计算。第一部分:遍历所有的对齐$a$。其中$a$$\{a_1,...,a_m\}$组成,每个$a_j\in \{a_1,...,a_m\}$从译文的开始位置$(0)$循环到截止位置$(l)$。如图\ref{figureC3.28}表示的例子,描述的是源语单词$s_3$从译文的开始$t_0$遍历到结尾$t_3$,即$a_3$。第二部分: 对于每个$a$累加对齐概率$\textrm{P}(s,a|t)=\frac{\varepsilon}{(l+1)^m}{\prod_{j=1}^{m}f(s_j|t_{a_j})}$ \noindent\hspace{2em}公式\ref{eqC3.32}分为两个主要部分。第一部分:遍历所有的对齐$a$。其中$a$$\{a_1,...,a_m\}$组成,每个$a_j\in \{a_1,...,a_m\}$从译文的开始位置$(0)$循环到截止位置$(l)$。如图\ref{figureC3.28}表示的例子,描述的是源语单词$s_3$从译文的开始$t_0$遍历到结尾$t_3$,即$a_3$的取值范围。第二部分: 对于每个$a$累加对齐概率$\textrm{P}(s,a|t)=\frac{\varepsilon}{(l+1)^m}{\prod_{j=1}^{m}f(s_j|t_{a_j})}$
%---------------------------------------------- %----------------------------------------------
% 图3.29 % 图3.29
\begin{figure}[htp] \begin{figure}[htp]
...@@ -755,46 +755,52 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P ...@@ -755,46 +755,52 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\end{figure} \end{figure}
%--------------------------- %---------------------------
\noindent\hspace{2em}这样就得到了IBM模型1中句子翻译概率的计算式。它的形式相比原始的计算式要简单许多。可以看出IBM模型1的假设把翻译模型化简成了非常简单的形式。对于给定的$s$$a$$t$,只要知道$\varepsilon$$t(s_j |t_(a_j ))$就可以计算出$\textrm{P}(s|t)$,进而求出$\textrm{P}(s|t)$ \noindent\hspace{2em}这样就得到了IBM模型1中句子翻译概率的计算式。可以看出IBM模型1的假设把翻译模型化简成了非常简单的形式。对于给定的$s$$a$$t$,只要知道$\varepsilon$$t(s_j |t_(a_j ))$就可以计算出$\textrm{P}(s|t)$,进而求出$\textrm{P}(s|t)$
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{IBM模型2}\index{Chapter3.4.2} \subsection{IBM模型2}\index{Chapter3.4.2}
\noindent\hspace{2em}IBM模型1中的假设大大化简了问题的难度,但是这些假设显然并不与实际相符。特别是模型1中假设词对齐服从均与分布,这显然存在问题。如图\ref{figureC3.28},尽管译文$t$$t'$的质量更好,但对于IBM模型1来说翻译概率相同。这是因为当词对齐服从均匀分布时,模型会忽略了翻译的调序问题。因此当单词翻译相同但顺序不同时,翻译概率一样。 \noindent\hspace{2em}IBM模型1很好的化简了问题,但是由于使用了很强的假设,导致模型和实际情况有较大差异。其中一个比较严重的问题是假设词对齐的生成概率服从均匀分布。图\ref{figureC3.28}展示了一个简单的实例。尽管译文$t$$t'$的质量更好,但对于IBM模型1来说翻译概率相同。这是因为当词对齐服从均匀分布时,模型会忽略目标语言单词的位置信息。因此当单词翻译相同但顺序不同时,翻译概率一样。同时,不合理的对齐也会导致使用不合理的词汇翻译概率,因为源语言单词是由错误位置的目标语单词生成的。虽然这个问题可以通过引入目标语语言模型进行缓解,但是翻译模型仍然需要给出更合理的建模方式,以保证翻译译文的选择是正确的。
%---------------------------------------------- %----------------------------------------------
% 图3.30 % 图3.30
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\input{./Chapter3/Figures/figure330} \input{./Chapter3/Figures/figure330}
\caption{此处为图片的描述...} \caption{不同的译文导致不同IBM模型1得分的情况}
\label{figureC3.30} \label{figureC3.30}
\end{figure} \end{figure}
%--------------------------- %---------------------------
\noindent\hspace{2em}IBM模型2认为词对齐是有倾向性的,对齐至少要与源语单词的位置和目标语单词的位置有关。基于这种想法,模型2对模型1的词对齐假设进行了修改。它假设对齐对齐位置$a_j$的生成概率与语言单位位置$j$,源语句子长度$m$和译文长度$l$有关。形式化的描述见公式\ref{eqC3.33} \noindent\hspace{2em}因此,IBM模型2抛弃了对对齐概率$\textrm{P}(a_j|a_1^{j-1},s_1^{j-1},m,t)$服从均匀分布的假设。在IBM模型2中,我们认为词对齐是有倾向性的,对齐至少要与源语单词的位置和目标语单词的位置有关。具体来说,对齐位置$a_j$的生成概率与语言单位位置$j$、源语句子长度$m$和译文长度$l$有关,形式化表述为:
\begin{equation} \begin{equation}
\textrm{P}(a_j|a_1^{j-1},s_1^{j-1},m,t) \equiv a(a_j|j,m,l) \textrm{P}(a_j|a_1^{j-1},s_1^{j-1},m,t) \equiv a(a_j|j,m,l)
\label{eqC3.33} \label{eqC3.33}
\end{equation} \end{equation}
\noindent\hspace{2em}我们用一个简单的例子来说明公式\ref{eqC3.33}。如图\ref{figureC3.31}所示,其中“桌子”对齐“table”。如果在模型1中,“桌子”对齐的译文中的$t_0$、“on”、“the”、和“table”的概率是一样的。但在模型2中可形式化的表示为$a(a_j |j,m,l)=a(3|2,3,3)$,意思是对于源文位置2($j=2$)的词,如果它的源文是和目标语译文都是3个词($l=m=3$),对齐到目标语译文位置3($a_j=3$)的概率是多少。 \noindent\hspace{2em}我们用一个简单的例子来说明公式\ref{eqC3.33}。如图\ref{figureC3.31}所示,这里考虑``桌子''对齐到``table''的情况。如果在模型1中,``桌子''对齐到译文四个位置上的单词的概率是一样的。但在模型2中,``桌子''对齐到``table''被形式化为$a(a_j |j,m,l)=a(3|2,3,3)$,意思是对于源文位置2($j=2$)的词,如果它的源文是和目标语译文都是3个词($l=m=3$),对齐到目标语译文位置3($a_j=3$)的概率是多少?因为$a(a_j|j,m,l)$也是模型需要学习的参数,因此``桌子''对齐到不同位置上的目标语单词概率也是不一样的。理想的情况下,通过$a(a_j|j,m,l)$,``桌子''对齐到``table''应该得到更高的概率。
%---------------------------------------------- %----------------------------------------------
% 图3.31 % 图3.31
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\input{./Chapter3/Figures/figure331} \input{./Chapter3/Figures/figure331}
\caption{此处为图片的描述...} \caption{汉语到英语词对齐实例}
\label{figureC3.31} \label{figureC3.31}
\end{figure} \end{figure}
%--------------------------- %---------------------------
\noindent\hspace{2em}IBM模型2的其他假设均与模型1相同,如公式\ref{eqC3.28}和公式\ref{eqC3.29}所示。把公式\ref{eqC3.28}\ref{eqC3.29}\ref{eqC3.33}代入得到完整的模型。如公式\ref{eqC3.34}所示。 \noindent\hspace{2em}IBM模型2的其他假设均与模型1相同。把公式\ref{eqC3.28}\ref{eqC3.29}\ref{eqC3.33}重新带入公式\ref{eqC3.22}\ref{eqC3.21},可以得到IBM模型2的数学描述:
\begin{equation}
\textrm{P}(s|t)=\;\sum_a{\textrm{P}(s,a|t)}=\sum_{a_1=0}^{l}{\cdots}\sum _{a_m=0}^{l}{\varepsilon}\prod_{j=1}^{m}{a(a_j|j,m,l)f(s_j|t_{a_j})} \begin{eqnarray}
\textrm{P}(s|t) & = & \sum_a{\textrm{P}(s,a|t)} \nonumber \\
& = & \sum_{a_1=0}^{l}{\cdots}\sum _{a_m=0}^{l}{\varepsilon}\prod_{j=1}^{m}{a(a_j|j,m,l)f(s_j|t_{a_j})}
\label{eqC3.34} \label{eqC3.34}
\end{equation} \end{eqnarray}
\noindent\hspace{2em}类似于模型1,模型2的表达式\ref{eqC3.31}也能拆分为两部分进行理解和计算。第一部分:遍历所有的$a$。第二部分:对于每个$a$累加对齐概率$\textrm{P}(s,a|t)$,即计算对齐概率和词汇翻译概率 \noindent\hspace{2em}类似于模型1,模型2的表达式\ref{eqC3.34}也能被拆分为两部分进行理解。第一部分:遍历所有的$a$;第二部分:对于每个$a$累加对齐概率$\textrm{P}(s,a|t)$,即计算对齐概率$a(a_j|j,m,l)$和词汇翻译概率$f(s_j|t_{a_j})$对于所有位置的乘积
\subsection{计算优化}\index{Chapter3.4.3} \subsection{计算优化}\index{Chapter3.4.3}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论