Commit 9c16b856 by xiaotong

\textbf => \mathbf for some annotations

parent a23bcd24
......@@ -193,14 +193,14 @@
\noindent\hspace{2em}假设我们拥有一定数量的双语对照的平行数据,是否可以从中自动获得单词之间的翻译概率呢?回忆一下第二章中的掷骰子游戏,我们使用了相对频率估计来自动获得骰子不同面出现概率的估计值。其中,重复投掷骰子很多次,然后统计“1”到“6”各面出现的次数,再除以投掷的总次数,最后得到它们出现的概率的极大似然估计。这里,我们使用类似的方式计算单词翻译概率。但是,我们现在拥有的是句子一级对齐的数据,并不知道两种语言之间单词的对应关系。因此,我们要从句子级对齐的平行数据中学习单词之间对齐的概率。我们使用一种稍微``复杂''一些的模型来描述这个问题。
假设$x$表示任意源语言单词,所有的目标语单词$y \in Y$都可能是它的译文,这里$Y$表示目标语言的词表。给定一个互译的句对$(\textbf{s},\textbf{t})$,我们把$\textrm{P}(x \leftrightarrow y; \textbf{s}, \textbf{t})$定义为在观测到$(\textbf{s},\textbf{t})$的前提下$x$$y$互译的概率。其中$x$是属于句子$\textbf{s}$中的词,而$y$是属于句子$\textbf{t}$中的词。计算公式描述如下:
假设$x$表示任意源语言单词,所有的目标语单词$y \in Y$都可能是它的译文,这里$Y$表示目标语言的词表。给定一个互译的句对$(\mathbf{s},\mathbf{t})$,我们把$\textrm{P}(x \leftrightarrow y; \mathbf{s}, \mathbf{t})$定义为在观测到$(\mathbf{s},\mathbf{t})$的前提下$x$$y$互译的概率。其中$x$是属于句子$\mathbf{s}$中的词,而$y$是属于句子$\mathbf{t}$中的词。计算公式描述如下:
\begin{eqnarray}
\textrm{P}(x \leftrightarrow y; \textbf{s},\textbf{t}) & \equiv & \textrm{P}(x,y;\textbf{s},\textbf{t}) \nonumber \\
& = & \frac{c(x,y;s,t)}{\sum_{x',y'} c(x',y';\textbf{s},\textbf{t})}
\textrm{P}(x \leftrightarrow y; \mathbf{s},\mathbf{t}) & \equiv & \textrm{P}(x,y;\mathbf{s},\mathbf{t}) \nonumber \\
& = & \frac{c(x,y;s,t)}{\sum_{x',y'} c(x',y';\mathbf{s},\mathbf{t})}
\label{eqC3.1}
\end{eqnarray}
\noindent其中,$\equiv$表示定义式。分子$c(x,y;\textbf{s},\textbf{t})$表示$x$$y$在句对$(\textbf{s},\textbf{t})$中共现的总次数,分母 $\sum_{x',y'} c(x',y';$ $\textbf{s},\textbf{t})$表示任意的源语言单词$x'$和任意的目标语言单词$y'$$(\textbf{s},\textbf{t})$共现的总次数。
\noindent其中,$\equiv$表示定义式。分子$c(x,y;\mathbf{s},\mathbf{t})$表示$x$$y$在句对$(\mathbf{s},\mathbf{t})$中共现的总次数,分母 $\sum_{x',y'} c(x',y';$ $\mathbf{s},\mathbf{t})$表示任意的源语言单词$x'$和任意的目标语言单词$y'$$(\mathbf{s},\mathbf{t})$共现的总次数。
%----------------------------------------------
% 图3.8
......@@ -212,24 +212,24 @@
\end{figure}
%---------------------------
\noindent\hspace{2em}看一个具体的例子,如图\ref{figureC3.8}所示,有一个汉英互译的句对$(\textbf{s},\textbf{t})$。假设,$x=\textrm{``翻译''}$$y=\textrm{``transaltion''}$,现在要计算$x$$y$共现的总次数。``翻译''和``translation''分别在$\textbf{s}$$\textbf{t}$中出现了2次,因此$c(\textrm{``翻译''},\textrm{``translation''};\textbf{s},\textbf{t})$ 等于4。而对于$\sum_{x',y'} c(x',y';\textbf{s},\textbf{t})$,因为$x'$$y'$分别表示的是$s$$t$中的任意词,所以$\sum_{x',y'} c(x',y';\textbf{s},\textbf{t})$表示所有单词对的数量 - 即$\textbf{s}$的词数乘以$\textbf{t}$的词数。最后,“翻译”和“translation”的单词翻译概率为:
\noindent\hspace{2em}看一个具体的例子,如图\ref{figureC3.8}所示,有一个汉英互译的句对$(\mathbf{s},\mathbf{t})$。假设,$x=\textrm{``翻译''}$$y=\textrm{``transaltion''}$,现在要计算$x$$y$共现的总次数。``翻译''和``translation''分别在$\mathbf{s}$$\mathbf{t}$中出现了2次,因此$c(\textrm{``翻译''},\textrm{``translation''};\mathbf{s},\mathbf{t})$ 等于4。而对于$\sum_{x',y'} c(x',y';\mathbf{s},\mathbf{t})$,因为$x'$$y'$分别表示的是$s$$t$中的任意词,所以$\sum_{x',y'} c(x',y';\mathbf{s},\mathbf{t})$表示所有单词对的数量 - 即$\mathbf{s}$的词数乘以$\mathbf{t}$的词数。最后,“翻译”和“translation”的单词翻译概率为:
\begin{eqnarray}
\textrm{P}(\text{``翻译''},\text{``translation''}; \textbf{s},\textbf{t}) & = & \frac{c(\textrm{``翻译''},\textrm{``translation''};\textbf{s},\textbf{t})}{\sum_{x',y'} c(x',y';\textbf{s},\textbf{t})} \nonumber \\
& = & \frac{4}{|s|\times |t|} \nonumber \\
& = & \frac{4}{63}
\textrm{P}(\text{``翻译''},\text{``translation''}; \mathbf{s},\mathbf{t}) & = & \frac{c(\textrm{``翻译''},\textrm{``translation''};\mathbf{s},\mathbf{t})}{\sum_{x',y'} c(x',y';\mathbf{s},\mathbf{t})} \nonumber \\
& = & \frac{4}{|s|\times |t|} \nonumber \\
& = & \frac{4}{63}
\label{eqC3.2}
\end{eqnarray}
\noindent这里运算$|\cdot|$表示句子长度。类似的,可以得到``机器''和``translation''、“机器”和“look”的单词翻译概率:
\begin{eqnarray}
\textrm{P}(\text{``机器''},\text{``translation''}; \textbf{s},\textbf{t}) & = & \frac{2}{63} \\
\textrm{P}(\text{``机器''},\text{``look''}; \textbf{s},\textbf{t}) & = & \frac{0}{63}
\textrm{P}(\text{``机器''},\text{``translation''}; \mathbf{s},\mathbf{t}) & = & \frac{2}{63} \\
\textrm{P}(\text{``机器''},\text{``look''}; \mathbf{s},\mathbf{t}) & = & \frac{0}{63}
\label{eqC3.4}
\end{eqnarray}
\noindent注意,由于``look''没有出现在数据中,因此$\textrm{P}(\text{``机器''},\text{``look''}; \textbf{s},\textbf{t})=0$。这时,我们可以使用第二章介绍的平滑算法赋予它一个非零的值,以保证在后续的步骤中整个翻译模型不会出现零概率的情况。
\noindent注意,由于``look''没有出现在数据中,因此$\textrm{P}(\text{``机器''},\text{``look''}; \mathbf{s},\mathbf{t})=0$。这时,我们可以使用第二章介绍的平滑算法赋予它一个非零的值,以保证在后续的步骤中整个翻译模型不会出现零概率的情况。
\vspace{0.5em}
\textbf{(三)如何从大量的双语平行数据中学习?}\index{Chapter3.2.3.3}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论