\textbf => \mathbf for some annotations

9c16b856 · xiaotong · a23bcd24 · 9c16b856
Commit 9c16b856 authored Feb 16, 2020 by xiaotong
--- a/Book/Chapter3/Chapter3.tex
+++ b/Book/Chapter3/Chapter3.tex
@@ -193,14 +193,14 @@

 \noindent\hspace{2em}假设我们拥有一定数量的双语对照的平行数据，是否可以从中自动获得单词之间的翻译概率呢？回忆一下第二章中的掷骰子游戏，我们使用了相对频率估计来自动获得骰子不同面出现概率的估计值。其中，重复投掷骰子很多次，然后统计“1”到“6”各面出现的次数，再除以投掷的总次数，最后得到它们出现的概率的极大似然估计。这里，我们使用类似的方式计算单词翻译概率。但是，我们现在拥有的是句子一级对齐的数据，并不知道两种语言之间单词的对应关系。因此，我们要从句子级对齐的平行数据中学习单词之间对齐的概率。我们使用一种稍微``复杂''一些的模型来描述这个问题。

-假设$x$表示任意源语言单词，所有的目标语单词$y \in Y$都可能是它的译文，这里$Y$表示目标语言的词表。给定一个互译的句对$(\textbf{s},\textbf{t})$，我们把$\textrm{P}(x \leftrightarrow y; \textbf{s}, \textbf{t})$定义为在观测到$(\textbf{s},\textbf{t})$的前提下$x$和$y$互译的概率。其中$x$是属于句子$\textbf{s}$中的词，而$y$是属于句子$\textbf{t}$中的词。计算公式描述如下：
+假设$x$表示任意源语言单词，所有的目标语单词$y \in Y$都可能是它的译文，这里$Y$表示目标语言的词表。给定一个互译的句对$(\mathbf{s},\mathbf{t})$，我们把$\textrm{P}(x \leftrightarrow y; \mathbf{s}, \mathbf{t})$定义为在观测到$(\mathbf{s},\mathbf{t})$的前提下$x$和$y$互译的概率。其中$x$是属于句子$\mathbf{s}$中的词，而$y$是属于句子$\mathbf{t}$中的词。计算公式描述如下：
 \begin{eqnarray}
-\textrm{P}(x \leftrightarrow y; \textbf{s},\textbf{t}) & \equiv & \textrm{P}(x,y;\textbf{s},\textbf{t})   \nonumber \\
-                                                                             & =        & \frac{c(x,y;s,t)}{\sum_{x',y'} c(x',y';\textbf{s},\textbf{t})}
+\textrm{P}(x \leftrightarrow y; \mathbf{s},\mathbf{t}) & \equiv & \textrm{P}(x,y;\mathbf{s},\mathbf{t})   \nonumber \\
+                                                                             & =        & \frac{c(x,y;s,t)}{\sum_{x',y'} c(x',y';\mathbf{s},\mathbf{t})}
 \label{eqC3.1}
 \end{eqnarray}

-\noindent其中，$\equiv$表示定义式。分子$c(x,y;\textbf{s},\textbf{t})$表示$x$和$y$在句对$(\textbf{s},\textbf{t})$中共现的总次数,分母 $\sum_{x',y'} c(x',y';$ $\textbf{s},\textbf{t})$表示任意的源语言单词$x'$和任意的目标语言单词$y'$在$(\textbf{s},\textbf{t})$共现的总次数。
+\noindent其中，$\equiv$表示定义式。分子$c(x,y;\mathbf{s},\mathbf{t})$表示$x$和$y$在句对$(\mathbf{s},\mathbf{t})$中共现的总次数,分母 $\sum_{x',y'} c(x',y';$ $\mathbf{s},\mathbf{t})$表示任意的源语言单词$x'$和任意的目标语言单词$y'$在$(\mathbf{s},\mathbf{t})$共现的总次数。

 %----------------------------------------------
 % 图3.8
@@ -212,10 +212,10 @@
 \end{figure}
 %---------------------------

-\noindent\hspace{2em}看一个具体的例子，如图\ref{figureC3.8}所示，有一个汉英互译的句对$(\textbf{s},\textbf{t})$。假设，$x=\textrm{``翻译''}$，$y=\textrm{``transaltion''}$，现在要计算$x$和$y$共现的总次数。``翻译''和``translation''分别在$\textbf{s}$和$\textbf{t}$中出现了2次，因此$c(\textrm{``翻译''},\textrm{``translation''};\textbf{s},\textbf{t})$ 等于4。而对于$\sum_{x',y'} c(x',y';\textbf{s},\textbf{t})$，因为$x'$和$y'$分别表示的是$s$和$t$中的任意词，所以$\sum_{x',y'} c(x',y';\textbf{s},\textbf{t})$表示所有单词对的数量 - 即$\textbf{s}$的词数乘以$\textbf{t}$的词数。最后，“翻译”和“translation”的单词翻译概率为：
+\noindent\hspace{2em}看一个具体的例子，如图\ref{figureC3.8}所示，有一个汉英互译的句对$(\mathbf{s},\mathbf{t})$。假设，$x=\textrm{``翻译''}$，$y=\textrm{``transaltion''}$，现在要计算$x$和$y$共现的总次数。``翻译''和``translation''分别在$\mathbf{s}$和$\mathbf{t}$中出现了2次，因此$c(\textrm{``翻译''},\textrm{``translation''};\mathbf{s},\mathbf{t})$ 等于4。而对于$\sum_{x',y'} c(x',y';\mathbf{s},\mathbf{t})$，因为$x'$和$y'$分别表示的是$s$和$t$中的任意词，所以$\sum_{x',y'} c(x',y';\mathbf{s},\mathbf{t})$表示所有单词对的数量 - 即$\mathbf{s}$的词数乘以$\mathbf{t}$的词数。最后，“翻译”和“translation”的单词翻译概率为：

 \begin{eqnarray}
-\textrm{P}(\text{``翻译''},\text{``translation''}; \textbf{s},\textbf{t})  & = & \frac{c(\textrm{``翻译''},\textrm{``translation''};\textbf{s},\textbf{t})}{\sum_{x',y'} c(x',y';\textbf{s},\textbf{t})} \nonumber \\
+\textrm{P}(\text{``翻译''},\text{``translation''}; \mathbf{s},\mathbf{t})  & = & \frac{c(\textrm{``翻译''},\textrm{``translation''};\mathbf{s},\mathbf{t})}{\sum_{x',y'} c(x',y';\mathbf{s},\mathbf{t})} \nonumber \\
                                                                                                         & =  & \frac{4}{|s|\times |t|} \nonumber \\ 
                                                                                                         & = & \frac{4}{63}
 \label{eqC3.2}
@@ -224,12 +224,12 @@
 \noindent这里运算$|\cdot|$表示句子长度。类似的，可以得到``机器''和``translation''、“机器”和“look”的单词翻译概率：

 \begin{eqnarray}
-\textrm{P}(\text{``机器''},\text{``translation''}; \textbf{s},\textbf{t})  & = & \frac{2}{63} \\
-\textrm{P}(\text{``机器''},\text{``look''}; \textbf{s},\textbf{t})  & =  & \frac{0}{63}
+\textrm{P}(\text{``机器''},\text{``translation''}; \mathbf{s},\mathbf{t})  & = & \frac{2}{63} \\
+\textrm{P}(\text{``机器''},\text{``look''}; \mathbf{s},\mathbf{t})  & =  & \frac{0}{63}
 \label{eqC3.4}
 \end{eqnarray}

-\noindent注意，由于``look''没有出现在数据中，因此$\textrm{P}(\text{``机器''},\text{``look''}; \textbf{s},\textbf{t})=0$。这时，我们可以使用第二章介绍的平滑算法赋予它一个非零的值，以保证在后续的步骤中整个翻译模型不会出现零概率的情况。
+\noindent注意，由于``look''没有出现在数据中，因此$\textrm{P}(\text{``机器''},\text{``look''}; \mathbf{s},\mathbf{t})=0$。这时，我们可以使用第二章介绍的平滑算法赋予它一个非零的值，以保证在后续的步骤中整个翻译模型不会出现零概率的情况。

 \vspace{0.5em}
 \textbf{（三）如何从大量的双语平行数据中学习？}\index{Chapter3.2.3.3}