update

5742ff2f · xiaotong · 9934acaf · 5742ff2f
Commit 5742ff2f authored Feb 18, 2020 by xiaotong
--- a/Book/Chapter3/Chapter3.tex
+++ b/Book/Chapter3/Chapter3.tex
@@ -218,7 +218,7 @@
 \begin{eqnarray}
 \textrm{P}(\text{``翻译''},\text{``translation''}; \mathbf{s},\mathbf{t})  & = & \frac{c(\textrm{``翻译''},\textrm{``translation''};\mathbf{s},\mathbf{t})}{\sum_{x',y'} c(x',y';\mathbf{s},\mathbf{t})} \nonumber \\
-                                                                                                         & =  & \frac{4}{|s|\times |t|} \nonumber \\ 
+                                                                                                         & =  & \frac{4}{|s|\times |t|} \nonumber \\
                                                                                                         & = & \frac{4}{63}
 \label{eqC3.2}
 \end{eqnarray}
@@ -261,7 +261,7 @@
 \begin{eqnarray}
 {\textrm{P}(\textrm{``翻译''},\textrm{``translation''})} & = & {\frac{c(\textrm{``翻译''},\textrm{``translation''};s^{1},t^{1})+c(\textrm{``翻译''},\textrm{``translation''};s^{2},t^{2})}{\sum_{x',y'} c(x',y';s^{1},t^{1}) + \sum_{x',y'} c(x',y';s^{2},t^{2})}} \nonumber \\
                                                                            & = & \frac{4 + 1}{|s^{1}| \times |t^{1}| + |s^{2}| \times |t^{2}|} \nonumber \\
-                                                                            & = & \frac{4 + 1}{9 \times 7 + 5 \times 7} \nonumber \\ 
+                                                                            & = & \frac{4 + 1}{9 \times 7 + 5 \times 7} \nonumber \\
                                                                            & = & \frac{5}{102}
 \label{eqC3.6}
 \end{eqnarray}
@@ -639,7 +639,7 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times  \textrm{P
 \item 首先根据译文确定源文$s$的单词数量（$m=3$），即$\textrm{P}(m=3|\textrm{``}t_0\;\textrm{on\;the\;table''})$；
 \vspace{0.5em}
-\item 再确定源语言单词$s_1$由谁生成的且生成的是什么。可以看到$s_1$由第0个目标语单词生成的，也就是$t_0$，表示为$\textrm{P}(a_1\;= 0\;\; |\phi,\phi,3,\textrm{``}t_0\;\textrm{on\;the\;table''})$，其中$\phi$表示空。当知道了$s_1$是由$t_0$生成的，就可以通过$t_0$生成源语言第一个单词``在''，即$\textrm{P}(s_1\;= \textrm{``在''}\;|\{1-0\},\phi,3,\textrm{``$t_0$\;on\;the\;table''}) $；
+\item 再确定源语言单词$s_1$由谁生成的且生成的是什么。可以看到$s_1$由第0个目标语单词生成的，也就是$t_0$，表示为$\textrm{P}(a_1\;= 0\;\; |\phi,\phi,3,\textrm{``}t_0\;\textrm{on\;the\;table''})$，其中$\phi$表示空。当知道了$s_1$是由$t_0$生成的，就可以通过$t_0$生成源语言第一个单词``在''，即$\textrm{P}(s_1\;= \textrm{`` 在''}\;|\{1-0\},\phi,3,\textrm{``$t_0$\;on\;the\;table''}) $；
 \vspace{0.5em}
 \item 类似于生成$s_1$，我们依次确定源语言单词$s_2$和$s_3$由谁生成且生成的是什么；
@@ -739,7 +739,7 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times  \textrm{P
 \end{figure}
 %---------------------------
-\noindent\hspace{2em}这样就得到了IBM模型1中句子翻译概率的计算式。可以看出IBM模型1的假设把翻译模型化简成了非常简单的形式。对于给定的$s$，$a$和$t$，只要知道$\varepsilon$和$t(s_j |t_(a_j ))$就可以计算出$\textrm{P}(s|t)$，进而求出$\textrm{P}(s|t)$。
+\noindent\hspace{2em}这样就得到了IBM模型1中句子翻译概率的计算式。可以看出IBM模型1的假设把翻译模型化简成了非常简单的形式。对于给定的$s$，$a$和$t$，只要知道$\varepsilon$和$t(s_j |t_(a_j ))$ 就可以计算出$\textrm{P}(s|t)$，进而求出$\textrm{P}(s|t)$。
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsection{IBM模型2}\index{Chapter3.4.2}
@@ -769,7 +769,7 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times  \textrm{P
 \begin{eqnarray}
 \textrm{P}(s|t) & = & \sum_a{\textrm{P}(s,a|t)} \nonumber \\
-                       & = & \sum_{a_1=0}^{l}{\cdots}\sum _{a_m=0}^{l}{\varepsilon}\prod_{j=1}^{m}{a(a_j|j,m,l)f(s_j|t_{a_j})} 
+                       & = & \sum_{a_1=0}^{l}{\cdots}\sum _{a_m=0}^{l}{\varepsilon}\prod_{j=1}^{m}{a(a_j|j,m,l)f(s_j|t_{a_j})}
 \label{eqC3.34}
 \end{eqnarray}
@@ -890,7 +890,7 @@ L(f,\lambda)=\frac{\epsilon}{(l+1)^m}\prod_{j=1}^{m}\sum_{i=0}^{l}\prod_{j=1}^{m
 \end{eqnarray}
 \noindent\hspace{2em}为了求$\frac{\partial \big[ \prod\limits_{j=1}^{m} \sum\limits_{i=0}^{l} f(s_j|t_i) \big]}{\partial f(s_u|t_v)}$，这里引入一个辅助函数。令$g(z)=\alpha z^{\beta}$为变量$z$的函数，显然，
-$\frac{\partial g(z)}{\partial z} = \alpha \beta z^{\beta-1} = \frac{\beta}{z}\alpha z^{\beta} = \frac{\beta}{z} g(z)$。这里可以把$\prod_{j=1}^{m} \sum_{i=0}^{l} f(s_j|t_i)$看做$g(z)=\alpha z^{\beta}$的实例。首先，令$z=\sum_{i=0}^{l}f(s_u|t_i)$，注意$s_u$为给定的源语单词。然后，把$\beta$定义为$\sum_{i=0}^{l}f(s_u|t_i)$在$\prod_{j=1}^{m} \sum_{i=0}^{l} f(s_j|t_i)$中出现的次数，即源语句子中与$s_u$相同的单词的个数。
+$\frac{\partial g(z)}{\partial z} = \alpha \beta z^{\beta-1} = \frac{\beta}{z}\alpha z^{\beta} = \frac{\beta}{z} g(z)$。这里可以把$\prod_{j=1}^{m} \sum_{i=0}^{l} f(s_j|t_i)$看做$g(z)=\alpha z^{\beta}$的实例。首先，令$z=\sum_{i=0}^{l}f(s_u|t_i)$，注意$s_u$为给定的源语单词。然后，把$\beta$定义为$\sum_{i=0}^{l}f(s_u|t_i)$在$\prod_{j=1}^{m} \sum_{i=0}^{l} f(s_j|t_i)$ 中出现的次数，即源语句子中与$s_u$相同的单词的个数。
 \begin{equation}
 \beta=\sum_{j=1}^{m} \delta(s_j,s_u)
 \label{eqC3.38}
@@ -1055,7 +1055,7 @@ m-\varphi_0\\
 \sum_{f}t(s|t)                     & = &1 \label{eqC3.5.9} \\
 \sum_{i}d(i|j,m,l)                & = & 1 \label{eqC3.5.10} \\
 \sum_{\varphi} n(\varphi|t) & = &1 \label{eqC3.5.11} \\
-p_0+p_1                            & = & 1 \label{eqC3.5.12} 
+p_0+p_1                            & = & 1 \label{eqC3.5.12}
 \end{eqnarray}
@@ -1208,7 +1208,7 @@ p_0+p_1                            & = & 1 \label{eqC3.5.12}
 \noindent\hspace{2em}概念（Cept.）的意义？经过前面的分析可知，IBM模型的词对齐模型是使用了cept.这个概念。但是实质上，在IBM模型中使用的cept.最多只能对应一个目标语言单词（模型并没有用到源语言cept.的概念）。因此可以直接用单词代替cept.。这样，即使不引入cept.的概念，也并不影响IBM模型的建模。实际上，cept.的引入确实可以帮助我们从语法和语义的角度解释词对齐过程。不过，这个方法在IBM模型中的效果究竟如何也没有定论。
-\section{小结和深入阅读}\index{Chapter3.7}
+\section{小结及深入阅读}\index{Chapter3.7}
 \noindent\hspace{2em}本章对IBM系列模型进行了全面的介绍和讨论，从一个简单的基于单词的翻译模型开始，我们以建模、解码、训练多个维度对统计机器翻译进行了描述，期间也涉及了词对齐、优化等多个重要概念。IBM模型共分为5个模型，对翻译问题的建模依次由浅入深，同时模型复杂度也依次增加。IBM模型作为入门统计机器翻译的``必经之路''，其思想对今天的机器翻译仍然产生着影响。虽然单独使用IBM模型进行机器翻译现在已经不多见，甚至很多从事神经机器翻译等前沿研究的人对IBM模型已经逐渐淡忘，但是不能否认IBM模型标志着一个时代的开始。从某种意义上，当我们使用公式$\hat{t} = \argmax_{t} \textrm{P}(t|s)$描述机器翻译问题的时候，或多或少都在与IBM模型使用相似的思想。