update section 3 (book)

dc0c0cf3 · xiaotong · e8cd89f9 · dc0c0cf3
Commit dc0c0cf3 authored Mar 03, 2020 by xiaotong
--- a/Book/Chapter3/Chapter3.tex
+++ b/Book/Chapter3/Chapter3.tex
@@ -679,7 +679,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}

 \parinterval 因此，IBM模型2抛弃了对对齐概率$\textrm{P}(a_j|a_1^{j-1},s_1^{j-1},m,\mathbf{t})$服从均匀分布的假设。在IBM模型2中，我们认为词对齐是有倾向性的，对齐至少要与源语单词的位置和目标语单词的位置有关。具体来说，对齐位置$a_j$的生成概率与语言单位位置$j$、源语句子长度$m$和译文长度$l$有关，形式化表述为：
 \begin{eqnarray}
-\textrm{P}(a_j|a_1^{j-1},s_1^{j-1},m,\mathbf{t}) \equiv \mathbf{a}(a_j|j,m,l)
+\textrm{P}(a_j|a_1^{j-1},s_1^{j-1},m,\mathbf{t}) \equiv a(a_j|j,m,l)
 \label{eqC3.26-new}
 \end{eqnarray}

@@ -688,7 +688,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}
 \parinterval IBM模型2的其他假设均与模型1相同。把公式\ref{eqC3.21-new}、\ref{eqC3.22-new}和\ref{eqC3.26-new}重新带入公式\ref{eqC3.19-new}和\ref{eqC3.18-new}，可以得到IBM模型2的数学描述：
 \begin{eqnarray}
 \textrm{P}(\mathbf{s}| \mathbf{t}) & = &  \sum_{\mathbf{a}}{\textrm{P}(\mathbf{s},\mathbf{a}| \mathbf{t})} \nonumber \\
-                       & = & \sum_{a_1=0}^{l}{\cdots}\sum _{a_m=0}^{l}{\varepsilon}\prod_{j=1}^{m}{\mathbf{a}(a_j|j,m,l)f(s_j|t_{a_j})}
+                       & = & \sum_{a_1=0}^{l}{\cdots}\sum _{a_m=0}^{l}{\varepsilon}\prod_{j=1}^{m}{a(a_j|j,m,l)f(s_j|t_{a_j})}
 \label{eqC3.27-new}
 \end{eqnarray}

@@ -723,7 +723,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}
 \parinterval 接着，利用公式\ref{eqC3.29-new}的方式，可以把公式\ref{eqC3.25-new}和\ref{eqC3.27-new}重写表示为：
 \begin{eqnarray}
 \textrm{IBM模型1：\ \ \ \ } \textrm{P}(\mathbf{s}| \mathbf{t}) & = & \frac{\epsilon}{(l+1)^{m}} \prod\limits_{j=1}^{m} \sum\limits_{i=0}^{l} f(s_j|t_i) \label{eq:final-model1} \\
-\textrm{IBM模型2：\ \ \ \ }\textrm{P}(\mathbf{s}| \mathbf{t}) & = & \epsilon \prod\limits_{j=1}^{m} \sum\limits_{i=0}^{l} \mathbf{a}(i|j,m,l) f(s_j|t_i) \label{eq:final-model2}
+\textrm{IBM模型2：\ \ \ \ }\textrm{P}(\mathbf{s}| \mathbf{t}) & = & \epsilon \prod\limits_{j=1}^{m} \sum\limits_{i=0}^{l} a(i|j,m,l) f(s_j|t_i) \label{eq:final-model2}
 \label{eqC3.31-new}
 \end{eqnarray}

@@ -821,8 +821,8 @@ $\frac{\partial g(z)}{\partial z} = \alpha \beta z^{\beta-1} = \frac{\beta}{z}\a
 \parinterval 将$\frac{\partial \big[ \prod_{j=1}^{m} \sum_{i=0}^{l} f(s_j|t_i) \big]}{\partial f(s_u|t_v)}$进一步代入$\frac{\partial L(f,\lambda)}{\partial f(s_u|t_v)}$，得到$L(f,\lambda)$的导数
 \begin{eqnarray}
 & &{\frac{\partial L(f,\lambda)}{\partial f(s_u|t_v)}}\nonumber \\
-&=&{\frac{\epsilon}{(l+1)^{m}} \cdot \color{red}{\frac{\partial \big[ \prod\limits_{j=1}^{m} \sum\limits_{i=0}^{l} f(s_j|t_{a_j}) \big]}{\partial f(s_u|t_v)}} - \lambda_{t_v}}\nonumber \\
-&=&{\frac{\epsilon}{(l+1)^{m}} \cdot \color{red}{\frac{\sum_{j=1}^{m} \delta(s_j,s_u) \cdot \sum_{i=0}^{l} \delta(t_i,t_v)}{\sum_{i=0}^{l}f(s_u|t_i)} \prod\limits_{j=1}^{m} \sum\limits_{i=0}^{l} f(s_j|t_i)} - \lambda_{t_v}}
+&=&{\frac{\epsilon}{(l+1)^{m}} \cdot \frac{\partial \big[ \prod\limits_{j=1}^{m} \sum\limits_{i=0}^{l} f(s_j|t_{a_j}) \big]}{\partial f(s_u|t_v)} - \lambda_{t_v}}\nonumber \\
+&=&{\frac{\epsilon}{(l+1)^{m}} \frac{\sum_{j=1}^{m} \delta(s_j,s_u) \cdot \sum_{i=0}^{l} \delta(t_i,t_v)}{\sum_{i=0}^{l}f(s_u|t_i)} \prod\limits_{j=1}^{m} \sum\limits_{i=0}^{l} f(s_j|t_i) - \lambda_{t_v}}
 \label{eqC3.38-new}
 \end{eqnarray}

@@ -939,16 +939,16 @@ c_{\mathbb{E}}(\mathbf{s}_u|\mathbf{t}_v)=\sum\limits_{i=1}^{N}  c_{\mathbb{E}}(
 \end{figure}
 %---------------------------

-\noindent \hspace{2em}  同样的，EM算法可以直接用于训练IBM模型2。对于句对$\mathbf{(}s,\mathbf{t})$，$m=|\mathbf{s}|$，$l=|\mathbf{t}|$，E-Step的计算公式如下，其中参数$f(s_j|t_i)$与IBM模型1一样：
+\noindent \hspace{2em}  同样的，EM算法可以直接用于训练IBM模型2。对于句对$(\mathbf{s},\mathbf{t})$，$m=|\mathbf{s}|$，$l=|\mathbf{t}|$，E-Step的计算公式如下，其中参数$f(s_j|t_i)$与IBM模型1一样：
 \begin{eqnarray}
-c_{\mathbb{E}}(s_u|t_v;\mathbf{s},\mathbf{t}) &=&\sum\limits_{j=1}^{m} \sum\limits_{i=0}^{l} \frac{f(s_u|t_v)\mathbf{a}(i|j,m,l) \delta(s_j,s_u)\delta (t_i,t_v) }   {\sum_{k=0}^{l} f(s_u|t_v)a(k|j,m,l)} \\
-c_{\mathbb{E}}(i|j,m,l;\mathbf{s},\mathbf{t}) &=&\frac{f(s_j|t_i)\mathbf{a}(i|j,m,l)}   {\sum_{k=0}^{l} f(s_j|t_k)a(k,j,m,l)}
+c_{\mathbb{E}}(s_u|t_v;\mathbf{s},\mathbf{t}) &=&\sum\limits_{j=1}^{m} \sum\limits_{i=0}^{l} \frac{f(s_u|t_v)a(i|j,m,l) \delta(s_j,s_u)\delta (t_i,t_v) }   {\sum_{k=0}^{l} f(s_u|t_v)a(k|j,m,l)} \\
+c_{\mathbb{E}}(i|j,m,l;\mathbf{s},\mathbf{t}) &=&\frac{f(s_j|t_i)a(i|j,m,l)}   {\sum_{k=0}^{l} f(s_j|t_k)a(k,j,m,l)}
 \label{eqC3.49-new}
 \end{eqnarray}
-\noindent \hspace{2em}  M-Step的计算公式如下，其中参数$\mathbf{a}(i|j,m,l)$表示调序概率：
+\noindent \hspace{2em}  M-Step的计算公式如下，其中参数$a(i|j,m,l)$表示调序概率：
 \begin{eqnarray}
 f(s_u|t_v) &=\frac{\sum_{k=0}^{K}c_{\mathbb{E}}(s_u|t_v;\mathbf{s}^{[k]},\mathbf{t}^{[k]}) }    {\sum_{s_u} \sum_{k=0}^{K} c_{\mathbb{E}}(s_u|t_v;\mathbf{s}^{[k]},\mathbf{t}^{[k]})} \\
-\mathbf{a}(i|j,m,l) &=\frac{\sum_{k=0}^{K}c_{\mathbb{E}}(i|j;\mathbf{s}^{[k]},\mathbf{t}^{[k]})}  {\sum_{i}\sum_{k=0}^{K}c_{\mathbb{E}}(i|j;\mathbf{s}^{[k]},\mathbf{t}^{[k]})}
+a(i|j,m,l) &=\frac{\sum_{k=0}^{K}c_{\mathbb{E}}(i|j;\mathbf{s}^{[k]},\mathbf{t}^{[k]})}  {\sum_{i}\sum_{k=0}^{K}c_{\mathbb{E}}(i|j;\mathbf{s}^{[k]},\mathbf{t}^{[k]})}
 \label{eqC3.51-new}
 \end{eqnarray}

@@ -989,7 +989,7 @@ f(s_u|t_v) &=\frac{\sum_{k=0}^{K}c_{\mathbb{E}}(s_u|t_v;\mathbf{s}^{[k]},\mathbf
 \parinterval 可以看出，一组$\tau$和$\phi$（记为$<\tau,\phi>$）可以决定一个对齐$\mathbf{a}$和一个源语句子$\mathbf{s}$。相反的，一个对齐$\mathbf{a}$和一个源语句子$\mathbf{s}$可以对应多组$<\tau,\phi>$。如图\ref{fig:3-30}所示，不同的$<\tau,\phi>$对应同一个源语言句子和词对齐。它们的区别在于目标语单词``Scientists''生成的源语言单词``科学家''和``们''的顺序不同。我们把不同的$<\tau,\phi>$对应到的相同的源语句子$\mathbf{s}$和对齐$\mathbf{a}$记为$<\mathbf{s},\mathbf{a}>$。因此计算$\textrm{P}(\mathbf{s},\mathbf{a}| \mathbf{t})$时需要把每个可能结果的概率加起来，如下：

 \begin{equation}
-\textrm{P}(\mathbf{s},a| \mathbf{t})=\sum_{{<\tau,\phi>}\in{<\mathbf{s},a>}}{\textrm{P}(\tau,\phi|t) }
+\textrm{P}(\mathbf{s},\mathbf{a}| \mathbf{t})=\sum_{{<\tau,\phi>}\in{<\mathbf{s},a>}}{\textrm{P}(\tau,\phi|t) }
 \label{eqC3.52-new}
 \end{equation}