更新 Chapter3.tex

a7f86af0 · 曹润柘 · 572f2eaa · a7f86af0
Commit a7f86af0 authored Mar 12, 2020 by 曹润柘
--- a/Book/Chapter3/Chapter3.tex
+++ b/Book/Chapter3/Chapter3.tex
@@ -279,7 +279,7 @@
 \parinterval 回到设计$g(\mathbf{s},\mathbf{t})$的问题上。这里，我们采用``大题小作''的方法，这个技巧在第二章已经进行了充分的介绍。具体来说，直接建模句子之间的对应比较困难，但可以利用单词之间的对应来描述句子之间的对应关系。这就用到了上一小节所介绍的单词翻译概率。
-\parinterval 我们首先引入一个非常重要的概念\ \dash \ \textbf{词对齐}，它是统计机器翻译中最核心的概念之一。词对齐描述了平行句对中单词之间的对应关系，它体现了一种观点：本质上句子之间的对应是由词之间的对应表示的。当然，这个观点在神经机器翻译或者其它模型中可能会有不同的理解，但是翻译句子的过程中我们考虑词级的对应关系是符合我们对语言的认知的。图\ref{fig:3-7}展示了一个句对$\mathbf{s}$和$\mathbf{t}$，单词的右下标数字表示了该词在句中的位置，而虚线表示的是句子$\mathbf{s}$和$\mathbf{t}$中的词对齐关系。比如，``满意''的右下标数字5表示在句子$\mathbf{s}$中处于第5个位置，``satisfied''的右下标数字3表示在句子$\mathbf{t}$中处于第3个位置，``满意''和``satisfied''之间的虚线表示两个单词之间是对齐的。为方便描述，我们用二元组$(j,i)$来描述词对齐，它表示源语言句子的第$j$个单词对应目标语言句子的第$i$个单词，即单词$s_j$和$t_i$对应。通常，也会把$(j,i)$称作一条\textbf{词对齐连接}。图\ref{fig:3-7}中共有5条虚线，表示有5组单词之间的词对齐连接。我们把这些词对齐连接构成的集合作为词对齐的一种表示，记为$\mathbf{a}$，即$A={\{(1,1),(2,4),(3,5),(4,2),(5,3)}\}$。
+\parinterval 我们首先引入一个非常重要的概念\ \dash \ \textbf{词对齐}，它是统计机器翻译中最核心的概念之一。词对齐描述了平行句对中单词之间的对应关系，它体现了一种观点：本质上句子之间的对应是由词之间的对应表示的。当然，这个观点在神经机器翻译或者其它模型中可能会有不同的理解，但是翻译句子的过程中我们考虑词级的对应关系是符合我们对语言的认知的。图\ref{fig:3-7}展示了一个句对$\mathbf{s}$和$\mathbf{t}$，单词的右下标数字表示了该词在句中的位置，而虚线表示的是句子$\mathbf{s}$和$\mathbf{t}$中的词对齐关系。比如，``满意''的右下标数字5表示在句子$\mathbf{s}$中处于第5个位置，``satisfied''的右下标数字3表示在句子$\mathbf{t}$中处于第3个位置，``满意''和``satisfied''之间的虚线表示两个单词之间是对齐的。为方便描述，我们用二元组$(j,i)$来描述词对齐，它表示源语言句子的第$j$个单词对应目标语言句子的第$i$个单词，即单词$s_j$和$t_i$对应。通常，也会把$(j,i)$称作一条\textbf{词对齐连接}。图\ref{fig:3-7}中共有5条虚线，表示有5组单词之间的词对齐连接。我们把这些词对齐连接构成的集合作为词对齐的一种表示，记为$\mathbf{a}$，即$A={\{(1,1),(2,4),(3,5),(4,2)(5,3)}\}$。
 %----------------------------------------------
 % 图3.11
 \begin{figure}[htp]
@@ -473,7 +473,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}
 实际上，在机器翻译中引入语言模型是一个很深刻的概念。在IBM模型之后相当长的时间里，语言模型一直是机器翻译各个部件中最重要的部分。即使现在机器翻译模型已经更新换代，对译文连贯性的建模也是所有系统中需要包含的内容（即使隐形体现）。
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
-\subsection{建模}\index{Chapter3.3.2}
+\subsection{统计机器翻译的三个基本问题}\index{Chapter3.3.2}
 \parinterval 公式\ref{eqC3.17-new}给出了统计机器翻译问题的数学描述。为了实现这个过程，面临着三个基本问题：
@@ -1135,7 +1135,7 @@ p_0+p_1                            & = & 1 \label{eqC3.62-new}
 \label{eqC3.66-new}
 \end{eqnarray}
-\parinterval 这里，因子$1-\delta(v_i, v_{i-1})$是用来判断第$i$个位置是不是为空。如果第$i$个位置为空则$v_i = v_{i-1}$，这样$\textrm{P}(\pi_{[j]1}=i|\pi_1^{[j]-1}, \tau_0^l, \varphi_0^l, \mathbf{t}) = 0$。这样就从模型上避免了模型3和模型4中生成不存在的字符串的问题。这里还要注意的是，对于放置第一个单词的情况，影响放置的因素有$v_i$，$B(f_i)$和$v_{i-1}$。此外还要考虑在$i$位置放置了第一个单词以后它的右边是不是还有足够的位置留给剩下的$k-1$个单词。参数$v_m-\varphi_{[j]}+1$就是为了考虑这个因素，这里$v_m$表示整个源语言言句子中还有多少空位置，$\varphi_{[j]}-1$表示$i$位置右边至少还要留出的空格数。对于放置非第一个单词的情况，主要是要考虑它和前一个放置位置的相对位置。这主要体现在参数$v_i-v_{\varphi_{[j]}k-1}$上。式\ref{eqC3.66-new}的其它部分都可以用上面的理论解释，这里不再赘述。
+\parinterval 这里，因子$1-\delta(v_i, v_{i-1})$是用来判断第$i$个位置是不是为空。如果第$i$个位置为空则$v_i = v_{i-1}$，这样$\textrm{P}(\pi_{[j]1}=i|\pi_1^{[j]-1}, \tau_0^l, \varphi_0^l, \mathbf{t}) = 0$。这样就从模型上避免了模型3和模型4中生成不存在的字符串的问题。这里还要注意的是，对于放置第一个单词的情况，影响放置的因素有$v_i$，$B(f_i)$和$v_{i-1}$。此外还要考虑在$i$位置放置了第一个单词以后它的右边是不是还有足够的位置留给剩下的$k-1$个单词。参数$v_m-\varphi_{[j]}+1$就是为了考虑这个因素，这里$v_m$表示整个源语言言句子中还有多少空位置，$\varphi_{[j]}-1$表示$i$位置右边至少还要留出的空格数。对于放置非第一个单词的情况，主要是要考虑它和前一个放置位置的相对位置。这主要体现在参数$v_i-v_{\varphi_{[j]}k-1}$上。式4.99的其它部分都可以用上面的理论解释，这里不再赘述。
 \parinterval 实际上，模型5和模型4的思想基本一致，即，先确定$\tau_{[j]1}$的绝对位置，然后再确定$\tau_{[j]}$中剩余单词的相对位置。模型5消除了产生不存在的句子的可能性，不过模型5的复杂性也大大增加了。