合并分支 'master' 到 'caorunzhe'

updating the introduction (section 6) 查看合并请求 !29

合并分支 'master' 到 'caorunzhe'
updating the introduction (section 6) 查看合并请求 !29
b1e2e893 · 曹润柘 · 7eabceb9 · 3ec71235 · b1e2e893
Commit b1e2e893 authored Jul 31, 2020 by 曹润柘
--- a/Chapter6/chapter6.tex
+++ b/Chapter6/chapter6.tex
@@ -23,22 +23,25 @@

 \chapter{基于扭曲度和繁衍率的模型}

-\parinterval {\color{red}本章开头}
+第五章展示了一种简单的基于单词的翻译模型。这种模型的形式非常简单，而且其隐含的词对齐信息具有较好的可解释性。不过，语言翻译的复杂性远远超出人们想象。这里仍然面临两方面挑战\ \dash\ 如何对`` 调序''问题进行建模以及如何对``一对多翻译''问题进行建模。调序是翻译问题中所特有的现象，比如，汉语到日语的翻译中，需要对谓词进行调序。另一方面，一个单词在另一种语言中可能会被翻译为多个连续的词，比如，汉语`` 联合国''翻译到英语会对应三个单词``The United Nations''。这种现象也被称作一对多翻译。
+
+无论是调序还是一对多翻译，简单的翻译模型（如IBM模型1）都无法对其进行很好的处理。因此，需要考虑对这两个问题单独进行建模。本章将会对机器翻译中两个常用的概念进行介绍\ \dash\ 扭曲度（Distortion）和繁衍率（Fertility）。它们可以被看做是对调序和一对多翻译现象的一种统计描述。基于此，本章会进一步介绍基于扭曲度和繁衍率的翻译模型，建立相对完整的基于单词的统计建模体系。相关的技术和概念在后续章节也会被进一步应用。

 %----------------------------------------------------------------------------------------
 %    NEW SECTION
 %----------------------------------------------------------------------------------------

 \sectionnewpage
-\section{基于扭曲度的调序模型}
+\section{基于扭曲度的翻译模型}

-\parinterval {\color{red}本节在IBM模型1-2的基础上继续介绍IBM模型3-5，这些模型采用了更细致的建模方式来描述翻译问题，包括引入产出率、单词的抽象等重要方法。此外，本节也会介绍隐马尔可夫模型，它和IBM模型有一定联系，但是从另一个视角看待翻译问题。}
+下面将介绍扭曲度在机器翻译中的定义及使用方法。这也带来了两个新的翻译模型\ \dash\ IBM模型2和HMM翻译模型。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------
 \subsection{什么是扭曲度}

+可以考虑先用例子描述一下翻译中的调序，之后说单词调序对应着``调序距离''，这种距离实际上可以被看做是一种扭曲度。。。

 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
@@ -75,7 +78,7 @@

 \parinterval 同样的，模型2的解码及训练优化和模型1的十分相似，在此不再赘述，详细推导过程可以参看\ref{decoding&computational-optimization}这一小节，这里给出IBM模型2的最终表达式：
 \begin{eqnarray}
-\textrm{IBM模型2：\ \ \ \ }\textrm{P}(\mathbf{s}| \mathbf{t}) & = & \varepsilon \prod\limits_{j=1}^{m} \sum\limits_{i=0}^{l} a(i|j,m,l) f(s_j|t_i) 
+\textrm{IBM模型2：\ \ \ \ }\textrm{P}(\mathbf{s}| \mathbf{t}) & = & \varepsilon \prod\limits_{j=1}^{m} \sum\limits_{i=0}^{l} a(i|j,m,l) f(s_j|t_i)
 \label{eq:5-65}
 \end{eqnarray}

@@ -170,7 +173,7 @@
 %----------------------------------------------------------------------------------------

 \subsection{什么是繁衍率}
-{\color{red}{扣后面非自回归解码的问题，SMT和NMT中都有应用}}
+{\color{red}{扣后面非自回归解码的问题，SMT和NMT中都有应用。从另一个角度说，繁衍率也是对翻译长度的一种建模，它本质在描述：一个词(或序列)翻译到另一种语言有多长？因此，在需要对翻译长度建模的问题中，繁衍率都可以被使用}}

 \parinterval 从前面的介绍可知，IBM模型1和模型2把不同的源语言单词看作相互独立的单元来进行词对齐和翻译。换句话说，即使某个源语言短语中的两个单词都对齐到同一个目标语单词，它们之间也是相互独立的。这样模型1和模型2对于多个源语言单词对齐到同一个目标语单词的情况并不能很好地进行描述。

@@ -187,7 +190,7 @@
 \end{figure}
 %----------------------------------------------

-\parinterval 为了表述清晰，我们重新说明每个符号的含义。$\mathbf{s}$、$\mathbf{t}$、$m$和$l$分别表示源语言句子、目标语译文、源语言单词数量以及译文单词数量。$\mathbf{\varphi}$、$\mathbf{\tau}$和$\mathbf{\pi}$分别记录产出率、生成的源语言单词以及它们在源文中的位置。${\varphi}_{i}$表示第$i$个译文单词$t_i$的产出率。${\tau}_{i}$和${\pi}_i$分别表示$t_i$生成的源语言单词列表及其在源语言句子$\mathbf{s}$中的位置列表。
+\parinterval 为了表述清晰，这里重新说明每个符号的含义。$\mathbf{s}$、$\mathbf{t}$、$m$和$l$分别表示源语言句子、目标语译文、源语言单词数量以及译文单词数量。$\mathbf{\varphi}$、$\mathbf{\tau}$ 和$\mathbf{\pi}$分别记录产出率、生成的源语言单词以及它们在源文中的位置。${\varphi}_{i}$表示第$i$个译文单词$t_i$的产出率。${\tau}_{i}$和${\pi}_i$分别表示$t_i$生成的源语言单词列表及其在源语言句子$\mathbf{s}$中的位置列表。

 \parinterval 可以看出，一组$\tau$和$\pi$（记为$<\tau,\pi>$）可以决定一个对齐$\mathbf{a}$和一个源语句子$\mathbf{s}$。