合并分支 'caorunzhe' 到 'master'

update chapter 4 查看合并请求 !168

合并分支 'caorunzhe' 到 'master'
update chapter 4 查看合并请求 !168
29a523a8 · 曹润柘 · 4e228c95 · e36e5d02 · 29a523a8
Commit 29a523a8 authored May 13, 2020 by 曹润柘
--- a/Book/Chapter4/chapter4.tex
+++ b/Book/Chapter4/chapter4.tex
@@ -468,7 +468,7 @@ d = {(\bar{s}_{\bar{a}_1},\bar{t}_1)} \circ {(\bar{s}_{\bar{a}_2},\bar{t}_2)} \c
 \end{figure}
 %-------------------------------------------

-\parinterval 除此之外，一些外部工具也可以用来获取词对齐，如Fastalign\cite{dyer2013a}、Berkeley Word Aligner\cite{taskar2005a}等。词对齐的质量通常使用词对齐错误率（AER）来评价\cite{DBLP:conf/coling/OchN00}。但是词对齐并不是一个独立的系统，它一般会服务于其他任务。因此，也可以使用下游任务来评价词对齐的好坏。比如，改进词对齐后观察机器翻译系统性能的变化。
+\parinterval 除此之外，一些外部工具也可以用来获取词对齐，如Fastalign\cite{dyer2013a}、Berkeley Word Aligner\cite{taskar2005a}等。词对齐的质量通常使用词对齐错误率（AER）来评价\cite{DBLP:conf/coling/OchN00}。但是词对齐并不是一个独立的系统，它一般会服务于其他任务。因此，也可以使用下游任务来评价词对齐的好坏。比如，改进词对齐后观察机器翻译系统性能的变化。\\ \\ \\

 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
@@ -490,8 +490,6 @@ d = {(\bar{s}_{\bar{a}_1},\bar{t}_1)} \circ {(\bar{s}_{\bar{a}_2},\bar{t}_2)} \c
 \label{eq:4-14}
 \end{eqnarray}

-\parinterval 它表达的意思是短语$\bar{s}$和$\bar{t}$存在词汇级的对应关系，其中$w$表示词汇翻译概率用来度量两个单词之间翻译的可能性大小（见第三章），作为两个词之间对应的强度。下面来看一个具体的例子，如图\ref{fig:4-17}所示。对于一个双语短语，将它们的词对齐关系代入到上面的公式就会得到短语的词汇翻译概率。对于词汇翻译概率，可以使用IBM 模型中的单词翻译表，也可以通过统计获得\cite{koehn2002learning}。如果一个单词的词对齐为空，则用$N$表示它翻译为空的概率。和短语翻译概率一样，可以使用双向的词汇化翻译概率来评价双语短语的好坏。
-
 %----------------------------------------------
 \begin{figure}[htp]
 \centering
@@ -501,6 +499,8 @@ d = {(\bar{s}_{\bar{a}_1},\bar{t}_1)} \circ {(\bar{s}_{\bar{a}_2},\bar{t}_2)} \c
 \end{figure}
 %-------------------------------------------

+\parinterval 它表达的意思是短语$\bar{s}$和$\bar{t}$存在词汇级的对应关系，其中$w$表示词汇翻译概率用来度量两个单词之间翻译的可能性大小（见第三章），作为两个词之间对应的强度。下面来看一个具体的例子，如图\ref{fig:4-17}所示。对于一个双语短语，将它们的词对齐关系代入到上面的公式就会得到短语的词汇翻译概率。对于词汇翻译概率，可以使用IBM 模型中的单词翻译表，也可以通过统计获得\cite{koehn2002learning}。如果一个单词的词对齐为空，则用$N$表示它翻译为空的概率。和短语翻译概率一样，可以使用双向的词汇化翻译概率来评价双语短语的好坏。
+
 \parinterval 经过上面的介绍，可以从双语平行语料中把双语短语抽取出来，同时得到相应的翻译概率（即特征），组成{\small\bfnew{短语表}}\index{短语表}（Phrase Table）\index{Phrase Table}。图\ref{fig:4-18}展示了一个真实短语表的片段。其中包括源语言短语和目标语言短语，用|||进行分割。每个双语对应的得分，包括正向和反向的词汇翻译概率以及短语翻译概率，还包括词对齐信息（0-0、1-1）等其他信息。

 %----------------------------------------------
@@ -591,7 +591,7 @@ dr = start_i-end_{i-1}-1
 \label{fig:4-22}
 \end{figure}
 %-------------------------------------------
-
+\vspace{1.0em}
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------
@@ -780,7 +780,7 @@ dr = start_i-end_{i-1}-1

 \subsubsection{翻译候选匹配}

-\parinterval 在解码时，首先要知道每个源语言短语可能的译文都是什么。对于一个源语言短语，每个可能的译文也被称作{\small\bfnew{翻译候选}}\index{翻译候选}（Translation Candidate）\index{Translation Candidate}。实现翻译候选的匹配很简单。只需要遍历输入的源语言句子中所有可能的短语，之后在短语表中找到相应的翻译即可。比如，图\ref{fig:4-27}展示了句子``桌子\ 上\ 有\ 一个\ 苹果''的翻译候选匹配结果。可以看到，不同的短语会对应若干翻译候选。这些翻译候选会保存在所对应的跨度中。比如，``upon the table''是短语``桌子 上 有''的翻译候选，即对应源语言跨度[0,3]。
+\parinterval 在解码时，首先要知道每个源语言短语可能的译文都是什么。对于一个源语言短语，每个可能的译文也被称作{\small\bfnew{翻译候选}}\index{翻译候选}（Translation Candidate）\index{Translation Candidate}。实现翻译候选的匹配很简单。只需要遍历输入的源语言句子中所有可能的短语，之后在短语表中找到相应的翻译即可。比如，图\ref{fig:4-27}展示了句子``桌子\ 上\ 有\ 一个\ 苹果''的翻译候选匹配结果。可以看到，不同的短语会对应若干翻译候选。这些翻译候选会保存在所对应的跨度中。比如，``upon the table''是短语``桌子 上 有''的翻译候选，即对应源语言跨度[0,3]。\\ \\ \\ 

 %----------------------------------------------
 \begin{figure}[htp]
@@ -807,7 +807,7 @@ dr = start_i-end_{i-1}-1
 \label{fig:4-28}
 \end{figure}
 %-------------------------------------------
-
+\vspace{4.0em}
 %----------------------------------------------------------------------------------------
 %    NEW SUBSUB-SECTION
 %----------------------------------------------------------------------------------------
@@ -1008,7 +1008,7 @@ dr = start_i-end_{i-1}-1
 \end{definition}
 %-------------------------------------------

-\parinterval 根据这个定义，源语言和目标语言有不同的终结符集合（单词），但是它们会共享同一个非终结符集合（变量）。每个产生式包括源语言和目标语言两个部分，分别表示由规则左部生成的源语言和目标语言符号串。由于产生式会同时生成两种语言的符号串，因此这是一种``同步''生成，可以很好地描述翻译中两个词串之间的对应。
+\parinterval 根据这个定义，源语言和目标语言有不同的终结符集合（单词），但是它们会共享同一个非终结符集合（变量）。每个产生式包括源语言和目标语言两个部分，分别表示由规则左部生成的源语言和目标语言符号串。由于产生式会同时生成两种语言的符号串，因此这是一种``同步''生成，可以很好地描述翻译中两个词串之间的对应。\\

 \parinterval 下面是一个简单的SCFG实例：
 \begin{eqnarray}
@@ -1323,10 +1323,6 @@ span\textrm{[0,4]}&=&\textrm{``猫} \quad \textrm{喜欢} \quad \textrm{吃} \qu
 %    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsection{立方剪枝}
-
-\parinterval 相比于基于短语的模型，基于层次短语的模型引入了``变量''的概念。这样，可以根据变量周围的上下文信息对变量进行调序。变量的内容由其所对应的跨度上的翻译假设进行填充。图\ref{fig:4-38}展示了一个层次短语规则匹配词串的实例。可以看到，规则匹配词串之后，变量X的位置对应了一个跨度。这个跨度上所有标记为X的局部推导都可以作为变量的内容。
-
 %----------------------------------------------
 \begin{figure}[htp]
 \centering
@@ -1336,6 +1332,11 @@ span\textrm{[0,4]}&=&\textrm{``猫} \quad \textrm{喜欢} \quad \textrm{吃} \qu
 \end{figure}
 %-------------------------------------------

+\subsection{立方剪枝}
+
+\parinterval 相比于基于短语的模型，基于层次短语的模型引入了``变量''的概念。这样，可以根据变量周围的上下文信息对变量进行调序。变量的内容由其所对应的跨度上的翻译假设进行填充。图\ref{fig:4-38}展示了一个层次短语规则匹配词串的实例。可以看到，规则匹配词串之后，变量X的位置对应了一个跨度。这个跨度上所有标记为X的局部推导都可以作为变量的内容。
+
+
 \parinterval 真实的情况会更加复杂。对于一个规则的源语言端，可能会有多个不同的目标语言端与之对应。比如，如下规则的源语言端完全相同，但是译文不同：
 \begin{eqnarray}
 \textrm{X} & \to & \langle\ \textrm{X}_1\ \text{大幅度}\ \text{下降}\ \text{了},\ \textrm{X}_1\ \textrm{have}\ \textrm{drastically}\ \textrm{fallen}\ \rangle \nonumber \\
@@ -1382,6 +1383,7 @@ span\textrm{[0,4]}&=&\textrm{``猫} \quad \textrm{喜欢} \quad \textrm{吃} \qu
 \begin{figure}[htp]
 \centering
 \input{./Chapter4/Figures/derivation-of-hierarchical-phrase-and-tree-structure-model}
+\setlength{\belowcaptionskip}{-0.5em}
 \caption{层次短语模型所对应的翻译推导及树结构（源语言）}
 \label{fig:4-41}
 \end{figure}
@@ -1403,6 +1405,7 @@ span\textrm{[0,4]}&=&\textrm{``猫} \quad \textrm{喜欢} \quad \textrm{吃} \qu
 \begin{figure}[htp]
 \centering
 \input{./Chapter4/Figures/examples-of-translation-with-complex-ordering}
+\setlength{\belowcaptionskip}{-0.5em}
 \caption{含有复杂调序的翻译实例（汉语翻译到英语）}
 \label{fig:4-42}
 \end{figure}
@@ -1410,17 +1413,18 @@ span\textrm{[0,4]}&=&\textrm{``猫} \quad \textrm{喜欢} \quad \textrm{吃} \qu

 \parinterval 从这个例子中可以发现，如果知道源语言的句法结构，翻译其实并不``难''。比如，语言学句法结构可以告诉模型句子的主要成分是什么，而调序实际上是在这些成分之间进行的。从这个角度说，语言学句法可以帮助模型进行更上层结构的表示和调序。

-\parinterval 显然，使用语言学句法对机器翻译进行建模也是一种不错的选择。不过，语言学句法有很多种，因此首先需要确定使用何种形式的句法。比如，在自然语言处理中经常使用的是短语结构分析和依存分析（图\ref{fig:4-43}）。二者的区别已经在第二章进行了讨论。在机器翻译中，这两种句法信息都可以被使用。不过为了后续讨论的方便，这里仅介绍基于短语结构树的机器翻译建模。使用短语结构树的原因在于，它提供了较为丰富的句法信息，而且相关句法分析工具比较成熟。如果没有特殊说明，本章中所提到的句法树都是指短语结构树（或成分句法树），有时也会把句法树简称为树。此外，这里也假设所有句法树都可以由句法分析器自动生成\footnote[7]{对于汉语、英语等大语种，句法分析器的选择有很多。不过，对于一些小语种，句法标注数据有限，句法分析可能并不成熟，这时在机器翻译中使用语言学句法信息会面临较大的挑战。}。
-
 %----------------------------------------------
 \begin{figure}[htp]
 \centering
 \input{./Chapter4/Figures/phrase-structure-tree-and-dependency-tree}
+\setlength{\belowcaptionskip}{-1.0em}
 \caption{短语结构树 vs 依存树}
 \label{fig:4-43}
 \end{figure}
 %-------------------------------------------

+\parinterval 显然，使用语言学句法对机器翻译进行建模也是一种不错的选择。不过，语言学句法有很多种，因此首先需要确定使用何种形式的句法。比如，在自然语言处理中经常使用的是短语结构分析和依存分析（图\ref{fig:4-43}）。二者的区别已经在第二章进行了讨论。在机器翻译中，这两种句法信息都可以被使用。不过为了后续讨论的方便，这里仅介绍基于短语结构树的机器翻译建模。使用短语结构树的原因在于，它提供了较为丰富的句法信息，而且相关句法分析工具比较成熟。如果没有特殊说明，本章中所提到的句法树都是指短语结构树（或成分句法树），有时也会把句法树简称为树。此外，这里也假设所有句法树都可以由句法分析器自动生成\footnote[7]{对于汉语、英语等大语种，句法分析器的选择有很多。不过，对于一些小语种，句法标注数据有限，句法分析可能并不成熟，这时在机器翻译中使用语言学句法信息会面临较大的挑战。}。
+
 %----------------------------------------------------------------------------------------
 %    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------
@@ -1454,18 +1458,6 @@ span\textrm{[0,4]}&=&\textrm{``猫} \quad \textrm{喜欢} \quad \textrm{吃} \qu
 \rule{0pt}{15pt}基于树 &（源语言）使用树结构（大多指句法树） \\
 \rule{0pt}{15pt}基于串 &（源语言）使用词串，比如串到树翻译系统的解码器一般\\
 &都是基于串的解码方法 \\
-\end{tabular}
-}
-\end{center}
-}\end{table}
-\vspace{3em}
-\begin{table}[htp]{
-\begin{center}
-\vspace{1em}
-{
-\begin{tabular}{p{6.5em} | l}
-术语 & 说明 \\
-\hline
 \rule{0pt}{15pt}基于森林 &（源语言）使用句法森林，这里森林只是对多个句法树的一\\
 &种压缩表示 \\
 \rule{0pt}{15pt}词汇化规则 & 含有终结符的规则 \\
@@ -1477,7 +1469,7 @@ span\textrm{[0,4]}&=&\textrm{``猫} \quad \textrm{喜欢} \quad \textrm{吃} \qu
 }
 \end{center}
 }\end{table}
-%-------------------------------------------
+%----------------------------------------------

 \parinterval 基于句法的翻译模型可以被分为两类：基于形式化文法的模型和语言学上基于句法的模型（图\ref{fig:4-44}）。基于形式化文法的模型的典型代表包括，吴德恺提出的基于反向转录文法的模型\cite{wu1997stochastic}和David Chiang提出的基于层次短语的模型\cite{chiang2007hierarchical}。而语言学上基于句法的模型包括，句法树到串的模型\cite{liu2006tree,huang2006statistical}、串到句法树的模型\cite{galley2006scalable,galley2004s}、句法树到句法树的模型\cite{eisner2003learning,zhang2008tree,liu2009improving,chiang2010learning}等。通常来说，基于形式化文法的模型并不需要句法分析技术的支持。这类模型只是把翻译过程描述为一系列形式化文法规则的组合过程。而语言学上基于句法的模型则需要源语言和（或者）目标语言句法分析的支持，以获取更丰富的语言学信息来提高模型的翻译能力。这也是本节所关注的重点。当然，所谓分类也没有唯一的标准，比如，还可以把句法模型分为基于软约束的模型和基于硬约束的模型，或者分为基于树的模型和基于串的模型。