Commit a2dc2f6e by xiaotong

updates of section 3

parent aade8184
...@@ -13,33 +13,33 @@ ...@@ -13,33 +13,33 @@
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\chapter{基于词的机器翻译模型} \chapter{基于词的机器翻译模型}
\parinterval 使用统计方法对翻译问题进行建模是机器翻译发展中的重要里程碑。这种思想也影响了当今的统计机器翻译和神经机器翻译方法。虽然技术不断发展,传统的统计模型已经不再``新鲜'',但它对于今天机器翻译的研究仍然有着重要的启示作用。在了解前沿、展望未来的同时,我们更要冷静的思考前人给我们带来了什么。基于此,本章将介绍统计机器翻译的开山之作\ \dash \ IBM模型,它提出了使用统计模型进行翻译的思想,并在建模中引入了单词对齐这一重要概念。IBM模型由Peter E. Brown等人于上世纪九十年代初提出\cite{brown1993mathematics}。客观的说,这项工作的视野和对问题的理解,已经超过当时很多人所能看到的东西,其衍生出来的一系列方法和新的问题还被后人花费将近10年的时间来进行研究与讨论。时至今日,IBM模型中的一些思想仍然影响着很多研究工作。 \parinterval 使用概率化的方法对翻译问题进行建模是机器翻译发展中的重要里程碑。这种思想也影响了当今的统计机器翻译和神经机器翻译方法。虽然技术不断发展,传统的统计模型已经不再``新鲜'',但它对于今天机器翻译的研究仍然有着重要的启示作用。在了解前沿、展望未来的同时,我们更要冷静的思考前人给我们带来了什么。基于此,本章将介绍统计机器翻译的开山之作\ \dash \ IBM模型,它提出了使用统计模型进行翻译的思想,并在建模中引入了单词对齐这一重要概念。IBM模型由Peter E. Brown等人于上世纪九十年代初提出\cite{brown1993mathematics}。客观的说,这项工作的视野和对问题的理解,已经超过当时很多人所能看到的东西,其衍生出来的一系列方法和新的问题还被后人花费将近10年的时间来进行研究与讨论。时至今日,IBM模型中的一些思想仍然影响着很多研究工作。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section{什么是基于词的翻译模型}\index{Chapter3.1}%Index的作用,目前不清晰 \section{什么是基于词的翻译模型}\index{Chapter3.1}%Index的作用,目前不清晰
\parinterval 在机器翻译中,我们希望得到一个源语言到目标语言的翻译。对于人类来说这个问题很简单,但是让计算机做这样的工作却很困难,因为我们需要把翻译``描述''成计算机可以计算的形式。因此这里面临的第一个问题是:如何对翻译进行建模?从计算机的角度来看,这就需要把自然语言的翻译问题转换为计算机可计算的问题。也就是,我们需要解决:如何将翻译转换为一个可计算的模型或过程? \parinterval 在机器翻译中,我们希望得到一个源语言到目标语言的翻译。对于人类来说这个问题很简单,但是让计算机做这样的工作却很困难,因为我们需要把翻译``描述''成计算机可以计算的形式。这里面临的第一个问题是:如何对翻译进行建模?从计算机的角度来看,这就需要把自然语言的翻译问题转换为计算机可计算的问题。
\parinterval 那么,基于单词的统计机器翻译模型又是如何描述翻译问题的呢?Peter E. Brown等人提出了一个观点\cite{brown1993mathematics}:在翻译源语句时,可以把每个源语言句子中的单词翻译成对应的目标语言单词,然后调整这些目标语言单词的顺序,最后得到整个句子的翻译结果,而这个过程可以用统计模型来描述。尽管在人看来使用两个语言单词之间的对应进行翻译是很自然的事,但是对于计算机来说可是向前迈出了一大步。 \parinterval 那么,基于单词的统计机器翻译模型又是如何描述翻译问题的呢?Peter E. Brown等人提出了一个观点\cite{brown1993mathematics}:在一个句子时,可以把其中的每个单词翻译成对应的目标语言单词,然后调整这些目标语言单词的顺序,最后得到整个句子的翻译结果,而这个过程可以用统计模型来描述。尽管在人看来使用两个语言单词之间的对应进行翻译是很自然的事,但是对于计算机来说可是向前迈出了一大步。
\parinterval 先来看一个例子。图 \ref{fig:3-1}展示了一个汉语翻译到英语的例子。首先我们把源语句的单词``我''、``对''、``你''、``感到''和``满意''分别翻译为``I''、``with''、``you''、``am''\ 和``satisfied'',然后调整单词的顺序,比如,``am''放在译文的第2个位置,``you''应该放在最后的位置等等,最后得到译文``I am satisfied with you''。
\parinterval 先来看一个例子。图 \ref{fig:3-1}展示了一个汉语翻译到英语的例子。首先我们把源语句的单词``我''、``对''、``你''、``感到''和``满意''分别翻译为``I''、``with''、``you''、``am''\ 和``satisfied'',然后调整单词的顺序,比如``am''放在译文的第2个位置,``you''应该放在最后的位置等,最后得到译文``I am satisfied with you''。
%空一行用来段落换行,noindent取消首行缩进,hspace{}指定缩进距离,1em等于两个英文字符|一个汉字
%---------------------------------------------- %----------------------------------------------
% 图3.1 % 图3.1
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\input{./Chapter3/Figures/figure-zh-en-translation-example} \input{./Chapter3/Figures/figure-zh-en-translation-example}
\caption{汉语到英语翻译实例及单词之间的对应关系} \caption{汉语到英语翻译实例及两种语言单词之间的对应关系}
\label{fig:3-1} \label{fig:3-1}
\end{figure} \end{figure}
%------------------------------------------- %-------------------------------------------
\parinterval 上面的例子反映了人在做翻译时所使用的一些知识:首先,两种语言单词的顺序可能不一致,译文需要符合目标语的习惯,这也是我们常说翻译的{\small\sffamily\bfseries{流畅度}}问题(fluency);其次,源语言单词需要准确的被翻译出来\footnote{当然,对于一些意译的情况或者虚词并不需要翻译。},也是我们常说的翻译的{\small\sffamily\bfseries{准确性}}{\small\sffamily\bfseries{充分性}}问题(adequacy)。为了达到以上目的,传统观点认为翻译需要过程包含三个步骤(图 \ref{fig:3-2} \parinterval 上面的例子反映了人在做翻译时所使用的一些知识:首先,两种语言单词的顺序可能不一致,而且译文需要符合目标语的习惯,这也就是常说翻译的{\small\sffamily\bfseries{流畅度}}问题(Fluency);其次,源语言单词需要准确的被翻译出来\footnote{当然,对于一些意译的情况或者虚词并不需要翻译。},也就是常说的翻译的{\small\sffamily\bfseries{准确性}}{\small\sffamily\bfseries{充分性}}问题(Adequacy)。为了达到以上目的,传统观点认为翻译过程需要包含三个步骤(图 \ref{fig:3-2}
\begin{itemize} \begin{itemize}
\item {\small\sffamily\bfseries{分析:}}将源语言句子切分或者表示为能够处理的最小单元。基于词的翻译模型中,最小处理单元就是单词,因此在这里也可以简单地将分析理解为分词\footnote{在后续章节中会看到,分析也包括对语言结构的深入分析,但是这里为了突出基于单词的概念,因此把问题简化为最简单的情况。} \item {\small\sffamily\bfseries{分析:}}将源语言句子切分或者表示为能够处理的最小单元。在基于词的翻译模型中,最小的处理单元就是单词,因此在这里也可以简单地将分析理解为分词\footnote{在后续章节中会看到,分析也包括对句子深层次结构的生成,但是这里为了突出基于单词的概念,因此把问题简化为最简单的情况。}
\item {\small\sffamily\bfseries{转换:}}把源语句中的每个单词翻译成目标语单词。 \item {\small\sffamily\bfseries{转换:}}把源语言句子中的每个单词翻译成目标语言单词。
\item {\small\sffamily\bfseries{生成:}}基于转换的结果,将目标语译文变成通顺且合乎语法的句子。 \item {\small\sffamily\bfseries{生成:}}基于转换的结果,将目标语译文变成通顺且合乎语法的句子。
\end{itemize} \end{itemize}
...@@ -53,16 +53,16 @@ ...@@ -53,16 +53,16 @@
\label{fig:3-2} \label{fig:3-2}
\end{figure} \end{figure}
%--------------------------- %---------------------------
\parinterval 即使现在,``分析、转换和生成''依然是一个非常深刻的观点。包括机器翻译在内的很多自然语言处理任务都可以用这个过程来解释。比如,对于现在比较前沿的神经机器翻译方法,从大的框架来说,依然在做分析(编码器)、转换(编码-解码注意力)和生成(解码器),只不过这些过程隐含在神经网络的设计中。当然,这里并不会对``分析、转换和生成''的架构展开过多的讨论,随着后面技术内容讨论的深入,这个观念会有进一步体现。 \parinterval 对于今天的自然语言处理研究,``分析、转换和生成''依然是一个非常深刻的观点。包括机器翻译在内的很多自然语言处理问题都可以用这个过程来解释。比如,对于现在比较前沿的神经机器翻译方法,从大的框架来说,依然在做分析(编码器)、转换(编码-解码注意力)和生成(解码器),只不过这些过程隐含在神经网络的设计中。当然,这里并不会对``分析、转换和生成''的架构展开过多的讨论,随着后面技术内容讨论的深入,这个观念会有进一步体现。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section{构建一个简单的机器翻译系统}\index{Chapter3.2}%Index的作用,目前不清晰 \section{构建一个简单的机器翻译系统}\index{Chapter3.2}%Index的作用,目前不清晰
\label{sec:simple-mt-example} \label{sec:simple-mt-example}
\parinterval 本节首先对比人工翻译和机器翻译过程的异同点,从中我们归纳出构建机器翻译系统的两个主要流程:训练和解码。我们会从学习翻译知识(单词、句子)和运用翻译知识两个方面描述如何构建一个简单的机器翻译系统。 \parinterval 本节首先对比人工翻译和机器翻译过程的异同点,从中我们归纳出构建机器翻译系统的两个主要步骤:训练和解码。我们会从学习翻译知识和运用翻译知识两个方面描述如何构建一个简单的机器翻译系统。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{如何进行翻译?}\index{Chapter3.2.1} \subsection{如何进行翻译?}\index{Chapter3.2.1}
\subsubsection*{(一)人工翻译流程}\index{Chapter3.2.1.1} \subsubsection*{人工翻译流程}\index{Chapter3.2.1.1}
\parinterval 当我们翻译一个句子时,首先会快速地分析出句子的(单词)构成,然后根据以往的知识,得到每个词可能的翻译,最后利用对目标语的理解拼出来一个译文。尽管这个过程并不是严格来自心理学或者脑科学的相关结论,但至少可以帮助我们理解人在翻译时的思考方式。 \parinterval 当我们翻译一个句子时,首先会快速地分析出句子的(单词)构成,然后根据以往的知识,得到每个词可能的翻译,最后利用对目标语的理解拼出来一个译文。尽管这个过程并不是严格来自心理学或者脑科学的相关结论,但至少可以帮助我们理解人在翻译时的思考方式。
%---------------------------------------------- %----------------------------------------------
...@@ -79,19 +79,19 @@ ...@@ -79,19 +79,19 @@
\begin{itemize} \begin{itemize}
\vspace{0.5em} \vspace{0.5em}
\item 翻译知识的学习:对于输入的源语言句子,我们首先需要知道每个单词可能的翻译有什么,这些翻译被称为{\small\sffamily\bfseries{翻译候选}}。比如,汉语单词``对''可能的译文有``to''、``with''和``for''等。对于人来说,可以通过阅读、背诵、做题或者老师教等途径获得翻译知识,这些知识就包含了源语言与目标语言单词之间的对应关系。我们也把这个过程称之为学习过程。 \item {\small\bfnew{翻译知识的学习}}:对于输入的源语言句子,我们首先需要知道每个单词可能的翻译有什么,这些翻译被称为{\small\sffamily\bfseries{翻译候选}}(Translation Candidate)。比如,汉语单词``对''可能的译文有``to''、``with''和``for''等。对于人来说,可以通过阅读、背诵、做题或者老师教等途径获得翻译知识,这些知识就包含了源语言与目标语言单词之间的对应关系。我们也把这个过程称之为学习过程。
\vspace{0.5em} \vspace{0.5em}
\item 运用知识生成译文:当翻译一个从未见过的句子时,我们可以运用学习到的翻译知识,得到新的句子中每个单词的译文,并处理常见的单词搭配、主谓一致等问题,比如,我们知道``satisfied''后面常常使用介词``with''构成搭配,基于这些知识可以快速生成译文。 \item {\small\bfnew{运用知识生成译文}}:当翻译一个从未见过的句子时,我们可以运用学习到的翻译知识,得到新的句子中每个单词的译文,并处理常见的单词搭配、主谓一致等问题,比如,我们知道``satisfied''后面常常使用介词``with''构成搭配,基于这些知识可以快速生成译文。
\vspace{0.5em} \vspace{0.5em}
\end{itemize} \end{itemize}
当然,每个人进行翻译时所使用的方法和技巧都不相同,所谓人工翻译也没有固定的流程。但是,可以确定的是,人在进行翻译时也需要``学习''和``运用''翻译知识。对翻译知识``学习''和``运用''的好与坏,直接决定了人工翻译结果的质量。 当然,每个人进行翻译时所使用的方法和技巧都不相同,所谓人工翻译也没有固定的流程。但是,可以确定的是,人在进行翻译时也需要``学习''和``运用''翻译知识。对翻译知识``学习''和``运用''的好与坏,直接决定了人工翻译结果的质量。
%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%
\subsubsection{(二)机器翻译流程}\index{Chapter3.2.1.2} \subsubsection{机器翻译流程}\index{Chapter3.2.1.2}
\parinterval 人进行翻译的过程比较容易理解,那计算机是如何完成翻译的呢?虽然人工智能这个概念显得很神奇,但是计算机远没有人那么智能,有时甚至还很``笨''。一方面,他没有能力像人一样,在教室里和老师一起学习语言知识;另一方面,即使能列举出每个单词的候选译文,但是还是不知道这些译文怎么拼装成句的,甚至不知道哪些译文是对的。为了更加直观地理解机器在翻译时要解决的挑战,我们将问题归纳如下。 \parinterval 人进行翻译的过程比较容易理解,那计算机是如何完成翻译的呢?虽然人工智能这个概念显得很神奇,但是计算机远没有人那么智能,有时甚至还很``笨''。一方面,它没有能力像人一样,在教室里和老师一起学习语言知识;另一方面,即使能列举出每个单词的候选译文,但是还是不知道这些译文怎么拼装成句的,甚至不知道哪些译文是对的。为了更加直观地理解机器在翻译时要解决的挑战,我们将问题归纳如下:
\vspace{0.5em} \vspace{0.5em}
\begin{itemize} \begin{itemize}
...@@ -101,7 +101,7 @@ ...@@ -101,7 +101,7 @@
\end{itemize} \end{itemize}
\vspace{0.5em} \vspace{0.5em}
\parinterval 对于第一个问题,我们可以给计算机一个翻译词典,这样计算机可以发挥计算方面的优势,简单粗暴的把尽可能多的翻译结果拼装出来。比如,可以把每个翻译结果看作是对单词翻译的拼装,这可以被形象的比做贯穿多个单词的一条路径,计算机所做的就是尽可能多的生成这样的路径。图\ref{fig:3-4}中蓝色和红色的线就分别表示了两条不同的译文选择路径,区别在于``满意''和``对''的翻译候选是不一样的,蓝色线选择的是``satisfy''和``to'',而红色线是``satisfied''和``with''。换句话说,不同的译文对应不同的路径,即使词序不同也会对应不同的路径 \parinterval 对于第一个问题,我们可以给计算机一个翻译词典,这样计算机可以发挥计算方面的优势,尽可能多的把翻译结果拼装出来。比如,可以把每个翻译结果看作是对单词翻译的拼装,这可以被形象的比做贯穿多个单词的一条路径,计算机所做的就是尽可能多的生成这样的路径。图\ref{fig:3-4}中蓝色和红色的折线就分别表示了两条不同的译文选择路径,区别在于``满意''和``对''的翻译候选是不一样的,蓝色折线选择的是``satisfy''和``to'',而红色折线是``satisfied''和``with''。换句话说,不同的译文对应不同的路径(即使词序不同也会对应不同的路径)
%---------------------------------------------- %----------------------------------------------
% 图3.4 % 图3.4
\begin{figure}[htp] \begin{figure}[htp]
...@@ -112,21 +112,21 @@ ...@@ -112,21 +112,21 @@
\end{figure} \end{figure}
%--------------------------- %---------------------------
\parinterval 对于第二个问题,尽管机器能够找到很多这样的译文选择路径,但它并不知道哪些路径是好的。说的再直白一些,简单的枚举路径实际上就是一个体力活,没有什么智能。因此计算机还需要再聪明一些,运用它的能够``掌握''的知识判断翻译结果的好与坏。这一步是最具挑战的,当然也有很多思路。在统计机器翻译中,这个问题被定义为:设计一种统计模型,它可以给每个译文一个可能性,而这个可能性越高表明译文越接近人工翻译。如图\ref{fig:3-4}所示,每个单词翻译候选的右侧黑色框里的数字就是单词的翻译概率,使用这些单词的翻译概率,我们可以得到整句译文的概率(用符号P表示)。这样,我们用概率化的模型描述了每个翻译候选的可能性。基于每个翻译候选的可能性,机器翻译系统可以对所有的翻译``路径''进行打分,比如,图\ref{fig:3-4}中第一条路径的分数为0.042,第二条是0.006,以此类推。最后,系统可以选择分数最高的路径作为源语言句子的最终译文。 \parinterval 对于第二个问题,尽管机器能够找到很多译文选择路径,但它并不知道哪些路径是好的。说的再直白一些,简单的枚举路径实际上就是一个体力活,没有什么智能。因此计算机还需要再聪明一些,运用它的能够``掌握''的知识判断翻译结果的好与坏。这一步是最具挑战的,当然也有很多思路。在统计机器翻译中,这个问题被定义为:设计一种统计模型,它可以给每个译文一个可能性,而这个可能性越高表明译文越接近人工翻译。如图\ref{fig:3-4}所示,每个单词翻译候选的右侧黑色框里的数字就是单词的翻译概率,使用这些单词的翻译概率,可以得到整句译文的概率(用符号P表示)。这样,我们用概率化的模型描述了每个翻译候选的可能性。基于这些翻译候选的可能性,机器翻译系统可以对所有的翻译路径进行打分,比如,图\ref{fig:3-4}中第一条路径的分数为0.042,第二条是0.006,以此类推。最后,系统可以选择分数最高的路径作为源语言句子的最终译文。
\vspace{-0.5em} \vspace{-0.5em}
\subsubsection{(三)人工 vs. 机器}\index{Chapter3.2.1.3} \subsubsection{人工翻译 vs. 机器翻译}\index{Chapter3.2.1.3}
\parinterval 人在翻译时的决策是非常确定并且快速的,但计算机处理这个问题时却充满了概率化的思想。当然它们也有类似的地方。首先,计算机使用统计模型的目的是把翻译知识变得可计算,并把这些``知识''储存在相关的模型参数中,这个模型和我们大脑的作用是类似的\footnote{这里,并不是要把统计模型等同于生物学或者认知科学上的人脑,我们指的是他们处理翻译问题时发挥的作用类似。};其次,计算机对统计模型进行训练的过程相当于人类学习知识的过程,或者二者都可以称为学习;再有,计算机使用学习到的模型对新句子进行翻译的过程相当于人运用知识的过程。在统计机器翻译中,模型学习的过程被称为{\small\sffamily\bfseries{训练}},目的是从双语平行数据中自动学习翻译``知识'';而使用模型处理新句子的过程被称为{\small\sffamily\bfseries{解码}}{\small\sffamily\bfseries{推断}},目的是使用学习到的知识对新的句子进行翻译。这也反映了机器翻译的两个核心步骤:训练和解码。图\ref{fig:3-4}的右侧标注在翻译过程中训练和解码的位置。最终,统计机器翻译的核心由三部分构成\ \dash \ 建模、训练和解码。本章后续内容会围绕这三个问题展开讨论。 \parinterval 人在翻译时的决策是非常确定并且快速的,但计算机处理这个问题时却充满了概率化的思想。当然它们也有类似的地方。首先,计算机使用统计模型的目的是把翻译知识变得可计算,并把这些``知识''储存在模型参数中,这个模型和我们大脑的作用是类似的\footnote{这里并不是要把统计模型等同于生物学或者认知科学上的人脑,我们指的是它们处理翻译问题时发挥的作用类似。};其次,计算机对统计模型进行训练相当于人类对知识的学习,二者都可以被看作是理解、加工知识的过程;再有,计算机使用学习到的模型对新句子进行翻译的过程相当于人运用知识的过程。在统计机器翻译中,模型学习的过程被称为{\small\sffamily\bfseries{训练}}(Training),目的是从双语平行数据中自动学习翻译``知识'';而使用模型处理新句子的过程被称为{\small\sffamily\bfseries{解码}}(Decoding)或{\small\sffamily\bfseries{推断}}(Inference)。图\ref{fig:3-4}的右侧标注在翻译过程中训练和解码的作用。最终,统计机器翻译的核心由三部分构成\ \dash \ 建模、训练和解码。本章后续内容会围绕这三个问题展开讨论。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{基本框架}\index{Chapter3.2.2} \subsection{基本框架}\index{Chapter3.2.2}
\parinterval 为了可以对统计机器翻译有一个直观的认识,下面我们将介绍如何构建一个非常简单的基于词的统计机器翻译系统,其中涉及到的很多思想来自IBM模型。这里,我们仍然使用数据驱动的统计建模方法。图\ref{fig:3-5}展示了系统的主要流程,包括两个主要步骤。 \parinterval 为了对统计机器翻译有一个直观的认识,下面我们将介绍如何构建一个非常简单的基于单词的统计机器翻译系统,其中涉及到的很多思想来自IBM模型。这里,我们仍然使用数据驱动的统计建模方法。图\ref{fig:3-5}展示了系统的主要流程,包括两个步骤:
\vspace{0.5em} \vspace{0.5em}
\begin{itemize} \begin{itemize}
\item {\small\sffamily\bfseries{训练}}:从双语平行数据中学习翻译模型,记为$\textrm{P}(\mathbf{t}|\mathbf{s})$,其中$\mathbf{s}$表示源语言句子,$\mathbf{t}$表示目标语句子。$\textrm{P}(\mathbf{t}|\mathbf{s})$表示把$\mathbf{s}$翻译为$\mathbf{t}$的概率。简言之,这一步需要从大量的双语平行数据中学习到$\textrm{P}(\mathbf{t}|\mathbf{s})$计算方法 \item {\small\sffamily\bfseries{训练}}:从双语平行数据中学习翻译模型,记为$\textrm{P}(\mathbf{t}|\mathbf{s})$,其中$\mathbf{s}$表示源语言句子,$\mathbf{t}$表示目标语句子。$\textrm{P}(\mathbf{t}|\mathbf{s})$表示把$\mathbf{s}$翻译为$\mathbf{t}$的概率。简言之,这一步需要从大量的双语平行数据中学习到$\textrm{P}(\mathbf{t}|\mathbf{s})$准确表达
\vspace{0.5em} \vspace{0.5em}
\item {\small\sffamily\bfseries{解码}}:当面对一个新的待翻译句子时,我们需要使用学习到的模型进行推断。推断可以被视为一个搜索和计算的过程,也就是,我们尽可能搜索更多的翻译结果,然后对每个翻译结果进行打分,最后选择得分最高的翻译结果作为输出。 \item {\small\sffamily\bfseries{解码}}:当面对一个新的句子时,我们需要使用学习到的模型进行推断。推断可以被视为一个搜索和计算的过程,也就是,我们尽可能搜索更多的翻译结果,然后用训练好的模型对每个翻译结果进行打分,最后选择得分最高的翻译结果作为输出。
\end{itemize} \end{itemize}
%---------------------------------------------- %----------------------------------------------
% 图3.6 % 图3.6
...@@ -137,7 +137,7 @@ ...@@ -137,7 +137,7 @@
\label{fig:3-5} \label{fig:3-5}
\end{figure} \end{figure}
%--------------------------- %---------------------------
\parinterval 接下来,我们将介绍模型训练和解码的方法。在模型学习中,我们分两小节进行描述\ \dash \ 单词级翻译和句子级翻译。实现单词级翻译是实现句子级翻译的基础。换言之,句子级翻译的统计模型是建立在单词翻译之上的。在解码中,我们将介绍一个高效的搜索算法,其中也使用到了剪枝和启发式搜索的思想。 \parinterval 接下来,我们将介绍统计机器翻译模型训练和解码的方法。在模型学习中,我们分两小节进行描述\ \dash \ 单词级翻译和句子级翻译。实现单词级翻译是实现句子级翻译的基础。换言之,句子级翻译的统计模型是建立在单词翻译之上的。在解码中,我们将介绍一个高效的搜索算法,其中也使用到了剪枝和启发式搜索的思想。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{单词翻译概率}\index{Chapter3.2.3}\label{chapter3.2.3} \subsection{单词翻译概率}\index{Chapter3.2.3}\label{chapter3.2.3}
......
...@@ -16,7 +16,7 @@ ...@@ -16,7 +16,7 @@
\end{pgfonlayer} \end{pgfonlayer}
} }
\node [anchor=west,ugreen] (P) at ([xshift=4em,yshift=-0.7em]corpus.east){P($t|s$)}; \node [anchor=west,ugreen] (P) at ([xshift=4em,yshift=-0.7em]corpus.east){P($\mathbf{t}|\mathbf{s}$)};
\node [anchor=south] (modellabel) at (P.north) {{\color{ublue} {\scriptsize \sffamily\bfseries{翻译模型}}}}; \node [anchor=south] (modellabel) at (P.north) {{\color{ublue} {\scriptsize \sffamily\bfseries{翻译模型}}}};
\begin{pgfonlayer}{background} \begin{pgfonlayer}{background}
......
\indexentry{Chapter1.1|hyperpage}{9} \indexentry{Chapter3.1|hyperpage}{9}
\indexentry{Chapter1.2|hyperpage}{12} \indexentry{Chapter3.2|hyperpage}{11}
\indexentry{Chapter1.3|hyperpage}{17} \indexentry{Chapter3.2.1|hyperpage}{11}
\indexentry{Chapter1.4|hyperpage}{18} \indexentry{Chapter3.2.1.1|hyperpage}{11}
\indexentry{Chapter1.4.1|hyperpage}{18} \indexentry{Chapter3.2.1.2|hyperpage}{12}
\indexentry{Chapter1.4.2|hyperpage}{20} \indexentry{Chapter3.2.1.3|hyperpage}{13}
\indexentry{Chapter1.4.3|hyperpage}{21} \indexentry{Chapter3.2.2|hyperpage}{13}
\indexentry{Chapter1.4.4|hyperpage}{22} \indexentry{Chapter3.2.3|hyperpage}{14}
\indexentry{Chapter1.4.5|hyperpage}{23} \indexentry{Chapter3.2.3.1|hyperpage}{14}
\indexentry{Chapter1.5|hyperpage}{24} \indexentry{Chapter3.2.3.2|hyperpage}{15}
\indexentry{Chapter1.5.1|hyperpage}{24} \indexentry{Chapter3.2.3.3|hyperpage}{16}
\indexentry{Chapter1.5.2|hyperpage}{25} \indexentry{Chapter3.2.4|hyperpage}{17}
\indexentry{Chapter1.5.2.1|hyperpage}{25} \indexentry{Chapter3.2.4.1|hyperpage}{17}
\indexentry{Chapter1.5.2.2|hyperpage}{27} \indexentry{Chapter3.2.4.2|hyperpage}{19}
\indexentry{Chapter1.5.2.3|hyperpage}{27} \indexentry{Chapter3.2.5|hyperpage}{20}
\indexentry{Chapter1.6|hyperpage}{28} \indexentry{Chapter3.3|hyperpage}{23}
\indexentry{Chapter1.7|hyperpage}{30} \indexentry{Chapter3.3.1|hyperpage}{23}
\indexentry{Chapter1.7.1|hyperpage}{30} \indexentry{Chapter3.3.2|hyperpage}{26}
\indexentry{Chapter1.7.1.1|hyperpage}{31} \indexentry{Chapter3.3.2.1|hyperpage}{27}
\indexentry{Chapter1.7.1.2|hyperpage}{32} \indexentry{Chapter3.3.2.2|hyperpage}{28}
\indexentry{Chapter1.7.2|hyperpage}{34} \indexentry{Chapter3.3.2.3|hyperpage}{29}
\indexentry{Chapter1.8|hyperpage}{36} \indexentry{Chapter3.4|hyperpage}{30}
\indexentry{Chapter2.1|hyperpage}{42} \indexentry{Chapter3.4.1|hyperpage}{30}
\indexentry{Chapter2.2|hyperpage}{43} \indexentry{Chapter3.4.2|hyperpage}{32}
\indexentry{Chapter2.2.1|hyperpage}{43} \indexentry{Chapter3.4.3|hyperpage}{33}
\indexentry{Chapter2.2.2|hyperpage}{45} \indexentry{Chapter3.4.4|hyperpage}{34}
\indexentry{Chapter2.2.3|hyperpage}{46} \indexentry{Chapter3.4.4.1|hyperpage}{34}
\indexentry{Chapter2.2.4|hyperpage}{47} \indexentry{Chapter3.4.4.2|hyperpage}{35}
\indexentry{Chapter2.2.5|hyperpage}{49} \indexentry{Chapter3.5|hyperpage}{40}
\indexentry{Chapter2.2.5.1|hyperpage}{49} \indexentry{Chapter3.5.1|hyperpage}{41}
\indexentry{Chapter2.2.5.2|hyperpage}{50} \indexentry{Chapter3.5.2|hyperpage}{43}
\indexentry{Chapter2.2.5.3|hyperpage}{50} \indexentry{Chapter3.5.3|hyperpage}{45}
\indexentry{Chapter2.3|hyperpage}{51} \indexentry{Chapter3.5.4|hyperpage}{46}
\indexentry{Chapter2.3.1|hyperpage}{52} \indexentry{Chapter3.5.5|hyperpage}{48}
\indexentry{Chapter2.3.2|hyperpage}{53} \indexentry{Chapter3.5.5|hyperpage}{50}
\indexentry{Chapter2.3.2.1|hyperpage}{53} \indexentry{Chapter3.6|hyperpage}{51}
\indexentry{Chapter2.3.2.2|hyperpage}{54} \indexentry{Chapter3.6.1|hyperpage}{51}
\indexentry{Chapter2.3.2.3|hyperpage}{56} \indexentry{Chapter3.6.2|hyperpage}{52}
\indexentry{Chapter2.4|hyperpage}{58} \indexentry{Chapter3.6.4|hyperpage}{53}
\indexentry{Chapter2.4.1|hyperpage}{59} \indexentry{Chapter3.6.5|hyperpage}{53}
\indexentry{Chapter2.4.2|hyperpage}{61} \indexentry{Chapter3.7|hyperpage}{53}
\indexentry{Chapter2.4.2.1|hyperpage}{62}
\indexentry{Chapter2.4.2.2|hyperpage}{63}
\indexentry{Chapter2.4.2.3|hyperpage}{64}
\indexentry{Chapter2.5|hyperpage}{66}
\indexentry{Chapter2.5.1|hyperpage}{66}
\indexentry{Chapter2.5.2|hyperpage}{68}
\indexentry{Chapter2.5.3|hyperpage}{72}
\indexentry{Chapter2.6|hyperpage}{74}
\indexentry{Chapter3.1|hyperpage}{79}
\indexentry{Chapter3.2|hyperpage}{81}
\indexentry{Chapter3.2.1|hyperpage}{81}
\indexentry{Chapter3.2.1.1|hyperpage}{81}
\indexentry{Chapter3.2.1.2|hyperpage}{82}
\indexentry{Chapter3.2.1.3|hyperpage}{83}
\indexentry{Chapter3.2.2|hyperpage}{83}
\indexentry{Chapter3.2.3|hyperpage}{84}
\indexentry{Chapter3.2.3.1|hyperpage}{84}
\indexentry{Chapter3.2.3.2|hyperpage}{85}
\indexentry{Chapter3.2.3.3|hyperpage}{86}
\indexentry{Chapter3.2.4|hyperpage}{87}
\indexentry{Chapter3.2.4.1|hyperpage}{87}
\indexentry{Chapter3.2.4.2|hyperpage}{89}
\indexentry{Chapter3.2.5|hyperpage}{90}
\indexentry{Chapter3.3|hyperpage}{93}
\indexentry{Chapter3.3.1|hyperpage}{93}
\indexentry{Chapter3.3.2|hyperpage}{96}
\indexentry{Chapter3.3.2.1|hyperpage}{97}
\indexentry{Chapter3.3.2.2|hyperpage}{98}
\indexentry{Chapter3.3.2.3|hyperpage}{99}
\indexentry{Chapter3.4|hyperpage}{100}
\indexentry{Chapter3.4.1|hyperpage}{100}
\indexentry{Chapter3.4.2|hyperpage}{102}
\indexentry{Chapter3.4.3|hyperpage}{103}
\indexentry{Chapter3.4.4|hyperpage}{104}
\indexentry{Chapter3.4.4.1|hyperpage}{104}
\indexentry{Chapter3.4.4.2|hyperpage}{105}
\indexentry{Chapter3.5|hyperpage}{110}
\indexentry{Chapter3.5.1|hyperpage}{111}
\indexentry{Chapter3.5.2|hyperpage}{113}
\indexentry{Chapter3.5.3|hyperpage}{115}
\indexentry{Chapter3.5.4|hyperpage}{116}
\indexentry{Chapter3.5.5|hyperpage}{118}
\indexentry{Chapter3.5.5|hyperpage}{120}
\indexentry{Chapter3.6|hyperpage}{121}
\indexentry{Chapter3.6.1|hyperpage}{121}
\indexentry{Chapter3.6.2|hyperpage}{122}
\indexentry{Chapter3.6.4|hyperpage}{123}
\indexentry{Chapter3.6.5|hyperpage}{123}
\indexentry{Chapter3.7|hyperpage}{123}
\indexentry{Chapter4.1|hyperpage}{125}
\indexentry{Chapter4.1.1|hyperpage}{127}
\indexentry{Chapter4.1.2|hyperpage}{128}
\indexentry{Chapter4.2|hyperpage}{130}
\indexentry{Chapter4.2.1|hyperpage}{130}
\indexentry{Chapter4.2.2|hyperpage}{133}
\indexentry{Chapter4.2.2.1|hyperpage}{133}
\indexentry{Chapter4.2.2.2|hyperpage}{134}
\indexentry{Chapter4.2.2.3|hyperpage}{135}
\indexentry{Chapter4.2.3|hyperpage}{136}
\indexentry{Chapter4.2.3.1|hyperpage}{136}
\indexentry{Chapter4.2.3.2|hyperpage}{137}
\indexentry{Chapter4.2.3.3|hyperpage}{138}
\indexentry{Chapter4.2.4|hyperpage}{140}
\indexentry{Chapter4.2.4.1|hyperpage}{140}
\indexentry{Chapter4.2.4.2|hyperpage}{141}
\indexentry{Chapter4.2.4.3|hyperpage}{142}
\indexentry{Chapter4.2.5|hyperpage}{143}
\indexentry{Chapter4.2.6|hyperpage}{143}
\indexentry{Chapter4.2.7|hyperpage}{147}
\indexentry{Chapter4.2.7.1|hyperpage}{148}
\indexentry{Chapter4.2.7.2|hyperpage}{148}
\indexentry{Chapter4.2.7.3|hyperpage}{149}
\indexentry{Chapter4.2.7.4|hyperpage}{150}
\indexentry{Chapter4.3|hyperpage}{151}
\indexentry{Chapter4.3.1|hyperpage}{154}
\indexentry{Chapter4.3.1.1|hyperpage}{155}
\indexentry{Chapter4.3.1.2|hyperpage}{156}
\indexentry{Chapter4.3.1.3|hyperpage}{157}
\indexentry{Chapter4.3.1.4|hyperpage}{158}
\indexentry{Chapter4.3.2|hyperpage}{158}
\indexentry{Chapter4.3.3|hyperpage}{160}
\indexentry{Chapter4.3.4|hyperpage}{161}
\indexentry{Chapter4.3.5|hyperpage}{164}
\indexentry{Chapter4.4|hyperpage}{166}
\indexentry{Chapter4.4.1|hyperpage}{169}
\indexentry{Chapter4.4.2|hyperpage}{171}
\indexentry{Chapter4.4.2.1|hyperpage}{172}
\indexentry{Chapter4.4.2.2|hyperpage}{173}
\indexentry{Chapter4.4.2.3|hyperpage}{175}
\indexentry{Chapter4.4.3|hyperpage}{176}
\indexentry{Chapter4.4.3.1|hyperpage}{177}
\indexentry{Chapter4.4.3.2|hyperpage}{180}
\indexentry{Chapter4.4.3.3|hyperpage}{181}
\indexentry{Chapter4.4.3.4|hyperpage}{183}
\indexentry{Chapter4.4.3.5|hyperpage}{184}
\indexentry{Chapter4.4.4|hyperpage}{185}
\indexentry{Chapter4.4.4.1|hyperpage}{186}
\indexentry{Chapter4.4.4.2|hyperpage}{187}
\indexentry{Chapter4.4.5|hyperpage}{187}
\indexentry{Chapter4.4.5|hyperpage}{189}
\indexentry{Chapter4.4.7|hyperpage}{193}
\indexentry{Chapter4.4.7.1|hyperpage}{194}
\indexentry{Chapter4.4.7.2|hyperpage}{194}
\indexentry{Chapter4.5|hyperpage}{196}
\indexentry{Chapter5.1|hyperpage}{202}
\indexentry{Chapter5.1.1|hyperpage}{202}
\indexentry{Chapter5.1.1.1|hyperpage}{202}
\indexentry{Chapter5.1.1.2|hyperpage}{203}
\indexentry{Chapter5.1.1.3|hyperpage}{204}
\indexentry{Chapter5.1.2|hyperpage}{205}
\indexentry{Chapter5.1.2.1|hyperpage}{205}
\indexentry{Chapter5.1.2.2|hyperpage}{206}
\indexentry{Chapter5.2|hyperpage}{206}
\indexentry{Chapter5.2.1|hyperpage}{206}
\indexentry{Chapter5.2.1.1|hyperpage}{207}
\indexentry{Chapter5.2.1.2|hyperpage}{208}
\indexentry{Chapter5.2.1.3|hyperpage}{208}
\indexentry{Chapter5.2.1.4|hyperpage}{209}
\indexentry{Chapter5.2.1.5|hyperpage}{210}
\indexentry{Chapter5.2.1.6|hyperpage}{211}
\indexentry{Chapter5.2.2|hyperpage}{212}
\indexentry{Chapter5.2.2.1|hyperpage}{212}
\indexentry{Chapter5.2.2.2|hyperpage}{214}
\indexentry{Chapter5.2.2.3|hyperpage}{214}
\indexentry{Chapter5.2.2.4|hyperpage}{215}
\indexentry{Chapter5.2.3|hyperpage}{216}
\indexentry{Chapter5.2.3.1|hyperpage}{216}
\indexentry{Chapter5.2.3.2|hyperpage}{218}
\indexentry{Chapter5.2.4|hyperpage}{218}
\indexentry{Chapter5.3|hyperpage}{224}
\indexentry{Chapter5.3.1|hyperpage}{224}
\indexentry{Chapter5.3.1.1|hyperpage}{224}
\indexentry{Chapter5.3.1.2|hyperpage}{226}
\indexentry{Chapter5.3.1.3|hyperpage}{227}
\indexentry{Chapter5.3.2|hyperpage}{228}
\indexentry{Chapter5.3.3|hyperpage}{229}
\indexentry{Chapter5.3.4|hyperpage}{233}
\indexentry{Chapter5.3.5|hyperpage}{234}
\indexentry{Chapter5.4|hyperpage}{235}
\indexentry{Chapter5.4.1|hyperpage}{236}
\indexentry{Chapter5.4.2|hyperpage}{237}
\indexentry{Chapter5.4.2.1|hyperpage}{238}
\indexentry{Chapter5.4.2.2|hyperpage}{240}
\indexentry{Chapter5.4.2.3|hyperpage}{242}
\indexentry{Chapter5.4.3|hyperpage}{245}
\indexentry{Chapter5.4.4|hyperpage}{247}
\indexentry{Chapter5.4.4.1|hyperpage}{247}
\indexentry{Chapter5.4.4.2|hyperpage}{248}
\indexentry{Chapter5.4.4.3|hyperpage}{248}
\indexentry{Chapter5.4.5|hyperpage}{250}
\indexentry{Chapter5.4.6|hyperpage}{251}
\indexentry{Chapter5.4.6.1|hyperpage}{252}
\indexentry{Chapter5.4.6.2|hyperpage}{254}
\indexentry{Chapter5.4.6.3|hyperpage}{255}
\indexentry{Chapter5.5|hyperpage}{257}
\indexentry{Chapter5.5.1|hyperpage}{257}
\indexentry{Chapter5.5.1.1|hyperpage}{258}
\indexentry{Chapter5.5.1.2|hyperpage}{260}
\indexentry{Chapter5.5.1.3|hyperpage}{261}
\indexentry{Chapter5.5.1.4|hyperpage}{262}
\indexentry{Chapter5.5.2|hyperpage}{263}
\indexentry{Chapter5.5.2.1|hyperpage}{263}
\indexentry{Chapter5.5.2.2|hyperpage}{263}
\indexentry{Chapter5.5.3|hyperpage}{265}
\indexentry{Chapter5.5.3.1|hyperpage}{265}
\indexentry{Chapter5.5.3.2|hyperpage}{267}
\indexentry{Chapter5.5.3.3|hyperpage}{267}
\indexentry{Chapter5.5.3.4|hyperpage}{268}
\indexentry{Chapter5.5.3.5|hyperpage}{269}
\indexentry{Chapter5.6|hyperpage}{269}
\indexentry{Chapter6.1|hyperpage}{271}
\indexentry{Chapter6.1.1|hyperpage}{273}
\indexentry{Chapter6.1.2|hyperpage}{275}
\indexentry{Chapter6.1.3|hyperpage}{278}
\indexentry{Chapter6.2|hyperpage}{280}
\indexentry{Chapter6.2.1|hyperpage}{280}
\indexentry{Chapter6.2.2|hyperpage}{281}
\indexentry{Chapter6.2.3|hyperpage}{282}
\indexentry{Chapter6.2.4|hyperpage}{283}
\indexentry{Chapter6.3|hyperpage}{284}
\indexentry{Chapter6.3.1|hyperpage}{286}
\indexentry{Chapter6.3.2|hyperpage}{288}
\indexentry{Chapter6.3.3|hyperpage}{292}
\indexentry{Chapter6.3.3.1|hyperpage}{292}
\indexentry{Chapter6.3.3.2|hyperpage}{292}
\indexentry{Chapter6.3.3.3|hyperpage}{294}
\indexentry{Chapter6.3.3.4|hyperpage}{295}
\indexentry{Chapter6.3.3.5|hyperpage}{297}
\indexentry{Chapter6.3.4|hyperpage}{297}
\indexentry{Chapter6.3.4.1|hyperpage}{298}
\indexentry{Chapter6.3.4.2|hyperpage}{299}
\indexentry{Chapter6.3.4.3|hyperpage}{302}
\indexentry{Chapter6.3.5|hyperpage}{304}
\indexentry{Chapter6.3.5.1|hyperpage}{305}
\indexentry{Chapter6.3.5.2|hyperpage}{305}
\indexentry{Chapter6.3.5.3|hyperpage}{306}
\indexentry{Chapter6.3.5.4|hyperpage}{306}
\indexentry{Chapter6.3.5.5|hyperpage}{307}
\indexentry{Chapter6.3.5.5|hyperpage}{308}
\indexentry{Chapter6.3.6|hyperpage}{309}
\indexentry{Chapter6.3.6.1|hyperpage}{311}
\indexentry{Chapter6.3.6.2|hyperpage}{312}
\indexentry{Chapter6.3.6.3|hyperpage}{313}
\indexentry{Chapter6.3.7|hyperpage}{314}
\indexentry{Chapter6.4|hyperpage}{316}
\indexentry{Chapter6.4.1|hyperpage}{317}
\indexentry{Chapter6.4.2|hyperpage}{318}
\indexentry{Chapter6.4.3|hyperpage}{320}
\indexentry{Chapter6.4.4|hyperpage}{322}
\indexentry{Chapter6.4.5|hyperpage}{324}
\indexentry{Chapter6.4.6|hyperpage}{326}
\indexentry{Chapter6.4.7|hyperpage}{327}
\indexentry{Chapter6.4.8|hyperpage}{328}
\indexentry{Chapter6.4.9|hyperpage}{329}
\indexentry{Chapter6.4.10|hyperpage}{332}
\indexentry{Chapter6.5|hyperpage}{332}
\indexentry{Chapter6.5.1|hyperpage}{333}
\indexentry{Chapter6.5.2|hyperpage}{333}
\indexentry{Chapter6.5.3|hyperpage}{333}
\indexentry{Chapter6.5.4|hyperpage}{335}
\indexentry{Chapter6.5.5|hyperpage}{335}
\indexentry{Chapter6.6|hyperpage}{335}
...@@ -2,578 +2,92 @@ ...@@ -2,578 +2,92 @@
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\select@language {english} \select@language {english}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {part}{\@mypartnumtocformat {I}{机器翻译基础}}{7}{part.1} \contentsline {part}{\@mypartnumtocformat {I}{统计机器翻译}}{7}{part.1}
\ttl@starttoc {default@1} \ttl@starttoc {default@1}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {chapter}{\numberline {1}机器翻译简介}{9}{chapter.1} \contentsline {chapter}{\numberline {1}基于词的机器翻译模型}{9}{chapter.1}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.1}机器翻译的概念}{9}{section.1.1} \contentsline {section}{\numberline {1.1}什么是基于词的翻译模型}{9}{section.1.1}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.2}机器翻译简史}{12}{section.1.2} \contentsline {section}{\numberline {1.2}构建一个简单的机器翻译系统}{11}{section.1.2}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.2.1}人工翻译}{12}{subsection.1.2.1} \contentsline {subsection}{\numberline {1.2.1}如何进行翻译?}{11}{subsection.1.2.1}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.2.2}机器翻译的萌芽}{13}{subsection.1.2.2} \contentsline {subsubsection}{机器翻译流程}{12}{section*.6}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.2.3}机器翻译的受挫}{14}{subsection.1.2.3} \contentsline {subsubsection}{人工翻译 vs. 机器翻译}{13}{section*.8}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.2.4}机器翻译的快速成长}{15}{subsection.1.2.4} \contentsline {subsection}{\numberline {1.2.2}基本框架}{13}{subsection.1.2.2}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.2.5}机器翻译的爆发}{16}{subsection.1.2.5} \contentsline {subsection}{\numberline {1.2.3}单词翻译概率}{14}{subsection.1.2.3}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.3}机器翻译现状}{17}{section.1.3} \contentsline {subsubsection}{(一)什么是单词翻译概率?}{14}{section*.10}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.4}机器翻译方法}{18}{section.1.4} \contentsline {subsubsection}{(二)如何从一个双语平行数据中学习?}{15}{section*.12}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.4.1}基于规则的机器翻译}{18}{subsection.1.4.1} \contentsline {subsubsection}{(三)如何从大量的双语平行数据中学习?}{16}{section*.13}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.4.2}基于实例的机器翻译}{20}{subsection.1.4.2} \contentsline {subsection}{\numberline {1.2.4}句子级翻译模型}{17}{subsection.1.2.4}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.4.3}统计机器翻译}{21}{subsection.1.4.3} \contentsline {subsubsection}{(一)句子级翻译的基础模型}{17}{section*.15}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.4.4}神经机器翻译}{22}{subsection.1.4.4} \contentsline {subsubsection}{(二)生成流畅的译文}{19}{section*.17}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.4.5}对比分析}{23}{subsection.1.4.5} \contentsline {subsection}{\numberline {1.2.5}解码}{20}{subsection.1.2.5}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.5}翻译质量评价}{24}{section.1.5} \contentsline {section}{\numberline {1.3}基于词的翻译建模}{23}{section.1.3}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.5.1}人工评价}{24}{subsection.1.5.1} \contentsline {subsection}{\numberline {1.3.1}噪声信道模型}{23}{subsection.1.3.1}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.5.2}自动评价}{25}{subsection.1.5.2} \contentsline {subsection}{\numberline {1.3.2}统计机器翻译的三个基本问题}{26}{subsection.1.3.2}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsubsection}{BLEU}{25}{section*.15} \contentsline {subsubsection}{词对齐}{27}{section*.26}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsubsection}{TER}{27}{section*.16} \contentsline {subsubsection}{基于词对齐的翻译模型}{28}{section*.29}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基于检测点的评价}{27}{section*.17} \contentsline {subsubsection}{基于词对齐的翻译实例}{29}{section*.31}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.6}机器翻译应用}{28}{section.1.6} \contentsline {section}{\numberline {1.4}IBM模型1-2}{30}{section.1.4}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.7}开源项目与评测}{30}{section.1.7} \contentsline {subsection}{\numberline {1.4.1}IBM模型1}{30}{subsection.1.4.1}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.7.1}开源机器翻译系统}{30}{subsection.1.7.1} \contentsline {subsection}{\numberline {1.4.2}IBM模型2}{32}{subsection.1.4.2}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsubsection}{统计机器翻译开源系统}{31}{section*.19} \contentsline {subsection}{\numberline {1.4.3}解码及计算优化}{33}{subsection.1.4.3}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsubsection}{神经机器翻译开源系统}{32}{section*.20} \contentsline {subsection}{\numberline {1.4.4}训练}{34}{subsection.1.4.4}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.7.2}常用数据集及公开评测任务}{34}{subsection.1.7.2} \contentsline {subsubsection}{(一)目标函数}{34}{section*.36}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.8}推荐学习资源}{36}{section.1.8} \contentsline {subsubsection}{(二)优化}{35}{section*.38}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {chapter}{\numberline {2}词法、语法及统计建模基础}{41}{chapter.2} \contentsline {section}{\numberline {1.5}IBM模型3-5及隐马尔可夫模型}{40}{section.1.5}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {2.1}问题概述 }{42}{section.2.1} \contentsline {subsection}{\numberline {1.5.1}基于产出率的翻译模型}{41}{subsection.1.5.1}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {2.2}概率论基础}{43}{section.2.2} \contentsline {subsection}{\numberline {1.5.2}IBM 模型3}{43}{subsection.1.5.2}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {2.2.1}随机变量和概率}{43}{subsection.2.2.1} \contentsline {subsection}{\numberline {1.5.3}IBM 模型4}{45}{subsection.1.5.3}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {2.2.2}联合概率、条件概率和边缘概率}{45}{subsection.2.2.2} \contentsline {subsection}{\numberline {1.5.4} IBM 模型5}{46}{subsection.1.5.4}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {2.2.3}链式法则}{46}{subsection.2.2.3} \contentsline {subsection}{\numberline {1.5.5}隐马尔可夫模型}{48}{subsection.1.5.5}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {2.2.4}贝叶斯法则}{47}{subsection.2.2.4} \contentsline {subsubsection}{隐马尔可夫模型}{48}{section*.50}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {2.2.5}KL距离和熵}{49}{subsection.2.2.5} \contentsline {subsubsection}{词对齐模型}{49}{section*.52}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsubsection}{信息熵}{49}{section*.27} \contentsline {subsection}{\numberline {1.5.6}解码和训练}{50}{subsection.1.5.6}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsubsection}{KL距离}{50}{section*.29} \contentsline {section}{\numberline {1.6}问题分析}{51}{section.1.6}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsubsection}{交叉熵}{50}{section*.30} \contentsline {subsection}{\numberline {1.6.1}词对齐及对称化}{51}{subsection.1.6.1}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {2.3}中文分词}{51}{section.2.3} \contentsline {subsection}{\numberline {1.6.2}Deficiency}{52}{subsection.1.6.2}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {2.3.1}基于词典的分词方法}{52}{subsection.2.3.1} \contentsline {subsection}{\numberline {1.6.3}句子长度}{53}{subsection.1.6.3}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {2.3.2}基于统计的分词方法}{53}{subsection.2.3.2} \contentsline {subsection}{\numberline {1.6.4}其它问题}{53}{subsection.1.6.4}
\defcounter {refsection}{0}\relax \defcounter {refsection}{0}\relax
\contentsline {subsubsection}{统计模型的学习与推断}{53}{section*.34} \contentsline {section}{\numberline {1.7}小结及深入阅读}{53}{section.1.7}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{掷骰子游戏}{54}{section*.36}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{全概率分词方法}{56}{section*.40}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {2.4}$n$-gram语言模型 }{58}{section.2.4}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {2.4.1}建模}{59}{subsection.2.4.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {2.4.2}未登录词和平滑算法}{61}{subsection.2.4.2}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{加法平滑方法}{62}{section*.46}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{古德-图灵估计法}{63}{section*.48}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{Kneser-Ney平滑方法}{64}{section*.50}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {2.5}句法分析(短语结构分析)}{66}{section.2.5}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {2.5.1}句子的句法树表示}{66}{subsection.2.5.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {2.5.2}上下文无关文法}{68}{subsection.2.5.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {2.5.3}规则和推导的概率}{72}{subsection.2.5.3}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {2.6}小结及深入阅读}{74}{section.2.6}
\defcounter {refsection}{0}\relax
\contentsline {part}{\@mypartnumtocformat {II}{统计机器翻译}}{77}{part.2}
\ttl@stoptoc {default@1}
\ttl@starttoc {default@2}
\defcounter {refsection}{0}\relax
\contentsline {chapter}{\numberline {3}基于词的机器翻译模型}{79}{chapter.3}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {3.1}什么是基于词的翻译模型}{79}{section.3.1}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {3.2}构建一个简单的机器翻译系统}{81}{section.3.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.2.1}如何进行翻译?}{81}{subsection.3.2.1}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(二)机器翻译流程}{82}{section*.63}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(三)人工 vs. 机器}{83}{section*.65}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.2.2}基本框架}{83}{subsection.3.2.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.2.3}单词翻译概率}{84}{subsection.3.2.3}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(一)什么是单词翻译概率?}{84}{section*.67}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(二)如何从一个双语平行数据中学习?}{85}{section*.69}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(三)如何从大量的双语平行数据中学习?}{86}{section*.70}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.2.4}句子级翻译模型}{87}{subsection.3.2.4}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(一)句子级翻译的基础模型}{87}{section*.72}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(二)生成流畅的译文}{89}{section*.74}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.2.5}解码}{90}{subsection.3.2.5}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {3.3}基于词的翻译建模}{93}{section.3.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.3.1}噪声信道模型}{93}{subsection.3.3.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.3.2}统计机器翻译的三个基本问题}{96}{subsection.3.3.2}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{词对齐}{97}{section*.83}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基于词对齐的翻译模型}{98}{section*.86}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基于词对齐的翻译实例}{99}{section*.88}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {3.4}IBM模型1-2}{100}{section.3.4}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.4.1}IBM模型1}{100}{subsection.3.4.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.4.2}IBM模型2}{102}{subsection.3.4.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.4.3}解码及计算优化}{103}{subsection.3.4.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.4.4}训练}{104}{subsection.3.4.4}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(一)目标函数}{104}{section*.93}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(二)优化}{105}{section*.95}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {3.5}IBM模型3-5及隐马尔可夫模型}{110}{section.3.5}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.5.1}基于产出率的翻译模型}{111}{subsection.3.5.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.5.2}IBM 模型3}{113}{subsection.3.5.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.5.3}IBM 模型4}{115}{subsection.3.5.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.5.4} IBM 模型5}{116}{subsection.3.5.4}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.5.5}隐马尔可夫模型}{118}{subsection.3.5.5}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{隐马尔可夫模型}{118}{section*.107}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{词对齐模型}{119}{section*.109}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.5.6}解码和训练}{120}{subsection.3.5.6}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {3.6}问题分析}{121}{section.3.6}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.6.1}词对齐及对称化}{121}{subsection.3.6.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.6.2}Deficiency}{122}{subsection.3.6.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.6.3}句子长度}{123}{subsection.3.6.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {3.6.4}其它问题}{123}{subsection.3.6.4}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {3.7}小结及深入阅读}{123}{section.3.7}
\defcounter {refsection}{0}\relax
\contentsline {chapter}{\numberline {4}基于短语和句法的机器翻译模型}{125}{chapter.4}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {4.1}翻译中的结构信息}{125}{section.4.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.1.1}更大粒度的翻译单元}{127}{subsection.4.1.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.1.2}句子的结构信息}{128}{subsection.4.1.2}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {4.2}基于短语的翻译模型}{130}{section.4.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.2.1}机器翻译中的短语}{130}{subsection.4.2.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.2.2}数学建模及判别式模型}{133}{subsection.4.2.2}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基于翻译推导的建模}{133}{section*.121}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{对数线性模型}{134}{section*.122}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{搭建模型的基本流程}{135}{section*.123}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.2.3}短语抽取}{136}{subsection.4.2.3}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{与词对齐一致的短语}{136}{section*.126}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{获取词对齐}{137}{section*.130}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{度量双语短语质量}{138}{section*.132}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.2.4}调序}{140}{subsection.4.2.4}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基于距离的调序}{140}{section*.136}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基于方向的调序}{141}{section*.138}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基于分类的调序}{142}{section*.141}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.2.5}特征}{143}{subsection.4.2.5}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.2.6}最小错误率训练}{143}{subsection.4.2.6}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.2.7}栈解码}{147}{subsection.4.2.7}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{翻译候选匹配}{148}{section*.146}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{翻译假设扩展}{148}{section*.148}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{剪枝}{149}{section*.150}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{解码中的栈结构}{150}{section*.152}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {4.3}基于层次短语的模型}{151}{section.4.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.3.1}同步上下文无关文法}{154}{subsection.4.3.1}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{文法定义}{155}{section*.157}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{推导}{156}{section*.158}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{胶水规则}{157}{section*.159}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{处理流程}{158}{section*.160}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.3.2}层次短语规则抽取}{158}{subsection.4.3.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.3.3}翻译模型及特征}{160}{subsection.4.3.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.3.4}CYK解码}{161}{subsection.4.3.4}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.3.5}立方剪枝}{164}{subsection.4.3.5}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {4.4}基于语言学句法的模型}{166}{section.4.4}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.4.1}基于句法的翻译模型分类}{169}{subsection.4.4.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.4.2}基于树结构的文法}{171}{subsection.4.4.2}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{树到树翻译规则}{172}{section*.176}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基于树结构的翻译推导}{173}{section*.178}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{树到串翻译规则}{175}{section*.181}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.4.3}树到串翻译规则抽取}{176}{subsection.4.4.3}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{树的切割与最小规则}{177}{section*.183}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{空对齐处理}{180}{section*.189}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{组合规则}{181}{section*.191}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{SPMT规则}{183}{section*.193}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{句法树二叉化}{184}{section*.195}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.4.4}树到树翻译规则抽取}{185}{subsection.4.4.4}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基于节点对齐的规则抽取}{186}{section*.199}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基于对齐矩阵的规则抽取}{187}{section*.202}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.4.5}句法翻译模型的特征}{187}{subsection.4.4.5}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.4.6}基于超图的推导空间表示}{189}{subsection.4.4.6}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {4.4.7}基于树的解码 vs 基于串的解码}{193}{subsection.4.4.7}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基于树的解码}{194}{section*.209}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基于串的解码}{194}{section*.212}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {4.5}小结及深入阅读}{196}{section.4.5}
\defcounter {refsection}{0}\relax
\contentsline {part}{\@mypartnumtocformat {III}{神经机器翻译}}{199}{part.3}
\ttl@stoptoc {default@2}
\ttl@starttoc {default@3}
\defcounter {refsection}{0}\relax
\contentsline {chapter}{\numberline {5}人工神经网络和神经语言建模}{201}{chapter.5}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {5.1}深度学习与人工神经网络}{202}{section.5.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.1.1}发展简史}{202}{subsection.5.1.1}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(一)早期的人工神经网络和第一次寒冬}{202}{section*.214}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(二)神经网络的第二次高潮和第二次寒冬}{203}{section*.215}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(三)深度学习和神经网络的崛起}{204}{section*.216}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.1.2}为什么需要深度学习}{205}{subsection.5.1.2}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(一)端到端学习和表示学习}{205}{section*.218}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(二)深度学习的效果}{206}{section*.220}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {5.2}神经网络基础}{206}{section.5.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.2.1}线性代数基础}{206}{subsection.5.2.1}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{标量、向量和矩阵}{207}{section*.222}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{矩阵的转置}{208}{section*.223}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{矩阵加法和数乘}{208}{section*.224}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{矩阵乘法和矩阵点乘}{209}{section*.225}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{线性映射}{210}{section*.226}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{范数}{211}{section*.227}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.2.2}人工神经元和感知机}{212}{subsection.5.2.2}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(一)感知机\ \raisebox {0.5mm}{------}\ 最简单的人工神经元模型}{212}{section*.230}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(二)神经元内部权重}{214}{section*.233}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(三)神经元的输入\ \raisebox {0.5mm}{------}\ 离散 vs 连续}{214}{section*.235}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(四)神经元内部的参数学习}{215}{section*.237}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.2.3}多层神经网络}{216}{subsection.5.2.3}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{线性变换和激活函数}{216}{section*.239}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{单层神经网络$\rightarrow $多层神经网络}{218}{section*.246}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.2.4}函数拟合能力}{218}{subsection.5.2.4}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {5.3}神经网络的张量实现}{224}{section.5.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.3.1} 张量及其计算}{224}{subsection.5.3.1}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{张量}{224}{section*.256}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{张量的矩阵乘法}{226}{section*.259}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{张量的单元操作}{227}{section*.261}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.3.2}张量的物理存储形式}{228}{subsection.5.3.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.3.3}使用开源框架实现张量计算}{229}{subsection.5.3.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.3.4}神经网络中的前向传播}{233}{subsection.5.3.4}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.3.5}神经网络实例}{234}{subsection.5.3.5}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {5.4}神经网络的参数训练}{235}{section.5.4}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.4.1}损失函数}{236}{subsection.5.4.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.4.2}基于梯度的参数优化}{237}{subsection.5.4.2}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(一)梯度下降}{238}{section*.279}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(二)梯度获取}{240}{section*.281}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(三)基于梯度的方法的变种和改进}{242}{section*.285}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.4.3}参数更新的并行化策略}{245}{subsection.5.4.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.4.4}梯度消失、梯度爆炸和稳定性训练}{247}{subsection.5.4.4}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(一)梯度消失现象及解决方法}{247}{section*.288}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(二)梯度爆炸现象及解决方法}{248}{section*.292}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(三)稳定性训练}{248}{section*.293}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.4.5}过拟合}{250}{subsection.5.4.5}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.4.6}反向传播}{251}{subsection.5.4.6}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(一)输出层的反向传播}{252}{section*.296}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(二)隐藏层的反向传播}{254}{section*.300}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(三)程序实现}{255}{section*.303}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {5.5}神经语言模型}{257}{section.5.5}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.5.1}基于神经网络的语言建模}{257}{subsection.5.5.1}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(一)基于前馈神经网络的语言模型}{258}{section*.306}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(二)基于循环神经网络的语言模型}{260}{section*.309}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(三)基于自注意力机制的语言模型}{261}{section*.311}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(四)语言模型的评价}{262}{section*.313}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.5.2}单词表示模型}{263}{subsection.5.5.2}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(一)One-hot编码}{263}{section*.314}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(二)分布式表示}{263}{section*.316}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {5.5.3}句子表示模型及预训练}{265}{subsection.5.5.3}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(一)简单的上下文表示模型}{265}{section*.320}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(二)ELMO模型}{267}{section*.323}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(三)GPT模型}{267}{section*.325}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(四)BERT模型}{268}{section*.327}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(五)为什么要预训练?}{269}{section*.329}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {5.6}小结及深入阅读}{269}{section.5.6}
\defcounter {refsection}{0}\relax
\contentsline {chapter}{\numberline {6}神经机器翻译模型}{271}{chapter.6}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {6.1}神经机器翻译的发展简史}{271}{section.6.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.1.1}神经机器翻译的起源}{273}{subsection.6.1.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.1.2}神经机器翻译的品质 }{275}{subsection.6.1.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.1.3}神经机器翻译的优势 }{278}{subsection.6.1.3}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {6.2}编码器-解码器框架}{280}{section.6.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.2.1}框架结构}{280}{subsection.6.2.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.2.2}表示学习}{281}{subsection.6.2.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.2.3}简单的运行实例}{282}{subsection.6.2.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.2.4}机器翻译范式的对比}{283}{subsection.6.2.4}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {6.3}基于循环神经网络的翻译模型及注意力机制}{284}{section.6.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.3.1}建模}{286}{subsection.6.3.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.3.2}输入(词嵌入)及输出(Softmax)}{288}{subsection.6.3.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.3.3}循环神经网络结构}{292}{subsection.6.3.3}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{循环神经单元(RNN)}{292}{section*.351}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{长短时记忆网络(LSTM)}{292}{section*.352}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{门控循环单元(GRU)}{294}{section*.355}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{双向模型}{295}{section*.357}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{多层循环神经网络}{297}{section*.359}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.3.4}注意力机制}{297}{subsection.6.3.4}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{翻译中的注意力机制}{298}{section*.362}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{上下文向量的计算}{299}{section*.365}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{注意力机制的解读}{302}{section*.370}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.3.5}训练}{304}{subsection.6.3.5}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{损失函数}{305}{section*.373}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{长参数初始化}{305}{section*.374}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{优化策略}{306}{section*.375}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{梯度裁剪}{306}{section*.377}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{学习率策略}{307}{section*.378}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{并行训练}{308}{section*.381}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.3.6}推断}{309}{subsection.6.3.6}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{贪婪搜索}{311}{section*.385}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{束搜索}{312}{section*.388}
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{长度惩罚}{313}{section*.390}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.3.7}实例-GNMT}{314}{subsection.6.3.7}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {6.4}Transformer}{316}{section.6.4}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.4.1}自注意力模型}{317}{subsection.6.4.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.4.2}Transformer架构}{318}{subsection.6.4.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.4.3}位置编码}{320}{subsection.6.4.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.4.4}基于点乘的注意力机制}{322}{subsection.6.4.4}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.4.5}掩码操作}{324}{subsection.6.4.5}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.4.6}多头注意力}{326}{subsection.6.4.6}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.4.7}残差网络和层正则化}{327}{subsection.6.4.7}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.4.8}前馈全连接网络子层}{328}{subsection.6.4.8}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.4.9}训练}{329}{subsection.6.4.9}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.4.10}推断}{332}{subsection.6.4.10}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {6.5}序列到序列问题及应用}{332}{section.6.5}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.5.1}自动问答}{333}{subsection.6.5.1}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.5.2}自动文摘}{333}{subsection.6.5.2}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.5.3}文言文翻译}{333}{subsection.6.5.3}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.5.4}对联生成}{335}{subsection.6.5.4}
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {6.5.5}古诗生成}{335}{subsection.6.5.5}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {6.6}小结及深入阅读}{335}{section.6.6}
\defcounter {refsection}{0}\relax
\contentsline {part}{\@mypartnumtocformat {IV}{附录}}{339}{part.4}
\ttl@stoptoc {default@3}
\ttl@starttoc {default@4}
\defcounter {refsection}{0}\relax
\contentsline {chapter}{\numberline {A}附录A}{341}{Appendix.1.A}
\defcounter {refsection}{0}\relax
\contentsline {chapter}{\numberline {B}附录B}{343}{Appendix.2.B}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {B.1}IBM模型3训练方法}{343}{section.2.B.1}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {B.2}IBM模型4训练方法}{345}{section.2.B.2}
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {B.3}IBM模型5训练方法}{346}{section.2.B.3}
\contentsfinish \contentsfinish
...@@ -112,13 +112,13 @@ ...@@ -112,13 +112,13 @@
% CHAPTERS % CHAPTERS
%---------------------------------------------------------------------------------------- %----------------------------------------------------------------------------------------
\include{Chapter1/chapter1} %\include{Chapter1/chapter1}
\include{Chapter2/chapter2} %\include{Chapter2/chapter2}
\include{Chapter3/chapter3} \include{Chapter3/chapter3}
\include{Chapter4/chapter4} %\include{Chapter4/chapter4}
\include{Chapter5/chapter5} %\include{Chapter5/chapter5}
\include{Chapter6/chapter6} %\include{Chapter6/chapter6}
\include{ChapterAppend/chapterappend} %\include{ChapterAppend/chapterappend}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论