Commit 5e6aa5d4 by xiaotong

updates of section 5

parent 972988b2
......@@ -12,15 +12,15 @@
\chapter{人工神经网络和神经语言建模}
\parinterval {\small\sffamily\bfseries{人工神经网络}}{\small\sffamily\bfseries{神经网络}}(Neural Networks)是描述客观世界的一种数学模型。这种数学模型的行为和生物学上的神经系统有一些相似之处,但是人们更多的是把它作为一种计算工具,而非一个生物学模型。近些年,随着机器学习领域的快速发展,人工神经网络被更多的使用在对机器学习问题的建模上。特别是,深层神经网络可以被成功的学习后,学术界也逐渐形成了一种新的机器学习范式\ \dash \ 深度学习。可以说,深度学习是最近最受瞩目的研究领域,其应用也十分广泛。比如,图像识别近些年的很多重要进展都来自深度学习模型的使用。包括机器翻译在内的很多自然语言处理任务中,深度学习也已经成为了一种标准模型。基于深度学习的表示学习方法,也为自然语言处理开辟了新的思路。
\parinterval {\small\sffamily\bfseries{人工神经网络}}(Artificial Neural Networks)或{\small\sffamily\bfseries{神经网络}}(Neural Networks)是描述客观世界的一种数学模型。这种模型的行为和生物学上的神经系统有一些相似之处,但是人们更多的是把它作为一种计算工具,而非一个生物学模型。近些年,随着机器学习领域的快速发展,人工神经网络被更多的使用在对图像和自然语言处理问题的建模上。特别是,研究人员发现深层神经网络可以被成功训练后,学术界也逐渐形成了一种新的机器学习范式\ \dash \ 深度学习。可以说,深度学习是近几年最受瞩目的研究领域,其应用也十分广泛。比如,图像识别的很多重要进展都来自深度学习模型的使用。包括机器翻译在内的很多自然语言处理任务中,深度学习也已经成为了一种标准模型。基于深度学习的表示学习方法也为自然语言处理开辟了新的思路。
\parinterval 本章将对深度学习的概念和技术进行介绍,目的是为随后神经机器翻译方法中使用的相关基础知识进行铺垫。此外,本章也会对深度学习在语言建模方面的应用进行介绍。这样,可以用一种简单易懂的方式理解如何使用深度学习描述自然语言处理问题。同时,也可以了解一些相关的学术前沿,如预训练模型。\\ \\ \\ \\ \\ \\ \\
\parinterval 本章将对深度学习的概念和技术进行介绍,目的是为第六章和第七章神经机器翻译的内容进行铺垫。此外,本章也会对深度学习在语言建模方面的应用进行介绍。这样,读者可以更容易的理解如何使用深度学习方法描述自然语言处理问题。同时,进一步了解一些相关的学术前沿,如预训练模型。\\ \\ \\ \\ \\ \\ \\
%--5.1深度学习与人工神经网络-----------------------------------------
\section{深度学习与人工神经网络}\index{Chapter5.1}
\parinterval {\small\sffamily\bfseries{深度学习}}(Deep Learning)是机器学习研究中一个非常重要的分支,其概念来源于对人工神经网络的研究:通过人工神经元之间的连接建立一种数学模型,使计算机可以像人一样进行分析、学习和推理。
\parinterval 近几年来,随着深度学习技术的广泛传播与使用,``人工智能''这个名词基本上都与``深度学习''划上了等号。这种理解非常片面,比较准确地说,``深度学习''是实现``人工智能''的一种技术手段,但从这种现象中,深度学习的火爆情况可见一斑。深度学习的技术浪潮以惊人的速度席卷世界,也改变了很多领域的现状,在数据挖掘、自然语言处理、语音识别、图像识别等各个领域随处可见深度学习的身影。在自然语言处理领域,深度学习在很多任务中已经处于``统治''地位。特别是,基于深度学习的表示学习方法已经成为自然语言处理的新范式,在机器翻译任务中更是衍生出了``神经机器翻译''这样全新的模型。
\parinterval 近几年来,随着深度学习技术的广泛传播与使用,``人工智能''这个名词在有些场合下甚至与``深度学习''划上了等号。这种理解非常片面,比较准确地说,``深度学习''是实现``人工智能''的一种技术手段。但从这种现象中也可以看出,深度学习的火爆情况可见一斑。深度学习的技术浪潮以惊人的速度席卷世界,也改变了很多领域的现状,在数据挖掘、自然语言处理、语音识别、图像识别等各个领域随处可见深度学习的身影。自然语言处理领域中,深度学习在很多任务中已经处于``统治''地位。特别是,基于深度学习的表示学习方法已经成为自然语言处理的新范式,在机器翻译任务中更是衍生出了``神经机器翻译''这样全新的模型。
%--5.1.1发展简史---------------------
\subsection{发展简史}\index{Chapter5.1.1}
......@@ -28,29 +28,34 @@
\parinterval 人工神经网络自1943年诞生至今,经历了多次高潮和低谷,这是任何一种技术都无法绕开的命运。然而,好的技术和方法终究不会被埋没,直到今天,神经网络和深度学习迎来了最好的20年。
%--5.1.1.1早期的人工神经网络和第一次寒冬---------------------
\subsubsection{(一)早期的人工神经网络和第一次寒冬}\index{Chapter5.1.1.1}
\subsubsection{早期的人工神经网络和第一次寒冬}\index{Chapter5.1.1.1}
\parinterval 最初,神经网络设计的初衷是用计算模型来模拟生物大脑中神经元的运行机理,这种想法哪怕在现在看来也是十分超前的,甚至仍然影响着目前很多的研究方向。例如,目前很多机构关注的概念\ \dash \ ``类脑计算''就是希望研究人脑的运行机制及相关的计算机实现方法。然而模拟大脑这件事并没有想象中的那么简单,众所周知,生物学中对人脑机制的研究是十分困难的,人们对人脑的运行机制尚不明确又何谈模拟呢?因而,神经网络技术的发展一直是在几乎没有任何参照的情况下摸索着进行的,神经网络发展到现在,其计算过程与人脑的运行机制已经大相径庭。
\parinterval 最初,神经网络设计的初衷是用计算模型来模拟生物大脑中神经元的运行机理,这种想法哪怕在现在看来也是十分超前的。例如,目前很多机构关注的概念\ \dash \ ``类脑计算''就是希望研究人脑的运行机制及相关的计算机实现方法。然而模拟大脑这件事并没有想象中的那么简单,众所周知,生物学中对人脑机制的研究是十分困难的,我们对人脑的运行机制尚不明确又何谈模拟呢?因而,神经网络技术一直在摸索着前行,发展到现在,其计算过程与人脑的运行机制已经大相径庭。
\parinterval 人工神经网络的第一个发展阶段是在二十世纪40年代到70年代,这个时期的人工神经网络还停留在利用线性模型模拟生物神经元的阶段,比如使用线性加权函数来描述输入$ \mathbf x $和输出$ y $ 之间的联系:$ f(\mathbf x,\mathbf w)=x_1 \cdot w_1 + \dots + x_n \cdot w_n $举一个简单例子,输入$ \mathbf x $是这个地区的坐标和时间,输出$ y $是这个地区的温度,尽管真实的问题可能要复杂的多,但是线性模型确实有能力去拟合简单的函数关系。
\parinterval 人工神经网络的第一个发展阶段是在二十世纪40年代到70年代,这个时期的人工神经网络还停留在利用线性模型模拟生物神经元的阶段,比如使用线性加权函数来描述输入$ \mathbf x $和输出$ y $ 之间的联系:$y=x_1 \cdot w_1 + \dots + x_n \cdot w_n $举一个简单例子,输入$ \mathbf x $是这个地区的坐标和时间,输出$ y $是这个地区的温度,尽管真实的问题可能要复杂的多,但是线性模型确实有能力去拟合简单的函数关系。
\parinterval 这种线性模型在现在看来可能比较``简陋'',但是这类模型对后来的随机下降等经典方法产生了深远影响。不过,显而易见的是,这种结构也存在着非常明显的缺陷,单层结构限制了它的学习能力,使它无法描述非线性问题,如著名的异或函数(XOR)学习问题,然而非线性才是现实世界的普遍特征,第一代人工神经网络对现实世界中的大部分事物规律都无法准确描述。此后,神经网络的研究陷入了很长一段时间的低迷期。
\parinterval 这种线性模型在现在看来可能比较``简陋'',但是这类模型对后来的随机下降等经典方法产生了深远影响。不过,显而易见的是,这种结构也存在着非常明显的缺陷,单层结构限制了它的学习能力,使它无法描述非线性问题,如著名的异或函数(XOR)学习问题,然而非线性才是现实世界的普遍特征,第一代人工神经网络对很多事物的规律都无法准确描述。此后,神经网络的研究陷入了很长一段时间的低迷期。
%--5.1.1.2神经网络的第二次高潮和第二次寒冬---------------------
\subsubsection{(二)神经网络的第二次高潮和第二次寒冬}\index{Chapter5.1.1.2}
\subsubsection{神经网络的第二次高潮和第二次寒冬}\index{Chapter5.1.1.2}
\parinterval 虽然第一代神经网络受到了打击,但是20世纪80年代开始,第二代人工神经网络开始萌发新的生机。在这个发展阶段,生物属性已经不再是神经网络的唯一灵感来源,在连接主义(Connectionism)和分布式表示(Distributed representation)两种思潮的影响下,神经网络方法再次走入了人们的视线。
\parinterval 虽然第一代神经网络受到了打击,但是20世纪80年代开始,第二代人工神经网络开始萌发新的生机。在这个发展阶段,生物属性已经不再是神经网络的唯一灵感来源,在{\small\bfnew{连接主义}}(Connectionism)和{\small\bfnew{分布式表示}}(Distributed representation)两种思潮的影响下,神经网络方法再次走入了人们的视线。
\vspace{0.3em}
\parinterval (1)符号主义与连接主义
\vspace{0.3em}
\parinterval 人工智能领域始终存在着符号主义和连接主义之争。早期的人工智能研究在认知学中被称为符号主义(Symbolicism),符号主义认为人工智能源于数理逻辑,希望将世界万物的所有运转方式归纳成像文法一样符合逻辑规律的推导过程。符号主义的支持者们坚信基于物理符号系统(即符号操作系统)假设和有限合理性原理,就能通过逻辑推理来模拟智能。但被他们忽略的一点是,模拟智能的推理过程需要大量的先验知识作支持,哪怕是在现代,生物学界也很难解释大脑中神经元的工作原理,因此也很难用符号系统刻画人脑逻辑。另一方面,连接主义则侧重于利用人工神经网络中神经元的连接去探索并模拟输入与输出之间存在的某种关系,这个过程不需要任何先验知识,其核心思想是``大量简单的计算单元连接到一起可以实现智能行为'',这种思想也推动了反向传播等多层神经网络方法的应用,并发展了包括长短时记忆模型在内的经典建模方法。2019年3月27日,ACM 正式宣布将图灵奖授予 Yoshua Bengio, Geoffrey Hinton 和 Yann LeCun,以表彰他们提出的概念和工作使得深度学习神经网络有了重大突破,这三位获奖人均是人工智能连接主义学派的主要代表,从这件事中也可以看出连接主义对当代人工智能和深度学习有着巨大影响。
\parinterval 人工智能领域始终存在着符号主义和连接主义之争。早期的人工智能研究在认知学中被称为{\small\bfnew{符号主义}}(Symbolicism),符号主义认为人工智能源于数理逻辑,希望将世界万物的所有运转方式归纳成像文法一样符合逻辑规律的推导过程。符号主义的支持者们坚信基于物理符号系统(即符号操作系统)假设和有限合理性原理,就能通过逻辑推理来模拟智能。但被他们忽略的一点是,模拟智能的推理过程需要大量的先验知识作支持,哪怕是在现代,生物学界也很难解释大脑中神经元的工作原理,因此也很难用符号系统刻画人脑逻辑。另一方面,连接主义则侧重于利用人工神经网络中神经元的连接去探索并模拟输入与输出之间存在的某种关系,这个过程不需要任何先验知识,其核心思想是``大量简单的计算单元连接到一起可以实现智能行为'',这种思想也推动了反向传播等多层神经网络方法的应用,并发展了包括长短时记忆模型在内的经典建模方法。2019年3月27日,ACM 正式宣布将图灵奖授予 Yoshua Bengio, Geoffrey Hinton 和 Yann LeCun,以表彰他们提出的概念和工作使得深度学习神经网络有了重大突破,这三位获奖人均是人工智能连接主义学派的主要代表,从这件事中也可以看出连接主义对当代人工智能和深度学习的巨大影响。
\vspace{0.3em}
\parinterval (2)分布式表示
\vspace{0.3em}
\parinterval 分布式表示的主要思想是``一个复杂系统的任何部分的输入都应该是多个特征共同表示的结果'',这种思想在自然语言处理领域的影响尤其深刻,它改变了刻画世界的角度,将世界万物从离散空间映射到多维连续空间。例如,在现实世界中,``张三''这个代号就代表着一个人。如果想要知道这个人亲属都有谁,因为有``A和B如果姓氏相同,在一个家谱中,那么A和B是本家''这个先验知识在,在知道代号``张三''的情况下,可以得知``张三''的亲属是谁。但是如果不依靠这个先验知识,就无法得知``张三''的亲属是谁。但在分布式表示中,可以用一个实数向量,如$ (0.1,0.3,0.4) $来表示``张三''这个人,这个人的所有特征信息都包含在这个实数向量中,通过在向量空间中的一些操作(如计算距离等),哪怕没有任何先验知识的存在,也完全可以找到这个人的所有亲属。在自然语言处理中,一个单词也用一个实数向量(词向量或词嵌入)表示,通过这种方式将语义空间重新刻画,将这个离散空间转化成了一个连续空间,这时单词就不再是一个简单的词条,而是由成百上千个特征共同描述出来,而每个特征都描述这个词的某个`` 方面''。
\parinterval 随着第二代人工神经网络的``脱胎换骨'',学者们又对神经网络方法燃起了希望之火,这也导致有些时候过分的夸大了神经网络的能力。20世纪90年代后期,由于在包括电力、语音识别、自然语言处理等应用中,人们对神经网络方法期望过高,但是结果并没有达到预期,这也让很多人丧失了对神经网络方法的信任。相反,核方法、图模型等机器学习方法取得了很好的效果,这导致神经网络研究又一次进入谷底。
\parinterval 随着第二代人工神经网络的``脱胎换骨'',学者们又对神经网络方法燃起了希望之火,这也导致有些时候过分的夸大了神经网络的能力。20世纪90年代后期,由于在包括语音识别、自然语言处理等应用中,人们对神经网络方法期望过高,但是结果并没有达到预期,这也让很多人丧失了对神经网络方法的信任。相反,核方法、图模型等机器学习方法取得了很好的效果,这导致神经网络研究又一次进入低谷。
%--5.1.1.3深度学习和神经网络的崛起---------------------
\subsubsection{(三)深度学习和神经网络的崛起}\index{Chapter5.1.1.3}
\subsubsection{深度学习和神经网络方法的崛起}\index{Chapter5.1.1.3}
\parinterval 21世纪初,随着深度学习浪潮席卷世界,人工神经网络又一次出现在人们的视野中。深度学习的流行源于2006年Hinton等人成功训练了一个深度信念网络(Deep Belief Network),在深度神经网络方法完全不受重视的情况下,大家突然发现深度神经网络完全是一个魔鬼般的存在,可以解决很多当时其他方法无法解决的问题。神经网络方法终于在一次又一次的否定后,迎来了它的春天。随之针对神经网络和深度学习的一系列研究前赴后继的展开了,延续至今。
......@@ -60,7 +65,7 @@
\begin{itemize}
\item 第一,模型和算法的不断完善和改进。这个方面的进步是现代深度学习能够获得成功的最主要原因;
\vspace{0.5em}
\item 第二,并行计算能力的提升使大规模的实践成为了可能。早期的计算机设备根本支撑不了深度神经网络训练所需要的计算量,导致实践变得十分困难。而设备的进步、计算能力的提升则彻底改变了这种窘境;
\item 第二,并行计算能力的提升使大规模的实践成为了可能。早期的计算机设备根本无法支撑深度神经网络训练所需要的计算量,导致实践变得十分困难。而设备的进步、计算能力的提升则彻底改变了这种窘境;
\vspace{0.5em}
\item 第三,以Hinton等人为代表的学者的坚持和持续投入。
\end{itemize}
......
\indexentry{Chapter3.1|hyperpage}{9}
\indexentry{Chapter3.2|hyperpage}{11}
\indexentry{Chapter3.2.1|hyperpage}{11}
\indexentry{Chapter3.2.1.1|hyperpage}{11}
\indexentry{Chapter3.2.1.2|hyperpage}{12}
\indexentry{Chapter3.2.1.3|hyperpage}{13}
\indexentry{Chapter3.2.2|hyperpage}{13}
\indexentry{Chapter3.2.3|hyperpage}{14}
\indexentry{Chapter3.2.3.1|hyperpage}{14}
\indexentry{Chapter3.2.3.2|hyperpage}{14}
\indexentry{Chapter3.2.3.3|hyperpage}{16}
\indexentry{Chapter3.2.4|hyperpage}{17}
\indexentry{Chapter3.2.4.1|hyperpage}{17}
\indexentry{Chapter3.2.4.2|hyperpage}{19}
\indexentry{Chapter3.2.5|hyperpage}{21}
\indexentry{Chapter3.3|hyperpage}{24}
\indexentry{Chapter3.3.1|hyperpage}{24}
\indexentry{Chapter3.3.2|hyperpage}{26}
\indexentry{Chapter3.3.2.1|hyperpage}{27}
\indexentry{Chapter3.3.2.2|hyperpage}{27}
\indexentry{Chapter3.3.2.3|hyperpage}{29}
\indexentry{Chapter3.4|hyperpage}{30}
\indexentry{Chapter3.4.1|hyperpage}{30}
\indexentry{Chapter3.4.2|hyperpage}{32}
\indexentry{Chapter3.4.3|hyperpage}{33}
\indexentry{Chapter3.4.4|hyperpage}{34}
\indexentry{Chapter3.4.4.1|hyperpage}{34}
\indexentry{Chapter3.4.4.2|hyperpage}{35}
\indexentry{Chapter3.5|hyperpage}{41}
\indexentry{Chapter3.5.1|hyperpage}{41}
\indexentry{Chapter3.5.2|hyperpage}{44}
\indexentry{Chapter3.5.3|hyperpage}{45}
\indexentry{Chapter3.5.4|hyperpage}{47}
\indexentry{Chapter3.5.5|hyperpage}{48}
\indexentry{Chapter3.5.5|hyperpage}{51}
\indexentry{Chapter3.6|hyperpage}{51}
\indexentry{Chapter3.6.1|hyperpage}{51}
\indexentry{Chapter3.6.2|hyperpage}{52}
\indexentry{Chapter3.6.4|hyperpage}{53}
\indexentry{Chapter3.6.5|hyperpage}{54}
\indexentry{Chapter3.7|hyperpage}{54}
\indexentry{Chapter5.1|hyperpage}{10}
\indexentry{Chapter5.1.1|hyperpage}{10}
\indexentry{Chapter5.1.1.1|hyperpage}{10}
\indexentry{Chapter5.1.1.2|hyperpage}{11}
\indexentry{Chapter5.1.1.3|hyperpage}{12}
\indexentry{Chapter5.1.2|hyperpage}{13}
\indexentry{Chapter5.1.2.1|hyperpage}{13}
\indexentry{Chapter5.1.2.2|hyperpage}{14}
\indexentry{Chapter5.2|hyperpage}{14}
\indexentry{Chapter5.2.1|hyperpage}{14}
\indexentry{Chapter5.2.1.1|hyperpage}{15}
\indexentry{Chapter5.2.1.2|hyperpage}{16}
\indexentry{Chapter5.2.1.3|hyperpage}{16}
\indexentry{Chapter5.2.1.4|hyperpage}{17}
\indexentry{Chapter5.2.1.5|hyperpage}{18}
\indexentry{Chapter5.2.1.6|hyperpage}{19}
\indexentry{Chapter5.2.2|hyperpage}{20}
\indexentry{Chapter5.2.2.1|hyperpage}{20}
\indexentry{Chapter5.2.2.2|hyperpage}{22}
\indexentry{Chapter5.2.2.3|hyperpage}{22}
\indexentry{Chapter5.2.2.4|hyperpage}{23}
\indexentry{Chapter5.2.3|hyperpage}{24}
\indexentry{Chapter5.2.3.1|hyperpage}{24}
\indexentry{Chapter5.2.3.2|hyperpage}{26}
\indexentry{Chapter5.2.4|hyperpage}{26}
\indexentry{Chapter5.3|hyperpage}{31}
\indexentry{Chapter5.3.1|hyperpage}{32}
\indexentry{Chapter5.3.1.1|hyperpage}{32}
\indexentry{Chapter5.3.1.2|hyperpage}{34}
\indexentry{Chapter5.3.1.3|hyperpage}{35}
\indexentry{Chapter5.3.2|hyperpage}{36}
\indexentry{Chapter5.3.3|hyperpage}{36}
\indexentry{Chapter5.3.4|hyperpage}{40}
\indexentry{Chapter5.3.5|hyperpage}{41}
\indexentry{Chapter5.4|hyperpage}{42}
\indexentry{Chapter5.4.1|hyperpage}{43}
\indexentry{Chapter5.4.2|hyperpage}{44}
\indexentry{Chapter5.4.2.1|hyperpage}{45}
\indexentry{Chapter5.4.2.2|hyperpage}{47}
\indexentry{Chapter5.4.2.3|hyperpage}{49}
\indexentry{Chapter5.4.3|hyperpage}{52}
\indexentry{Chapter5.4.4|hyperpage}{54}
\indexentry{Chapter5.4.4.1|hyperpage}{54}
\indexentry{Chapter5.4.4.2|hyperpage}{55}
\indexentry{Chapter5.4.4.3|hyperpage}{56}
\indexentry{Chapter5.4.5|hyperpage}{57}
\indexentry{Chapter5.4.6|hyperpage}{58}
\indexentry{Chapter5.4.6.1|hyperpage}{59}
\indexentry{Chapter5.4.6.2|hyperpage}{61}
\indexentry{Chapter5.4.6.3|hyperpage}{62}
\indexentry{Chapter5.5|hyperpage}{63}
\indexentry{Chapter5.5.1|hyperpage}{64}
\indexentry{Chapter5.5.1.1|hyperpage}{65}
\indexentry{Chapter5.5.1.2|hyperpage}{67}
\indexentry{Chapter5.5.1.3|hyperpage}{68}
\indexentry{Chapter5.5.1.4|hyperpage}{69}
\indexentry{Chapter5.5.2|hyperpage}{70}
\indexentry{Chapter5.5.2.1|hyperpage}{70}
\indexentry{Chapter5.5.2.2|hyperpage}{70}
\indexentry{Chapter5.5.3|hyperpage}{72}
\indexentry{Chapter5.5.3.1|hyperpage}{72}
\indexentry{Chapter5.5.3.2|hyperpage}{74}
\indexentry{Chapter5.5.3.3|hyperpage}{75}
\indexentry{Chapter5.5.3.4|hyperpage}{75}
\indexentry{Chapter5.5.3.5|hyperpage}{76}
\indexentry{Chapter5.6|hyperpage}{77}
\boolfalse {citerequest}\boolfalse {citetracker}\boolfalse {pagetracker}\boolfalse {backtracker}\relax
\babel@toc {english}{}
\defcounter {refsection}{0}\relax
\select@language {english}
\defcounter {refsection}{0}\relax
\contentsline {part}{\@mypartnumtocformat {I}{统计机器翻译}}{7}{part.1}
\contentsline {part}{\@mypartnumtocformat {I}{神经机器翻译}}{7}{part.1}%
\ttl@starttoc {default@1}
\defcounter {refsection}{0}\relax
\contentsline {chapter}{\numberline {1}基于词的机器翻译模型}{9}{chapter.1}
\contentsline {chapter}{\numberline {1}人工神经网络和神经语言建模}{9}{chapter.1}%
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.1}深度学习与人工神经网络}{10}{section.1.1}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.1.1}发展简史}{10}{subsection.1.1.1}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{早期的人工神经网络和第一次寒冬}{10}{section*.2}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{神经网络的第二次高潮和第二次寒冬}{11}{section*.3}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{深度学习和神经网络方法的崛起}{12}{section*.4}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.1.2}为什么需要深度学习}{13}{subsection.1.1.2}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(一)端到端学习和表示学习}{13}{section*.6}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(二)深度学习的效果}{14}{section*.8}%
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.2}神经网络基础}{14}{section.1.2}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.2.1}线性代数基础}{14}{subsection.1.2.1}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{标量、向量和矩阵}{15}{section*.10}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{矩阵的转置}{16}{section*.11}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{矩阵加法和数乘}{16}{section*.12}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{矩阵乘法和矩阵点乘}{17}{section*.13}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{线性映射}{18}{section*.14}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{范数}{19}{section*.15}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.2.2}人工神经元和感知机}{20}{subsection.1.2.2}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{(一)感知机\ \raisebox {0.5mm}{------}\ 最简单的人工神经元模型}{20}{section*.18}%
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.1}什么是基于词的翻译模型}{9}{section.1.1}
\contentsline {subsubsection}{(二)神经元内部权重}{22}{section*.21}%
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.2}构建一个简单的机器翻译系统}{11}{section.1.2}
\contentsline {subsubsection}{(三)神经元的输入\ \raisebox {0.5mm}{------}\ 离散 vs 连续}{22}{section*.23}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.2.1}如何进行翻译?}{11}{subsection.1.2.1}
\contentsline {subsubsection}{(四)神经元内部的参数学习}{23}{section*.25}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{机器翻译流程}{12}{section*.6}
\contentsline {subsection}{\numberline {1.2.3}多层神经网络}{24}{subsection.1.2.3}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{人工翻译 vs. 机器翻译}{13}{section*.8}
\contentsline {subsubsection}{线性变换和激活函数}{24}{section*.27}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.2.2}基本框架}{13}{subsection.1.2.2}
\contentsline {subsubsection}{单层神经网络$\rightarrow $多层神经网络}{26}{section*.34}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.2.3}单词翻译概率}{14}{subsection.1.2.3}
\contentsline {subsection}{\numberline {1.2.4}函数拟合能力}{26}{subsection.1.2.4}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{什么是单词翻译概率?}{14}{section*.10}
\contentsline {section}{\numberline {1.3}神经网络的张量实现}{31}{section.1.3}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{如何从一个双语平行数据中学习?}{14}{section*.12}
\contentsline {subsection}{\numberline {1.3.1} 张量及其计算}{32}{subsection.1.3.1}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{如何从大量的双语平行数据中学习?}{16}{section*.13}
\contentsline {subsubsection}{张量}{32}{section*.44}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.2.4}句子级翻译模型}{17}{subsection.1.2.4}
\contentsline {subsubsection}{张量的矩阵乘法}{34}{section*.47}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基础模型}{17}{section*.15}
\contentsline {subsubsection}{张量的单元操作}{35}{section*.49}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{生成流畅的译文}{19}{section*.17}
\contentsline {subsection}{\numberline {1.3.2}张量的物理存储形式}{36}{subsection.1.3.2}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.2.5}解码}{21}{subsection.1.2.5}
\contentsline {subsection}{\numberline {1.3.3}使用开源框架实现张量计算}{36}{subsection.1.3.3}%
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.3}基于词的翻译建模}{24}{section.1.3}
\contentsline {subsection}{\numberline {1.3.4}神经网络中的前向传播}{40}{subsection.1.3.4}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.3.1}噪声信道模型}{24}{subsection.1.3.1}
\contentsline {subsection}{\numberline {1.3.5}神经网络实例}{41}{subsection.1.3.5}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.3.2}统计机器翻译的三个基本问题}{26}{subsection.1.3.2}
\contentsline {section}{\numberline {1.4}神经网络的参数训练}{42}{section.1.4}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{词对齐}{27}{section*.26}
\contentsline {subsection}{\numberline {1.4.1}损失函数}{43}{subsection.1.4.1}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基于词对齐的翻译模型}{27}{section*.29}
\contentsline {subsection}{\numberline {1.4.2}基于梯度的参数优化}{44}{subsection.1.4.2}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{基于词对齐的翻译实例}{29}{section*.31}
\contentsline {subsubsection}{(一)梯度下降}{45}{section*.67}%
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.4}IBM模型1-2}{30}{section.1.4}
\contentsline {subsubsection}{(二)梯度获取}{47}{section*.69}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.4.1}IBM模型1}{30}{subsection.1.4.1}
\contentsline {subsubsection}{(三)基于梯度的方法的变种和改进}{49}{section*.73}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.4.2}IBM模型2}{32}{subsection.1.4.2}
\contentsline {subsection}{\numberline {1.4.3}参数更新的并行化策略}{52}{subsection.1.4.3}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.4.3}解码及计算优化}{33}{subsection.1.4.3}
\contentsline {subsection}{\numberline {1.4.4}梯度消失、梯度爆炸和稳定性训练}{54}{subsection.1.4.4}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.4.4}训练}{34}{subsection.1.4.4}
\contentsline {subsubsection}{(一)梯度消失现象及解决方法}{54}{section*.76}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{目标函数}{34}{section*.36}
\contentsline {subsubsection}{(二)梯度爆炸现象及解决方法}{55}{section*.80}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{优化}{35}{section*.38}
\contentsline {subsubsection}{(三)稳定性训练}{56}{section*.81}%
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.5}IBM模型3-5及隐马尔可夫模型}{41}{section.1.5}
\contentsline {subsection}{\numberline {1.4.5}过拟合}{57}{subsection.1.4.5}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.5.1}基于产出率的翻译模型}{41}{subsection.1.5.1}
\contentsline {subsection}{\numberline {1.4.6}反向传播}{58}{subsection.1.4.6}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.5.2}IBM 模型3}{44}{subsection.1.5.2}
\contentsline {subsubsection}{(一)输出层的反向传播}{59}{section*.84}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.5.3}IBM 模型4}{45}{subsection.1.5.3}
\contentsline {subsubsection}{(二)隐藏层的反向传播}{61}{section*.88}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.5.4} IBM 模型5}{47}{subsection.1.5.4}
\contentsline {subsubsection}{(三)程序实现}{62}{section*.91}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.5.5}隐马尔可夫模型}{48}{subsection.1.5.5}
\contentsline {section}{\numberline {1.5}神经语言模型}{63}{section.1.5}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{隐马尔可夫模型}{49}{section*.50}
\contentsline {subsection}{\numberline {1.5.1}基于神经网络的语言建模}{64}{subsection.1.5.1}%
\defcounter {refsection}{0}\relax
\contentsline {subsubsection}{词对齐模型}{50}{section*.52}
\contentsline {subsubsection}{(一)基于前馈神经网络的语言模型}{65}{section*.94}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.5.6}解码和训练}{51}{subsection.1.5.6}
\contentsline {subsubsection}{(二)基于循环神经网络的语言模型}{67}{section*.97}%
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.6}问题分析}{51}{section.1.6}
\contentsline {subsubsection}{(三)基于自注意力机制的语言模型}{68}{section*.99}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.6.1}词对齐及对称化}{51}{subsection.1.6.1}
\contentsline {subsubsection}{(四)语言模型的评价}{69}{section*.101}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.6.2}Deficiency}{52}{subsection.1.6.2}
\contentsline {subsection}{\numberline {1.5.2}单词表示模型}{70}{subsection.1.5.2}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.6.3}句子长度}{53}{subsection.1.6.3}
\contentsline {subsubsection}{(一)One-hot编码}{70}{section*.102}%
\defcounter {refsection}{0}\relax
\contentsline {subsection}{\numberline {1.6.4}其他问题}{54}{subsection.1.6.4}
\contentsline {subsubsection}{(二)分布式表示}{70}{section*.104}%
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {1.7}小结及深入阅读}{54}{section.1.7}
\contentsline {subsection}{\numberline {1.5.3}句子表示模型及预训练}{72}{subsection.1.5.3}%
\defcounter {refsection}{0}\relax
\contentsline {part}{\@mypartnumtocformat {II}{附录}}{57}{part.2}
\ttl@stoptoc {default@1}
\ttl@starttoc {default@2}
\contentsline {subsubsection}{(一)简单的上下文表示模型}{72}{section*.108}%
\defcounter {refsection}{0}\relax
\contentsline {chapter}{\numberline {A}附录A}{59}{Appendix.1.A}
\contentsline {subsubsection}{(二)ELMO模型}{74}{section*.111}%
\defcounter {refsection}{0}\relax
\contentsline {chapter}{\numberline {B}附录B}{61}{Appendix.2.B}
\contentsline {subsubsection}{(三)GPT模型}{75}{section*.113}%
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {B.1}IBM模型3训练方法}{61}{section.2.B.1}
\contentsline {subsubsection}{(四)BERT模型}{75}{section*.115}%
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {B.2}IBM模型4训练方法}{63}{section.2.B.2}
\contentsline {subsubsection}{(五)为什么要预训练?}{76}{section*.117}%
\defcounter {refsection}{0}\relax
\contentsline {section}{\numberline {B.3}IBM模型5训练方法}{65}{section.2.B.3}
\contentsline {section}{\numberline {1.6}小结及深入阅读}{77}{section.1.6}%
\contentsfinish
......@@ -114,11 +114,11 @@
%\include{Chapter1/chapter1}
%\include{Chapter2/chapter2}
\include{Chapter3/chapter3}
%\include{Chapter3/chapter3}
%\include{Chapter4/chapter4}
%\include{Chapter5/chapter5}
\include{Chapter5/chapter5}
%\include{Chapter6/chapter6}
\include{ChapterAppend/chapterappend}
%\include{ChapterAppend/chapterappend}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论