Commit 7b9c2fa5 by 孟霞

合并分支 'master' 到 'mengxia'

Master

查看合并请求 !61
parents 3bf6c3ec 09e9367f
...@@ -204,7 +204,7 @@ ...@@ -204,7 +204,7 @@
\vspace{0.3em} \vspace{0.3em}
\end{itemize} \end{itemize}
\parinterval 数据选择认为所有样本都是有用的,只是作用大小不同。因此,如果可以更充分的利用对机器翻译帮助更大的那部分数据,系统性能应该可以得到提升\upcite{wang-etal-2018-dynamic} 比如,很多比赛系统中会使用测试数据与训练数据(源语言部分)进行匹配,选择一部与测试集更相关的数据,之后用这部分数据微调系统{\red 参考文献!引用WMT、CCMT});也可以对不同训练数据的集合进行加权,之后进行权重敏感的训练,以期望权重大的数据对模型产生更大的影响({\red 参考文献!NICT?} \parinterval 数据选择认为所有样本都是有用的,只是作用大小不同。因此,如果可以更充分的利用对机器翻译帮助更大的那部分数据,系统性能应该可以得到提升\upcite{wang-etal-2018-dynamic} 比如,很多比赛系统中会使用测试数据与训练数据(源语言部分)进行匹配,选择一部与测试集更相关的数据,之后用这部分数据微调系统\upcite{DBLP:conf/wmt/LiLXLLLWZXWFCLL19,wang-etal-2018-tencent};也可以对不同训练数据的集合进行加权,之后进行权重敏感的训练,以期望权重大的数据对模型产生更大的影响\upcite{wang-etal-2018-dynamic}
\parinterval 数据过滤则认为数据中存在不太多的噪声,可以通过去除这种噪声提高数据整体的质量,进而提升训练效果。有很多方法,比如:过滤掉非对齐的样本、翻译质量极低的样本、重复样本等等。图\ref{fig:7-6}展示了数据过滤的实例。通常数据过滤需要很多工程手段的综合运用,因此也非常考验系统研发团队对系统打磨的能力。 \parinterval 数据过滤则认为数据中存在不太多的噪声,可以通过去除这种噪声提高数据整体的质量,进而提升训练效果。有很多方法,比如:过滤掉非对齐的样本、翻译质量极低的样本、重复样本等等。图\ref{fig:7-6}展示了数据过滤的实例。通常数据过滤需要很多工程手段的综合运用,因此也非常考验系统研发团队对系统打磨的能力。
...@@ -290,7 +290,7 @@ ...@@ -290,7 +290,7 @@
\parinterval 一种解决开放词表翻译问题的方法是改造输出层结构\upcite{garciamartinez:hal-01433161}\upcite{DBLP:journals/corr/JeanCMB14},比如,替换原始的Softmax层,用更加高效的神经网络结构进行超大规模词表上的预测。不过这类方法往往需要对系统进行修改,由于模型结构和训练方法的调整使得系统开发与调试的工作量增加。而且这类方法仍然无法解决OOV问题。因此在实用系统中并不常用。 \parinterval 一种解决开放词表翻译问题的方法是改造输出层结构\upcite{garciamartinez:hal-01433161}\upcite{DBLP:journals/corr/JeanCMB14},比如,替换原始的Softmax层,用更加高效的神经网络结构进行超大规模词表上的预测。不过这类方法往往需要对系统进行修改,由于模型结构和训练方法的调整使得系统开发与调试的工作量增加。而且这类方法仍然无法解决OOV问题。因此在实用系统中并不常用。
\parinterval 另一种思路是不改变机器翻译系统,而是从数据处理的角度来缓解OOV问题。既然使用单词会带来数据稀疏问题,那么自然会想到使用更小的单元。比如,把字符作为最小的翻译单元 \footnote{中文中字符可以被看作是汉字。} \ \dash \ 也就是基于字符的翻译模型{\red 参考文献!}。以英文为例,只需要构造一个包含26个英文字母、数字和一些特殊符号的字符表,便可以表示所有的单词。 \parinterval 另一种思路是不改变机器翻译系统,而是从数据处理的角度来缓解OOV问题。既然使用单词会带来数据稀疏问题,那么自然会想到使用更小的单元。比如,把字符作为最小的翻译单元 \footnote{中文中字符可以被看作是汉字。} \ \dash \ 也就是基于字符的翻译模型\upcite{DBLP:journals/corr/LeeCH16}。以英文为例,只需要构造一个包含26个英文字母、数字和一些特殊符号的字符表,便可以表示所有的单词。
\parinterval 但是字符级翻译也面临着新的问题\ \dash\ 使用字符增加了系统捕捉不同语言单元之间搭配的难度。假设平均一个单词由5个字符组成,所处理的序列长度便增大5倍。这使得具有独立意义的不同语言单元需要跨越更远的距离才能产生联系。此外,基于字符的方法也破坏了单词中天然存在的构词规律,或者说破坏了单词内字符的局部依赖。比如,英文单词``telephone''中的``tele''和``phone''都是有具体意义的词缀,但是如果把它们打散为字符就失去了这些含义。 \parinterval 但是字符级翻译也面临着新的问题\ \dash\ 使用字符增加了系统捕捉不同语言单元之间搭配的难度。假设平均一个单词由5个字符组成,所处理的序列长度便增大5倍。这使得具有独立意义的不同语言单元需要跨越更远的距离才能产生联系。此外,基于字符的方法也破坏了单词中天然存在的构词规律,或者说破坏了单词内字符的局部依赖。比如,英文单词``telephone''中的``tele''和``phone''都是有具体意义的词缀,但是如果把它们打散为字符就失去了这些含义。
...@@ -380,7 +380,7 @@ ...@@ -380,7 +380,7 @@
\parinterval 与基于统计的BPE算法不同,基于Word Piece和1-gram Language Model(ULM)的方法则是利用语言模型进行子词词表的构造\upcite{DBLP:journals/corr/abs-1804-10959}。本质上,基于语言模型的方法和基于BPE的方法的思路是一样的,即通过合并字符和子词不断生成新的子词。它们的区别仅在于合并子词的方式不同。基于BPE的方法选择出现频次最高的连续字符2-gram合并为新的子词,而基于语言模型的方法中则是根据语言模型概率选择要合并哪些子词。 \parinterval 与基于统计的BPE算法不同,基于Word Piece和1-gram Language Model(ULM)的方法则是利用语言模型进行子词词表的构造\upcite{DBLP:journals/corr/abs-1804-10959}。本质上,基于语言模型的方法和基于BPE的方法的思路是一样的,即通过合并字符和子词不断生成新的子词。它们的区别仅在于合并子词的方式不同。基于BPE的方法选择出现频次最高的连续字符2-gram合并为新的子词,而基于语言模型的方法中则是根据语言模型概率选择要合并哪些子词。
\parinterval 具体来说,基于Word Piece的方法首先将句子切割为字符表示的形式{\red 参考文献}),并利用该数据训练一个1-gram语言模型,记为$\textrm{logP}(\cdot)$。假设两个相邻的子词单元$a$$b$被合并为新的子词$c$,则整个句子的语言模型得分的变化为$\triangle=\textrm{logP}(c)-\textrm{logP}(a)-\textrm{logP}(b)$。这样,可以不断的选择使$\triangle$最大的两个子词单元进行合并,直到达到预设的词表大小或者句子概率的增量低于某个阈值。而ULM方法以最大化整个句子的概率为目标构建词表({\red 参考文献},具体实现上也不同于基于Word Piece的方法,这里不做详细介绍。 \parinterval 具体来说,基于Word Piece的方法首先将句子切割为字符表示的形式\upcite{6289079},并利用该数据训练一个1-gram语言模型,记为$\textrm{logP}(\cdot)$。假设两个相邻的子词单元$a$$b$被合并为新的子词$c$,则整个句子的语言模型得分的变化为$\triangle=\textrm{logP}(c)-\textrm{logP}(a)-\textrm{logP}(b)$。这样,可以不断的选择使$\triangle$最大的两个子词单元进行合并,直到达到预设的词表大小或者句子概率的增量低于某个阈值。而ULM方法以最大化整个句子的概率为目标构建词表\upcite{DBLP:journals/corr/abs-1804-10959},具体实现上也不同于基于Word Piece的方法,这里不做详细介绍。
\parinterval 使用子词表示句子的方法可以有效的平衡词汇量,增大对未见单词的覆盖度。像英译德、汉译英任务,使用16k或者32k的子词词表大小便能取得很好的效果。 \parinterval 使用子词表示句子的方法可以有效的平衡词汇量,增大对未见单词的覆盖度。像英译德、汉译英任务,使用16k或者32k的子词词表大小便能取得很好的效果。
...@@ -562,7 +562,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q ...@@ -562,7 +562,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
\parinterval 宽网络通常指隐藏层维度更大的网络,目前在图像处理领域和自然语言处理领域被广泛地使用。第五章已经验证了包含足够多神经元的多层前馈神经网络可以无限逼近任意复杂的连续函数\upcite{Hornic1989Multilayer},这也在一定程度上说明了神经网络建模中神经元数目的重要性。 \parinterval 宽网络通常指隐藏层维度更大的网络,目前在图像处理领域和自然语言处理领域被广泛地使用。第五章已经验证了包含足够多神经元的多层前馈神经网络可以无限逼近任意复杂的连续函数\upcite{Hornic1989Multilayer},这也在一定程度上说明了神经网络建模中神经元数目的重要性。
\parinterval 增大隐藏层神经元的数目是网络变宽的基本方式之一。例如,图像处理领域中提出的{\small\bfnew{宽残差网络}}\index{宽残差网络}(Wide Residual Network)\index{Wide Residual Network}使用更大的卷积核来提高每次卷积计算的精度\upcite{DBLP:journals/corr/ZagoruykoK16};神经机器翻译中,Transformer-Big模型广受研究人员的认可{\red 参考文献!},它同样是一个典型的宽网络。对比基线模型Transformer-Base,Transformer-Big通过扩大隐藏层维度与滤波器(Filter)维度,取得了显著的翻译性能提升。表\ref{tab:Parameter-setting}是相应的参数设置。 \parinterval 增大隐藏层神经元的数目是网络变宽的基本方式之一。例如,图像处理领域中提出的{\small\bfnew{宽残差网络}}\index{宽残差网络}(Wide Residual Network)\index{Wide Residual Network}使用更大的卷积核来提高每次卷积计算的精度\upcite{DBLP:journals/corr/ZagoruykoK16};神经机器翻译中,Transformer-Big模型广受研究人员的认可\upcite{NIPS2017_7181},它同样是一个典型的宽网络。对比基线模型Transformer-Base,Transformer-Big通过扩大隐藏层维度与滤波器(Filter)维度,取得了显著的翻译性能提升。表\ref{tab:Parameter-setting}是相应的参数设置。
%---------------------------------------------- %----------------------------------------------
% 表 % 表
...@@ -821,7 +821,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q ...@@ -821,7 +821,7 @@ y_{j}^{ls}=(1-\alpha) \cdot \tilde{y}_j + \alpha \cdot q
\parinterval 消除不必要的计算是加速机器翻译的常用技术。比如,在统计机器翻译时代,假设重组就是一种典型的避免冗余计算的手段(第四章)。对于神经机器翻译中的Transformer模型,一种简单有效的方法是对解码端的注意力结果进行缓存。在生成每个目标语译文时,Transformer模型会对当前位置之前所有位置进行自注意力操作,但是这些计算里只有和当前位置相关的计算是``新''的,前面位置之间的注意力结果已经在之前的解码步骤里计算过,因此可以对其进行缓存。 \parinterval 消除不必要的计算是加速机器翻译的常用技术。比如,在统计机器翻译时代,假设重组就是一种典型的避免冗余计算的手段(第四章)。对于神经机器翻译中的Transformer模型,一种简单有效的方法是对解码端的注意力结果进行缓存。在生成每个目标语译文时,Transformer模型会对当前位置之前所有位置进行自注意力操作,但是这些计算里只有和当前位置相关的计算是``新''的,前面位置之间的注意力结果已经在之前的解码步骤里计算过,因此可以对其进行缓存。
\parinterval 此外,由于Transformer模型较为复杂,还存在很多冗余。比如,Transformer的每一层会包含自注意力机制、层正则化、残差连接、前馈神经网络等多种不同的结构。同时,不同结构之间还会包含一些线性变换。多层Transformer(通常为6层)模型会更加复杂。但是,这些层可能在做相似的事情,甚至有些计算根本就是重复的。图\ref{fig:7-21}中展示了解码端自注意力和编码-解码注意力中不同层的注意力权重的相似性,这里的相似性利用Jensen-Shannon散度进行度量{\red 参考文献!}。可以看到,自注意力中,2-5层之间的注意力权重的分布非常相似。编码-解码注意力也有类似的现象,临近的层之间有非常相似的注意力权重。这个现象说明:在多层神经网络中有些计算是冗余的,因此很自然的想法是消除这些冗余使得机器翻译变得更``轻''。 \parinterval 此外,由于Transformer模型较为复杂,还存在很多冗余。比如,Transformer的每一层会包含自注意力机制、层正则化、残差连接、前馈神经网络等多种不同的结构。同时,不同结构之间还会包含一些线性变换。多层Transformer(通常为6层)模型会更加复杂。但是,这些层可能在做相似的事情,甚至有些计算根本就是重复的。图\ref{fig:7-21}中展示了解码端自注意力和编码-解码注意力中不同层的注意力权重的相似性,这里的相似性利用Jensen-Shannon散度进行度量\cite{61115}。可以看到,自注意力中,2-5层之间的注意力权重的分布非常相似。编码-解码注意力也有类似的现象,临近的层之间有非常相似的注意力权重。这个现象说明:在多层神经网络中有些计算是冗余的,因此很自然的想法是消除这些冗余使得机器翻译变得更``轻''。
%---------------------------------------------- %----------------------------------------------
% 图7. % 图7.
...@@ -1736,7 +1736,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\textbf{y}} | \textbf{x}) ...@@ -1736,7 +1736,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\textbf{y}} | \textbf{x})
\vspace{0.5em} \vspace{0.5em}
\item 结构搜索。除了由研究人员手工设计神经网络结构之外,近些年{\small\bfnew{网络结构搜索技术}}\index{网络结构搜索技术}(Neural Architecture Search;NAS)\index{Neural Architecture Search;NAS}也逐渐在包括机器翻译在内的自然语言处理任务中得到广泛关注\upcite{DBLP:journals/jmlr/ElskenMH19}。不同于前文提到的基于循环神经网络、Transformer结构的机器翻译模型,网络结构搜索旨在通过自动的方式根据提供的训练数据自动学习到最适合于当前任务的神经网络模型结构,这种方式能够有效将研究人员从模型结构设计者的位置上“解救”出来,让计算机能够像学网络参数一样学习神经网络模型的结构。目前而言,网络结构搜索的方法已经在自然语言处理的各项任务中崭露头角,在语言模型、命名实体识别等任务中获得优异的成绩\upcite{DBLP:conf/iclr/ZophL17,DBLP:conf/emnlp/JiangHXZZ19,liyinqiaoESS},但对于机器翻译任务而言,由于其任务的复杂性,网络结构的搜索空间往往比较大,很难直接对其空间进行搜索,因此研究人员更倾向于对基于现有经验设计的模型结构进行改良。谷歌大脑团队在The Evolved Transformer文章中提出使用进化算法,在Transformer结构基础上对模型结构进行演化,得到更加高效且建模能力更强的机器翻译模型。微软团队也在Neural Architecture Optimization\upcite{Luo2018Neural}论文中提出NAO的方法,通过将神经网络结构映射到连续空间上进行优化来获得优于初始结构的模型,NAO方法在WMT19机器翻译评测任务中也进行了使用,在英语-芬兰语以及芬兰语-英语的任务上均取得了优异的成绩。 \item 结构搜索。除了由研究人员手工设计神经网络结构之外,近些年{\small\bfnew{网络结构搜索技术}}\index{网络结构搜索技术}(Neural Architecture Search;NAS)\index{Neural Architecture Search;NAS}也逐渐在包括机器翻译在内的自然语言处理任务中得到广泛关注\upcite{DBLP:journals/jmlr/ElskenMH19}。不同于前文提到的基于循环神经网络、Transformer结构的机器翻译模型,网络结构搜索旨在通过自动的方式根据提供的训练数据自动学习到最适合于当前任务的神经网络模型结构,这种方式能够有效将研究人员从模型结构设计者的位置上“解救”出来,让计算机能够像学网络参数一样学习神经网络模型的结构。目前而言,网络结构搜索的方法已经在自然语言处理的各项任务中崭露头角,在语言模型、命名实体识别等任务中获得优异的成绩\upcite{DBLP:conf/iclr/ZophL17,DBLP:conf/emnlp/JiangHXZZ19,liyinqiaoESS},但对于机器翻译任务而言,由于其任务的复杂性,网络结构的搜索空间往往比较大,很难直接对其空间进行搜索,因此研究人员更倾向于对基于现有经验设计的模型结构进行改良。谷歌大脑团队在The Evolved Transformer文章中提出使用进化算法,在Transformer结构基础上对模型结构进行演化,得到更加高效且建模能力更强的机器翻译模型。微软团队也在Neural Architecture Optimization\upcite{Luo2018Neural}论文中提出NAO的方法,通过将神经网络结构映射到连续空间上进行优化来获得优于初始结构的模型,NAO方法在WMT19机器翻译评测任务中也进行了使用,在英语-芬兰语以及芬兰语-英语的任务上均取得了优异的成绩。
\vspace{0.5em} \vspace{0.5em}
\item 与统计机器翻译的结合。尽管神经机器翻译在自动评价和人工评价上都取得比统计机器翻译优异的结果,神经机器翻译仍然面临一些统计机器翻译没有的问题\upcite{DBLP:conf/aclnmt/KoehnK17},如神经机器翻译系统会产生漏译的现象,也就是源语句子的一些短语甚至从句没有被翻译,而统计机器翻译因为是把源语里所有短语都翻译出来后进行拼装,因此不会产生这种译文对原文的忠实度低的问题。一个解决的思路就是把统计机器翻译系统和神经机器翻译系统进行结合。目前的方法主要分为两种,一种是模型的改进,比如在神经机器翻译里建模统计机器翻译的概念或者使用统计机器翻译系统的模块,如词对齐,覆盖度等等\upcite{DBLP:conf/aaai/HeHWW16},或者是把神经机器翻译系统结合到统计机器翻译系统中,如作为一个特征\upcite{DBLP:journals/corr/GulcehreFXCBLBS15};第二种是系统融合,在不改变模型的情况下,把来自神经机器翻译系统的输出和统计机器翻译系统的输出进行融合,得到更好的结果,如使用重排序\upcite{DBLP:conf/ijcnlp/KhayrallahKDPK17,DBLP:conf/acl/StahlbergHWB16,DBLP:conf/aclwat/NeubigMN15,DBLP:conf/naacl/GrundkiewiczJ18},后处理\upcite{niehues-etal-2016-pre},或者把统计机器翻译系统的输出作为神经机器翻译系统解码的约束条件等等\upcite{DBLP:conf/eacl/GispertBHS17}。除此之外,也可以把神经机器翻译与翻译记忆相融合{\red 参考文献!引用Guoping Huang的论文2篇},在机器翻译应用中也是非常有趣的方向。 \item 与统计机器翻译的结合。尽管神经机器翻译在自动评价和人工评价上都取得比统计机器翻译优异的结果,神经机器翻译仍然面临一些统计机器翻译没有的问题\upcite{DBLP:conf/aclnmt/KoehnK17},如神经机器翻译系统会产生漏译的现象,也就是源语句子的一些短语甚至从句没有被翻译,而统计机器翻译因为是把源语里所有短语都翻译出来后进行拼装,因此不会产生这种译文对原文的忠实度低的问题。一个解决的思路就是把统计机器翻译系统和神经机器翻译系统进行结合。目前的方法主要分为两种,一种是模型的改进,比如在神经机器翻译里建模统计机器翻译的概念或者使用统计机器翻译系统的模块,如词对齐,覆盖度等等\upcite{DBLP:conf/aaai/HeHWW16},或者是把神经机器翻译系统结合到统计机器翻译系统中,如作为一个特征\upcite{DBLP:journals/corr/GulcehreFXCBLBS15};第二种是系统融合,在不改变模型的情况下,把来自神经机器翻译系统的输出和统计机器翻译系统的输出进行融合,得到更好的结果,如使用重排序\upcite{DBLP:conf/ijcnlp/KhayrallahKDPK17,DBLP:conf/acl/StahlbergHWB16,DBLP:conf/aclwat/NeubigMN15,DBLP:conf/naacl/GrundkiewiczJ18},后处理\upcite{niehues-etal-2016-pre},或者把统计机器翻译系统的输出作为神经机器翻译系统解码的约束条件等等\upcite{DBLP:conf/eacl/GispertBHS17}。除此之外,也可以把神经机器翻译与翻译记忆相融合\upcite{Mengzhou2019Graph,Qiuxiang2019Word},在机器翻译应用中也是非常有趣的方向。
......
...@@ -21,8 +21,8 @@ ...@@ -21,8 +21,8 @@
{\footnotesize {\footnotesize
\node [anchor=west] (n11) at ([xshift=-13em,yshift=2em]n1.west) {对训练和测试数据进行}; \node [anchor=west] (n11) at ([xshift=-13em,yshift=2em]n1.west) {对训练和测试数据进行};
\node [anchor=west] (n12) at ([xshift=0em,yshift=-1.5em]n11.west) {处理,包括:数据清洗、}; \node [anchor=west] (n12) at ([xshift=0em,yshift=-1.5em]n11.west) {处理,包括:数据清洗、};
\node [anchor=west] (n13) at ([xshift=0em,yshift=-1.5em]n12.west) {翻译单元(字词)切分、}; \node [anchor=west] (n13) at ([xshift=0em,yshift=-1.5em]n12.west) {子词切分、译文后处理};
\node [anchor=west] (n14) at ([xshift=0em,yshift=-1.5em]n13.west) {译文后处理}; \node [anchor=west] (n14) at ([xshift=0em,yshift=-1.5em]n13.west) {};
\node [anchor=west] (n31) at ([xshift=2em,yshift=0em]n3.north east) {神经网络模型设计,包括}; \node [anchor=west] (n31) at ([xshift=2em,yshift=0em]n3.north east) {神经网络模型设计,包括};
......
\begin{tikzpicture} \begin{tikzpicture}
\tikzstyle{op} =[rounded corners=1pt,thick,minimum width=4.0em,minimum height=3.0em,draw,fill=red!5!white,font=\scriptsize] \tikzstyle{op} =[rounded corners=1pt,thick,minimum width=4.0em,minimum height=3.0em,draw,fill=red!5!white,font=\scriptsize]
\tikzstyle{data} = [cylinder,draw=black,thick,minimum height=3em,minimum width=3em,shape border rotate=0,cylinder uses custom fill, cylinder body fill=blue!10,cylinder end fill=blue!5,anchor = east,font=\scriptsize] \tikzstyle{data} = [cylinder,draw=black,thick,minimum height=2.5em,minimum width=3em,shape border rotate=0,cylinder uses custom fill, cylinder body fill=blue!10,cylinder end fill=blue!5,anchor = east,font=\scriptsize]
\node[op] (node1) at (0,0) {分词}; \node[op] (node1) at (0,0) {分词};
\node[op,anchor = west] (node2) at ([xshift = 2.0em]node1.east) {符号标准化}; \node[op,anchor = west] (node2) at ([xshift = 2.0em]node1.east) {符号标准化};
\node[op,anchor = west] (node3) at ([xshift = 2.0em]node2.east) {数据过滤}; \node[op,anchor = west] (node3) at ([xshift = 2.0em]node2.east) {数据过滤};
\node[op,anchor = west] (node4) at ([xshift = 2.0em]node3.east) {子词切分};
\node [data,anchor = east] (data1) at ([xshift = -2.0em]node1.west){原始数据}; \node [data,anchor = east] (data1) at ([xshift = -2.0em]node1.west){原始数据};
\node [data,anchor = west] (data2) at ([xshift = 2.0em]node3.east){训练数据}; \node [data,anchor = west] (data2) at ([xshift = 2.0em]node4.east){训练数据};
\draw[-stealth,line width=.05cm] ([xshift=0.25em]data1.east) -- ([xshift=-0.25em]node1.west); \draw[-stealth,line width=.05cm] ([xshift=0.25em]data1.east) -- ([xshift=-0.25em]node1.west);
\draw[-stealth,line width=.05cm] ([xshift=0.25em]node1.east) -- ([xshift=-0.25em]node2.west); \draw[-stealth,line width=.05cm] ([xshift=0.25em]node1.east) -- ([xshift=-0.25em]node2.west);
\draw[-stealth,line width=.05cm] ([xshift=0.25em]node2.east) -- ([xshift=-0.25em]node3.west); \draw[-stealth,line width=.05cm] ([xshift=0.25em]node2.east) -- ([xshift=-0.25em]node3.west);
\draw[-stealth,line width=.05cm] ([xshift=0.25em]node3.east) -- ([xshift=-0.25em]data2.west); \draw[-stealth,line width=.05cm] ([xshift=0.25em]node3.east) -- ([xshift=-0.25em]node4.west);
\draw[-stealth,line width=.05cm] ([xshift=0.25em]node4.east) -- ([xshift=-0.25em]data2.west);
\end{tikzpicture} \end{tikzpicture}
\ No newline at end of file
...@@ -16,11 +16,11 @@ ...@@ -16,11 +16,11 @@
\begin{spacing}{1.2} \begin{spacing}{1.2}
让计算机进行自然语言的翻译是人类长期的梦想,也是人工智能的终极目标之一。自上世纪九十年代起,机器翻译也迈入了基于统计建模的时代,而发展到今天,深度学习等机器学习方法已经在机器翻译中得到了大量的应用,取得了令人瞩目的进步。 让计算机进行自然语言的翻译是人类长期的梦想,也是人工智能的终极目标之一。自上世纪九十年代起,机器翻译迈入了基于统计建模的时代,发展到今天,深度学习等机器学习方法已经在机器翻译中得到了大量的应用,取得了令人瞩目的进步。
在这个时代背景下,对机器翻译的模型、方法、实现技术进行深入了解是自然语言处理领域研究者和实践者所渴望的。本书全面的回顾了近三十年内机器翻译的技术发展历程,并围绕统计建模和深度学习两个主题对机器翻译的技术方法进行了全面介绍。在写作中,笔者力求用朴实的语言和实例阐述机器翻译的基本模型和方法,同时对相关的技术前沿进行讨论。本书可以供计算机相关专业高年级本科生及研究生学习之用,也可以作为自然语言处理,特别是机器翻译相关研究人员的参考资料。 在这个时代背景下,对机器翻译的模型、方法和实现技术进行深入了解是自然语言处理领域研究者和实践者所渴望的。本书全面回顾了近三十年内机器翻译的技术发展历程,并围绕统计建模和深度学习两个主题对机器翻译的技术方法进行了全面介绍。在写作中,笔者力求用朴实的语言和简洁的实例阐述机器翻译的基本模型和方法,同时对相关的技术前沿进行讨论。本书可以供计算机相关专业高年级本科生及研究生学习之用,也可以作为自然语言处理,特别是机器翻译领域相关研究人员的参考资料。
本书共分为七个章节章节的顺序参考了机器翻译技术发展的时间脉络,同时兼顾了机器翻译知识体系的内在逻辑。各章节的主要内容包括: 本书共分为七个章节章节的顺序参考了机器翻译技术发展的时间脉络,同时兼顾了机器翻译知识体系的内在逻辑。各章节的主要内容包括:
\begin{itemize} \begin{itemize}
\vspace{0.4em} \vspace{0.4em}
...@@ -40,9 +40,9 @@ ...@@ -40,9 +40,9 @@
\vspace{0.4em} \vspace{0.4em}
\end{itemize} \end{itemize}
其中,第一章是对机器翻译的整体介绍。第二章和第五章是对统计建模和深度学习方法的介绍,分别建立了两个机器翻译范式的基础知识体系 \ \dash \ 统计机器翻译和神经机器翻译。统计机器翻译部分(第三、四章)涉及早期的基于单词的翻译模型,以及本世纪初流行的基于短语和句法的翻译模型;神经机器翻译(第六、七章)代表了当今机器翻译的前沿,内容主要涉及了基于端到端表示学习的机器翻译建模方法。特别是,第七章对一些最新的神经机器翻译方法进行了讨论,为相关科学问题的研究和实用系统的开发提供了可落地的思路。图\ref{fig:preface}展示了本书各个章节及核心概念之间的关系。 其中,第一章是对机器翻译的整体介绍。第二章和第五章是对统计建模和深度学习方法的介绍,分别建立了两个机器翻译范式的基础知识体系 \ \dash \ 统计机器翻译和神经机器翻译。统计机器翻译部分(第三、四章)涉及早期的基于单词的翻译模型,以及本世纪初流行的基于短语和句法的翻译模型。神经机器翻译(第六、七章)代表了当今机器翻译的前沿,内容主要涉及了基于端到端表示学习的机器翻译建模方法。特别的,第七章对一些最新的神经机器翻译方法进行了讨论,为相关科学问题的研究和实用系统的开发提供了可落地的思路。图\ref{fig:preface}展示了本书各个章节及核心概念之间的关系。
{\red 用最简单的方式阐述机器翻译的基本思想}是笔者所期望达到的目标。但是,书中不可避免会使用一些形式化定义和算法的抽象描述。这时,笔者尽所能通过图例进行解释(本书共320张插图)。不过,本书所包含的内容较为广泛,难免会有疏漏,望读者海涵,并指出不当之处。 {\red 用最简单的方式阐述机器翻译的基本思想}是笔者所期望达到的目标。但是,书中不可避免会使用一些形式化定义和算法的抽象描述,因此,笔者尽所能通过图例进行解释(本书共320张插图)。不过,本书所包含的内容较为广泛,难免会有疏漏,望读者海涵,并指出不当之处。
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
......
...@@ -6345,4 +6345,69 @@ year = {2020}, ...@@ -6345,4 +6345,69 @@ year = {2020},
author={Nepveu, Laurent and Lapalme, Guy and Langlais, Philippe and Foster, George F.}, author={Nepveu, Laurent and Lapalme, Guy and Langlais, Philippe and Foster, George F.},
booktitle={Conference on Empirical Methods in Natural Language Processing}, booktitle={Conference on Empirical Methods in Natural Language Processing},
year={2004}, year={2004},
}
@inproceedings{wang-etal-2018-tencent,
title = "Tencent Neural Machine Translation Systems for {WMT}18",
author = "Wang, Mingxuan and
Gong, Li and
Zhu, Wenhuan and
Xie, Jun and
Bian, Chao",
booktitle = "Proceedings of the Third Conference on Machine Translation: Shared Task Papers",
month = oct,
year = "2018",
address = "Belgium, Brussels",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/W18-6429",
doi = "10.18653/v1/W18-6429",
pages = "522--527",
abstract = "We participated in the WMT 2018 shared news translation task on English鈫擟hinese language pair. Our systems are based on attentional sequence-to-sequence models with some form of recursion and self-attention. Some data augmentation methods are also introduced to improve the translation performance. The best translation result is obtained with ensemble and reranking techniques. Our Chinese鈫扙nglish system achieved the highest cased BLEU score among all 16 submitted systems, and our English鈫扖hinese system ranked the third out of 18 submitted systems.",
}
@article{DBLP:journals/corr/LeeCH16,
author = {Jason Lee and
Kyunghyun Cho and
Thomas Hofmann},
title = {Fully Character-Level Neural Machine Translation without Explicit
Segmentation},
journal = {CoRR},
volume = {abs/1610.03017},
year = {2016},
url = {http://arxiv.org/abs/1610.03017},
archivePrefix = {arXiv},
eprint = {1610.03017},
timestamp = {Mon, 13 Aug 2018 16:47:21 +0200},
biburl = {https://dblp.org/rec/journals/corr/LeeCH16.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
@INPROCEEDINGS{6289079,
author={M. {Schuster} and K. {Nakajima}},
booktitle={2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, title={Japanese and Korean voice search},
year={2012},
volume={},
number={},
pages={5149-5152}
}
@ARTICLE{61115,
author={J. {Lin}},
journal={IEEE Transactions on Information Theory},
title={Divergence measures based on the Shannon entropy},
year={1991},
volume={37},
number={1},
pages={145-151},}
@article{Mengzhou2019Graph,
title={Graph Based Translation Memory for Neural Machine Translation},
author={Mengzhou Xia and Guoping Huang and Lemao Liu and Shuming Shi},
year={2019},
}
@book{Qiuxiang2019Word,
title={Word Position Aware Translation Memory for Neural Machine Translation},
author={Qiuxiang He and Guoping Huang and Lemao Liu and Li Li},
year={2019},
} }
\ No newline at end of file
\indexentry{源语言|hyperpage}{17}
\indexentry{Source Language|hyperpage}{17}
\indexentry{目标语言|hyperpage}{17}
\indexentry{Target Language|hyperpage}{17}
\indexentry{机器翻译|hyperpage}{18}
\indexentry{Machine Translation|hyperpage}{18}
\indexentry{数据驱动|hyperpage}{23}
\indexentry{Data-Driven|hyperpage}{23}
\indexentry{编码器-解码器|hyperpage}{30}
\indexentry{encoder-decoder|hyperpage}{30}
\indexentry{质量评价|hyperpage}{32}
\indexentry{Quality Evaluation|hyperpage}{32}
\indexentry{无参考答案的评价|hyperpage}{32}
\indexentry{Quality Estimation|hyperpage}{32}
\indexentry{$n$元语法单元|hyperpage}{33}
\indexentry{$n$-gram准确率|hyperpage}{34}
\indexentry{$n$-gram Precision|hyperpage}{34}
\indexentry{短句惩罚因子|hyperpage}{34}
\indexentry{Brevity Penalty|hyperpage}{34}
\indexentry{分词|hyperpage}{50}
\indexentry{Segmentation|hyperpage}{50}
\indexentry{句法分析|hyperpage}{51}
\indexentry{Parsing|hyperpage}{51}
\indexentry{预处理|hyperpage}{51}
\indexentry{Pre-processing|hyperpage}{51}
\indexentry{后处理|hyperpage}{51}
\indexentry{Post-processing|hyperpage}{51}
\indexentry{事件|hyperpage}{52}
\indexentry{Event|hyperpage}{52}
\indexentry{随机事件|hyperpage}{52}
\indexentry{随机变量|hyperpage}{52}
\indexentry{Random Variable|hyperpage}{52}
\indexentry{概率|hyperpage}{52}
\indexentry{Probability|hyperpage}{52}
\indexentry{估计|hyperpage}{52}
\indexentry{估计值|hyperpage}{52}
\indexentry{Estimate|hyperpage}{52}
\indexentry{概率分布函数|hyperpage}{53}
\indexentry{概率密度函数|hyperpage}{53}
\indexentry{联合概率|hyperpage}{53}
\indexentry{Joint Probability|hyperpage}{53}
\indexentry{条件概率|hyperpage}{53}
\indexentry{Conditional Probability|hyperpage}{53}
\indexentry{边缘概率|hyperpage}{54}
\indexentry{marginal probability|hyperpage}{54}
\indexentry{全概率公式|hyperpage}{55}
\indexentry{Law of Total Probability|hyperpage}{55}
\indexentry{贝叶斯法则|hyperpage}{56}
\indexentry{Bayes' rule|hyperpage}{56}
\indexentry{熵|hyperpage}{57}
\indexentry{Entropy|hyperpage}{57}
\indexentry{自信息|hyperpage}{57}
\indexentry{Self-information|hyperpage}{57}
\indexentry{相对熵|hyperpage}{58}
\indexentry{Relative Entropy|hyperpage}{58}
\indexentry{交叉熵|hyperpage}{58}
\indexentry{Cross-entropy|hyperpage}{58}
\indexentry{分词|hyperpage}{59}
\indexentry{Segmentation|hyperpage}{59}
\indexentry{单词|hyperpage}{59}
\indexentry{Word|hyperpage}{59}
\indexentry{词|hyperpage}{59}
\indexentry{词法分析|hyperpage}{59}
\indexentry{Lexical Analysis|hyperpage}{59}
\indexentry{标注数据|hyperpage}{61}
\indexentry{Annotated Data|hyperpage}{61}
\indexentry{训练|hyperpage}{62}
\indexentry{Training|hyperpage}{62}
\indexentry{推断|hyperpage}{62}
\indexentry{Inference|hyperpage}{62}
\indexentry{参数估计|hyperpage}{63}
\indexentry{Parameter Estimation|hyperpage}{63}
\indexentry{偏置|hyperpage}{63}
\indexentry{Bias|hyperpage}{63}
\indexentry{语言模型|hyperpage}{67}
\indexentry{Language Model|hyperpage}{67}
\indexentry{语言建模|hyperpage}{67}
\indexentry{Language Modeling|hyperpage}{67}
\indexentry{极大似然估计|hyperpage}{68}
\indexentry{人工神经网络方法|hyperpage}{68}
\indexentry{未登录词|hyperpage}{69}
\indexentry{Out-of-Vocabulary Word,OOV Word|hyperpage}{69}
\indexentry{加法平滑|hyperpage}{70}
\indexentry{Additive Smoothing|hyperpage}{70}
\indexentry{古德-图灵估计法|hyperpage}{71}
\indexentry{Good-Turing Estimate|hyperpage}{71}
\indexentry{句法|hyperpage}{74}
\indexentry{Syntax|hyperpage}{74}
\indexentry{短语结构分析|hyperpage}{74}
\indexentry{Phrase Structure Parsing|hyperpage}{74}
\indexentry{依存分析|hyperpage}{74}
\indexentry{Dependency Parsing|hyperpage}{74}
\indexentry{成分分析|hyperpage}{75}
\indexentry{完全分析|hyperpage}{75}
\indexentry{Full Parsing|hyperpage}{75}
\indexentry{终结符|hyperpage}{75}
\indexentry{Terminal|hyperpage}{75}
\indexentry{预终结符|hyperpage}{75}
\indexentry{Pre-terminal|hyperpage}{75}
\indexentry{非终结符|hyperpage}{75}
\indexentry{Non-terminal|hyperpage}{75}
\indexentry{上下文无关文法|hyperpage}{76}
\indexentry{Context-Free Grammar|hyperpage}{76}
\indexentry{产生式规则|hyperpage}{77}
\indexentry{Production Rule|hyperpage}{77}
\indexentry{推导|hyperpage}{78}
\indexentry{Derivation|hyperpage}{78}
\indexentry{句子|hyperpage}{78}
\indexentry{Sentence|hyperpage}{78}
\indexentry{语言|hyperpage}{78}
\indexentry{Language|hyperpage}{78}
\indexentry{歧义|hyperpage}{78}
\indexentry{Ambiguity|hyperpage}{78}
\indexentry{消歧|hyperpage}{79}
\indexentry{Disambiguation|hyperpage}{79}
\indexentry{最左优先推导|hyperpage}{79}
\indexentry{Left-most Derivation|hyperpage}{79}
\indexentry{概率上下文无关文法|hyperpage}{80}
\indexentry{Probabilistic Context-Free Grammar|hyperpage}{80}
\indexentry{树库|hyperpage}{81}
\indexentry{Treebank|hyperpage}{81}
\indexentry{生成模型|hyperpage}{82}
\indexentry{Generative Model|hyperpage}{82}
\indexentry{判别模型|hyperpage}{82}
\indexentry{Discriminative Model|hyperpage}{82}
\indexentry{流畅度|hyperpage}{88}
\indexentry{Fluency|hyperpage}{88}
\indexentry{准确性|hyperpage}{88}
\indexentry{Accuracy|hyperpage}{88}
\indexentry{充分性|hyperpage}{88}
\indexentry{Adequacy|hyperpage}{88}
\indexentry{翻译候选|hyperpage}{89}
\indexentry{Translation Candidate|hyperpage}{89}
\indexentry{训练|hyperpage}{91}
\indexentry{Training|hyperpage}{91}
\indexentry{解码|hyperpage}{91}
\indexentry{Decoding|hyperpage}{91}
\indexentry{推断|hyperpage}{91}
\indexentry{Inference|hyperpage}{91}
\indexentry{词对齐|hyperpage}{96}
\indexentry{Word Alignment|hyperpage}{96}
\indexentry{词对齐连接|hyperpage}{96}
\indexentry{解码|hyperpage}{99}
\indexentry{Decoding|hyperpage}{99}
\indexentry{噪声信道模型|hyperpage}{102}
\indexentry{Noise Channel Model|hyperpage}{102}
\indexentry{词对齐|hyperpage}{105}
\indexentry{Word Alignment|hyperpage}{105}
\indexentry{非对称的词对齐|hyperpage}{105}
\indexentry{Asymmetric Word Alignment|hyperpage}{105}
\indexentry{空对齐|hyperpage}{105}
\indexentry{拉格朗日乘数法|hyperpage}{113}
\indexentry{The Lagrange Multiplier Method|hyperpage}{113}
\indexentry{期望最大化|hyperpage}{115}
\indexentry{Expectation Maximization|hyperpage}{115}
\indexentry{期望频次|hyperpage}{116}
\indexentry{Expected Count|hyperpage}{116}
\indexentry{产出率|hyperpage}{119}
\indexentry{繁衍率|hyperpage}{119}
\indexentry{Fertility|hyperpage}{119}
\indexentry{扭曲度|hyperpage}{122}
\indexentry{Distortion|hyperpage}{122}
\indexentry{概念单元|hyperpage}{124}
\indexentry{概念|hyperpage}{124}
\indexentry{Concept|hyperpage}{124}
\indexentry{缺陷|hyperpage}{125}
\indexentry{Deficiency|hyperpage}{125}
\indexentry{凸函数|hyperpage}{129}
\indexentry{Convex function|hyperpage}{129}
\indexentry{对称化|hyperpage}{130}
\indexentry{Symmetrization|hyperpage}{130}
\indexentry{系统偏置|hyperpage}{131}
\indexentry{System Bias|hyperpage}{131}
\indexentry{组合性翻译|hyperpage}{136}
\indexentry{Compositional Translation|hyperpage}{136}
\indexentry{短语|hyperpage}{136}
\indexentry{短语切分|hyperpage}{141}
\indexentry{Phrasal Segmentation|hyperpage}{141}
\indexentry{短语对|hyperpage}{141}
\indexentry{推导|hyperpage}{141}
\indexentry{Derivation|hyperpage}{141}
\indexentry{生成式模型|hyperpage}{144}
\indexentry{Generative Model|hyperpage}{144}
\indexentry{判别式模型|hyperpage}{144}
\indexentry{Discriminative Model|hyperpage}{144}
\indexentry{对数线性模型|hyperpage}{145}
\indexentry{Log-linear Model|hyperpage}{145}
\indexentry{短语抽取|hyperpage}{146}
\indexentry{Phrase Extraction|hyperpage}{146}
\indexentry{词汇化翻译概率|hyperpage}{149}
\indexentry{Lexical Translation Probability|hyperpage}{149}
\indexentry{短语表|hyperpage}{149}
\indexentry{Phrase Table|hyperpage}{149}
\indexentry{调序|hyperpage}{150}
\indexentry{Reordering|hyperpage}{150}
\indexentry{模型训练|hyperpage}{154}
\indexentry{Model Training|hyperpage}{154}
\indexentry{权重调优|hyperpage}{154}
\indexentry{Weight Tuning|hyperpage}{154}
\indexentry{最小错误率训练|hyperpage}{154}
\indexentry{Minimum Error Rate Training|hyperpage}{154}
\indexentry{调优集合|hyperpage}{154}
\indexentry{Tuning Set|hyperpage}{154}
\indexentry{线搜索|hyperpage}{155}
\indexentry{Line Search|hyperpage}{155}
\indexentry{格搜索|hyperpage}{156}
\indexentry{Grid Search|hyperpage}{156}
\indexentry{覆盖度模型|hyperpage}{158}
\indexentry{Coverage Model|hyperpage}{158}
\indexentry{翻译候选|hyperpage}{158}
\indexentry{Translation Candidate|hyperpage}{158}
\indexentry{翻译假设|hyperpage}{158}
\indexentry{Translation Hypothesis|hyperpage}{158}
\indexentry{剪枝|hyperpage}{159}
\indexentry{Pruning|hyperpage}{159}
\indexentry{束剪枝|hyperpage}{159}
\indexentry{Beam Pruning|hyperpage}{159}
\indexentry{直方图剪枝|hyperpage}{160}
\indexentry{Histogram Pruning|hyperpage}{160}
\indexentry{阈值剪枝|hyperpage}{160}
\indexentry{Threshold Pruning|hyperpage}{160}
\indexentry{假设重组|hyperpage}{160}
\indexentry{Hypothesis Recombination|hyperpage}{160}
\indexentry{基于层次短语的模型|hyperpage}{165}
\indexentry{Hierarchical Phrase-based Model|hyperpage}{165}
\indexentry{同步上下文无关文法|hyperpage}{165}
\indexentry{Synchronous Context-free Grammar|hyperpage}{165}
\indexentry{基于层次短语的文法|hyperpage}{166}
\indexentry{Hierarchical Phrase-based Grammar|hyperpage}{166}
\indexentry{推导|hyperpage}{167}
\indexentry{Derivation|hyperpage}{167}
\indexentry{胶水规则|hyperpage}{167}
\indexentry{Glue Rule|hyperpage}{167}
\indexentry{乔姆斯基范式|hyperpage}{171}
\indexentry{Chomsky Normal Form|hyperpage}{171}
\indexentry{跨度|hyperpage}{171}
\indexentry{Span|hyperpage}{171}
\indexentry{自下而上的分析|hyperpage}{172}
\indexentry{Top-down Parsing|hyperpage}{172}
\indexentry{束剪枝|hyperpage}{174}
\indexentry{Beam Pruning|hyperpage}{174}
\indexentry{立方剪枝|hyperpage}{176}
\indexentry{Cube Pruning|hyperpage}{176}
\indexentry{序列化|hyperpage}{179}
\indexentry{线性化|hyperpage}{179}
\indexentry{Linearization|hyperpage}{179}
\indexentry{树到串翻译规则|hyperpage}{181}
\indexentry{Tree-to-String Translation Rule|hyperpage}{181}
\indexentry{树到树翻译规则|hyperpage}{181}
\indexentry{Tree-to-Tree Translation Rule|hyperpage}{181}
\indexentry{树片段|hyperpage}{182}
\indexentry{Tree Fragment|hyperpage}{182}
\indexentry{同步树替换文法规则|hyperpage}{183}
\indexentry{Synchronous Tree Substitution Grammar Rule|hyperpage}{183}
\indexentry{边缘集合|hyperpage}{189}
\indexentry{Frontier Set|hyperpage}{189}
\indexentry{最小规则|hyperpage}{190}
\indexentry{Minimal Rules|hyperpage}{190}
\indexentry{二叉化|hyperpage}{193}
\indexentry{Binarization|hyperpage}{193}
\indexentry{基于短语的特征|hyperpage}{198}
\indexentry{基于句法的特征|hyperpage}{198}
\indexentry{有向超图|hyperpage}{199}
\indexentry{Directed Hyper-graph|hyperpage}{199}
\indexentry{超边|hyperpage}{199}
\indexentry{Hyper-edge|hyperpage}{199}
\indexentry{半环分析|hyperpage}{199}
\indexentry{Semi-ring Parsing|hyperpage}{199}
\indexentry{组合|hyperpage}{201}
\indexentry{Composition|hyperpage}{201}
\indexentry{基于串的解码|hyperpage}{202}
\indexentry{String-based Decoding|hyperpage}{202}
\indexentry{基于树的解码|hyperpage}{202}
\indexentry{Tree-based Decoding|hyperpage}{202}
\indexentry{Lexicalized Norm Form|hyperpage}{205}
\indexentry{人工神经网络|hyperpage}{211}
\indexentry{Artificial Neural Networks|hyperpage}{211}
\indexentry{神经网络|hyperpage}{211}
\indexentry{Neural Networks|hyperpage}{211}
\indexentry{深度学习|hyperpage}{212}
\indexentry{Deep Learning|hyperpage}{212}
\indexentry{连接主义|hyperpage}{213}
\indexentry{Connectionism|hyperpage}{213}
\indexentry{分布式表示|hyperpage}{213}
\indexentry{Distributed representation|hyperpage}{213}
\indexentry{符号主义|hyperpage}{213}
\indexentry{Symbolicism|hyperpage}{213}
\indexentry{端到端学习|hyperpage}{215}
\indexentry{End-to-End Learning|hyperpage}{215}
\indexentry{表示学习|hyperpage}{215}
\indexentry{Representation Learning|hyperpage}{215}
\indexentry{分布式表示|hyperpage}{216}
\indexentry{Distributed Representation|hyperpage}{216}
\indexentry{标量|hyperpage}{217}
\indexentry{Scalar|hyperpage}{217}
\indexentry{向量|hyperpage}{217}
\indexentry{Vector|hyperpage}{217}
\indexentry{矩阵|hyperpage}{217}
\indexentry{Matrix|hyperpage}{217}
\indexentry{转置|hyperpage}{218}
\indexentry{Transpose|hyperpage}{218}
\indexentry{按元素加法|hyperpage}{218}
\indexentry{Element-wise Addition|hyperpage}{218}
\indexentry{数乘|hyperpage}{219}
\indexentry{Scalar Multiplication|hyperpage}{219}
\indexentry{按元素乘积|hyperpage}{220}
\indexentry{Element-wise Product|hyperpage}{220}
\indexentry{线性映射|hyperpage}{220}
\indexentry{Linear Mapping|hyperpage}{220}
\indexentry{线性变换|hyperpage}{220}
\indexentry{Linear Transformation|hyperpage}{220}
\indexentry{范数|hyperpage}{221}
\indexentry{Norm|hyperpage}{221}
\indexentry{欧几里得范数|hyperpage}{222}
\indexentry{Euclidean Norm|hyperpage}{222}
\indexentry{Frobenius 范数|hyperpage}{222}
\indexentry{Frobenius Norm|hyperpage}{222}
\indexentry{权重|hyperpage}{223}
\indexentry{weight|hyperpage}{223}
\indexentry{张量|hyperpage}{234}
\indexentry{Tensor|hyperpage}{234}
\indexentry{阶|hyperpage}{234}
\indexentry{Rank|hyperpage}{234}
\indexentry{广播机制|hyperpage}{237}
\indexentry{向量化|hyperpage}{237}
\indexentry{Vectorization|hyperpage}{237}
\indexentry{前向传播|hyperpage}{240}
\indexentry{计算图|hyperpage}{243}
\indexentry{Computation Graph|hyperpage}{243}
\indexentry{模型参数|hyperpage}{244}
\indexentry{Model Parameters|hyperpage}{244}
\indexentry{训练|hyperpage}{244}
\indexentry{Training|hyperpage}{244}
\indexentry{有标注数据|hyperpage}{244}
\indexentry{Annotated Data/Labeled Data|hyperpage}{244}
\indexentry{有指导的训练|hyperpage}{244}
\indexentry{有监督的训练|hyperpage}{244}
\indexentry{Supervised Training|hyperpage}{244}
\indexentry{训练数据集合|hyperpage}{245}
\indexentry{Training Data Set|hyperpage}{245}
\indexentry{损失函数|hyperpage}{245}
\indexentry{Loss Function|hyperpage}{245}
\indexentry{目标函数|hyperpage}{245}
\indexentry{Objective Function|hyperpage}{245}
\indexentry{代价函数|hyperpage}{246}
\indexentry{Cost Function|hyperpage}{246}
\indexentry{梯度下降方法|hyperpage}{246}
\indexentry{Gradient Descent Method|hyperpage}{246}
\indexentry{参数更新的规则|hyperpage}{247}
\indexentry{Update Rule|hyperpage}{247}
\indexentry{学习率|hyperpage}{247}
\indexentry{Learning Rate|hyperpage}{247}
\indexentry{基于梯度的方法|hyperpage}{247}
\indexentry{Gradient-based Method|hyperpage}{247}
\indexentry{批量梯度下降|hyperpage}{247}
\indexentry{Batch Gradient Descent|hyperpage}{247}
\indexentry{随机梯度下降|hyperpage}{247}
\indexentry{Stochastic Gradient Descent|hyperpage}{247}
\indexentry{小批量梯度下降|hyperpage}{248}
\indexentry{Mini-Batch Gradient Descent|hyperpage}{248}
\indexentry{数值微分|hyperpage}{248}
\indexentry{Numerical Differentiation|hyperpage}{248}
\indexentry{截断误差|hyperpage}{249}
\indexentry{Truncation Error|hyperpage}{249}
\indexentry{舍入误差|hyperpage}{249}
\indexentry{Round-off Error|hyperpage}{249}
\indexentry{符号微分|hyperpage}{249}
\indexentry{Symbolic Differentiation|hyperpage}{249}
\indexentry{表达式膨胀|hyperpage}{249}
\indexentry{Expression Swell|hyperpage}{249}
\indexentry{自动微分|hyperpage}{249}
\indexentry{Automatic Differentiation|hyperpage}{249}
\indexentry{反向模式|hyperpage}{250}
\indexentry{Backward Mode|hyperpage}{250}
\indexentry{学习率|hyperpage}{251}
\indexentry{Learning Rate|hyperpage}{251}
\indexentry{Momentum|hyperpage}{251}
\indexentry{AdaGrad|hyperpage}{252}
\indexentry{衰减|hyperpage}{252}
\indexentry{Decay|hyperpage}{252}
\indexentry{RMSprop|hyperpage}{253}
\indexentry{Adam|hyperpage}{253}
\indexentry{数据并行|hyperpage}{254}
\indexentry{同步更新|hyperpage}{254}
\indexentry{Synchronous Update|hyperpage}{254}
\indexentry{异步更新|hyperpage}{254}
\indexentry{Asynchronous Update|hyperpage}{254}
\indexentry{参数服务器|hyperpage}{254}
\indexentry{Parameter Server|hyperpage}{254}
\indexentry{梯度消失|hyperpage}{256}
\indexentry{Gradient Vanishing|hyperpage}{256}
\indexentry{梯度爆炸|hyperpage}{256}
\indexentry{Gradient Explosion|hyperpage}{256}
\indexentry{梯度裁剪|hyperpage}{257}
\indexentry{Gradient Clipping|hyperpage}{257}
\indexentry{批量归一化|hyperpage}{258}
\indexentry{Batch Normalization|hyperpage}{258}
\indexentry{层归一化|hyperpage}{258}
\indexentry{Layer Normalization|hyperpage}{258}
\indexentry{残差网络|hyperpage}{258}
\indexentry{Residual Networks|hyperpage}{258}
\indexentry{跳接|hyperpage}{258}
\indexentry{Shortcut Connection|hyperpage}{258}
\indexentry{过拟合|hyperpage}{259}
\indexentry{Overfitting|hyperpage}{259}
\indexentry{正则化|hyperpage}{259}
\indexentry{Regularization|hyperpage}{259}
\indexentry{反向传播|hyperpage}{260}
\indexentry{back propagation|hyperpage}{260}
\indexentry{神经语言模型|hyperpage}{266}
\indexentry{Neural Language Model|hyperpage}{266}
\indexentry{前馈神经网络语言模型|hyperpage}{267}
\indexentry{Feed-forward Neural Network Language Model|hyperpage}{267}
\indexentry{循环神经网络|hyperpage}{269}
\indexentry{Recurrent Neural Network|hyperpage}{269}
\indexentry{循环神经网络语言模型|hyperpage}{269}
\indexentry{RNNLM|hyperpage}{269}
\indexentry{循环单元|hyperpage}{269}
\indexentry{RNN Cell|hyperpage}{269}
\indexentry{自注意力机制|hyperpage}{270}
\indexentry{Self-Attention Mechanism|hyperpage}{271}
\indexentry{注意力权重|hyperpage}{271}
\indexentry{Attention Weight|hyperpage}{271}
\indexentry{困惑度|hyperpage}{271}
\indexentry{Perplexity|hyperpage}{271}
\indexentry{One-hot编码|hyperpage}{272}
\indexentry{独热编码|hyperpage}{272}
\indexentry{分布式表示|hyperpage}{272}
\indexentry{Distributed Representation|hyperpage}{272}
\indexentry{词嵌入|hyperpage}{272}
\indexentry{Word Embedding|hyperpage}{272}
\indexentry{句子表示模型|hyperpage}{275}
\indexentry{句子的表示|hyperpage}{275}
\indexentry{表示学习|hyperpage}{275}
\indexentry{Representation Learning|hyperpage}{275}
\indexentry{可解释机器学习|hyperpage}{279}
\indexentry{Explainable Machine Learning|hyperpage}{279}
\indexentry{神经机器翻译|hyperpage}{281}
\indexentry{Neural Machine Translation|hyperpage}{281}
\indexentry{分布式表示|hyperpage}{283}
\indexentry{Distributed Representation|hyperpage}{283}
\indexentry{特征工程|hyperpage}{289}
\indexentry{Feature Engineering|hyperpage}{289}
\indexentry{编码器-解码器模型|hyperpage}{290}
\indexentry{Encoder-Decoder Paradigm|hyperpage}{290}
\indexentry{编码器-解码器框架|hyperpage}{290}
\indexentry{循环神经网络|hyperpage}{296}
\indexentry{Recurrent Neural Network, RNN|hyperpage}{296}
\indexentry{词嵌入|hyperpage}{298}
\indexentry{Word Embedding|hyperpage}{298}
\indexentry{表示学习|hyperpage}{298}
\indexentry{Representation Learning|hyperpage}{298}
\indexentry{生成|hyperpage}{298}
\indexentry{Generation|hyperpage}{298}
\indexentry{长短时记忆|hyperpage}{302}
\indexentry{Long Short-Term Memory|hyperpage}{302}
\indexentry{遗忘|hyperpage}{302}
\indexentry{记忆更新|hyperpage}{303}
\indexentry{输出|hyperpage}{304}
\indexentry{门循环单元|hyperpage}{304}
\indexentry{Gated Recurrent Unit,GRU|hyperpage}{304}
\indexentry{注意力权重|hyperpage}{310}
\indexentry{Attention Weight|hyperpage}{310}
\indexentry{一阶矩估计|hyperpage}{316}
\indexentry{First Moment Estimation|hyperpage}{316}
\indexentry{二阶矩估计|hyperpage}{316}
\indexentry{Second Moment Estimation|hyperpage}{316}
\indexentry{学习率|hyperpage}{316}
\indexentry{Learning Rate|hyperpage}{316}
\indexentry{逐渐预热|hyperpage}{317}
\indexentry{Gradual Warmup|hyperpage}{317}
\indexentry{分段常数衰减|hyperpage}{318}
\indexentry{Piecewise Constant Decay|hyperpage}{318}
\indexentry{数据并行|hyperpage}{318}
\indexentry{模型并行|hyperpage}{318}
\indexentry{全搜索|hyperpage}{319}
\indexentry{Full Search|hyperpage}{319}
\indexentry{贪婪搜索|hyperpage}{321}
\indexentry{Greedy Search|hyperpage}{321}
\indexentry{束搜索|hyperpage}{321}
\indexentry{Beam Search|hyperpage}{321}
\indexentry{自回归模型|hyperpage}{321}
\indexentry{Autoregressive Model|hyperpage}{321}
\indexentry{非自回归模型|hyperpage}{321}
\indexentry{Non-autoregressive Model|hyperpage}{321}
\indexentry{自注意力机制|hyperpage}{327}
\indexentry{Self-Attention|hyperpage}{327}
\indexentry{特征提取|hyperpage}{328}
\indexentry{自注意力子层|hyperpage}{328}
\indexentry{Self-attention Sub-layer|hyperpage}{328}
\indexentry{前馈神经网络子层|hyperpage}{328}
\indexentry{Feed-forward Sub-layer|hyperpage}{328}
\indexentry{残差连接|hyperpage}{328}
\indexentry{Residual Connection|hyperpage}{328}
\indexentry{层正则化|hyperpage}{329}
\indexentry{Layer Normalization|hyperpage}{329}
\indexentry{编码-解码注意力子层|hyperpage}{329}
\indexentry{Encoder-decoder Attention Sub-layer|hyperpage}{329}
\indexentry{词嵌入|hyperpage}{330}
\indexentry{Word Embedding|hyperpage}{330}
\indexentry{位置编码|hyperpage}{330}
\indexentry{Position Embedding|hyperpage}{330}
\indexentry{点乘注意力|hyperpage}{333}
\indexentry{Scaled Dot-Product Attention|hyperpage}{333}
\indexentry{多头注意力|hyperpage}{336}
\indexentry{Multi-head Attention|hyperpage}{336}
\indexentry{残差连接|hyperpage}{337}
\indexentry{短连接|hyperpage}{337}
\indexentry{Short-cut Connection|hyperpage}{337}
\indexentry{后正则化|hyperpage}{338}
\indexentry{Post-norm|hyperpage}{338}
\indexentry{前正则化|hyperpage}{338}
\indexentry{Pre-norm|hyperpage}{338}
\indexentry{交叉熵损失|hyperpage}{339}
\indexentry{Cross Entropy Loss|hyperpage}{339}
\indexentry{预热|hyperpage}{340}
\indexentry{Warmup|hyperpage}{340}
\indexentry{小批量训练|hyperpage}{340}
\indexentry{Mini-batch Training|hyperpage}{340}
\indexentry{Dropout|hyperpage}{340}
\indexentry{过拟合|hyperpage}{341}
\indexentry{Over fitting|hyperpage}{341}
\indexentry{标签平滑|hyperpage}{341}
\indexentry{Label Smoothing|hyperpage}{341}
\indexentry{序列到序列的转换/生成问题|hyperpage}{342}
\indexentry{Sequence-to-Sequence Problem|hyperpage}{342}
\indexentry{未登录词|hyperpage}{353}
\indexentry{Out of Vocabulary Word,OOV Word|hyperpage}{353}
\indexentry{子词切分|hyperpage}{353}
\indexentry{Sub-word Segmentation|hyperpage}{353}
\indexentry{标准化|hyperpage}{353}
\indexentry{Normalization|hyperpage}{353}
\indexentry{数据清洗|hyperpage}{353}
\indexentry{Dada Cleaning|hyperpage}{353}
\indexentry{数据选择|hyperpage}{355}
\indexentry{Data Selection|hyperpage}{355}
\indexentry{数据过滤|hyperpage}{355}
\indexentry{Data Filtering|hyperpage}{355}
\indexentry{开放词表|hyperpage}{358}
\indexentry{Open-Vocabulary|hyperpage}{358}
\indexentry{子词|hyperpage}{359}
\indexentry{Sub-word|hyperpage}{359}
\indexentry{字节对编码|hyperpage}{359}
\indexentry{双字节编码|hyperpage}{359}
\indexentry{Byte Pair Encoding,BPE|hyperpage}{359}
\indexentry{正则化|hyperpage}{362}
\indexentry{Regularization|hyperpage}{362}
\indexentry{过拟合问题|hyperpage}{362}
\indexentry{Overfitting Problem|hyperpage}{362}
\indexentry{反问题|hyperpage}{362}
\indexentry{Inverse Problem|hyperpage}{362}
\indexentry{适定的|hyperpage}{362}
\indexentry{Well-posed|hyperpage}{362}
\indexentry{不适定问题|hyperpage}{362}
\indexentry{Ill-posed Problem|hyperpage}{362}
\indexentry{降噪|hyperpage}{363}
\indexentry{Denoising|hyperpage}{363}
\indexentry{泛化|hyperpage}{363}
\indexentry{Generalization|hyperpage}{363}
\indexentry{标签平滑|hyperpage}{365}
\indexentry{Label Smoothing|hyperpage}{365}
\indexentry{相互适应|hyperpage}{366}
\indexentry{Co-Adaptation|hyperpage}{366}
\indexentry{集成学习|hyperpage}{367}
\indexentry{Ensemble Learning|hyperpage}{367}
\indexentry{容量|hyperpage}{368}
\indexentry{Capacity|hyperpage}{368}
\indexentry{宽残差网络|hyperpage}{369}
\indexentry{Wide Residual Network|hyperpage}{369}
\indexentry{探测任务|hyperpage}{370}
\indexentry{Probing Task|hyperpage}{370}
\indexentry{表面信息|hyperpage}{370}
\indexentry{Surface Information|hyperpage}{370}
\indexentry{语法信息|hyperpage}{370}
\indexentry{Syntactic Information|hyperpage}{370}
\indexentry{语义信息|hyperpage}{370}
\indexentry{Semantic Information|hyperpage}{370}
\indexentry{词嵌入|hyperpage}{371}
\indexentry{Embedding|hyperpage}{371}
\indexentry{数据并行|hyperpage}{371}
\indexentry{Data Parallelism|hyperpage}{371}
\indexentry{模型并行|hyperpage}{371}
\indexentry{Model Parallelism|hyperpage}{371}
\indexentry{小批量训练|hyperpage}{371}
\indexentry{Mini-batch Training|hyperpage}{371}
\indexentry{课程学习|hyperpage}{374}
\indexentry{Curriculum Learning|hyperpage}{374}
\indexentry{推断|hyperpage}{374}
\indexentry{Inference|hyperpage}{374}
\indexentry{解码|hyperpage}{374}
\indexentry{Decoding|hyperpage}{374}
\indexentry{准确性|hyperpage}{374}
\indexentry{Accuracy|hyperpage}{374}
\indexentry{时延|hyperpage}{374}
\indexentry{Latency|hyperpage}{374}
\indexentry{时延|hyperpage}{374}
\indexentry{Memory|hyperpage}{374}
\indexentry{搜索错误|hyperpage}{374}
\indexentry{Search Error|hyperpage}{374}
\indexentry{模型错误|hyperpage}{374}
\indexentry{Modeling Error|hyperpage}{374}
\indexentry{重排序|hyperpage}{376}
\indexentry{Re-ranking|hyperpage}{376}
\indexentry{双向推断|hyperpage}{376}
\indexentry{Bidirectional Inference|hyperpage}{376}
\indexentry{批量推断|hyperpage}{380}
\indexentry{Batch Inference|hyperpage}{380}
\indexentry{批量处理|hyperpage}{380}
\indexentry{Batching|hyperpage}{380}
\indexentry{二值网络|hyperpage}{382}
\indexentry{Binarized Neural Networks|hyperpage}{382}
\indexentry{自回归翻译|hyperpage}{382}
\indexentry{Autoregressive Translation|hyperpage}{382}
\indexentry{非自回归翻译|hyperpage}{382}
\indexentry{Regressive Translation|hyperpage}{382}
\indexentry{繁衍率|hyperpage}{382}
\indexentry{Fertility|hyperpage}{382}
\indexentry{偏置|hyperpage}{384}
\indexentry{Bias|hyperpage}{384}
\indexentry{退化|hyperpage}{384}
\indexentry{Degenerate|hyperpage}{384}
\indexentry{过翻译|hyperpage}{385}
\indexentry{Over Translation|hyperpage}{385}
\indexentry{欠翻译|hyperpage}{385}
\indexentry{Under Translation|hyperpage}{385}
\indexentry{充分性|hyperpage}{386}
\indexentry{Adequacy|hyperpage}{386}
\indexentry{系统融合|hyperpage}{386}
\indexentry{System Combination|hyperpage}{386}
\indexentry{假设选择|hyperpage}{387}
\indexentry{Hypothesis Selection|hyperpage}{387}
\indexentry{多样性|hyperpage}{387}
\indexentry{Diversity|hyperpage}{387}
\indexentry{重排序|hyperpage}{388}
\indexentry{Re-ranking|hyperpage}{388}
\indexentry{混淆网络|hyperpage}{389}
\indexentry{Confusion Network|hyperpage}{389}
\indexentry{动态线性层聚合方法|hyperpage}{393}
\indexentry{Dynamic Linear Combination of Layers,DLCL|hyperpage}{393}
\indexentry{相互适应|hyperpage}{397}
\indexentry{Co-adaptation|hyperpage}{397}
\indexentry{数据增强|hyperpage}{399}
\indexentry{Data Augmentation|hyperpage}{399}
\indexentry{回译|hyperpage}{399}
\indexentry{Back Translation|hyperpage}{399}
\indexentry{迭代式回译|hyperpage}{400}
\indexentry{Iterative Back Translation|hyperpage}{400}
\indexentry{前向翻译|hyperpage}{400}
\indexentry{Forward Translation|hyperpage}{400}
\indexentry{预训练|hyperpage}{401}
\indexentry{Pre-training|hyperpage}{401}
\indexentry{微调|hyperpage}{401}
\indexentry{Fine-tuning|hyperpage}{401}
\indexentry{多任务学习|hyperpage}{402}
\indexentry{Multitask Learning|hyperpage}{402}
\indexentry{模型压缩|hyperpage}{404}
\indexentry{Model Compression|hyperpage}{404}
\indexentry{学习难度|hyperpage}{404}
\indexentry{Learning Difficulty|hyperpage}{404}
\indexentry{教师模型|hyperpage}{405}
\indexentry{Teacher Model|hyperpage}{405}
\indexentry{学生模型|hyperpage}{405}
\indexentry{Student Model|hyperpage}{405}
\indexentry{基于单词的知识精炼|hyperpage}{405}
\indexentry{Word-level Knowledge Distillation|hyperpage}{405}
\indexentry{基于序列的知识精炼|hyperpage}{405}
\indexentry{Sequence-level Knowledge Distillation|hyperpage}{405}
\indexentry{中间层输出|hyperpage}{406}
\indexentry{Hint-based Knowledge Transfer|hyperpage}{406}
\indexentry{注意力分布|hyperpage}{406}
\indexentry{Attention To Attention Transfer|hyperpage}{406}
\indexentry{循环一致性|hyperpage}{409}
\indexentry{Circle Consistency|hyperpage}{409}
\indexentry{翻译中回译|hyperpage}{410}
\indexentry{On-the-fly Back-translation|hyperpage}{410}
\indexentry{网络结构搜索技术|hyperpage}{412}
\indexentry{Neural Architecture Search;NAS|hyperpage}{412}
...@@ -76,15 +76,15 @@ ...@@ -76,15 +76,15 @@
~\vfill ~\vfill
\thispagestyle{empty} \thispagestyle{empty}
\noindent Copyright \copyright\ 2020 肖桐\ \ 朱靖波\\ \noindent Copyright \copyright\ 2020 肖桐\ \ 朱靖波\\
\noindent \textsc{东北大学自然语言处理实验室\ /\ 小牛翻译}\\ \noindent \textsc{东北大学自然语言处理实验室\ $\cdot$\ 小牛翻译}\\
\noindent \textsc{\url{https://github.com/NiuTrans/MTBook}}\\ \noindent \textsc{\url{https://github.com/NiuTrans/MTBook}}\\
\noindent {\red{Licensed under the Creative Commons Attribution-NonCommercial 4.0 Unported License (the ``License''). You may not use this file except in compliance with the License. You may obtain a copy of the License at \url{http://creativecommons.org/licenses/by-nc/4.0}. Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an \textsc{``as is'' basis, without warranties or conditions of any kind}, either express or implied. See the License for the specific language governing permissions and limitations under the License.}}\\ \noindent {\red{Licensed under the Creative Commons Attribution-NonCommercial 4.0 Unported License (the ``License''). You may not use this file except in compliance with the License. You may obtain a copy of the License at \url{http://creativecommons.org/licenses/by-nc/4.0}. Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an \textsc{``as is'' basis, without warranties or conditions of any kind}, either express or implied. See the License for the specific language governing permissions and limitations under the License.}}\\
\noindent \textit{First Edition, April 2020} \noindent \textit{\today}
%---------------------------------------------------------------------------------------- %----------------------------------------------------------------------------------------
% ACKNOWLEDGE PAGE % ACKNOWLEDGE PAGE
...@@ -121,14 +121,14 @@ ...@@ -121,14 +121,14 @@
% CHAPTERS % CHAPTERS
%---------------------------------------------------------------------------------------- %----------------------------------------------------------------------------------------
\include{Chapter1/chapter1} %\include{Chapter1/chapter1}
\include{Chapter2/chapter2} %\include{Chapter2/chapter2}
\include{Chapter3/chapter3} %\include{Chapter3/chapter3}
\include{Chapter4/chapter4} %\include{Chapter4/chapter4}
\include{Chapter5/chapter5} %\include{Chapter5/chapter5}
\include{Chapter6/chapter6} %\include{Chapter6/chapter6}
\include{Chapter7/chapter7} %\include{Chapter7/chapter7}
\include{ChapterAppend/chapterappend} %\include{ChapterAppend/chapterappend}
%---------------------------------------------------------------------------------------- %----------------------------------------------------------------------------------------
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论