合并分支 'zengxin2' 到 'caorunzhe'

chapter7 bib error 查看合并请求 !128

合并分支 'zengxin2' 到 'caorunzhe'
chapter7 bib error 查看合并请求 !128
0d7840be · zengxin · 0e4375b7 · 1621d4cf · 0d7840be · 0d7840be
Commit 0d7840be authored May 10, 2020 by zengxin
--- a/Book/Chapter7/Chapter7.tex
+++ b/Book/Chapter7/Chapter7.tex
@@ -1664,7 +1664,7 @@ p_l=\frac{l}{2L}\cdot \varphi

 \parinterval 这里所说的第二个假设对应了机器学习中的一大类问题\ \dash \ {\small\bfnew{学习难度}}\index{学习难度}（Learning Difficulty）\index{Learning Difficulty}。所谓难度是指：在给定一个模型的情况下，需要花费多少代价对目标任务进行学习。如果目标任务很简单，同时模型与任务很匹配，那学习难度就会降低。如果目标任务很复杂，同时模型与其匹配程度很低，那学习难度就会很大。在自然语言处理任务中，这个问题的一种表现是：在很好的数据中学习的模型的翻译质量可能仍然很差。即使训练数据是完美的，但是模型仍然无法做到完美的学习。这可能是因为建模的不合理，导致模型无法描述目标任务中复杂的规律。也就是纵然数据很好，但是模型学不到其中的``知识''。在机器翻译中这个问题体现的尤为明显。比如，在机器翻译系统$n$-best结果中挑选最好的译文（成为Oracle）作为训练样本让系统重新学习，系统仍然达不到Oracle的水平。

-\parinterval 知识精炼本身也体现了一种``自学习''的思想。即利用模型（自己）的预测来教模型（自己）。这样既保证了知识可以向更轻量的模型迁移，同时也避免了模型从原始数据中学习难度大的问题。虽然``大''模型的预测中也会有错误，但是这种预测是更符合建模的假设的，因此``小''模型反倒更容易从不完美的信息中学习\footnote[15]{很多时候，``大''模型和``小''模型都是基于同一种架构，因此二者对问题的假设和模型结构都是相似的。}到更多的知识。类似于，刚开始学习围棋的人从职业九段身上可能什么也学不到，但是向一个业余初段的选手学习可能更容易入门。另外，也有研究表明：在机器翻译中，相比于``小''模型，``大''模型更容易进行优化，也更容易找到更好的模型收敛状态。因此在需要一个性能优越，存储较小的模型时，也会考虑将大模型压缩得到更轻量模型的手段\cite{DBLP:journals/corr/abs-2002-11794,DBLP:conf/iclr/FrankleC19}。
+\parinterval 知识精炼本身也体现了一种``自学习''的思想。即利用模型（自己）的预测来教模型（自己）。这样既保证了知识可以向更轻量的模型迁移，同时也避免了模型从原始数据中学习难度大的问题。虽然``大''模型的预测中也会有错误，但是这种预测是更符合建模的假设的，因此``小''模型反倒更容易从不完美的信息中学习\footnote[15]{很多时候，``大''模型和``小''模型都是基于同一种架构，因此二者对问题的假设和模型结构都是相似的。}到更多的知识。类似于，刚开始学习围棋的人从职业九段身上可能什么也学不到，但是向一个业余初段的选手学习可能更容易入门。另外，也有研究表明：在机器翻译中，相比于``小''模型，``大''模型更容易进行优化，也更容易找到更好的模型收敛状态。因此在需要一个性能优越，存储较小的模型时，也会考虑将大模型压缩得到更轻量模型的手段\cite{DBLP:journals/corr/abs-2002-11794}。

 \parinterval 通常把``大''模型看作的传授知识的``教师''，被称作{\small\bfnew{教师模型}}\index{教师模型}（Teacher Model）\index{Teacher Model}；把``小''模型看作是接收知识的``学生''，被称作{\small\bfnew{学生模型}}\index{学生模型}（Student Model）\index{Student Model}。比如，可以把Transformer-Big看作是教师模型，把Transformer-Base看作是学生模型。

@@ -1847,7 +1847,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\textbf{y}} | \textbf{x})
 \vspace{0.5em}
 \item 更多上下文信息的建模。由于人类语言潜在的歧义性，传统的神经机器翻译在单句翻译中可能会出现歧义。为此，一些研究工作在翻译过程中尝试引入更多的上下文信息，比如多模态翻译、基于树的翻译或者篇章级翻译。多模态翻译的目标就是在给定一个图片和其源语描述的情况下，生成目标语言的描述。一般做法就是通过一个额外的编码器来提取图像特征\cite{DBLP:journals/corr/ElliottFH15,DBLP:conf/acl/HitschlerSR16}，然后通过权重门控机制、注意力网络等融合到系统中\cite{DBLP:conf/wmt/HuangLSOD16}。

-\parinterval 基于树的翻译是指在翻译模型中引入句法结构树或依存树，从而引入更多的句法信息。一种常用的做法是将句法树进行序列化，从而保留序列到序列的模型结构\cite{DBLP:conf/emnlp/CurreyH18,DBLP:conf/acl/SaundersSGB18,DBLP:conf/wmt/NadejdeRSDJKB17}。在此基础上，一些研究工作引入了更多的解析结果\cite{DBLP:conf/acl/SumitaUZTM18,DBLP:conf/coling/ZaremoodiH18}。同时，也有一些研究工作直接使用Tree-LSTMs等网络结构\cite{DBLP:conf/acl/TaiSM15,DBLP:conf/iclr/ShenTSC19}来直接表示树结构，并将其应用到神经机器翻译模型中\cite{DBLP:conf/acl/EriguchiHT16,Yang2017TowardsBH,DBLP:conf/acl/ChenHCC17}。
+\parinterval 基于树的翻译是指在翻译模型中引入句法结构树或依存树，从而引入更多的句法信息。一种常用的做法是将句法树进行序列化，从而保留序列到序列的模型结构\cite{DBLP:conf/emnlp/CurreyH18,DBLP:conf/acl/SaundersSGB18}。在此基础上，一些研究工作引入了更多的解析结果\cite{DBLP:conf/acl/SumitaUZTM18,DBLP:conf/coling/ZaremoodiH18}。同时，也有一些研究工作直接使用Tree-LSTMs等网络结构\cite{DBLP:conf/acl/TaiSM15,DBLP:conf/iclr/ShenTSC19}来直接表示树结构，并将其应用到神经机器翻译模型中\cite{DBLP:conf/acl/EriguchiHT16,Yang2017TowardsBH,DBLP:conf/acl/ChenHCC17}。

 \parinterval 篇章级翻译是为了引入篇章级上下文信息，来处理篇章翻译中译文不连贯，主谓不一致等歧义现象。为此，一些研究人员针对该问题进行了改进，主要可以分为两类方法：一种是将当前句子与上下文进行句子级的拼接，不改变模型的结构\cite{DBLP:conf/discomt/TiedemannS17}，另外一种是采用额外的编码器来捕获篇章信息\cite{DBLP:journals/corr/JeanLFC17,DBLP:journals/corr/abs-1805-10163,DBLP:conf/emnlp/ZhangLSZXZL18}。编码器的结构除了传统的RNN、自注意力网络，还有利用层级注意力来编码之前的多句上文\cite{Werlen2018DocumentLevelNM,tan-etal-2019-hierarchical}，使用可选择的稀疏注意力机制对整个文档进行篇章建模\cite{DBLP:conf/naacl/MarufMH19},使用记忆网络、缓存机制等对篇章中的关键词进行提取\cite{DBLP:conf/coling/KuangXLZ18,DBLP:journals/tacl/TuLSZ18}或者采用两阶段解码的方式\cite{DBLP:conf/aaai/XiongH0W19,DBLP:conf/acl/VoitaST19}。除了从建模角度引入上下文信息，也有一些工作使用篇章级修正模型\cite{DBLP:conf/emnlp/VoitaST19}或者语言模型\cite{DBLP:journals/corr/abs-1910-00553}对句子级翻译模型的译文进行修正，或者通过自学习在解码过程中保持翻译连贯性\cite{DBLP:journals/corr/abs-2003-05259}。
 \vspace{0.5em}
@@ -1855,11 +1855,11 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\textbf{y}} | \textbf{x})
 \vspace{0.5em}
 \item 多语言翻译。神经机器翻译模型经过训练，通常可以将一种固定的源语言翻译成另一种固定的目标语言，但考虑到世界上有成千上万种语言，为每种语言对训练一个单独的模型非常耗资源。相比于单一语言对的神经机器翻译，多语言神经机器翻译具有开发跨语言对相似性的潜力，而且可以节约大量的训练成本\cite{DBLP:journals/tacl/JohnsonSLKWCTVW17}。

-\parinterval 多语言神经机器翻译旨在训练涵盖多种语言翻译的单一模型。多语言神经机器翻译系统可以根据它们在不同翻译语言对之间共享的组件进行分类。一种常见的做法是通过语言标签指定源语言和目标语言的同时，共享整个神经网络结构（编码器和解码器）\cite{DBLP:journals/corr/HaNW16,DBLP:journals/corr/abs-1711-07893}。除此之外，还可以使用共享的编码器，但针对每种目标语言使用单独的解码器进行一对多的多语言翻译\cite{DBLP:conf/naacl/FiratCB16}。还有一些方法为每种源语言和目标语言都使用单独的编码器和解码器，但会共享其中的一些组件\cite{DBLP:journals/corr/LuongLSVK15,DBLP:conf/naacl/FiratCB16}，比如说，共享其中的注意力机制结构\cite{DBLP:journals/corr/LuongLSVK15,DBLP:conf/naacl/FiratCB16}多语言神经机器翻译不仅可以减少训练单一语言对神经机器翻译的训练代价，还可以有效的解决低资源神经机器翻译\cite{DBLP:journals/tacl/JohnsonSLKWCTVW17}以及多源神经机器翻译问题\cite{Och01statisticalmulti-source}。
+\parinterval 多语言神经机器翻译旨在训练涵盖多种语言翻译的单一模型。多语言神经机器翻译系统可以根据它们在不同翻译语言对之间共享的组件进行分类。一种常见的做法是通过语言标签指定源语言和目标语言的同时，共享整个神经网络结构（编码器和解码器）\cite{DBLP:journals/corr/HaNW16}。除此之外，还可以使用共享的编码器，但针对每种目标语言使用单独的解码器进行一对多的多语言翻译\cite{DBLP:conf/naacl/FiratCB16}。还有一些方法为每种源语言和目标语言都使用单独的编码器和解码器，但会共享其中的一些组件\cite{DBLP:journals/corr/LuongLSVK15,DBLP:conf/naacl/FiratCB16}，比如说，共享其中的注意力机制结构\cite{DBLP:conf/naacl/FiratCB16}多语言神经机器翻译不仅可以减少训练单一语言对神经机器翻译的训练代价，还可以有效的解决低资源神经机器翻译\cite{DBLP:journals/tacl/JohnsonSLKWCTVW17}以及多源神经机器翻译问题\cite{Och01statisticalmulti-source}。
 \vspace{0.5em}
 \item 结构搜索。除了由研究人员手工设计神经网络结构之外，近些年{\small\bfnew{网络结构搜索技术}}\index{网络结构搜索技术}（Neural Architecture Search；NAS）\index{Neural Architecture Search；NAS}也逐渐在包括机器翻译在内的自然语言处理任务中得到广泛关注\cite{elsken2019neural}。不同于前文提到的基于循环神经网络、Transformer结构的机器翻译模型，网络结构搜索旨在通过自动的方式根据提供的训练数据自动学习到最适合于当前任务的神经网络模型结构，这种方式能够有效将研究人员从模型结构设计者的位置上“解救”出来，让计算机能够像学网络参数一样学习神经网络模型的结构。目前而言，网络结构搜索的方法已经在自然语言处理的各项任务中崭露头角，在语言模型、命名实体识别等任务中获得优异的成绩\cite{DBLP:conf/iclr/ZophL17,DBLP:conf/emnlp/JiangHXZZ19,liyinqiaoESS}，但对于机器翻译任务而言，由于其任务的复杂性，网络结构的搜索空间往往比较大，很难直接对其空间进行搜索，因此研究人员更倾向于对基于现有经验设计的模型结构进行改良。谷歌大脑团队在The Evolved Transformer文章中提出使用进化算法，在Transformer结构基础上对模型结构进行演化，得到更加高效且建模能力更强的机器翻译模型。微软团队也在Neural Architecture Optimization\cite{DBLP:conf/nips/LuoTQCL18}论文中提出NAO的方法，通过将神经网络结构映射到连续空间上进行优化来获得优于初始结构的模型，NAO方法在WMT19机器翻译评测任务中也进行了使用，在英语-芬兰语以及芬兰语-英语的任务上均取得了优异的成绩。
 \vspace{0.5em}
-\item 与统计机器翻译的结合。尽管神经机器翻译在自动评价和人工评价上都取得比统计机器翻译优异的结果，神经机器翻译仍然面临一些统计机器翻译没有的问题\cite{DBLP:conf/aclnmt/KoehnK17}，如神经机器翻译系统会产生漏译的现象，也就是源语句子的一些短语甚至从句没有被翻译，而统计机器翻译因为是把源语里所有短语都翻译出来后进行拼装，因此不会产生这种译文对原文的忠实度低的问题。一个解决的思路就是把统计机器翻译系统和神经机器翻译系统进行结合。目前的方法主要分为两种，一种是模型的改进，比如在神经机器翻译里建模统计机器翻译的概念或者使用统计机器翻译系统的模块，如词对齐，覆盖度等等\cite{DBLP:conf/aaai/HeHWW16}，或者是把神经机器翻译系统结合到统计机器翻译系统中，如作为一个特征\cite{DBLP:journals/corr/GulcehreFXCBLBS15}；第二种是系统融合，在不改变模型的情况下，把来自神经机器翻译系统的输出和统计机器翻译系统的输出进行融合，得到更好的结果，如使用重排序\cite{DBLP:conf/ijcnlp/KhayrallahKDPK17,DBLP:conf/acl/StahlbergHWB16,DBLP:conf/aclwat/NeubigMN15,DBLP:conf/naacl/GrundkiewiczJ18}，后处理\cite{niehues-etal-2016-pre}，或者把统计机器翻译系统的输出作为神经机器翻译系统解码的约束条件等等\cite{DBLP:conf/eacl/GispertBHS17}。除此之外，也可以把神经机器翻译与翻译记忆相融合\cite{DBLP:conf/aaai/XiaHLS19,DBLP:conf/nlpcc/HeHLL19}，这在机器翻译应用中也是非常有趣的方向。
+\item 与统计机器翻译的结合。尽管神经机器翻译在自动评价和人工评价上都取得比统计机器翻译优异的结果，神经机器翻译仍然面临一些统计机器翻译没有的问题\cite{DBLP:conf/aclnmt/KoehnK17}，如神经机器翻译系统会产生漏译的现象，也就是源语句子的一些短语甚至从句没有被翻译，而统计机器翻译因为是把源语里所有短语都翻译出来后进行拼装，因此不会产生这种译文对原文的忠实度低的问题。一个解决的思路就是把统计机器翻译系统和神经机器翻译系统进行结合。目前的方法主要分为两种，一种是模型的改进，比如在神经机器翻译里建模统计机器翻译的概念或者使用统计机器翻译系统的模块，如词对齐，覆盖度等等\cite{DBLP:conf/aaai/HeHWW16}，或者是把神经机器翻译系统结合到统计机器翻译系统中，如作为一个特征\cite{DBLP:journals/corr/GulcehreFXCBLBS15}；第二种是系统融合，在不改变模型的情况下，把来自神经机器翻译系统的输出和统计机器翻译系统的输出进行融合，得到更好的结果，如使用重排序\cite{DBLP:conf/ijcnlp/KhayrallahKDPK17,DBLP:conf/aclwat/NeubigMN15}，后处理\cite{niehues-etal-2016-pre}，或者把统计机器翻译系统的输出作为神经机器翻译系统解码的约束条件等等\cite{DBLP:conf/eacl/GispertBHS17}。除此之外，也可以把神经机器翻译与翻译记忆相融合\cite{DBLP:conf/aaai/XiaHLS19,DBLP:conf/nlpcc/HeHLL19}，这在机器翻译应用中也是非常有趣的方向。
 \end{itemize}



--- a/Book/bibliography.bib
+++ b/Book/bibliography.bib
@@ -5142,20 +5142,6 @@ pages ={157-166},
  //bibsource = {dblp computer science bibliography, https://dblp.org}
 }

-@inproceedings{DBLP:conf/iclr/FrankleC19,
-  author    = {Jonathan Frankle and
-               Michael Carbin},
-  title     = {The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks},
-  booktitle = {7th International Conference on Learning Representations, {ICLR} 2019,
-               New Orleans, LA, USA, May 6-9, 2019},
-  publisher = {OpenReview.net},
-  year      = {2019},
-  //url       = {https://openreview.net/forum?id=rJl-b3RcF7},
-  //timestamp = {Thu, 25 Jul 2019 13:03:15 +0200},
-  //biburl    = {https://dblp.org/rec/conf/iclr/FrankleC19.bib},
-  //bibsource = {dblp computer science bibliography, https://dblp.org}
-}
-
 @inproceedings{DBLP:conf/emnlp/KimR16,
  author    = {Yoon Kim and
               Alexander M. Rush},
@@ -5460,37 +5446,7 @@ pages ={157-166},
  //biburl    = {https://dblp.org/rec/conf/acl/SaundersSGB18.bib},
  //bibsource = {dblp computer science bibliography, https://dblp.org}
 }
-@inproceedings{DBLP:conf/wmt/NadejdeRSDJKB17,
-  author    = {Maria Nadejde and
-               Siva Reddy and
-               Rico Sennrich and
-               Tomasz Dwojak and
-               Marcin Junczys{-}Dowmunt and
-               Philipp Koehn and
-               Alexandra Birch},
-  //editor    = {Ondrej Bojar and
-               Christian Buck and
-               Rajen Chatterjee and
-               Christian Federmann and
-               Yvette Graham and
-               Barry Haddow and
-               Matthias Huck and
-               Antonio Jimeno{-}Yepes and
-               Philipp Koehn and
-               Julia Kreutzer},
-  title     = {Predicting Target Language {CCG} Supertags Improves Neural Machine
-               Translation},
-  booktitle = {Proceedings of the Second Conference on Machine Translation, {WMT}
-               2017, Copenhagen, Denmark, September 7-8, 2017},
-  pages     = {68--79},
-  publisher = {Association for Computational Linguistics},
-  year      = {2017},
-  //url       = {https:////doi.org/10.18653/v1/w17-4707},
-  //doi       = {10.18653/v1/w17-4707},
-  //timestamp = {Tue, 28 Jan 2020 10:31:04 +0100},
-  //biburl    = {https://dblp.org/rec/conf/wmt/NadejdeRSDJKB17.bib},
-  //bibsource = {dblp computer science bibliography, https://dblp.org}
-}
+
 @inproceedings{DBLP:conf/acl/SumitaUZTM18,
  author    = {Chunpeng Ma and
               Akihiro Tamura and
@@ -6060,21 +6016,7 @@ pages ={157-166},
  //biburl    = {https://dblp.org/rec/journals/corr/HaNW16.bib},
  //bibsource = {dblp computer science bibliography, https://dblp.org}
 }
-@article{DBLP:journals/corr/abs-1711-07893,
-  author    = {Thanh{-}Le Ha and
-               Jan Niehues and
-               Alexander H. Waibel},
-  title     = {Effective Strategies in Zero-Shot Neural Machine Translation},
-  journal   = {CoRR},
-  volume    = {abs/1711.07893},
-  year      = {2017},
-  //url       = {http://arxiv.org/abs/1711.07893},
-  //archivePrefix = {arXiv},
-  //eprint    = {1711.07893},
-  //timestamp = {Mon, 13 Aug 2018 16:46:07 +0200},
-  //biburl    = {https://dblp.org/rec/journals/corr/abs-1711-07893.bib},
-  //bibsource = {dblp computer science bibliography, https://dblp.org}
-}
+
 @inproceedings{DBLP:conf/naacl/FiratCB16,
  author    = {Orhan Firat and
               Kyunghyun Cho and
@@ -6252,23 +6194,7 @@ year      = {2020},
  //biburl    = {https://dblp.org/rec/conf/ijcnlp/KhayrallahKDPK17.bib},
  //bibsource = {dblp computer science bibliography, https://dblp.org}
 }
-@inproceedings{DBLP:conf/acl/StahlbergHWB16,
-  author    = {Felix Stahlberg and
-               Eva Hasler and
-               Aurelien Waite and
-               Bill Byrne},
-  title     = {Syntactically Guided Neural Machine Translation},
-  booktitle = {Proceedings of the 54th Annual Meeting of the Association for Computational
-               Linguistics, {ACL} 2016, August 7-12, 2016, Berlin, Germany, Volume
-               2: Short Papers},
-  publisher = {The Association for Computer Linguistics},
-  year      = {2016},
-  //url       = {https:////doi.org/10.18653/v1/p16-2049},
-  //doi       = {10.18653/v1/p16-2049},
-  //timestamp = {Tue, 28 Jan 2020 10:27:31 +0100},
-  //biburl    = {https://dblp.org/rec/conf/acl/StahlbergHWB16.bib},
-  //bibsource = {dblp computer science bibliography, https://dblp.org}
-}
+
 @inproceedings{DBLP:conf/aclwat/NeubigMN15,
  author    = {Graham Neubig and
               Makoto Morishita and
@@ -6291,27 +6217,7 @@ year      = {2020},
  //biburl    = {https://dblp.org/rec/conf/aclwat/NeubigMN15.bib},
  //bibsource = {dblp computer science bibliography, https://dblp.org}
 }
-@inproceedings{DBLP:conf/naacl/GrundkiewiczJ18,
-  author    = {Roman Grundkiewicz and
-               Marcin Junczys{-}Dowmunt},
-  //editor    = {Marilyn A. Walker and
-               Heng Ji and
-               Amanda Stent},
-  title     = {Near Human-Level Performance in Grammatical Error Correction with
-               Hybrid Machine Translation},
-  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of
-               the Association for Computational Linguistics: Human Language Technologies,
-               NAACL-HLT, New Orleans, Louisiana, USA, June 1-6, 2018, Volume 2 (Short
-               Papers)},
-  pages     = {284--290},
-  publisher = {Association for Computational Linguistics},
-  year      = {2018},
-  //url       = {https:////doi.org/10.18653/v1/n18-2046},
-  //doi       = {10.18653/v1/n18-2046},
-  //timestamp = {Tue, 28 Jan 2020 10:30:23 +0100},
-  //biburl    = {https://dblp.org/rec/conf/naacl/GrundkiewiczJ18.bib},
-  //bibsource = {dblp computer science bibliography, https://dblp.org}
-}
+
 @inproceedings{niehues-etal-2016-pre,
    title = "Pre-Translation for Neural Machine Translation",
    author = "Niehues, Jan  and