第四章更新和重复文献

5051e55d · 单韦乔 · b514cf71 · 5051e55d · 5051e55d · 5051e55d
Commit 5051e55d authored Aug 29, 2020 by 单韦乔
--- a/Chapter1/chapter1.tex
+++ b/Chapter1/chapter1.tex
@@ -136,7 +136,7 @@

 \parinterval 随着电子计算机的发展，研究者开始尝试使用计算机来进行自动翻译。1954年，美国乔治敦大学在IBM公司支持下，启动了第一次真正的机器翻译实验。翻译的目标是将几个简单的俄语句子翻译成为英语，翻译系统包含6条翻译规则和250词汇。这次翻译实验中测试了50个化学文本句子，取得了初步成功。在某种意义上来说，这个实验显示了采用基于词典和翻译规则的方法可以实现机器翻译过程。虽然只是取得了初步成功，但却引起了苏联、英国和日本研究机构的机器翻译研究热，大大推动了早期机器翻译的研究进展。

-\parinterval 1957年，Noam Chomsky在\emph{Syntactic Structures}中描述了转换生成语法\upcite{Chomsky1957Syntactic}，并使用数学方法来研究自然语言，建立了包括上下文有关语法、上下文无关语法等4种类型的语法。这些工作最终为今天计算机中广泛使用的“形式语言”奠定了基础。而他的思想也深深地影响了同时期的语言学和自然语言处理领域的学者。特别是是，早期基于规则的机器翻译中也大量使用了这些思想。
+\parinterval 1957年，Noam Chomsky在\emph{Syntactic Structures}中描述了转换生成语法\upcite{chomsky2002syntactic}，并使用数学方法来研究自然语言，建立了包括上下文有关语法、上下文无关语法等4种类型的语法。这些工作最终为今天计算机中广泛使用的“形式语言”奠定了基础。而他的思想也深深地影响了同时期的语言学和自然语言处理领域的学者。特别是是，早期基于规则的机器翻译中也大量使用了这些思想。

 \parinterval 虽然在这段时间，使用机器进行翻译的议题越加火热，但是事情并不总是一帆风顺，怀疑论者对机器翻译一直存有质疑，并很容易找出一些机器翻译无法解决的问题。自然地，人们也期望能够客观地评估一下机器翻译的可行性。当时美国基金资助组织委任自动语言处理咨询会承担了这项任务。经过近两年的调查与分析，该委员会于1966年11月公布了一个题为\emph{LANGUAGE AND MACHINES}的报告（图\ref{fig:1-5}），即ALPAC报告。该报告全面否定了机器翻译的可行性，为机器翻译的研究泼了一盆冷水。


--- a/Chapter4/chapter4.tex
+++ b/Chapter4/chapter4.tex
@@ -133,7 +133,7 @@

 \subsection{打分标准}

-\parinterval 如何对译文进行打分是机器翻译评价的核心问题。在人工评价方法中，一种被广泛使用的方法是{\small\sffamily\bfseries{直接评估}}\index{直接评估}（Direct Assessment，DA）\index{Direct Assessment}\upcite{DBLP:conf/amta/Whi94teOO}，这种评价方法需要评价者给出对机器译文绝对的评分：在给定一个机器译文和一个参考答案的情况下，评价者直接给出1-100的分数用来表征机器译文的质量。与其类似的策略是对机器翻译质量进行等级评定\upcite{DBLP:journals/mt/PrzybockiPBS09}，常见的是在5级或7级标准中指定单一等级用以反映机器翻译质量。也有研究者提出利用语言测试技术对机器翻译质量进行评价\upcite{reeder2006direct}，其中涉及多等级内容的评价：第一等级测试简单的短语、成语、词汇等；第二等级利用简单的句子测试机器翻译在简单文本上的表现；第三等级利用稍复杂的句子测试机器翻译在复杂语法结构上的表现；第四等级测试引入更加复杂的补语结构和附加语等等。
+\parinterval 如何对译文进行打分是机器翻译评价的核心问题。在人工评价方法中，一种被广泛使用的方法是{\small\sffamily\bfseries{直接评估}}\index{直接评估}（Direct Assessment，DA）\index{Direct Assessment}\upcite{DBLP:conf/amta/WhiteOO94}，这种评价方法需要评价者给出对机器译文绝对的评分：在给定一个机器译文和一个参考答案的情况下，评价者直接给出1-100的分数用来表征机器译文的质量。与其类似的策略是对机器翻译质量进行等级评定\upcite{DBLP:journals/mt/PrzybockiPBS09}，常见的是在5级或7级标准中指定单一等级用以反映机器翻译质量。也有研究者提出利用语言测试技术对机器翻译质量进行评价\upcite{reeder2006direct}，其中涉及多等级内容的评价：第一等级测试简单的短语、成语、词汇等；第二等级利用简单的句子测试机器翻译在简单文本上的表现；第三等级利用稍复杂的句子测试机器翻译在复杂语法结构上的表现；第四等级测试引入更加复杂的补语结构和附加语等等。

 \parinterval 除了对译文进行简单的打分，另一种经典的人工评价方法是{\small\sffamily\bfseries{相对排序}}\index{相对排序}（Relative Ranking，RR）\index{Relative Ranking}\upcite{DBLP:conf/wmt/Callison-BurchF07}。这种方法通过对不同机器翻译的译文质量进行相对排序得到最终的评价结果。举例来说：

@@ -517,7 +517,7 @@ His house is on the south bank of the river.

 \parinterval 2003年，在自然语言处理的神经语言建模任务中引入了词嵌入技术，其思想是把每个单词映射为多维实数空间中的一个点（具体表现为一个实数向量），这种技术也被称作单词的分布式表示。在这项技术中，研究人员们发现单词之间的关系可以通过空间的几何性质进行刻画，意义相近的单词之间的欧式距离也十分相近。（单词分布式表示的具体内容，将在书的{\chapternine}详细介绍，在此不再赘述。）

-\parinterval 受词嵌入技术的启发，研究人员尝试借助参考答案和机器译文的分布式表示来进行译文质量评价，为译文质量评价提供了新思路。在自然语言的上下文中，表示是与每个单词、句子或文档相关联的数学对象。这个对象通常是一个向量，其中每个元素的值在某种程度上描述了相关单词、句子或文档的语义或句法属性。{\small\sffamily\bfseries{分布式表示评价度量}}\index{分布式表示评价度量}（Distributed Representations Evaluation Metrics，DREEM）\index{Distributed Representations Evaluation Metrics}将单词或句子的分布式表示映射到连续的低维空间，发现在该空间中，具有相似句法和语义属性的单词彼此接近\upcite{DBLP:journals/jmlr/BengioDVJ03,DBLP:conf/emnlp/SocherPHNM11,DBLP:conf/emnlp/SocherPWCMNP13}，证明了利用分布式表示实现译文质量评估的可行性。
+\parinterval 受词嵌入技术的启发，研究人员尝试借助参考答案和机器译文的分布式表示来进行译文质量评价，为译文质量评价提供了新思路。在自然语言的上下文中，表示是与每个单词、句子或文档相关联的数学对象。这个对象通常是一个向量，其中每个元素的值在某种程度上描述了相关单词、句子或文档的语义或句法属性。{\small\sffamily\bfseries{分布式表示评价度量}}\index{分布式表示评价度量}（Distributed Representations Evaluation Metrics，DREEM）\index{Distributed Representations Evaluation Metrics}将单词或句子的分布式表示映射到连续的低维空间，发现在该空间中，具有相似句法和语义属性的单词彼此接近\upcite{bengio2003a,DBLP:conf/emnlp/SocherPHNM11,DBLP:conf/emnlp/SocherPWCMNP13}，证明了利用分布式表示实现译文质量评估的可行性。

 \parinterval 在该类方法中，分布式表示的选取是一个十分关键的问题，理想的情况下，分布式表示应该涵盖句子在词汇、句法、语法、语义、依存关系等各个方面的信息。目前常见的分布式表示方式如表\ref{tab:4-2}所示。除此之外，还可以通过词袋模型、循环神经网路、卷积神经网络、深层平均网络\upcite{iyyer-etal-2015-deep}、Quick-Thought模型\upcite{DBLP:conf/iclr/LogeswaranL18}等将词向量表示转换为句子向量表示。

@@ -532,15 +532,15 @@ His house is on the south bank of the river.
 \rule{0pt}{10pt} Word2Vec词向量\upcite{DBLP:journals/corr/abs-1301-3781} & Doc2Vec向量\upcite{DBLP:conf/icml/LeM14}  \\
 \rule{0pt}{10pt} Prob-fasttext词向量\upcite{DBLP:conf/acl/AthiwaratkunW17} & ELMO预训练句子表示\upcite{DBLP:conf/naacl/PetersNIGCLZ18} \\
 \rule{0pt}{10pt} GloVe词向量\upcite{DBLP:conf/emnlp/PenningtonSM14} & GPT句子表示\upcite{radford2018improving} \\
-\rule{0pt}{10pt} ELMO预训练词向量\upcite{DBLP:conf/naacl/PetersNIGCLZ18} & BERT预训练句子表示\upcite{DBLP:conf/naacl/DevlinCLT19} \\
-\rule{0pt}{10pt} BERT预训练词向量\upcite{DBLP:conf/naacl/DevlinCLT19} & Skip-thought向量\upcite{DBLP:conf/nips/KirosZSZUTF15} \\
+\rule{0pt}{10pt} ELMO预训练词向量\upcite{DBLP:conf/naacl/PetersNIGCLZ18} & BERT预训练句子表示\upcite{devlin2018bert} \\
+\rule{0pt}{10pt} BERT预训练词向量\upcite{devlin2018bert} & Skip-thought向量\upcite{DBLP:conf/nips/KirosZSZUTF15} \\
 \end{tabular}
 \label{tab:4-2}
 }
 \end{center}
 }\end{table}

-\parinterval DREEM方法中选取了能够反映句子中使用的特定词汇的One-hot向量、能够反映词汇信息的词嵌入向量\upcite{DBLP:journals/jmlr/BengioDVJ03}、能够反映句子的合成语义信息的{\small\sffamily\bfseries{递归自动编码}}\index{递归自动编码}（Recursive Autoencoder Embedding, RAE）\index{Recursive Autoencoder Embedding}，这三种表示级联在一起，最终形成句子的向量表示。在得到机器译文和参考答案的上述分布式表示后，利用余弦相似度和长度惩罚对机器译文质量进行评价。机器译文$t$和参考答案$r$之间的相似度如公式\ref{eq:4-16}所示，其中${v_i}(t)$和${v_i}(r)$分别是机器译文和参考答案的向量表示中的第$i$个元素，$N$是向量表示的维度大小。
+\parinterval DREEM方法中选取了能够反映句子中使用的特定词汇的One-hot向量、能够反映词汇信息的词嵌入向量\upcite{bengio2003a}、能够反映句子的合成语义信息的{\small\sffamily\bfseries{递归自动编码}}\index{递归自动编码}（Recursive Autoencoder Embedding, RAE）\index{Recursive Autoencoder Embedding}，这三种表示级联在一起，最终形成句子的向量表示。在得到机器译文和参考答案的上述分布式表示后，利用余弦相似度和长度惩罚对机器译文质量进行评价。机器译文$t$和参考答案$r$之间的相似度如公式\ref{eq:4-16}所示，其中${v_i}(t)$和${v_i}(r)$分别是机器译文和参考答案的向量表示中的第$i$个元素，$N$是向量表示的维度大小。
 \begin{eqnarray}
 \mathrm {cos}(t,r) = \frac{{\sum\limits_{i = 1}^N {{v_i}(t) \cdot {v_i}(r)} }}{{\sqrt {\sum\limits_{i = 1}^N {v_i^2(t)} } \sqrt {\sum\limits_{i = 1}^N {v_i^2(r)} } }}
 \label{eq:4-16}

--- a/bibliography.bib
+++ b/bibliography.bib
@@ -61,7 +61,7 @@
  publisher={Cambridge: Technology Press, MIT}
 }

-@article{Chomsky1957Syntactic,
+@article{chomsky2002syntactic,
  title={Syntactic Structures},
  author={Chomsky, Noam},
  journal={Language},
@@ -926,17 +926,6 @@
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%% chapter 3------------------------------------------------------

-@article{chomsky2002syntactic,
-    title ={Chomsky, Noam: Syntactic Structures},
-    author ={Mounin, Georges},
-    journal ={Babel},
-    volume ={7},
-    number ={1},
-    pages ={35--35},
-    year ={1961}
-}
-
-
 @inproceedings{ng2002discriminative,
  title ={On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes},
  author ={Ng, Andrew Y and Jordan, Michael I},