wording

432e27b4 · xiaotong · fa379c6f · 432e27b4 · 432e27b4
Commit 432e27b4 authored Sep 02, 2020 by xiaotong
--- a/Chapter3/chapter3.tex
+++ b/Chapter3/chapter3.tex
@@ -47,7 +47,7 @@
 \vspace{0.5em}
 \item {\small\bfnew{分词}}\index{分词}（Segmentation）\index{Segmentation}：这个过程会把词串进行切分，切割成最小的具有完整功能的单元\ \dash\ {\small\bfnew{单词}}\index{单词}（Word\index{单词}）。因为只有知道了什么是单词，机器翻译系统才能完成对句子的表示、分析和生成。
 \vspace{0.5em}
-\item {\small\bfnew{句法分析}}\index{句法分析}（Parsing）\index{Parsing}：这个过程会对分词的结果进行进一步分析。比如，可以对句子进行浅层分析，得到句子中实体的信息（如人名、地名等）。也可以对句子进行更深层次的分析，得到完整的句法结构，类似于图\ref{fig:3.1-2}中的结果。这种结构可以被看作是对句子的进一步抽象，被称为短语结构树，比如，NP+VP就可以表示由名词短语（NP）和动词短语（VP）构成的主谓结构。利用这些信息，机器翻译可以更加准确地对句子的结构进行分析和生成。
+\item {\small\bfnew{句法分析}}\index{句法分析}（Parsing）\index{Parsing}：这个过程会对分词的结果进行进一步分析。比如，可以对句子进行浅层分析，得到句子中实体的信息（如人名、地名等）。也可以对句子进行更深层次的分析，得到完整的句法结构，类似于图\ref{fig:3.1-2}中的结果。这种结构可以被看作是对句子的进一步抽象，被称为短语结构树，比如，NP+VP就可以表示由名词短语（Noun Phrase，NP）和动词短语（Verb Phrase，VP）构成的主谓结构。利用这些信息，机器翻译可以更加准确地对句子的结构进行分析和生成。
 \vspace{0.5em}
 \end{itemize}

@@ -269,20 +269,14 @@ $计算这种切分的概率值。
 \parinterval 序列标注这个概念更多的是出现在基于统计建模的方法中。许多统计机器学习方法都被成功应用用于命名实体识别任务，例如{\small\bfnew{隐马尔可夫模型}}\index{隐马尔可夫模型}（Hidden Markov Model，HMM）\index{HMM}、{\small\bfnew{条件随机场}}\index{条件随机场}（Conditional Random Fields，CRFs）\index{Conditional Random Fields}、{\small\bfnew{最大熵}}\index{最大熵}（Maximum Entropy，ME）\index{ME}模型和{\small\bfnew{支持向量机}}\index{支持向量机}（Support Vector Machine，SVM）\index{SVM}等。此外，近些年深度学习的兴起也给命名实体识别带来了新的思路{\color{red}（参考文献！！！！）}。而命名实体识别也成为了验证机器学习方法有效性的重要任务之一。本节将对序列标注中几类基础的方法进行介绍。其中会涉及概率图模型、统计分类模型等方法。特别是统计分类的概念，在后续章节中也会被使用到。

 %----------------------------------------------------------------------------------------
-%    NEW SUB-SECTION
+%    NEW SUBS-SECTION
 %----------------------------------------------------------------------------------------

-\subsection{基于概率图模型的方法}
-
-\parinterval {\small\bfnew{概率图模型}}\index{概率图模型}（Probabilistic Graphical Model）\index{Probabilistic Graphical Model}是使用图表示变量及变量间概率依赖关系的方法。在概率图模型中，可以根据可观测变量推测出未知变量的条件概率分布等信息。如果把序列标注任务中的输入序列看作观测变量，而把输出序列看作需要预测的未知变量，那么就可以把概率图模型应用于命名实体识别等序列标注任务。
+\subsection{基于特征的统计学习} \label{sec3:feature}

-%----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
-%----------------------------------------------------------------------------------------
+\parinterval 基于特征的统计学习是解决序列标注的有效方法之一。这种方法中，系统研发人员通过定义不同的特征来完成对问题的描述，之后利用统计模型完成对这些特征的某种融合，并得到最终的预测结果。

-\subsubsection{1. 特征} \label{sec3:feature}
-
-\parinterval 概率图模型中的一个基础概念是``特征''。简单来说，{\small\bfnew{特征}}\index{特征}（Feature）\index{Feature}是指能够反映事物在某方面表现或行为的一种属性，如现实生活中小鸟的羽毛颜色、喙的形状、翼展长度等就是小鸟的特征；命名实体识别任务中的每个词的词根、词性和上下文组合也可以被看做是识别出命名实体可以采用的特征。
+\parinterval 在开始介绍序列标注模型之前，先来看一下统计学习所涉及的重要概念\ \dash\ {\small\bfnew{特征}}\index{特征}（Feature）\index{Feature}。简单来说，特征是指能够反映事物在某方面表现或行为的一种属性，如现实生活中小鸟的羽毛颜色、喙的形状、翼展长度等就是小鸟的特征；命名实体识别任务中的每个词的词根、词性和上下文组合也可以被看做是识别出命名实体可以采用的特征。

 \parinterval 从统计建模的角度看，特征的形式可以非常灵活。比如，可以分为连续型特征和离散型特征，前者通常用于表示取值蕴含数值大小关系的信息，如人的身高和体重，后者通常用于表示取值不蕴含数值大小关系的信息，例如人的性别。正是由于这种灵活性，系统开发者可以通过定义多样的特征从多个不同的角度对目标问题进行建模。而这种设计特征的过程也被称作{\small\bfnew{特征工程}}\index{特征工程}（Feature Engineering）\index{Feature Engineering}。

@@ -319,14 +313,18 @@ $计算这种切分的概率值。
 \parinterval 在相当长的一段时期内，基于特征工程的方法都是自然语言处理领域的主流范式。虽然深度学习技术的进步使得系统研发人员可以逐步摆脱繁重的特征设计工作。但是很多传统的模型和方法在今天仍然被广泛使用。比如，在当今最先进的序列标注模型中\upcite{lample2016neural}，本节即将介绍的条件随机场模型仍然是一个主要部件。

 %----------------------------------------------------------------------------------------
-%    NEW SUBSUB-SECTION
+%    NEW SUB-SECTION
 %----------------------------------------------------------------------------------------

-\subsubsection{2. 经典概率图模型}
+\subsection{基于概率图模型的方法}

-\vspace{0.5em}
-\noindent a) {\small\bfnew{隐马尔可夫模型}}
-\vspace{0.5em}
+\parinterval {\small\bfnew{概率图模型}}\index{概率图模型}（Probabilistic Graphical Model）\index{Probabilistic Graphical Model}是使用图表示变量及变量间概率依赖关系的方法。在概率图模型中，可以根据可观测变量推测出未知变量的条件概率分布等信息。如果把序列标注任务中的输入序列看作观测变量，而把输出序列看作需要预测的未知变量，那么就可以把概率图模型应用于命名实体识别等序列标注任务。
+
+%----------------------------------------------------------------------------------------
+%    NEW SUBSUB-SECTION
+%----------------------------------------------------------------------------------------
+
+\subsubsection{1. 隐马尔可夫模型}

 \parinterval 隐马尔可夫模型是一种经典的序列模型\upcite{Baum1966Statistical,baum1970maximization}。它在语音识别、自然语言处理的很多领域得到了广泛的应用。隐马尔可夫模型的本质概率化的马尔可夫过程，这个过程隐含着状态间转移和可见状态生成的概率。

@@ -442,9 +440,12 @@ $计算这种切分的概率值。
 \end{figure}
 %-------------------------------------------

-\vspace{0.5em}
-\noindent b) {\small\bfnew{条件随机场}}
-\vspace{0.5em}
+%----------------------------------------------------------------------------------------
+%    NEW SUBSUB-SECTION
+%----------------------------------------------------------------------------------------
+
+\subsubsection{2. 条件随机场}
+

 \parinterval 隐马尔可夫模型有一个很强的假设：一个隐藏状态出现的概率仅由上一个隐藏状态决定。这个假设也会带来一些问题。举一个例子：在某个隐马尔可夫模型中，隐藏状态集合为\{A, B, C, D\}，可见状态集合为\{T, F\}。其中隐藏状态A可能的后继隐藏状态集合为\{A, B\}，隐藏状态B可能的后继隐藏状态集合为\{A, B, C, D\}，于是有：


--- a/ChapterPreface/chapterpreface.tex
+++ b/ChapterPreface/chapterpreface.tex
@@ -46,7 +46,7 @@

 \vspace{0.5em}

-本书全面回顾了近三十年内机器翻译的技术发展历程，并围绕{\sffamily\bfseries 机器翻译的统计建模}这一主题对机器翻译的技术方法进行了全面介绍。在写作中，笔者力求用朴实的语言和简洁的实例阐述机器翻译的基本模型，同时对相关的技术前沿进行讨论。其中也会涉及大量的实践经验，包括许多机器翻译系统开发的细节。从这个角度来说，本书不单单是一本理论书籍，它还结合了机器翻译的应用，给读者提供了很多机器翻译技术落地的具体思路。
+本书全面回顾了近三十年内机器翻译的技术发展历程，并围绕{\sffamily\bfseries 机器翻译的建模}这一主题对机器翻译的技术方法进行了全面介绍。在写作中，笔者力求用朴实的语言和简洁的实例阐述机器翻译的基本模型，同时对相关的技术前沿进行讨论。其中也会涉及大量的实践经验，包括许多机器翻译系统开发的细节。从这个角度来说，本书不单单是一本理论书籍，它还结合了机器翻译的应用，给读者提供了很多机器翻译技术落地的具体思路。

 本书可以供计算机相关专业高年级本科生及研究生学习之用，也可以作为自然语言处理领域，特别是机器翻译方向相关研究人员的参考资料。此外，本书各章的主题都十分明确，内容也相对集中。因此，读者也可将每章作为某一专题的学习资料。