Commit 008f5142 by 孟霞

更新 chapter3.tex

parent 3ff45af7
......@@ -345,7 +345,7 @@ $计算这种切分的概率值。
\parinterval 由于隐含状态序列之间存在转移概率,并且隐马尔可夫模型中隐含状态和可见状态之间存在着发射概率,因此根据可见状态的转移猜测隐含状态序列并非无迹可循。图\ref{fig:3.3-3}描述了如何使用隐马尔可夫模型来根据“抛硬币”结果推测挑选的硬币序列。可见,通过隐含状态之间的联系(绿色方框及它们之间的连线)可以对有序的状态进行描述,进而得到隐含状态序列所对应的可见状态序列(红色圆圈)。
\parinterval 从统计建模的角度看,上述过程本质上是在描述隐含状态和可见状态出现的联合概率。这里,用$\seq{X}=(x_1,...,x_m)$表示可见状态序列,用$\seq{Y}=(y_1,...,y_m)$表示隐含状态序列。(一阶)隐马尔可夫模型假设:
\parinterval 从统计建模的角度看,上述过程本质上是在描述隐含状态和可见状态出现的联合概率。这里,用$\seq{x}=(x_1,...,x_m)$表示可见状态序列,用$\seq{y}=(y_1,...,y_m)$表示隐含状态序列。(一阶)隐马尔可夫模型假设:
\begin{itemize}
\vspace{0.5em}
......@@ -355,9 +355,9 @@ $计算这种切分的概率值。
\vspace{0.5em}
\end{itemize}
于是,联合概率$\funp{P}(\seq{X},\seq{Y})$可以被定义为:
于是,联合概率$\funp{P}(\seq{x},\seq{y})$可以被定义为:
\begin{eqnarray}
\funp{P}(\seq{X},\seq{Y}) & = & \funp{P}(\seq{X}|\seq{Y})\funp{P}(\seq{Y}) \nonumber \\
\funp{P}(\seq{x},\seq{y}) & = & \funp{P}(\seq{x}|\seq{y})\funp{P}(\seq{y}) \nonumber \\
& = & \funp{P}(x_1,...,x_m|y_1,...,y_m) \funp{P}(y_1,...,y_m) \nonumber \\
& = & \prod_{i=1}^{m} \funp{P}(x_i|x_1,...,x_{i-1},y_1,...,y_m) \prod_{i=1}^{m} \funp{P}(y_i | y_{i-1}) \nonumber \\
& = & \prod_{i=1}^{m} \funp{P}(x_i|y_i) \prod_{i=1}^{m} \funp{P}(y_i | y_{i-1}) \nonumber \\
......@@ -409,22 +409,22 @@ $计算这种切分的概率值。
\noindent 其中,${\rm{count}}()$统计训练集中某种现象出现的次数。
\parinterval 在获得转移概率和发射概率的基础上,对于一个句子进行命名实体识别可以被描述为:在观测序列$\seq{X}$(可见状态,即输入的词序列)的条件下,最大化标签序列$\seq{Y}$(隐含状态,即标记序列)的概率,即:
\parinterval 在获得转移概率和发射概率的基础上,对于一个句子进行命名实体识别可以被描述为:在观测序列$\seq{x}$(可见状态,即输入的词序列)的条件下,最大化标签序列$\seq{y}$(隐含状态,即标记序列)的概率,即:
\begin{eqnarray}
\hat{\seq{Y}} = \arg\max_{\seq{Y}}\funp{P}(\seq{Y}|\seq{X})
\hat{\seq{y}} = \arg\max_{\seq{y}}\funp{P}(\seq{y}|\seq{x})
\label{eq:3.3-3}
\end{eqnarray}
\parinterval 根据贝叶斯定理,该概率被分解为$\funp{P}(\seq{Y}|\seq{X})=\frac{\funp{P}(\seq{X},\seq{Y})}{\funp{P}(\seq{X})}$,其中$\funp{P}(\seq{X})$是固定概率,因为$\seq{X}$在这个过程中是确定的不变量。因此只需考虑如何求解分子,即将求条件概率$\funp{P}(\seq{Y}|\seq{X})$的问题转化为求联合概率$\funp{P}(\seq{Y},\seq{X})$的问题:
\parinterval 根据贝叶斯定理,该概率被分解为$\funp{P}(\seq{y}|\seq{x})=\frac{\funp{P}(\seq{x},\seq{y})}{\funp{P}(\seq{x})}$,其中$\funp{P}(\seq{x})$是固定概率,因为$\seq{x}$在这个过程中是确定的不变量。因此只需考虑如何求解分子,即将求条件概率$\funp{P}(\seq{y}|\seq{x})$的问题转化为求联合概率$\funp{P}(\seq{y},\seq{x})$的问题:
\begin{eqnarray}
\hat{\seq{Y}} = \arg\max_{\seq{Y}}\funp{P}(\seq{X},\seq{Y}) \label{eq:markov-sequence-argmax}
\hat{\seq{y}} = \arg\max_{\seq{y}}\funp{P}(\seq{x},\seq{y}) \label{eq:markov-sequence-argmax}
\label{eq:3.3-4}
\end{eqnarray}
\parinterval 将式(\eqref{eq:joint-prob-xy})带入式(\eqref{eq:markov-sequence-argmax})可以得到最终计算公式,如下:
\begin{eqnarray}
\hat{\seq{Y}} = \arg\max_{\seq{Y}}\prod_{i=1}^{m}\funp{P}(x_i|y_i)\funp{P}(y_i|y_{i-1})
\hat{\seq{y}} = \arg\max_{\seq{y}}\prod_{i=1}^{m}\funp{P}(x_i|y_i)\funp{P}(y_i|y_{i-1})
\label{eq:3.3-5}
\end{eqnarray}
......@@ -465,25 +465,25 @@ $计算这种切分的概率值。
\end{figure}
%-------------------------------------------
\parinterval 上述现象也被称作{\small\bfnew{标注偏置}}\index{标注偏置}(Label Bias)\index{Label Bias}。条件随机场模型在隐马尔可夫模型的基础上,解决了这个问题\upcite{lafferty2001conditional}。在条件随机场模型中,以全局范围的统计归一化代替了隐马尔可夫模型中的局部归一化。除此之外,条件随机场模型中并非使用概率计算而是特征函数的方式对可见状态序列$\seq{X}$对应的隐含状态序列$\seq{Y}$的概率进行计算。
\parinterval 上述现象也被称作{\small\bfnew{标注偏置}}\index{标注偏置}(Label Bias)\index{Label Bias}。条件随机场模型在隐马尔可夫模型的基础上,解决了这个问题\upcite{lafferty2001conditional}。在条件随机场模型中,以全局范围的统计归一化代替了隐马尔可夫模型中的局部归一化。除此之外,条件随机场模型中并非使用概率计算而是特征函数的方式对可见状态序列$\seq{x}$对应的隐含状态序列$\seq{y}$的概率进行计算。
\parinterval 条件随机场中一般有若干个特征函数,都是经过设计的、能够反映序列规律的一些二元函数\footnote{二元函数的函数值一般非1即0},并且每个特征函数都有其对应的权重$\lambda$。特征函数一般由两部分组成:能够反映隐含状态序列之间转移规则的转移特征$t(y_{i-1},y_i,\seq{X},i)$和状态特征$s(y_i,\seq{X},i)$。其中$y_i$$y_{i-1}$分别是位置$i$和前一个位置的隐含状态,$\seq{X}$则是可见状态序列。转移特征$t(y_{i-1},y_i,\seq{X},i)$反映了两个相邻的隐含状态之间的转换关系,而状态特征$s(y_i,\seq{X},i)$则反映了第$i$个可见状态应该对应什么样的隐含状态,这两部分共同组成了一个特征函数$F(y_{i-1},y_i,\seq{X},i)$,即
\parinterval 条件随机场中一般有若干个特征函数,都是经过设计的、能够反映序列规律的一些二元函数\footnote{二元函数的函数值一般非1即0},并且每个特征函数都有其对应的权重$\lambda$。特征函数一般由两部分组成:能够反映隐含状态序列之间转移规则的转移特征$t(y_{i-1},y_i,\seq{x},i)$和状态特征$s(y_i,\seq{x},i)$。其中$y_i$$y_{i-1}$分别是位置$i$和前一个位置的隐含状态,$\seq{x}$则是可见状态序列。转移特征$t(y_{i-1},y_i,\seq{x},i)$反映了两个相邻的隐含状态之间的转换关系,而状态特征$s(y_i,\seq{x},i)$则反映了第$i$个可见状态应该对应什么样的隐含状态,这两部分共同组成了一个特征函数$F(y_{i-1},y_i,\seq{x},i)$,即
\begin{eqnarray}
F(y_{i-1},y_i,\seq{X},i) & = & t(y_{i-1},y_i,\seq{X},i)+s(y_i,\seq{X},i)
F(y_{i-1},y_i,\seq{x},i) & = & t(y_{i-1},y_i,\seq{x},i)+s(y_i,\seq{x},i)
\label{eq:3.3-8}
\end{eqnarray}
\parinterval 实际上,基于特征函数的方法更像是对隐含状态序列的一种打分:根据人为设计的模板(特征函数),测试隐含状态之间的转换以及隐含状态与可见状态之间的对应关系是否符合这种模板。在处理序列问题时,假设可见状态序列$\seq{X}$的长度和待预测隐含状态序列$\seq{Y}$的长度均为$m$,且共设计了$k$个特征函数,则有:
\parinterval 实际上,基于特征函数的方法更像是对隐含状态序列的一种打分:根据人为设计的模板(特征函数),测试隐含状态之间的转换以及隐含状态与可见状态之间的对应关系是否符合这种模板。在处理序列问题时,假设可见状态序列$\seq{x}$的长度和待预测隐含状态序列$\seq{y}$的长度均为$m$,且共设计了$k$个特征函数,则有:
\begin{eqnarray}
\funp{P}(\seq{Y}|\seq{X}) & = & \frac{1}{Z(\seq{X})}\exp(\sum_{i=1}^m\sum_{j=1}^{k}\lambda_{j}F_{j}(y_{i-1},y_i,\seq{X},i))
\funp{P}(\seq{y}|\seq{x}) & = & \frac{1}{Z(\seq{x})}\exp(\sum_{i=1}^m\sum_{j=1}^{k}\lambda_{j}F_{j}(y_{i-1},y_i,\seq{x},i))
\label{eq:3.3-9}
\end{eqnarray}
\parinterval 公式(\eqref{eq:3.3-9})中的$Z(X)$即为上面提到的实现全局统计归一化的归一化因子,其计算方式为:
\parinterval 公式(\eqref{eq:3.3-9})中的$Z(x)$即为上面提到的实现全局统计归一化的归一化因子,其计算方式为:
\begin{eqnarray}
Z(\seq{X})=\sum_{\seq{Y}}\exp(\sum_{i=1}^m\sum_{j=1}^k\lambda_{j}F_{j}(y_{i-1},y_i,\seq{X},i))
Z(\seq{x})=\sum_{\seq{y}}\exp(\sum_{i=1}^m\sum_{j=1}^k\lambda_{j}F_{j}(y_{i-1},y_i,\seq{x},i))
\label{eq:3.3-10}
\end{eqnarray}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论