Commit 9f2c99d6 by zhoutao

合并分支 'zhoutao' 到 'caorunzhe'

chapter 3 eqref

查看合并请求 !207
parents 36de48c1 db4ce6f1
......@@ -364,7 +364,7 @@ $计算这种切分的概率值。
& = & \prod_{i=1}^{m} \funp{P}(x_i|y_i) \funp{P}(y_i | y_{i-1}) \label{eq:joint-prob-xy}
\end{eqnarray}
\noindent 这里,$y_{0}$表示一个虚拟的隐含状态。这样,可以定义$\funp{P}(y_1|y_{0}) \equiv \funp{P}(y_1)$,它表示起始隐含状态出现的概率。隐马尔可夫模型的假设也大大化简了问题,因此可以通过式(\ref{eq:joint-prob-xy})很容易地计算隐含状态序列和可见状态序列出现的概率。值得注意的是,发射概率和转移概率都可以被看作是描述序列生成过程的“特征”。但是,这些“特征”并不是随意定义的,而是符合问题的概率解释。而这种基于事件发生的逻辑所定义的概率生成模型,通常可以被看作是一种{\small\bfnew{生成式模型}}\index{生成式模型}(Generative Model)\index{Generative Model}
\noindent 这里,$y_{0}$表示一个虚拟的隐含状态。这样,可以定义$\funp{P}(y_1|y_{0}) \equiv \funp{P}(y_1)$,它表示起始隐含状态出现的概率。隐马尔可夫模型的假设也大大化简了问题,因此可以通过式(\eqref{eq:joint-prob-xy})很容易地计算隐含状态序列和可见状态序列出现的概率。值得注意的是,发射概率和转移概率都可以被看作是描述序列生成过程的“特征”。但是,这些“特征”并不是随意定义的,而是符合问题的概率解释。而这种基于事件发生的逻辑所定义的概率生成模型,通常可以被看作是一种{\small\bfnew{生成式模型}}\index{生成式模型}(Generative Model)\index{Generative Model}
%----------------------------------------------
\begin{figure}[htp]
......@@ -421,7 +421,7 @@ $计算这种切分的概率值。
\label{eq:3.3-4}
\end{eqnarray}
\parinterval 将式(\ref{eq:joint-prob-xy})带入式(\ref{eq:markov-sequence-argmax})可以得到最终计算公式,如下:
\parinterval 将式(\eqref{eq:joint-prob-xy})带入式(\eqref{eq:markov-sequence-argmax})可以得到最终计算公式,如下:
\begin{eqnarray}
\hat{\seq{Y}} = \arg\max_{\seq{Y}}\prod_{i=1}^{m}\funp{P}(x_i|y_i)\funp{P}(y_i|y_{i-1})
......@@ -452,7 +452,7 @@ $计算这种切分的概率值。
\funp{P}(A|B)+\funp{P}(B|B)+\funp{P}(C|B)+\funp{P}(D|B) & = & 1 \label{eq:3.3-7}
\end{eqnarray}
\noindent 其中,$\funp{P}(b|a)$表示由状态$a$转移到状态$b$的概率,由于式(\ref{eq:3.3-6})中的分式数量少于式(\ref{eq:3.3-7}),这就导致在统计中获得的$\funp{P}(A|A)$$\funp{P}(A|B)$的值很可能会比$\funp{P}(A|B)$$\funp{P}(B|B)$$\funp{P}(C|B)$$\funp{P}(D|B)$要大。
\noindent 其中,$\funp{P}(b|a)$表示由状态$a$转移到状态$b$的概率,由于式(\eqref{eq:3.3-6})中的分式数量少于式(\eqref{eq:3.3-7}),这就导致在统计中获得的$\funp{P}(A|A)$$\funp{P}(A|B)$的值很可能会比$\funp{P}(A|B)$$\funp{P}(B|B)$$\funp{P}(C|B)$$\funp{P}(D|B)$要大。
\parinterval\ref{fig:3.3-5}展示了一个具体的例子,有一个可见状态序列$T F F T$,假设初始隐含状态是$A$,图中线上的概率值是对应的转移概率与发射概率的乘积,比如图中隐含状态$A$开始,下一个隐含状态是$A$且可见状态是$F$的概率是0.45,下一个隐含状态是$B$且可见状态是$F$的概率是0.55。图中可以看出,由于有较大的值,当可见状态序列为$T F F T$时,隐马尔可夫计算出的最有可能的隐含状态序列为$A A A A$。但是如果对训练集进行统计可能会发现,当可见序列为$T F F T$ 时,对应的隐含状态是$A A A A$的概率可能是比较大的,但也可能是比较小的。这个例子中出现预测偏差的主要原因是:由于比其他状态转移概率要大得多,隐含状态的预测一直停留在状态$A$
......@@ -480,14 +480,14 @@ F(y_{i-1},y_i,\seq{X}) & = & t(y_{i-1},y_i,\seq{X},i)+s(y_i,\seq{X},i)
\label{eq:3.3-9}
\end{eqnarray}
\parinterval 公式(\ref{eq:3.3-9})中的$Z(X)$即为上面提到的实现全局统计归一化的归一化因子,其计算方式为:
\parinterval 公式(\eqref{eq:3.3-9})中的$Z(X)$即为上面提到的实现全局统计归一化的归一化因子,其计算方式为:
\begin{eqnarray}
Z(\seq{X})=\sum_{\seq{Y}}\exp(\sum_{i=1}^m\sum_{j=1}^k\lambda_{j}F_{j}(y_{i-1},y_i,x,i))
\label{eq:3.3-10}
\end{eqnarray}
\parinterval 由公式(\ref{eq:3.3-10})可以看出,归一化因子的求解依赖于整个可见状态序列和每个位置的隐含状态,因此条件随机场模型中的归一化是一种全局范围的归一化方式。图\ref{fig:3.3-6}为条件随机场模型处理序列问题的示意图。
\parinterval 由公式(\eqref{eq:3.3-10})可以看出,归一化因子的求解依赖于整个可见状态序列和每个位置的隐含状态,因此条件随机场模型中的归一化是一种全局范围的归一化方式。图\ref{fig:3.3-6}为条件随机场模型处理序列问题的示意图。
%----------------------------------------------
\begin{figure}[htp]
......@@ -498,7 +498,7 @@ Z(\seq{X})=\sum_{\seq{Y}}\exp(\sum_{i=1}^m\sum_{j=1}^k\lambda_{j}F_{j}(y_{i-1},y
\end{figure}
%-------------------------------------------
\parinterval 虽然,式(\ref{eq:3.3-9})和式(\ref{eq:3.3-10})的表述相较于隐马尔可夫模型更加复杂,但是其实现有非常高效的方式。比如,可以使用动态规划方法完成整个条件随机场模型的计算,具体方法读者可以参看参考文献\cite{lafferty2001conditional}
\parinterval 虽然,式(\eqref{eq:3.3-9})和式(\eqref{eq:3.3-10})的表述相较于隐马尔可夫模型更加复杂,但是其实现有非常高效的方式。比如,可以使用动态规划方法完成整个条件随机场模型的计算,具体方法读者可以参看参考文献\cite{lafferty2001conditional}
\parinterval 条件随机场模型处理命名实体识别任务时,可见状态序列对应着文本内容,隐含状态序列对应着待预测的标签。对于命名实体识别任务,需要单独设计若干适合命名实体识别任务的特征函数。例如在使用BIOES标准标注命名实体识别任务时,标签“B-ORG”\footnote{ORG表示机构实体}后面的标签必然是“I-ORG”或是“E-ORG”,而不可能是“O”,针对此规则可以设计相应特征函数。
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论