Commit 74a4f5eb by 曹润柘

合并分支 'caorunzhe' 到 'master'

Caorunzhe

查看合并请求 !266
parents 126123a0 8d14b61a
...@@ -240,7 +240,7 @@ F(x)=\int_{-\infty}^x f(x)\textrm{d}x ...@@ -240,7 +240,7 @@ F(x)=\int_{-\infty}^x f(x)\textrm{d}x
\label{eq:2-13} \label{eq:2-13}
\end{eqnarray} \end{eqnarray}
\noindent 其中,$x$$X$的一个取值,$\funp{P}(x)$表示$x$发生的概率。自信息用来衡量单一事件发生时所包含的信息多少,当底数为e时,单位为nats,其中1nats是通过观察概率为$\frac{1}{\textrm{e}}$的事件而获得的信息量;当底数为2时,单位为bits或shannons。$\funp{I}(x)$$\funp{P}(x)$的函数关系如图\ref{fig:2-4} 所示。 \noindent 其中,$x$$X$的一个取值,$\funp{P}(x)$表示$x$发生的概率。自信息用来衡量单一事件发生时所包含的信息多少,当底数为e时,单位为nats,其中1nats是通过观察概率为$1/\textrm{e}$的事件而获得的信息量;当底数为2时,单位为bits或shannons。$\funp{I}(x)$$\funp{P}(x)$的函数关系如图\ref{fig:2-4} 所示。
%---------------------------------------------- %----------------------------------------------
\begin{figure}[htp] \begin{figure}[htp]
...@@ -576,7 +576,7 @@ F(x)=\int_{-\infty}^x f(x)\textrm{d}x ...@@ -576,7 +576,7 @@ F(x)=\int_{-\infty}^x f(x)\textrm{d}x
\label{eq:2-27} \label{eq:2-27}
\end{eqnarray} \end{eqnarray}
\noindent 其中,$V$表示词表,$|V|$为词表中单词的个数,$w$为词表中的一个词,count表示统计单词或短语出现的次数。有时候,加法平滑方法会将$\theta$取1,这时称之为加一平滑或是拉普拉斯平滑。这种方法比较容易理解,也比较简单,因此也往往被用于对系统的快速原型中。 \noindent 其中,$V$表示词表,$|V|$为词表中单词的个数,$w$为词表中的一个词,c表示统计单词或短语出现的次数。有时候,加法平滑方法会将$\theta$取1,这时称之为加一平滑或是拉普拉斯平滑。这种方法比较容易理解,也比较简单,因此也往往被用于对系统的快速原型中。
\parinterval 举一个例子。假设在一个英语文档中随机采样一些单词(词表大小$|V|=20$),各个单词出现的次数为:“look”出现4次,“people”出现3次,“am”出现2次,“what”出现1次,“want”出现1次,“do”出现1次。图\ref{fig:2-12} 给出了在平滑之前和平滑之后的概率分布。 \parinterval 举一个例子。假设在一个英语文档中随机采样一些单词(词表大小$|V|=20$),各个单词出现的次数为:“look”出现4次,“people”出现3次,“am”出现2次,“what”出现1次,“want”出现1次,“do”出现1次。图\ref{fig:2-12} 给出了在平滑之前和平滑之后的概率分布。
...@@ -672,7 +672,7 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\ ...@@ -672,7 +672,7 @@ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\
\label{eq:2-33} \label{eq:2-33}
\end{eqnarray} \end{eqnarray}
\noindent 其中$d$表示被裁剪的值,$\lambda$是一个正则化常数$c(\cdot)$是count$(\cdot)$的缩写。可以看到第一项是经过减值调整后的2-gram的概率值,第二项则相当于一个带权重$\lambda$的1-gram的插值项。然而这种插值模型极易受到原始1-gram 模型$\funp{P}(w_{i})$的干扰。 \noindent 其中$d$表示被裁剪的值,$\lambda$是一个正则化常数。可以看到第一项是经过减值调整后的2-gram的概率值,第二项则相当于一个带权重$\lambda$的1-gram的插值项。然而这种插值模型极易受到原始1-gram 模型$\funp{P}(w_{i})$的干扰。
\parinterval 假设这里使用2-gram和1-gram的插值模型预测下面句子中下划线处的词 \parinterval 假设这里使用2-gram和1-gram的插值模型预测下面句子中下划线处的词
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论