Commit 867f95dd by xiaotong

bug fixes and update of HMMs

parent 3edd2773
...@@ -18,7 +18,7 @@ ...@@ -18,7 +18,7 @@
\parinterval 语言分析部分将以汉语为例介绍词法和句法分析。它们都是自然语言处理中的基本问题,而且在机器翻译中也会经常被使用。同样,我们会介绍这两个任务的定义和解决问题的思路。 \parinterval 语言分析部分将以汉语为例介绍词法和句法分析。它们都是自然语言处理中的基本问题,而且在机器翻译中也会经常被使用。同样,我们会介绍这两个任务的定义和解决问题的思路。
\parinterval 语言建模是机器翻译中最常用的一种技术,它主要用于句子的生成和流畅度评价。我们会以传统统计语言模型为例,对语言建模的相关概念进行介绍。但是,这里并不深入探讨语言模型技术,在后面的章节中还有会单独的内容对神经网络语言模型等前沿技术进行讨论。\\ \\ \\ \\ \parinterval 语言建模是机器翻译中最常用的一种技术,它主要用于句子的生成和流畅度评价。我们会以传统统计语言模型为例,对语言建模的相关概念进行介绍。但是,这里并不深入探讨语言模型技术,在后面的章节中还有会单独的内容对神经网络语言模型等前沿技术进行讨论。\\ \\ \\ \\
%--问题概述----------------------------------------- %--问题概述-----------------------------------------
\section{问题概述 }\index{Chapter2.1} \section{问题概述 }\index{Chapter2.1}
...@@ -40,7 +40,7 @@ ...@@ -40,7 +40,7 @@
% 图2.2 % 图2.2
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\input{./Chapter2/Figures/figure-analysis-of-sentence-participle&syntactic} \input{./Chapter2/Figures/figure-analysis-of-sentence-participle&syntactic}
\caption{中文句子``猫喜欢吃鱼''的分析结果(分词和句法分析)} \caption{中文句子``猫喜欢吃鱼''的分析结果(分词和句法分析)}
\label{fig:analysis-of-sentence-participle&syntactic} \label{fig:analysis-of-sentence-participle&syntactic}
\end{figure} \end{figure}
...@@ -107,7 +107,7 @@ ...@@ -107,7 +107,7 @@
% 图2.3 % 图2.3
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\input{./Chapter2/Figures/figure-Probability-density-function&Distribution-function} \input{./Chapter2/Figures/figure-Probability-density-function&Distribution-function}
\caption{一个概率密度函数(左)与其对应的分布函数(右)} \caption{一个概率密度函数(左)与其对应的分布函数(右)}
\label{fig:Probability-density-function&Distribution-function} \label{fig:Probability-density-function&Distribution-function}
\end{figure} \end{figure}
...@@ -241,7 +241,7 @@ ...@@ -241,7 +241,7 @@
\begin{eqnarray} \begin{eqnarray}
{\textrm{P}(L)} &=& {\textrm{P}( L| S_a )\textrm{P}(S_a )+\textrm{P}( L| S_b )\textrm{P}(S_b )+\textrm{P}( L| S_c )\textrm{P}(S_c )}\nonumber \\ {\textrm{P}(L)} &=& {\textrm{P}( L| S_a )\textrm{P}(S_a )+\textrm{P}( L| S_b )\textrm{P}(S_b )+\textrm{P}( L| S_c )\textrm{P}(S_c )}\nonumber \\
& = &{\textrm{P}({S_{a}^{'}})\textrm{P}(S_a)+\textrm{P}({S_{b}^{'}})\textrm{P}(S_b)+\textrm{P}({S_{c}^{'}})\textrm{P}(S_c) }\nonumber \\ & = &{\textrm{P}({S_{a}^{'}})\textrm{P}(S_a)+\textrm{P}({S_{b}^{'}})\textrm{P}(S_b)+\textrm{P}({S_{c}^{'}})\textrm{P}(S_c) }\nonumber \\
& = &{0.36}\nonumber & = &{0.36}\nonumber
\end{eqnarray} \end{eqnarray}
%-------------------------------------------- %--------------------------------------------
...@@ -396,7 +396,7 @@ ...@@ -396,7 +396,7 @@
\parinterval 从语言学的角度,普遍认为词是可以单独运用的、包含意义的基本单位。我们使用有限的词可以组合出无限的句子,这也正体现出自然语言的奇妙之处。 \parinterval 从语言学的角度,普遍认为词是可以单独运用的、包含意义的基本单位。我们使用有限的词可以组合出无限的句子,这也正体现出自然语言的奇妙之处。
\parinterval 不过,机器翻译并不仅仅局限在语言学定义的单词,因此机器翻译系统所使用的分词也不仅仅把句子按照词切开,比如,神经机器翻译中广泛使用的BPE子词切分方法,可以被理解为将词的一部分也进行切开,也就是得到词片段送给机器翻译系统使用。比如,对如下英文字符串,可以得到如下切分结果 \parinterval 不过,机器翻译并不仅仅局限在语言学定义的单词,因此机器翻译系统所使用的分词也不仅仅把句子按照词切开,比如,神经机器翻译中广泛使用的BPE子词切分方法,可以被理解为将词的一部分也进行切开,也就是得到词片段送给机器翻译系统使用。比如,对如下英文字符串,可以得到如下切分结果
\parinterval Interesting \; -> \; Interest/ing selection \;->\;se/lect/ion procession \hspace{0.23em} -> \; pro/cess/ion \parinterval Interesting \; -> \; Interest/ing selection \;->\;se/lect/ion procession \hspace{0.23em} -> \; pro/cess/ion
...@@ -686,7 +686,7 @@ ...@@ -686,7 +686,7 @@
\rule{0pt}{10pt} $\textrm{P}(w_3|w_1 w_2)\times$ & $\textrm{P}(w_3)\times$ & $\textrm{P}(w_3|w_2)\times$ & $...$ & $\textrm{P}(w_3|w_1 w_2)\times$ \\ \rule{0pt}{10pt} $\textrm{P}(w_3|w_1 w_2)\times$ & $\textrm{P}(w_3)\times$ & $\textrm{P}(w_3|w_2)\times$ & $...$ & $\textrm{P}(w_3|w_1 w_2)\times$ \\
\rule{0pt}{10pt} $\textrm{P}(w_4|w_1 w_2 w_3)\times$ & $\textrm{P}(w_4)\times$ & $\textrm{P}(w_4|w_3)\times$ & $...$ & $\textrm{P}(w_4|w_1 w_2 w_3)\times$ \\ \rule{0pt}{10pt} $\textrm{P}(w_4|w_1 w_2 w_3)\times$ & $\textrm{P}(w_4)\times$ & $\textrm{P}(w_4|w_3)\times$ & $...$ & $\textrm{P}(w_4|w_1 w_2 w_3)\times$ \\
\rule{0pt}{10pt} $...$ & $...$ & $...$ & $...$ & $...$ \\ \rule{0pt}{10pt} $...$ & $...$ & $...$ & $...$ & $...$ \\
\rule{0pt}{10pt} $\textrm{P}(w_m|w_1 ... w_{m-1})$ & $\textrm{P}(w_m)$ & $\textrm{P}(w_m|w_{m-1})$ & $...$ & $\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$ \rule{0pt}{10pt} $\textrm{P}(w_m|w_1 ... w_{m-1})$ & $\textrm{P}(w_m)$ & $\textrm{P}(w_m|w_{m-1})$ & $...$ & $\textrm{P}(w_m|w_{m-n+1} ... w_{m-1})$
\end{tabular} \end{tabular}
} }
\end{table} \end{table}
...@@ -709,7 +709,7 @@ ...@@ -709,7 +709,7 @@
\parinterval 使用$n$-gram语言模型非常简单。我们可以像2.3.2节中一样,直接用它来对词序列出现的概率进行计算。比如,可以使用一个2-gram语言模型计算一个分词序列的概率 \parinterval 使用$n$-gram语言模型非常简单。我们可以像2.3.2节中一样,直接用它来对词序列出现的概率进行计算。比如,可以使用一个2-gram语言模型计算一个分词序列的概率
\begin{eqnarray} \begin{eqnarray}
& &\textrm{P}_{2-gram}{(\textrm{``确实}/\textrm{现在}/\textrm{数据}/\textrm{}/\textrm{多''})} \nonumber \\ & &\textrm{P}_{2-gram}{(\textrm{``确实}/\textrm{现在}/\textrm{数据}/\textrm{}/\textrm{多''})} \nonumber \\
&= & \textrm{P}(\textrm{``确实''}) \times\textrm{P}(\textrm{``现在''}|\textrm{``确实''})\times\textrm{P}(\textrm{``数据''}|\textrm{``现在''}) \nonumber \\ &= & \textrm{P}(\textrm{``确实''}) \times\textrm{P}(\textrm{``现在''}|\textrm{``确实''})\times\textrm{P}(\textrm{``数据''}|\textrm{``现在''}) \nonumber \\
& \times & \textrm{P}(\textrm{``很''}|\textrm{``数据''})\times\textrm{P}(\textrm{``多''}|\textrm{``很''}) & \times & \textrm{P}(\textrm{``很''}|\textrm{``数据''})\times\textrm{P}(\textrm{``多''}|\textrm{``很''})
\label{eqC2.30-new} \label{eqC2.30-new}
...@@ -723,7 +723,7 @@ ...@@ -723,7 +723,7 @@
\parinterval 在式\ref{eqC2.30-new}的例子中,如果语料中从没有``确实''和``现在''两个词连续出现的情况,那么使用2-gram计算``确实/现在/数据/很/多''的切分方式的概率时,会出现如下情况 \parinterval 在式\ref{eqC2.30-new}的例子中,如果语料中从没有``确实''和``现在''两个词连续出现的情况,那么使用2-gram计算``确实/现在/数据/很/多''的切分方式的概率时,会出现如下情况
\begin{eqnarray} \begin{eqnarray}
\textrm{P}(\textrm{``现在''}|\textrm{``确实''}) & = & \frac{\textrm{count}(\textrm{``确实}\,\textrm{现在''})}{\textrm{count}(\textrm{``确实''})} \nonumber \\ \textrm{P}(\textrm{``现在''}|\textrm{``确实''}) & = & \frac{\textrm{count}(\textrm{``确实}\,\textrm{现在''})}{\textrm{count}(\textrm{``确实''})} \nonumber \\
& = & \frac{0}{\textrm{count}(\textrm{``确实''})} \nonumber \\ & = & \frac{0}{\textrm{count}(\textrm{``确实''})} \nonumber \\
& = & 0 & = & 0
\label{eqC2.31-new} \label{eqC2.31-new}
\end{eqnarray} \end{eqnarray}
...@@ -772,7 +772,7 @@ ...@@ -772,7 +772,7 @@
% 图2.19 % 图2.19
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\input{./Chapter2/Figures/figure-no-smoothing&smoothed-probability-distributions} \input{./Chapter2/Figures/figure-no-smoothing&smoothed-probability-distributions}
\caption{无平滑和有平滑后的概率分布} \caption{无平滑和有平滑后的概率分布}
\label{fig:no-smoothing&smoothed-probability-distributions} \label{fig:no-smoothing&smoothed-probability-distributions}
\end{figure} \end{figure}
...@@ -798,7 +798,7 @@ r^* = (r + 1)\frac{n_{r + 1}}{n_r} ...@@ -798,7 +798,7 @@ r^* = (r + 1)\frac{n_{r + 1}}{n_r}
\parinterval 基于这个公式,就可以估计所有0次$n$元语法的频次$n_0 r_0^*=(r_0+1)n_1=n_1$。要把这个重新估计的统计数转化为概率,只需要进行归一化处理:对于每个统计数为$r$的事件,其概率为$\textrm{P}_r=r^*/N$,其中 \parinterval 基于这个公式,就可以估计所有0次$n$元语法的频次$n_0 r_0^*=(r_0+1)n_1=n_1$。要把这个重新估计的统计数转化为概率,只需要进行归一化处理:对于每个统计数为$r$的事件,其概率为$\textrm{P}_r=r^*/N$,其中
\begin{eqnarray} \begin{eqnarray}
N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\ N & = & \sum_{r=0}^{\infty}{r^{*}n_r} \nonumber \\
& = & \sum_{r=0}^{\infty}{(r + 1)n_{r + 1}} \nonumber \\ & = & \sum_{r=0}^{\infty}{(r + 1)n_{r + 1}} \nonumber \\
& = & \sum_{r=1}^{\infty}{r\,n_r} & = & \sum_{r=1}^{\infty}{r\,n_r}
\label{eqC2.36-new} \label{eqC2.36-new}
\end{eqnarray} \end{eqnarray}
...@@ -824,11 +824,11 @@ N & = & \sum_{r>0}{p_r n_r} \nonumber \\ ...@@ -824,11 +824,11 @@ N & = & \sum_{r>0}{p_r n_r} \nonumber \\
{ {
\begin{tabular}{l|lll} \begin{tabular}{l|lll}
\rule{0pt}{10pt} \textbf{$r$} & \textbf{$n_r$} & \textbf{$n^*$} & \textbf{$p_r$}\\ \hline \rule{0pt}{10pt} \textbf{$r$} & \textbf{$n_r$} & \textbf{$n^*$} & \textbf{$p_r$}\\ \hline
\rule{0pt}{10pt} 0 & 14 & 0.21 & 0.018 \\ \rule{0pt}{10pt} 0 & 14 & 0.21 & 0.018 \\
\rule{0pt}{10pt} 1 & 3 & 0.67 & 0.056 \\ \rule{0pt}{10pt} 1 & 3 & 0.67 & 0.056 \\
\rule{0pt}{10pt} 2 & 1 & 3 & 0.25 \\ \rule{0pt}{10pt} 2 & 1 & 3 & 0.25 \\
\rule{0pt}{10pt} 3 & 1 & 4 & 0.333 \\ \rule{0pt}{10pt} 3 & 1 & 4 & 0.333 \\
\rule{0pt}{10pt} 4 & 1 & - & - \\ \rule{0pt}{10pt} 4 & 1 & - & - \\
\end{tabular} \end{tabular}
} }
\end{center} \end{center}
...@@ -890,7 +890,7 @@ N & = & \sum_{r>0}{p_r n_r} \nonumber \\ ...@@ -890,7 +890,7 @@ N & = & \sum_{r>0}{p_r n_r} \nonumber \\
\parinterval 为了更具普适性,不仅局限为2-gram和1-gram的插值模型,利用递归的方式得到更通用的公式 \parinterval 为了更具普适性,不仅局限为2-gram和1-gram的插值模型,利用递归的方式得到更通用的公式
\begin{eqnarray} \begin{eqnarray}
\textrm{P}_{\textrm{KN}}(w_i|w_{i-n+1} ...w_{i-1}) & = & \frac{\max(c_{\textrm{KN}}(w_{i-n+1}...w_{i-1})-d,0)}{c_{\textrm{KN}}(w_{i-n+1}...w_{i-1})} + \nonumber \\ \textrm{P}_{\textrm{KN}}(w_i|w_{i-n+1} ...w_{i-1}) & = & \frac{\max(c_{\textrm{KN}}(w_{i-n+1}...w_{i-1})-d,0)}{c_{\textrm{KN}}(w_{i-n+1}...w_{i-1})} + \nonumber \\
& & \lambda(w_{i-n+1}...w_{i-1})\textrm{P}_{\textrm{KN}}(w_i|w_{i-n+2}...w_{i-1}) & & \lambda(w_{i-n+1}...w_{i-1})\textrm{P}_{\textrm{KN}}(w_i|w_{i-n+2}...w_{i-1})
\end{eqnarray} \end{eqnarray}
\begin{eqnarray} \begin{eqnarray}
\lambda(w_{i-1}) & = & \frac{d}{c_{\textrm{KN}}(w_{i-n+1}^{i-1})}|\{w:c_{\textrm{KN}}(w_{i-n+1}...w_{i-1}w)>0\}| \label{eqC2.44-new} \\ \lambda(w_{i-1}) & = & \frac{d}{c_{\textrm{KN}}(w_{i-n+1}^{i-1})}|\{w:c_{\textrm{KN}}(w_{i-n+1}...w_{i-1}w)>0\}| \label{eqC2.44-new} \\
...@@ -955,7 +955,7 @@ c_{\textrm{KN}}(\cdot) & = & \begin{cases} \textrm{count}(\cdot)\quad for\ the\ ...@@ -955,7 +955,7 @@ c_{\textrm{KN}}(\cdot) & = & \begin{cases} \textrm{count}(\cdot)\quad for\ the\
\parinterval 句法树是对句子的一种抽象。这种树形结构对应着句子的归纳和生成过程,比如,从树的叶子开始,把每一个树节点看作一次抽象,最终形成整个句子的根节点。那么生成这种句法树结构的过程是如何用计算机实现出来呢?这就需要使用形式文法。 \parinterval 句法树是对句子的一种抽象。这种树形结构对应着句子的归纳和生成过程,比如,从树的叶子开始,把每一个树节点看作一次抽象,最终形成整个句子的根节点。那么生成这种句法树结构的过程是如何用计算机实现出来呢?这就需要使用形式文法。
\parinterval 形式文法是句法分析中的核心内容,它不仅可以帮助我们分析计算机编程语言,也可以帮我们分析自然语言。根据乔姆斯基的定义\cite{chomsky2002syntactic},形式文法分为四种类型:无限制文法、上下文相关文法、上下文无关文法和正规文法。不同类型的文法有不同的应用,比如,正规文法可以用来描述自动机,因此也会被使用在语言模型等系统中\footnote[2]{\red $n$-gram语言模型也可以被看作是一种有限状态自动机,不同于传统的自动机,语言模型使用的是概率化自动机,也就是自动机中的每条边都会有一个概率与之对应。具体内容可以参考(参考文献??)学姐说和后面的重复了,看要哪个。} 。对于句法分析问题,这里使用上下文无关文法(context-free grammar),因为它是很多句法分析模型的基础。上下文无关文法的具体形式如下: \parinterval 形式文法是句法分析中的核心内容,它不仅可以帮助我们分析计算机编程语言,也可以帮我们分析自然语言。根据乔姆斯基的定义\cite{chomsky2002syntactic},形式文法分为四种类型:无限制文法、上下文相关文法、上下文无关文法和正规文法。不同类型的文法有不同的应用,比如,正规文法可以用来描述自动机,因此也会被使用在语言模型等系统中。对于句法分析问题,这里使用上下文无关文法(context-free grammar),因为它是很多句法分析模型的基础。上下文无关文法的具体形式如下:
%------------------------------------------- %-------------------------------------------
\begin{definition} \begin{definition}
...@@ -1134,7 +1134,7 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{ ...@@ -1134,7 +1134,7 @@ s_0 \overset{r_1}{\Rightarrow} s_1 \overset{r_2}{\Rightarrow} s_2 \overset{r_3}{
\end{eqnarray} \end{eqnarray}
\parinterval 这样我们就可以得到每个推导d的概率值。这个模型,可以很好的解释词串的生成过程。比如,对于规则集 \parinterval 这样我们就可以得到每个推导d的概率值。这个模型,可以很好的解释词串的生成过程。比如,对于规则集
\begin{eqnarray} \begin{eqnarray}
r_3: & \textrm{VV} \to \text{}\nonumber \\ r_3: & \textrm{VV} \to \text{}\nonumber \\
r_4: & \textrm{NN} \to \text{}\nonumber \\ r_4: & \textrm{NN} \to \text{}\nonumber \\
r_6: & \textrm{VP} \to \textrm{VV} \textrm{NN} \nonumber r_6: & \textrm{VP} \to \textrm{VV} \textrm{NN} \nonumber
......
...@@ -146,7 +146,7 @@ ...@@ -146,7 +146,7 @@
\parinterval 单词翻译概率描述的是一个源语言单词与目标语言译文构成正确翻译的可能性,这个概率越高表明单词翻译的越可靠。使用单词翻译概率,可以帮助我们解决翻译时的``择词''问题,即选择什么样的目标语译文是合适的。当人在翻译某个单词时,可以利用积累的知识,快速得到它的高质量候选译文。以汉译英为例,当翻译``我''这个单词时,我们直接会想到用``I''、``me''或``I’m''作为它的译文,而几乎不会选择``you''、``satisfied''等含义相差太远的译文。这是为什么呢?如果从统计学的角度来看,无论是何种语料,包括教材、新闻、小说等,绝大部分情况下``我''都翻译成了``I''、``me''等,几乎不会看到我被翻译成``you''或``satisfied''的情况。可以说``我''翻译成``I''、``me''等属于高频事件,而翻译成``you''、``satisfied''等属于低频或小概率事件,它们在整个语料中出现的概率是不一样的。因此人在翻译时也是选择在统计意义上概率更大的译文,这也间接反映出统计模型可以在一定程度上描述人的翻译习惯和模式。 \parinterval 单词翻译概率描述的是一个源语言单词与目标语言译文构成正确翻译的可能性,这个概率越高表明单词翻译的越可靠。使用单词翻译概率,可以帮助我们解决翻译时的``择词''问题,即选择什么样的目标语译文是合适的。当人在翻译某个单词时,可以利用积累的知识,快速得到它的高质量候选译文。以汉译英为例,当翻译``我''这个单词时,我们直接会想到用``I''、``me''或``I’m''作为它的译文,而几乎不会选择``you''、``satisfied''等含义相差太远的译文。这是为什么呢?如果从统计学的角度来看,无论是何种语料,包括教材、新闻、小说等,绝大部分情况下``我''都翻译成了``I''、``me''等,几乎不会看到我被翻译成``you''或``satisfied''的情况。可以说``我''翻译成``I''、``me''等属于高频事件,而翻译成``you''、``satisfied''等属于低频或小概率事件,它们在整个语料中出现的概率是不一样的。因此人在翻译时也是选择在统计意义上概率更大的译文,这也间接反映出统计模型可以在一定程度上描述人的翻译习惯和模式。
\parinterval\ref{tab:word-translation-examples}展示了汉语到英语的单词翻译实例及翻译概率。可以看到,``我''的常见翻译的概率较高,比如,翻译成``I''的概率是0.5,这样系统可以更好的使用这些译文。而且概率化的模型避免了非0即1的判断,所有的译文都是可能的,只是概率不同。这也使得统计模型可以覆盖更多的翻译现象,甚至捕捉到一些人所忽略的现象。\\ \\ \\ \parinterval\ref{tab:word-translation-examples}展示了汉语到英语的单词翻译实例及翻译概率。可以看到,``我''的常见翻译的概率较高,比如,翻译成``I''的概率是0.5,这样系统可以更好的使用这些译文。而且概率化的模型避免了非0即1的判断,所有的译文都是可能的,只是概率不同。这也使得统计模型可以覆盖更多的翻译现象,甚至捕捉到一些人所忽略的现象。\\ \\ \\
%---------------------------------------------- %----------------------------------------------
% 表 % 表
\begin{table}[htp] \begin{table}[htp]
...@@ -385,7 +385,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} ...@@ -385,7 +385,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}
2 & 10 & 200 \\ 2 & 10 & 200 \\
10 & 10 & 36288000000000000 \\ 10 & 10 & 36288000000000000 \\
20 & 10 & 2.43290200817664 $\times 10^{38}$ \\ 20 & 10 & 2.43290200817664 $\times 10^{38}$ \\
20 & 30 & 8.48300477127188 $\times 10^{47}$ 20 & 30 & 8.48300477127188 $\times 10^{47}$
\end{tabular} \end{tabular}
\end{center} \end{center}
}\end{table} }\end{table}
...@@ -393,7 +393,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} ...@@ -393,7 +393,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}
\parinterval 对于如此巨大的搜索空间,我们需要一种十分有效的搜索算法才能实现机器翻译的解码。这里介绍一种贪婪的解码算法,它把解码分成若干步骤,每步只翻译一个单词,并保留当前``最好''的结果,直至所有源语言单词都被翻译完毕。 \parinterval 对于如此巨大的搜索空间,我们需要一种十分有效的搜索算法才能实现机器翻译的解码。这里介绍一种贪婪的解码算法,它把解码分成若干步骤,每步只翻译一个单词,并保留当前``最好''的结果,直至所有源语言单词都被翻译完毕。
\parinterval\ref{fig:3-10}给出了贪婪解码算法的伪代码。其中$\pi$保存所有源语单词的候选译文,$\pi[j]$表示第$j$个源语单词的翻译候选的集合,$best$保存当前最好的翻译结果,$h$保存当前步生成的所有译文候选。算法的主体有两层循环,在内层循环中如果第$j$个源语单词没有被翻译过,则用$best$和它的候选译文$\pi[j]$生成新的翻译,再存于$h$中,即操作$h=h\cup{\textrm{JOIN}(best,\pi[j])}$。外层循环再从$h$中选择得分最高的结果存于$best$中,即操作$best=\textrm{PruneForTop1}(h)$,并标识相应的源语单词已翻译,即$used[best.j]=true$。该算法的核心在于,我们一直维护一个当前最好的结果,之后每一步考虑扩展这个结果的所有可能,并计算模型得分,然后再保留扩展后的最好结果。注意,在每一步中,只有排名第一的结果才会被保留,其它结果都会被丢弃。这也体现了贪婪的思想。显然这个方法不能保证搜索到全局最优的结果,但是由于每次扩展只考虑一个最好的结果,因此该方法速度很快。图\ref{fig:3-11}给出了算法执行过程的简单示例。当然,机器翻译的解码方法有很多,这里我们仅仅使用简单的贪婪搜索方法来解决机器翻译的解码问题,在后续章节会对更加优秀的解码方法进行介绍。 \parinterval\ref{fig:3-10}给出了贪婪解码算法的伪代码。其中$\pi$保存所有源语单词的候选译文,$\pi[j]$表示第$j$个源语单词的翻译候选的集合,$best$保存当前最好的翻译结果,$h$保存当前步生成的所有译文候选。算法的主体有两层循环,在内层循环中如果第$j$个源语单词没有被翻译过,则用$best$和它的候选译文$\pi[j]$生成新的翻译,再存于$h$中,即操作$h=h\cup{\textrm{JOIN}(best,\pi[j])}$。外层循环再从$h$中选择得分最高的结果存于$best$中,即操作$best=\textrm{PruneForTop1}(h)$,并标识相应的源语单词已翻译,即$used[best.j]=true$。该算法的核心在于,我们一直维护一个当前最好的结果,之后每一步考虑扩展这个结果的所有可能,并计算模型得分,然后再保留扩展后的最好结果。注意,在每一步中,只有排名第一的结果才会被保留,其它结果都会被丢弃。这也体现了贪婪的思想。显然这个方法不能保证搜索到全局最优的结果,但是由于每次扩展只考虑一个最好的结果,因此该方法速度很快。图\ref{fig:3-11}给出了算法执行过程的简单示例。当然,机器翻译的解码方法有很多,这里我们仅仅使用简单的贪婪搜索方法来解决机器翻译的解码问题,在后续章节会对更加优秀的解码方法进行介绍。
%---------------------------------------------- %----------------------------------------------
% 图3.13 % 图3.13
\begin{figure}[htp] \begin{figure}[htp]
...@@ -428,7 +428,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} ...@@ -428,7 +428,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}
% 图3.19 % 图3.19
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\input{./Chapter3/Figures/figure-different-translation-candidate-space} \input{./Chapter3/Figures/figure-different-translation-candidate-space}
\caption{不同翻译候选空间的对比:人(左)vs 机器翻译 (右)} \caption{不同翻译候选空间的对比:人(左)vs 机器翻译 (右)}
\label{fig:3-12} \label{fig:3-12}
\end{figure} \end{figure}
...@@ -500,7 +500,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} ...@@ -500,7 +500,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}
\parinterval$g(\mathbf{s},\mathbf{t})$函数的建模很粗糙,因此下面我们将介绍IBM模型对问题更严谨的定义与建模。对于语言模型$\textrm{P}(\mathbf{t})$和解码过程在前面的内容中都有介绍,所以本章的后半部分会重点介绍如何定义翻译模型$\textrm{P}(\mathbf{s}|\mathbf{t})$以及如何训练模型参数。本节主要回答第一个问题,第二个问题留在后面进行介绍。 \parinterval$g(\mathbf{s},\mathbf{t})$函数的建模很粗糙,因此下面我们将介绍IBM模型对问题更严谨的定义与建模。对于语言模型$\textrm{P}(\mathbf{t})$和解码过程在前面的内容中都有介绍,所以本章的后半部分会重点介绍如何定义翻译模型$\textrm{P}(\mathbf{s}|\mathbf{t})$以及如何训练模型参数。本节主要回答第一个问题,第二个问题留在后面进行介绍。
\subsubsection{(一)词对齐}\index{Chapter3.3.2.1} \subsubsection{词对齐}\index{Chapter3.3.2.1}
\parinterval IBM模型中有一个非常基础的假设是词对齐假设(或单词对齐假设)。\textbf{词对齐}(word alignment)描述了源语言句子和目标语句子之间单词级别的对应。具体地说,给定源语句子$\mathbf{s}$和目标语译文$\mathbf{t}$,其中$\mathbf{s}$$\mathbf{s}_1$$\mathbf{s}_m$$m$个单词组成,$\mathbf{t}$$\mathbf{t}_1$$\mathbf{t}_l$$l$个单词组成。IBM模型假设词对齐满足下述两个条件。 \parinterval IBM模型中有一个非常基础的假设是词对齐假设(或单词对齐假设)。\textbf{词对齐}(word alignment)描述了源语言句子和目标语句子之间单词级别的对应。具体地说,给定源语句子$\mathbf{s}$和目标语译文$\mathbf{t}$,其中$\mathbf{s}$$\mathbf{s}_1$$\mathbf{s}_m$$m$个单词组成,$\mathbf{t}$$\mathbf{t}_1$$\mathbf{t}_l$$l$个单词组成。IBM模型假设词对齐满足下述两个条件。
...@@ -529,9 +529,9 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} ...@@ -529,9 +529,9 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}
%--------------------------- %---------------------------
\end{itemize} \end{itemize}
\parinterval 通常,我们把词对齐记为$\mathbf{a}$,它由$a_1$$a_m$$m$个词对齐连接组成,即$a=a_1...a_m$,其中$m$表示源语言句子长度。$a_j$表示第$j$个源语单词$s_j$对应的目标语单词的位置。在图\ref{fig:3-16}的例子中,词对齐关系可以记为$a_1=0, a_2=3, a_3=1$。它表示第1个源语单词``在''对应到目标语译文的第0个位置,第2个源语单词``桌子''对应到目标语译文的第3个位置是,第3个源语单词``上''对应到目标语译文的第1个位置。 \\ \\ \parinterval 通常,我们把词对齐记为$\mathbf{a}$,它由$a_1$$a_m$$m$个词对齐连接组成,即$a=a_1...a_m$,其中$m$表示源语言句子长度。$a_j$表示第$j$个源语单词$s_j$对应的目标语单词的位置。在图\ref{fig:3-16}的例子中,词对齐关系可以记为$a_1=0, a_2=3, a_3=1$。它表示第1个源语单词``在''对应到目标语译文的第0个位置,第2个源语单词``桌子''对应到目标语译文的第3个位置是,第3个源语单词``上''对应到目标语译文的第1个位置。 \\ \\
\subsubsection{(二)基于词对齐的翻译模型}\index{Chapter3.3.2.2} \subsubsection{基于词对齐的翻译模型}\index{Chapter3.3.2.2}
\parinterval 直接估计$\textrm{P}(\mathbf{s}|\mathbf{t})$很难,因为大部分句子即使在大规模的语料中也只出现过一次甚至没有出现过。为了解决这个问题,IBM模型假设:句子之间的对应可以由单词之间的对应进行表示。更具体的说,把句子之间对应的概率转换为所有可能的词对齐的生成概率,如下: \parinterval 直接估计$\textrm{P}(\mathbf{s}|\mathbf{t})$很难,因为大部分句子即使在大规模的语料中也只出现过一次甚至没有出现过。为了解决这个问题,IBM模型假设:句子之间的对应可以由单词之间的对应进行表示。更具体的说,把句子之间对应的概率转换为所有可能的词对齐的生成概率,如下:
\begin{eqnarray} \begin{eqnarray}
...@@ -572,7 +572,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} ...@@ -572,7 +572,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}
\parinterval 换句话说,当我们求概率分布$\textrm{P}(\mathbf{s},\mathbf{a}|\mathbf{t})$时,首先根据译文$\mathbf{t}$确定源语言句子$\mathbf{s}$的长度$m$;当知道源语言句子有多少个单词后,循环$m$次,依次生成第1个到第$m$个源语言单词;当生成第$j$个源语言单词时,要先确定它是由哪个目标语译文单词生成的,即确定生成的源语言单词对应的译文单词的位置;当知道了目标语译文单词的位置,就能确定第$j$个位置的源语言单词。 \parinterval 换句话说,当我们求概率分布$\textrm{P}(\mathbf{s},\mathbf{a}|\mathbf{t})$时,首先根据译文$\mathbf{t}$确定源语言句子$\mathbf{s}$的长度$m$;当知道源语言句子有多少个单词后,循环$m$次,依次生成第1个到第$m$个源语言单词;当生成第$j$个源语言单词时,要先确定它是由哪个目标语译文单词生成的,即确定生成的源语言单词对应的译文单词的位置;当知道了目标语译文单词的位置,就能确定第$j$个位置的源语言单词。
\parinterval 需要注意的是公式\ref{eqC3.19-new}定义的模型并没有做任何化简和假设,也就是说公式的左右两端是严格相等的。在后面的内容中会看到,这种将一个整体进行拆分的方法可以有助于分步骤化简并处理问题。 \parinterval 需要注意的是公式\ref{eqC3.19-new}定义的模型并没有做任何化简和假设,也就是说公式的左右两端是严格相等的。在后面的内容中会看到,这种将一个整体进行拆分的方法可以有助于分步骤化简并处理问题。
\subsubsection{(三)基于词对齐的翻译实例}\index{Chapter3.3.2.3} \subsubsection{基于词对齐的翻译实例}\index{Chapter3.3.2.3}
\parinterval 我们用前面图\ref{fig:3-16}中例子来对公式\ref{eqC3.19-new}进行说明。例子中,源语言句子``在 桌子 上''目标语译文``on the table''之间的词对齐为$\mathbf{a}=\{\textrm{1-0, 2-3, 3-1}\}$。公式\ref{eqC3.19-new}的计算过程如下: \parinterval 我们用前面图\ref{fig:3-16}中例子来对公式\ref{eqC3.19-new}进行说明。例子中,源语言句子``在 桌子 上''目标语译文``on the table''之间的词对齐为$\mathbf{a}=\{\textrm{1-0, 2-3, 3-1}\}$。公式\ref{eqC3.19-new}的计算过程如下:
\begin{itemize} \begin{itemize}
...@@ -660,7 +660,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} ...@@ -660,7 +660,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}
\end{figure} \end{figure}
%--------------------------- %---------------------------
\parinterval 这样就得到了IBM模型1中句子翻译概率的计算式。可以看出IBM模型1的假设把翻译模型化简成了非常简单的形式。对于给定的$\mathbf{s}$$\mathbf{a}$$\mathbf{t}$,只要知道$\varepsilon$$\mathbf{t}(s_j |t_{a_j })$ 就可以计算出$\textrm{P}(\mathbf{s}| \mathbf{t})$,进而求出$\textrm{P}(\mathbf{s}| \mathbf{t})$\\ \\ \\ \parinterval 这样就得到了IBM模型1中句子翻译概率的计算式。可以看出IBM模型1的假设把翻译模型化简成了非常简单的形式。对于给定的$\mathbf{s}$$\mathbf{a}$$\mathbf{t}$,只要知道$\varepsilon$$\mathbf{t}(s_j |t_{a_j })$ 就可以计算出$\textrm{P}(\mathbf{s}| \mathbf{t})$,进而求出$\textrm{P}(\mathbf{s}| \mathbf{t})$\\ \\ \\
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{IBM模型2}\index{Chapter3.4.2} \subsection{IBM模型2}\index{Chapter3.4.2}
...@@ -748,7 +748,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} ...@@ -748,7 +748,7 @@ g(\mathbf{s},\mathbf{t}) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)}
\end{figure} \end{figure}
%--------------------------- %---------------------------
\parinterval 在IBM模型中,优化的目标函数被定义为$\textrm{P}(\mathbf{s}| \mathbf{t})$。也就是,对于给定的句对$(\mathbf{s},\mathbf{t})$,最大化翻译概率$\textrm{P}(\mathbf{s}| \mathbf{t})$。这里用符号$\textrm{P}_{\theta}(\mathbf{s}|\mathbf{t})$表示模型由参数$\theta$决定,模型训练可以被描述为对目标函数$\textrm{P}_{\theta}(\mathbf{s}|\mathbf{t})$的优化过程: \parinterval 在IBM模型中,优化的目标函数被定义为$\textrm{P}(\mathbf{s}| \mathbf{t})$。也就是,对于给定的句对$(\mathbf{s},\mathbf{t})$,最大化翻译概率$\textrm{P}(\mathbf{s}| \mathbf{t})$ 这里用符号$\textrm{P}_{\theta}(\mathbf{s}|\mathbf{t})$表示模型由参数$\theta$决定,模型训练可以被描述为对目标函数$\textrm{P}_{\theta}(\mathbf{s}|\mathbf{t})$的优化过程:
\begin{eqnarray} \begin{eqnarray}
\widehat{\theta}=\argmax_{\theta}\textrm{P}_{\theta}(\mathbf{s}|\mathbf{t}) \widehat{\theta}=\argmax_{\theta}\textrm{P}_{\theta}(\mathbf{s}|\mathbf{t})
\label{eqC3.32-new} \label{eqC3.32-new}
...@@ -887,7 +887,7 @@ f(s_u|t_v)=\lambda_{t_v}^{-1} \cdot \textrm{P}(\mathbf{s}| \mathbf{t}) \cdot c_{ ...@@ -887,7 +887,7 @@ f(s_u|t_v)=\lambda_{t_v}^{-1} \cdot \textrm{P}(\mathbf{s}| \mathbf{t}) \cdot c_{
\noindent \hspace{2em} 在此如果令$\lambda_{t_v}^{'}=\frac{\lambda_{t_v}}{\textrm{P}(\mathbf{s}| \mathbf{t})}$,可得: \noindent \hspace{2em} 在此如果令$\lambda_{t_v}^{'}=\frac{\lambda_{t_v}}{\textrm{P}(\mathbf{s}| \mathbf{t})}$,可得:
\begin{eqnarray} \begin{eqnarray}
f(s_u|t_v) &= &\lambda_{t_v}^{-1} \cdot \textrm{P}(\mathbf{s}| \mathbf{t}) \cdot c_{\mathbb{E}}(s_u|t_v;\mathbf{s},\mathbf{t}) \nonumber \\ f(s_u|t_v) &= &\lambda_{t_v}^{-1} \cdot \textrm{P}(\mathbf{s}| \mathbf{t}) \cdot c_{\mathbb{E}}(s_u|t_v;\mathbf{s},\mathbf{t}) \nonumber \\
&=&{(\lambda_{t_v}^{'})}^{-1} \cdot c_{\mathbb{E}}(s_u|t_v;\mathbf{s},\mathbf{t}) &=&{(\lambda_{t_v}^{'})}^{-1} \cdot c_{\mathbb{E}}(s_u|t_v;\mathbf{s},\mathbf{t})
\label{eqC3.43-new} \label{eqC3.43-new}
\end{eqnarray} \end{eqnarray}
...@@ -1142,15 +1142,15 @@ p_0+p_1 & = & 1 \label{eqC3.62-new} ...@@ -1142,15 +1142,15 @@ p_0+p_1 & = & 1 \label{eqC3.62-new}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{隐马尔可夫模型}\index{Chapter3.5.5} \subsection{隐马尔可夫模型}\index{Chapter3.5.5}
\parinterval 在IBM模型可以得到句子间的词对齐,因此也有很多工作在这个模型的基础上对词对齐进行改进。其中一个比较有代表性的方法是基于隐马尔可夫模型的方法\cite{vogel1996hmm},它可以被看作是IBM模型2的升级版本。 \parinterval 在IBM模型可以得到双语句子间的词对齐,因此也有很多工作在这个模型的基础上对词对齐进行改进。其中一个比较有代表性的方法是基于隐马尔可夫模型的方法\cite{vogel1996hmm},它可以被看作是IBM 模型2的升级版本。
\subsubsection{(一)隐马尔可夫模型} \subsubsection{隐马尔可夫模型}
\parinterval \textbf{隐马尔可夫模型(Hidden Markov Model,HMM)}比较一个经典的机器学习模型,它在语音识别、自然语言处理、模式识别等领域得到了非常广泛的应用。其本质是一个概率模型,用来描述一个含有隐含参数的马尔可夫过程,简单来说,是用来描述一个系统隐含状态的转移和可见状态的概率。(出自维基百科) \parinterval \textbf{隐马尔可夫模型(Hidden Markov Model,HMM)}一个经典的机器学习模型,它在语音识别、自然语言处理等领域得到了非常广泛的应用。其本质是一个概率模型,用来描述一个含有隐含参数的马尔可夫过程,简单来说,是用来描述一个系统隐含状态的转移和可见状态的概率\footnote{https://zh.wikipedia.org/zh-hans/隐马尔可夫模型}
\parinterval 我们用一个简单的例子来对这些概念进行说明。假设你有三枚质地不同的硬币A、B、C,这三个硬币抛出正面的概率分别为0.3、0.5、0.7。之后我们开始抛硬币,随机从三个硬币里挑一个,挑到每一个硬币的概率都是 1/3 。不停的重复上述过程,我们会得到一串硬币的正反序列,如:(抛硬币6次)正 正 反 反 正 反。 \parinterval 我们用一个简单的例子来对这些概念进行说明。假设你有三枚质地不同的硬币A、B、C,这三个硬币抛出正面的概率分别为0.3、0.5、0.7。之后我们开始抛硬币,随机从三个硬币里挑一个,挑到每一个硬币的概率都是 1/3 。不停的重复上述过程,我们会得到一串硬币的正反序列,如:抛硬币6次,得到:正 正 反 反 正 反。
\parinterval串结果叫做可见状态链,由每个回合的可见状态构成。此外,HMM模型还有一串隐含状态链,在这里,隐含状态链就是你所用的硬币的序列,比如可能是:C B A B C A。同样的,HMM模型还会描述系统隐藏状态的转移概率,在本例子中,A的下一个状态是A、B、C的概率都是1/3。B、C的下一个状态是A、B、C的转移概率也同样是1/3。同样的,尽管可见状态链之间没有转移概率,但是隐含状态和可见状态之间存在着输出概率,即A、B、C抛出证明的输出概率为0.3、0.5、0.7。图\ref{fig:3-34}描述了本实例的隐马尔可夫模型示意图。 \parinterval个正反序列叫做可见状态链,由每个回合的可见状态构成。此外,HMM模型还有一串隐含状态链,在这里,隐含状态链就是你所用的硬币的序列,比如可能是:C B A B C A。同样的,HMM模型还会描述系统隐藏状态的转移概率,在本例子中,A的下一个状态是A、B、C的概率都是1/3。B、C的下一个状态是A、B、C的转移概率也同样是1/3。同样的,尽管可见状态链之间没有转移概率,但是隐含状态和可见状态之间存在着输出概率,即A、B、C抛出正面的输出概率为0.3、0.5、0.7。图\ref{fig:3-34}描述了这个例子所对应的的隐马尔可夫模型示意图。
%---------------------------------------------- %----------------------------------------------
% 图3.5.4 % 图3.5.4
...@@ -1162,17 +1162,17 @@ p_0+p_1 & = & 1 \label{eqC3.62-new} ...@@ -1162,17 +1162,17 @@ p_0+p_1 & = & 1 \label{eqC3.62-new}
\end{figure} \end{figure}
%------------------------------------------- %-------------------------------------------
\parinterval 总结起来,HMM能够解决下面三个问题 \parinterval 一般来说,HMM包含下面三个问题({\color{red} 参考文献 !!!引用- 《Foundations of Statistical Natural Language Processing》}
\begin{itemize} \begin{itemize}
\item 估计。即给定模型(硬币种类和转移概率),根据可见状态链(抛硬币的结果),计算在该模型下得到这个结果的概率,这个问题的解决需要用到前后向算法。 \item 估计。即给定模型(硬币种类和转移概率),根据可见状态链(抛硬币的结果),计算在该模型下得到这个结果的概率,这个问题的解决需要用到前后向算法。
\item 参数学习。即给定硬币种类(隐含状态数量),根据多个可见状态链(抛硬币的结果),估计模型的参数(转移概率),这个问题的求解需要用到基于EM算法的鲍姆-韦尔奇算法。 \item 参数学习。即给定硬币种类(隐含状态数量),根据多个可见状态链(抛硬币的结果),估计模型的参数(转移概率),同IBM模型的参数训练一样,这个问题的求解需要用到EM算法。
\item 解码问题。即给定模型(硬币种类和转移概率)和可见状态链(抛硬币的结果),计算在可见状态链的情况下,最可能出现的对应的状态序列,这个问题的求解需要用到基于动态规划的维特比算法 \item 解码问题。即给定模型(硬币种类和转移概率)和可见状态链(抛硬币的结果),计算在可见状态链的情况下,最可能出现的对应的状态序列,这个问题的求解需要用到基于动态规划方法,在HMM中被称作维特比算法(Viterbi Algorithm)
\end{itemize} \end{itemize}
\subsubsection{(二)词对齐模型} \subsubsection{词对齐模型}
\parinterval IBM模型把翻译问题定义为对译文和词对齐同时进行生成的问题,模型翻译质量的好坏与词对齐有着非常紧密的联系。IBM模型1假设对齐概率仅依赖于译文长度,即对齐概率服从均匀分布;IBM模型2假设对齐概率与源语言、目标语言的句子长度以及源语言位置和目标语言位置相关。IBM模型2已经覆盖到了大部分的词对齐问题,但是该模型只考虑到了词语的绝对位置,并未考虑到相邻词语间的关系。图\ref{fig:3-35}展示了一个简单的实例,可以看到的是,汉语的每个词都被分配给了英语句子中的每一个单词,但是词语并不是任意分布在各个位置上的,而是倾向于生成簇。也就是说,如果源语言的两个词位置越近,它们的目标词在目标语言句子的位置也越近。 \parinterval IBM模型把翻译问题定义为对译文和词对齐同时进行生成的问题,模型翻译质量的好坏与词对齐有着非常紧密的联系。IBM模型1假设对齐概率仅依赖于译文长度,即对齐概率服从均匀分布;IBM模型2假设对齐概率与源语言、目标语言的句子长度以及源语言位置和目标语言位置相关。IBM模型2已经覆盖到了大部分的词对齐问题,但是该模型只考虑到了词语的绝对位置,并未考虑到相邻词语间的关系。图\ref{fig:3-35}展示了一个简单的实例,可以看到的是,汉语的每个词都被分配给了英语句子中的每一个单词,但是词语并不是任意分布在各个位置上的,而是倾向于生成簇。也就是说,如果源语言的两个词位置越近,它们的目标词在目标语言句子的位置也越近。
%---------------------------------------------- %----------------------------------------------
...@@ -1186,7 +1186,7 @@ p_0+p_1 & = & 1 \label{eqC3.62-new} ...@@ -1186,7 +1186,7 @@ p_0+p_1 & = & 1 \label{eqC3.62-new}
\end{figure} \end{figure}
%------------------------------------------- %-------------------------------------------
\parinterval 因此,基于HMM的词对齐模型抛弃了IBM模型1-2的绝对位置假设,将一阶隐马尔可夫模型用于单词对齐问题。在HMM词对齐模型中,我们认为词语与词语之间并不是毫无联系的,对齐概率应该取决于对齐位置的差异而不是本身词语所在的位置。具体来说,位置$j$的对齐概率$a_j$与前一个对齐位置$j-$的对齐概率$a_{j-1}$和译文长度$L$有关,形式化的表述为: \parinterval 因此,基于HMM的词对齐模型抛弃了IBM模型1-2的绝对位置假设,将一阶隐马尔可夫模型用于单词对齐问题。在HMM词对齐模型中,我们认为词语与词语之间并不是毫无联系的,对齐概率应该取决于对齐位置的差异而不是本身词语所在的位置。具体来说,位置$j$的对齐概率$a_j$与前一个对齐位置$j-1$的对齐位置$a_{j-1}$和译文长度$l$有关,形式化的表述为:
\begin{eqnarray} \begin{eqnarray}
\textrm{P}(a_{j}|a_{1}^{j-1},s_{1}^{j-1},m,\mathbf{t})=\textrm{P}(a_{j}|a_{j-1},l) \textrm{P}(a_{j}|a_{1}^{j-1},s_{1}^{j-1},m,\mathbf{t})=\textrm{P}(a_{j}|a_{j-1},l)
\label{eqC3.67-new} \label{eqC3.67-new}
...@@ -1196,7 +1196,7 @@ p_0+p_1 & = & 1 \label{eqC3.62-new} ...@@ -1196,7 +1196,7 @@ p_0+p_1 & = & 1 \label{eqC3.62-new}
\parinterval 因此,把公式\ref{eqC3.23-new}\ref{eqC3.67-new}重新带入公式1.19和1.18,可得HMM词对齐模型的数学描述: \parinterval 因此,把公式\ref{eqC3.23-new}\ref{eqC3.67-new}重新带入公式1.19和1.18,可得HMM词对齐模型的数学描述:
\begin{eqnarray} \begin{eqnarray}
\textrm{P}(\mathbf{s}| \mathbf{t})=\sum_{a}{\textrm{P}(m|\mathbf{t})}\prod_{j=1}^{m}{\textrm{P}(a_{j}|a_{j-1},l)f(s_{j}|t_{a_j})} \textrm{P}(\mathbf{s}| \mathbf{t})=\sum_{\mathbf{a}}{\textrm{P}(m|\mathbf{t})}\prod_{j=1}^{m}{\textrm{P}(a_{j}|a_{j-1},l)f(s_{j}|t_{a_j})}
\label{eqC3.68-new} \label{eqC3.68-new}
\end{eqnarray} \end{eqnarray}
...@@ -1206,7 +1206,7 @@ p_0+p_1 & = & 1 \label{eqC3.62-new} ...@@ -1206,7 +1206,7 @@ p_0+p_1 & = & 1 \label{eqC3.62-new}
\label{eqC3.69-new} \label{eqC3.69-new}
\end{eqnarray} \end{eqnarray}
\noindent 其中,$s( \cdot )$一个非线性变换,其取值不小于0 \noindent 其中,$s( \cdot )$隐马尔可夫模型的参数,可以通过训练得到
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{解码和训练}\index{Chapter3.5.5} \subsection{解码和训练}\index{Chapter3.5.5}
...@@ -1317,7 +1317,7 @@ c(0|\mathbf{s},\mathbf{t}) = \sum_{\mathbf{a}}(\textrm{p}_{\theta}(\mathbf{s},\m ...@@ -1317,7 +1317,7 @@ c(0|\mathbf{s},\mathbf{t}) = \sum_{\mathbf{a}}(\textrm{p}_{\theta}(\mathbf{s},\m
c(1|\mathbf{s},\mathbf{t}) = \sum_{\mathbf{a}}(\textrm{p}_{\theta}(\mathbf{s},\mathbf{a}|\mathbf{t}) \times \varphi_0) c(1|\mathbf{s},\mathbf{t}) = \sum_{\mathbf{a}}(\textrm{p}_{\theta}(\mathbf{s},\mathbf{a}|\mathbf{t}) \times \varphi_0)
\label{eq:1.6} \label{eq:1.6}
\end{eqnarray} \end{eqnarray}
%---------------------------------------------- %----------------------------------------------
\parinterval 进一步, \parinterval 进一步,
\begin{eqnarray} \begin{eqnarray}
......
% $ biblatex auxiliary file $
% $ biblatex bbl format version 3.1 $
% Do not modify the above lines!
%
% This is an auxiliary file used by the 'biblatex' package.
% This file may safely be deleted. It will be recreated by
% biber as required.
%
\begingroup
\makeatletter
\@ifundefined{ver@biblatex.sty}
{\@latex@error
{Missing 'biblatex' package}
{The bibliography requires the 'biblatex' package.}
\aftergroup\endinput}
{}
\endgroup
\refsection{0}
\datalist[entry]{nyt/global//global/global}
\entry{aho1972theory}{book}{}
\name{author}{2}{}{%
{{hash=87e9142329f09390b038692270dc2168}{%
family={Aho},
familyi={A\bibinitperiod},
given={Alfred\bibnamedelima V},
giveni={A\bibinitperiod\bibinitdelim V\bibinitperiod}}}%
{{hash=cafe1d770c56825ebccdb81e9f7c9b3b}{%
family={Ullman},
familyi={U\bibinitperiod},
given={Jeffrey\bibnamedelima D},
giveni={J\bibinitperiod\bibinitdelim D\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Prentice-Hall Englewood Cliffs, NJ}%
}
\strng{namehash}{012da699a378a549fed2220d3c78ed22}
\strng{fullhash}{012da699a378a549fed2220d3c78ed22}
\strng{bibnamehash}{012da699a378a549fed2220d3c78ed22}
\strng{authorbibnamehash}{012da699a378a549fed2220d3c78ed22}
\strng{authornamehash}{012da699a378a549fed2220d3c78ed22}
\strng{authorfullhash}{012da699a378a549fed2220d3c78ed22}
\field{sortinit}{A}
\field{sortinithash}{a3dcedd53b04d1adfd5ac303ecd5e6fa}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{The theory of parsing, translation, and compiling}
\field{volume}{1}
\field{year}{1972}
\endentry
\entry{bahdanau2014neural}{article}{}
\name{author}{3}{}{%
{{hash=6d80adec79a13a33e73215c5f46f1605}{%
family={Bahdanau},
familyi={B\bibinitperiod},
given={Dzmitry},
giveni={D\bibinitperiod}}}%
{{hash=3da7501a79d9346572c7fd6e41b615df}{%
family={Cho},
familyi={C\bibinitperiod},
given={Kyunghyun},
giveni={K\bibinitperiod}}}%
{{hash=40a8e4774982146adc2688546f54efb2}{%
family={Bengio},
familyi={B\bibinitperiod},
given={Yoshua},
giveni={Y\bibinitperiod}}}%
}
\strng{namehash}{ccf5ebef61998aaab5ec6eace8f4564d}
\strng{fullhash}{ccf5ebef61998aaab5ec6eace8f4564d}
\strng{bibnamehash}{ccf5ebef61998aaab5ec6eace8f4564d}
\strng{authorbibnamehash}{ccf5ebef61998aaab5ec6eace8f4564d}
\strng{authornamehash}{ccf5ebef61998aaab5ec6eace8f4564d}
\strng{authorfullhash}{ccf5ebef61998aaab5ec6eace8f4564d}
\field{sortinit}{B}
\field{sortinithash}{8de16967003c7207dae369d874f1456e}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{arXiv preprint arXiv:1409.0473}
\field{title}{Neural machine translation by jointly learning to align and translate}
\field{year}{2014}
\endentry
\entry{bengio2003neural}{article}{}
\name{author}{4}{}{%
{{hash=40a8e4774982146adc2688546f54efb2}{%
family={Bengio},
familyi={B\bibinitperiod},
given={Yoshua},
giveni={Y\bibinitperiod}}}%
{{hash=dcb65deeb8d2de03d00f0aeeb3499771}{%
family={Ducharme},
familyi={D\bibinitperiod},
given={R{é}jean},
giveni={R\bibinitperiod}}}%
{{hash=da21e966c02c3cfd33d74369c7435c1a}{%
family={Vincent},
familyi={V\bibinitperiod},
given={Pascal},
giveni={P\bibinitperiod}}}%
{{hash=bd9126e06687017f43910a8eb056bb0a}{%
family={Jauvin},
familyi={J\bibinitperiod},
given={Christian},
giveni={C\bibinitperiod}}}%
}
\strng{namehash}{058f6aa7282521dda725a309bd2d3fea}
\strng{fullhash}{214c0985c7c874b6fb51e84e6ea66db3}
\strng{bibnamehash}{058f6aa7282521dda725a309bd2d3fea}
\strng{authorbibnamehash}{058f6aa7282521dda725a309bd2d3fea}
\strng{authornamehash}{058f6aa7282521dda725a309bd2d3fea}
\strng{authorfullhash}{214c0985c7c874b6fb51e84e6ea66db3}
\field{sortinit}{B}
\field{sortinithash}{8de16967003c7207dae369d874f1456e}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Journal of machine learning research}
\field{number}{Feb}
\field{title}{A neural probabilistic language model}
\field{volume}{3}
\field{year}{2003}
\field{pages}{1137\bibrangedash 1155}
\range{pages}{19}
\endentry
\entry{brown1990statistical}{article}{}
\name{author}{8}{}{%
{{hash=b269d63ed0974176f251e8034564855e}{%
family={Brown},
familyi={B\bibinitperiod},
given={Peter\bibnamedelima F},
giveni={P\bibinitperiod\bibinitdelim F\bibinitperiod}}}%
{{hash=7e6f41b987a6ec2b9b01a3d33cdd2ddb}{%
family={Cocke},
familyi={C\bibinitperiod},
given={John},
giveni={J\bibinitperiod}}}%
{{hash=4a93f8dffb0593ae148a8ef335eabe24}{%
family={Della\bibnamedelima Pietra},
familyi={D\bibinitperiod\bibinitdelim P\bibinitperiod},
given={Stephen\bibnamedelima A},
giveni={S\bibinitperiod\bibinitdelim A\bibinitperiod}}}%
{{hash=4bbdbda1345838fb46c88bd6afda258c}{%
family={Della\bibnamedelima Pietra},
familyi={D\bibinitperiod\bibinitdelim P\bibinitperiod},
given={Vincent\bibnamedelima J},
giveni={V\bibinitperiod\bibinitdelim J\bibinitperiod}}}%
{{hash=48d2d6e25183229596dbf23cf956498e}{%
family={Jelinek},
familyi={J\bibinitperiod},
given={Frederick},
giveni={F\bibinitperiod}}}%
{{hash=88426f033c21f91cad168597555d363d}{%
family={Lafferty},
familyi={L\bibinitperiod},
given={John},
giveni={J\bibinitperiod}}}%
{{hash=619872e7225f85d3b1c89906ec54e067}{%
family={Mercer},
familyi={M\bibinitperiod},
given={Robert\bibnamedelima L},
giveni={R\bibinitperiod\bibinitdelim L\bibinitperiod}}}%
{{hash=60b30df74a8e4cd8b96789ea5dae645e}{%
family={Roossin},
familyi={R\bibinitperiod},
given={Paul\bibnamedelima S},
giveni={P\bibinitperiod\bibinitdelim S\bibinitperiod}}}%
}
\strng{namehash}{e1a7aeb09589fa95d5b84765dc9acb1d}
\strng{fullhash}{16f3c666fcb85cefe7854f3250ea6ff5}
\strng{bibnamehash}{e1a7aeb09589fa95d5b84765dc9acb1d}
\strng{authorbibnamehash}{e1a7aeb09589fa95d5b84765dc9acb1d}
\strng{authornamehash}{e1a7aeb09589fa95d5b84765dc9acb1d}
\strng{authorfullhash}{16f3c666fcb85cefe7854f3250ea6ff5}
\field{extraname}{1}
\field{sortinit}{B}
\field{sortinithash}{8de16967003c7207dae369d874f1456e}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Computational linguistics}
\field{number}{2}
\field{title}{A statistical approach to machine translation}
\field{volume}{16}
\field{year}{1990}
\field{pages}{79\bibrangedash 85}
\range{pages}{7}
\endentry
\entry{brown1993mathematics}{article}{}
\name{author}{4}{}{%
{{hash=b269d63ed0974176f251e8034564855e}{%
family={Brown},
familyi={B\bibinitperiod},
given={Peter\bibnamedelima F},
giveni={P\bibinitperiod\bibinitdelim F\bibinitperiod}}}%
{{hash=61b61a721b25ebe967463c2b306da5f7}{%
family={Pietra},
familyi={P\bibinitperiod},
given={Vincent\bibnamedelimb J\bibnamedelima Della},
giveni={V\bibinitperiod\bibinitdelim J\bibinitperiod\bibinitdelim D\bibinitperiod}}}%
{{hash=c69a90bf7107509a0bbd82d04ca2a8ae}{%
family={Pietra},
familyi={P\bibinitperiod},
given={Stephen\bibnamedelimb A\bibnamedelima Della},
giveni={S\bibinitperiod\bibinitdelim A\bibinitperiod\bibinitdelim D\bibinitperiod}}}%
{{hash=619872e7225f85d3b1c89906ec54e067}{%
family={Mercer},
familyi={M\bibinitperiod},
given={Robert\bibnamedelima L},
giveni={R\bibinitperiod\bibinitdelim L\bibinitperiod}}}%
}
\list{publisher}{1}{%
{MIT Press}%
}
\strng{namehash}{e1a7aeb09589fa95d5b84765dc9acb1d}
\strng{fullhash}{c933151f7ef6100fa53e2d864a3c0f91}
\strng{bibnamehash}{e1a7aeb09589fa95d5b84765dc9acb1d}
\strng{authorbibnamehash}{e1a7aeb09589fa95d5b84765dc9acb1d}
\strng{authornamehash}{e1a7aeb09589fa95d5b84765dc9acb1d}
\strng{authorfullhash}{c933151f7ef6100fa53e2d864a3c0f91}
\field{extraname}{2}
\field{sortinit}{B}
\field{sortinithash}{8de16967003c7207dae369d874f1456e}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Computational linguistics}
\field{number}{2}
\field{title}{The mathematics of statistical machine translation: Parameter estimation}
\field{volume}{19}
\field{year}{1993}
\field{pages}{263\bibrangedash 311}
\range{pages}{49}
\endentry
\entry{chen2014fast}{inproceedings}{}
\name{author}{2}{}{%
{{hash=aed188db3fc6855ac5666aa14e04a3bb}{%
family={Chen},
familyi={C\bibinitperiod},
given={Danqi},
giveni={D\bibinitperiod}}}%
{{hash=2214edb8305f7ccd7cdc310b3a8ae1b4}{%
family={Manning},
familyi={M\bibinitperiod},
given={Christopher\bibnamedelima D},
giveni={C\bibinitperiod\bibinitdelim D\bibinitperiod}}}%
}
\strng{namehash}{ee9c66797e7327b2ee7b96862e634853}
\strng{fullhash}{ee9c66797e7327b2ee7b96862e634853}
\strng{bibnamehash}{ee9c66797e7327b2ee7b96862e634853}
\strng{authorbibnamehash}{ee9c66797e7327b2ee7b96862e634853}
\strng{authornamehash}{ee9c66797e7327b2ee7b96862e634853}
\strng{authorfullhash}{ee9c66797e7327b2ee7b96862e634853}
\field{sortinit}{C}
\field{sortinithash}{4c244ceae61406cdc0cc2ce1cb1ff703}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)}
\field{title}{A fast and accurate dependency parser using neural networks}
\field{year}{2014}
\field{pages}{740\bibrangedash 750}
\range{pages}{11}
\endentry
\entry{chen1999empirical}{article}{}
\name{author}{2}{}{%
{{hash=22329e4fad1d1d229e5afbe4fe5bcca6}{%
family={Chen},
familyi={C\bibinitperiod},
given={Stanley\bibnamedelima F},
giveni={S\bibinitperiod\bibinitdelim F\bibinitperiod}}}%
{{hash=cff3ac3b4d16dde2f682dce454449cff}{%
family={Goodman},
familyi={G\bibinitperiod},
given={Joshua},
giveni={J\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Elsevier}%
}
\strng{namehash}{e7766dbeb1e894d1a1c85e82dc9d26a7}
\strng{fullhash}{e7766dbeb1e894d1a1c85e82dc9d26a7}
\strng{bibnamehash}{e7766dbeb1e894d1a1c85e82dc9d26a7}
\strng{authorbibnamehash}{e7766dbeb1e894d1a1c85e82dc9d26a7}
\strng{authornamehash}{e7766dbeb1e894d1a1c85e82dc9d26a7}
\strng{authorfullhash}{e7766dbeb1e894d1a1c85e82dc9d26a7}
\field{sortinit}{C}
\field{sortinithash}{4c244ceae61406cdc0cc2ce1cb1ff703}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Computer Speech \& Language}
\field{number}{4}
\field{title}{An empirical study of smoothing techniques for language modeling}
\field{volume}{13}
\field{year}{1999}
\field{pages}{359\bibrangedash 394}
\range{pages}{36}
\endentry
\entry{chomsky2002syntactic}{book}{}
\name{author}{1}{}{%
{{hash=28167c0b3800bc5cfb686676277005b0}{%
family={Chomsky},
familyi={C\bibinitperiod},
given={Noam},
giveni={N\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Walter de Gruyter}%
}
\strng{namehash}{28167c0b3800bc5cfb686676277005b0}
\strng{fullhash}{28167c0b3800bc5cfb686676277005b0}
\strng{bibnamehash}{28167c0b3800bc5cfb686676277005b0}
\strng{authorbibnamehash}{28167c0b3800bc5cfb686676277005b0}
\strng{authornamehash}{28167c0b3800bc5cfb686676277005b0}
\strng{authorfullhash}{28167c0b3800bc5cfb686676277005b0}
\field{sortinit}{C}
\field{sortinithash}{4c244ceae61406cdc0cc2ce1cb1ff703}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{Syntactic structures}
\field{year}{2002}
\endentry
\entry{gale1995good}{article}{}
\name{author}{2}{}{%
{{hash=2347dfd9dcf20ea2a38d78f8e6c8e8ab}{%
family={Gale},
familyi={G\bibinitperiod},
given={William\bibnamedelima A},
giveni={W\bibinitperiod\bibinitdelim A\bibinitperiod}}}%
{{hash=cf4650e11caf59af25efb68329bcd096}{%
family={Sampson},
familyi={S\bibinitperiod},
given={Geoffrey},
giveni={G\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Taylor \& Francis}%
}
\strng{namehash}{2ac04dc08f08d1c00b1f04f417ac73bb}
\strng{fullhash}{2ac04dc08f08d1c00b1f04f417ac73bb}
\strng{bibnamehash}{2ac04dc08f08d1c00b1f04f417ac73bb}
\strng{authorbibnamehash}{2ac04dc08f08d1c00b1f04f417ac73bb}
\strng{authornamehash}{2ac04dc08f08d1c00b1f04f417ac73bb}
\strng{authorfullhash}{2ac04dc08f08d1c00b1f04f417ac73bb}
\field{sortinit}{G}
\field{sortinithash}{62eb2aa29549e4fdbd3cb154ec5711cb}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Journal of quantitative linguistics}
\field{number}{3}
\field{title}{Good-turing frequency estimation without tears}
\field{volume}{2}
\field{year}{1995}
\field{pages}{217\bibrangedash 237}
\range{pages}{21}
\endentry
\entry{good1953population}{article}{}
\name{author}{1}{}{%
{{hash=287d039fb19c46dd90dd18326ebee81a}{%
family={Good},
familyi={G\bibinitperiod},
given={Irving\bibnamedelima J},
giveni={I\bibinitperiod\bibinitdelim J\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Oxford University Press}%
}
\strng{namehash}{287d039fb19c46dd90dd18326ebee81a}
\strng{fullhash}{287d039fb19c46dd90dd18326ebee81a}
\strng{bibnamehash}{287d039fb19c46dd90dd18326ebee81a}
\strng{authorbibnamehash}{287d039fb19c46dd90dd18326ebee81a}
\strng{authornamehash}{287d039fb19c46dd90dd18326ebee81a}
\strng{authorfullhash}{287d039fb19c46dd90dd18326ebee81a}
\field{sortinit}{G}
\field{sortinithash}{62eb2aa29549e4fdbd3cb154ec5711cb}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Biometrika}
\field{number}{3-4}
\field{title}{The population frequencies of species and the estimation of population parameters}
\field{volume}{40}
\field{year}{1953}
\field{pages}{237\bibrangedash 264}
\range{pages}{28}
\endentry
\entry{huang2008advanced}{inproceedings}{}
\name{author}{1}{}{%
{{hash=2ba9f491620cf8f3ee610ef7fdf2c9dd}{%
family={Huang},
familyi={H\bibinitperiod},
given={Liang},
giveni={L\bibinitperiod}}}%
}
\strng{namehash}{2ba9f491620cf8f3ee610ef7fdf2c9dd}
\strng{fullhash}{2ba9f491620cf8f3ee610ef7fdf2c9dd}
\strng{bibnamehash}{2ba9f491620cf8f3ee610ef7fdf2c9dd}
\strng{authorbibnamehash}{2ba9f491620cf8f3ee610ef7fdf2c9dd}
\strng{authornamehash}{2ba9f491620cf8f3ee610ef7fdf2c9dd}
\strng{authorfullhash}{2ba9f491620cf8f3ee610ef7fdf2c9dd}
\field{sortinit}{H}
\field{sortinithash}{6db6145dae8dc9e1271a8d556090b50a}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{Advanced Dynamic Programming in CL}
\field{year}{2008}
\endentry
\entry{huang2015bidirectional}{article}{}
\name{author}{3}{}{%
{{hash=6e8d947dd72de23b8500095b595e1e99}{%
family={Huang},
familyi={H\bibinitperiod},
given={Zhiheng},
giveni={Z\bibinitperiod}}}%
{{hash=b1dd1a9ff59cc6aeba590fc68bcc39cf}{%
family={Xu},
familyi={X\bibinitperiod},
given={Wei},
giveni={W\bibinitperiod}}}%
{{hash=f5a13dcc79cf0ffe67e50260860f709a}{%
family={Yu},
familyi={Y\bibinitperiod},
given={Kai},
giveni={K\bibinitperiod}}}%
}
\strng{namehash}{2f75424f8afa62a5d143e289d08f1665}
\strng{fullhash}{2f75424f8afa62a5d143e289d08f1665}
\strng{bibnamehash}{2f75424f8afa62a5d143e289d08f1665}
\strng{authorbibnamehash}{2f75424f8afa62a5d143e289d08f1665}
\strng{authornamehash}{2f75424f8afa62a5d143e289d08f1665}
\strng{authorfullhash}{2f75424f8afa62a5d143e289d08f1665}
\field{sortinit}{H}
\field{sortinithash}{6db6145dae8dc9e1271a8d556090b50a}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{arXiv preprint arXiv:1508.01991}
\field{title}{Bidirectional LSTM-CRF models for sequence tagging}
\field{year}{2015}
\endentry
\entry{ittycheriah2005maximum}{inproceedings}{}
\name{author}{2}{}{%
{{hash=a03cf28694fe83efc10ae803b8769485}{%
family={Ittycheriah},
familyi={I\bibinitperiod},
given={Abraham},
giveni={A\bibinitperiod}}}%
{{hash=fcdf7cf3f3cfe87d0f08f8f4d98b1137}{%
family={Roukos},
familyi={R\bibinitperiod},
given={Salim},
giveni={S\bibinitperiod}}}%
}
\list{organization}{1}{%
{Association for Computational Linguistics}%
}
\strng{namehash}{459e645eaa99742c4477c1dc155c1240}
\strng{fullhash}{459e645eaa99742c4477c1dc155c1240}
\strng{bibnamehash}{459e645eaa99742c4477c1dc155c1240}
\strng{authorbibnamehash}{459e645eaa99742c4477c1dc155c1240}
\strng{authornamehash}{459e645eaa99742c4477c1dc155c1240}
\strng{authorfullhash}{459e645eaa99742c4477c1dc155c1240}
\field{sortinit}{I}
\field{sortinithash}{9417e9a1288a9371e2691d999083ed39}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing}
\field{title}{A maximum entropy word aligner for Arabic-English machine translation}
\field{year}{2005}
\field{pages}{89\bibrangedash 96}
\range{pages}{8}
\endentry
\entry{kneser1995improved}{inproceedings}{}
\name{author}{2}{}{%
{{hash=d9f3c3457f75f60955fa5c2b36fc86ec}{%
family={Kneser},
familyi={K\bibinitperiod},
given={Reinhard},
giveni={R\bibinitperiod}}}%
{{hash=cf68a4c2b64db77cc898cdc9fbdeb0c4}{%
family={Ney},
familyi={N\bibinitperiod},
given={Hermann},
giveni={H\bibinitperiod}}}%
}
\list{organization}{1}{%
{IEEE}%
}
\strng{namehash}{68602597fa7a823464f42d5ef1f755d3}
\strng{fullhash}{68602597fa7a823464f42d5ef1f755d3}
\strng{bibnamehash}{68602597fa7a823464f42d5ef1f755d3}
\strng{authorbibnamehash}{68602597fa7a823464f42d5ef1f755d3}
\strng{authornamehash}{68602597fa7a823464f42d5ef1f755d3}
\strng{authorfullhash}{68602597fa7a823464f42d5ef1f755d3}
\field{sortinit}{K}
\field{sortinithash}{d3edc18d54b9438a72c24c925bfb38f4}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{1995 International Conference on Acoustics, Speech, and Signal Processing}
\field{title}{Improved backing-off for m-gram language modeling}
\field{volume}{1}
\field{year}{1995}
\field{pages}{181\bibrangedash 184}
\range{pages}{4}
\endentry
\entry{koehn2003statistical}{inproceedings}{}
\name{author}{3}{}{%
{{hash=dac0b41a5ea5e261d00f3251b76b91bd}{%
family={Koehn},
familyi={K\bibinitperiod},
given={Philipp},
giveni={P\bibinitperiod}}}%
{{hash=32b0f992581826baf8262f7355351480}{%
family={Och},
familyi={O\bibinitperiod},
given={Franz\bibnamedelima Josef},
giveni={F\bibinitperiod\bibinitdelim J\bibinitperiod}}}%
{{hash=e2a39610bfa3753b6cd9117b5f1c4854}{%
family={Marcu},
familyi={M\bibinitperiod},
given={Daniel},
giveni={D\bibinitperiod}}}%
}
\list{organization}{1}{%
{Association for Computational Linguistics}%
}
\strng{namehash}{9f2b4690ea540aa758f18faa6477fd3a}
\strng{fullhash}{9f2b4690ea540aa758f18faa6477fd3a}
\strng{bibnamehash}{9f2b4690ea540aa758f18faa6477fd3a}
\strng{authorbibnamehash}{9f2b4690ea540aa758f18faa6477fd3a}
\strng{authornamehash}{9f2b4690ea540aa758f18faa6477fd3a}
\strng{authorfullhash}{9f2b4690ea540aa758f18faa6477fd3a}
\field{sortinit}{K}
\field{sortinithash}{d3edc18d54b9438a72c24c925bfb38f4}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1}
\field{title}{Statistical phrase-based translation}
\field{year}{2003}
\field{pages}{48\bibrangedash 54}
\range{pages}{7}
\endentry
\entry{kolmogorov2018foundations}{book}{}
\name{author}{2}{}{%
{{hash=9d75b8e6905d1c3bbd7c677597929d6c}{%
family={Kolmogorov},
familyi={K\bibinitperiod},
given={Andre\bibnamedelima Nikolaevich},
giveni={A\bibinitperiod\bibinitdelim N\bibinitperiod}}}%
{{hash=528750b676e83a30cc4ff893ee954b75}{%
family={Bharucha-Reid},
familyi={B\bibinithyphendelim R\bibinitperiod},
given={Albert\bibnamedelima T},
giveni={A\bibinitperiod\bibinitdelim T\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Courier Dover Publications}%
}
\strng{namehash}{f43d1e88513d70674f8e142337d15d17}
\strng{fullhash}{f43d1e88513d70674f8e142337d15d17}
\strng{bibnamehash}{f43d1e88513d70674f8e142337d15d17}
\strng{authorbibnamehash}{f43d1e88513d70674f8e142337d15d17}
\strng{authornamehash}{f43d1e88513d70674f8e142337d15d17}
\strng{authorfullhash}{f43d1e88513d70674f8e142337d15d17}
\field{sortinit}{K}
\field{sortinithash}{d3edc18d54b9438a72c24c925bfb38f4}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{Foundations of the theory of probability: Second English Edition}
\field{year}{2018}
\endentry
\entry{lafferty2001conditional}{article}{}
\name{author}{3}{}{%
{{hash=88426f033c21f91cad168597555d363d}{%
family={Lafferty},
familyi={L\bibinitperiod},
given={John},
giveni={J\bibinitperiod}}}%
{{hash=17d73a3a5be48993791cbe4db8855331}{%
family={McCallum},
familyi={M\bibinitperiod},
given={Andrew},
giveni={A\bibinitperiod}}}%
{{hash=b99bb6fa4fedf907a397363d63528047}{%
family={Pereira},
familyi={P\bibinitperiod},
given={Fernando\bibnamedelima CN},
giveni={F\bibinitperiod\bibinitdelim C\bibinitperiod}}}%
}
\strng{namehash}{f1fb6bc84c219f4a487f94edf3d76b14}
\strng{fullhash}{f1fb6bc84c219f4a487f94edf3d76b14}
\strng{bibnamehash}{f1fb6bc84c219f4a487f94edf3d76b14}
\strng{authorbibnamehash}{f1fb6bc84c219f4a487f94edf3d76b14}
\strng{authornamehash}{f1fb6bc84c219f4a487f94edf3d76b14}
\strng{authorfullhash}{f1fb6bc84c219f4a487f94edf3d76b14}
\field{sortinit}{L}
\field{sortinithash}{dad3efd0836470093a7b4a7bb756eb8c}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{Conditional random fields: Probabilistic models for segmenting and labeling sequence data}
\field{year}{2001}
\endentry
\entry{ma2016end}{article}{}
\name{author}{2}{}{%
{{hash=a8f9a3f746656cec93579a6eb8fcd518}{%
family={Ma},
familyi={M\bibinitperiod},
given={Xuezhe},
giveni={X\bibinitperiod}}}%
{{hash=4c40167d6c8ae2073badfccef0c76767}{%
family={Hovy},
familyi={H\bibinitperiod},
given={Eduard},
giveni={E\bibinitperiod}}}%
}
\strng{namehash}{19c7a6df63f9822d4097371fd8d8a305}
\strng{fullhash}{19c7a6df63f9822d4097371fd8d8a305}
\strng{bibnamehash}{19c7a6df63f9822d4097371fd8d8a305}
\strng{authorbibnamehash}{19c7a6df63f9822d4097371fd8d8a305}
\strng{authornamehash}{19c7a6df63f9822d4097371fd8d8a305}
\strng{authorfullhash}{19c7a6df63f9822d4097371fd8d8a305}
\field{sortinit}{M}
\field{sortinithash}{2e5c2f51f7fa2d957f3206819bf86dc3}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{arXiv preprint arXiv:1603.01354}
\field{title}{End-to-end sequence labeling via bi-directional lstm-cnns-crf}
\field{year}{2016}
\endentry
\entry{mikolov2010recurrent}{inproceedings}{}
\name{author}{5}{}{%
{{hash=4a0e59cc1dbb8ca9e8342475f60e326a}{%
family={Mikolov},
familyi={M\bibinitperiod},
given={Tom{á}{š}},
giveni={T\bibinitperiod}}}%
{{hash=532398c21f4c14f31d6c3f5c9fb97d3b}{%
family={Karafi{á}t},
familyi={K\bibinitperiod},
given={Martin},
giveni={M\bibinitperiod}}}%
{{hash=ec089170ef346616c7b4c55ff60fd6cc}{%
family={Burget},
familyi={B\bibinitperiod},
given={Luk{á}{š}},
giveni={L\bibinitperiod}}}%
{{hash=c2b4fbf4b66e87721a2fbe956a495a78}{%
family={{Č}ernock{ỳ}},
familyi={Č\bibinitperiod},
given={Jan},
giveni={J\bibinitperiod}}}%
{{hash=d787f09b6c6cc374a9ad21fe9120fc1f}{%
family={Khudanpur},
familyi={K\bibinitperiod},
given={Sanjeev},
giveni={S\bibinitperiod}}}%
}
\strng{namehash}{2db95ca456b29eae853859553b1267c8}
\strng{fullhash}{8ba380599995fb34b87426fbc79dbda6}
\strng{bibnamehash}{2db95ca456b29eae853859553b1267c8}
\strng{authorbibnamehash}{2db95ca456b29eae853859553b1267c8}
\strng{authornamehash}{2db95ca456b29eae853859553b1267c8}
\strng{authorfullhash}{8ba380599995fb34b87426fbc79dbda6}
\field{sortinit}{M}
\field{sortinithash}{2e5c2f51f7fa2d957f3206819bf86dc3}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Eleventh annual conference of the international speech communication association}
\field{title}{Recurrent neural network based language model}
\field{year}{2010}
\endentry
\entry{nagao1984framework}{article}{}
\name{author}{1}{}{%
{{hash=a9664468e1992444282044b192539ec1}{%
family={Nagao},
familyi={N\bibinitperiod},
given={Makoto},
giveni={M\bibinitperiod}}}%
}
\strng{namehash}{a9664468e1992444282044b192539ec1}
\strng{fullhash}{a9664468e1992444282044b192539ec1}
\strng{bibnamehash}{a9664468e1992444282044b192539ec1}
\strng{authorbibnamehash}{a9664468e1992444282044b192539ec1}
\strng{authornamehash}{a9664468e1992444282044b192539ec1}
\strng{authorfullhash}{a9664468e1992444282044b192539ec1}
\field{sortinit}{N}
\field{sortinithash}{98cf339a479c0454fe09153a08675a15}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Artificial and human intelligence}
\field{title}{A framework of a mechanical translation between Japanese and English by analogy principle}
\field{year}{1984}
\field{pages}{351\bibrangedash 354}
\range{pages}{4}
\endentry
\entry{ney1994structuring}{article}{}
\name{author}{3}{}{%
{{hash=cf68a4c2b64db77cc898cdc9fbdeb0c4}{%
family={Ney},
familyi={N\bibinitperiod},
given={Hermann},
giveni={H\bibinitperiod}}}%
{{hash=b2ef0258c04f3ad7e91e09d0279e802e}{%
family={Essen},
familyi={E\bibinitperiod},
given={Ute},
giveni={U\bibinitperiod}}}%
{{hash=d9f3c3457f75f60955fa5c2b36fc86ec}{%
family={Kneser},
familyi={K\bibinitperiod},
given={Reinhard},
giveni={R\bibinitperiod}}}%
}
\strng{namehash}{55fd427c3f707df2bb830dcbeac8cfeb}
\strng{fullhash}{55fd427c3f707df2bb830dcbeac8cfeb}
\strng{bibnamehash}{55fd427c3f707df2bb830dcbeac8cfeb}
\strng{authorbibnamehash}{55fd427c3f707df2bb830dcbeac8cfeb}
\strng{authornamehash}{55fd427c3f707df2bb830dcbeac8cfeb}
\strng{authorfullhash}{55fd427c3f707df2bb830dcbeac8cfeb}
\field{sortinit}{N}
\field{sortinithash}{98cf339a479c0454fe09153a08675a15}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Computer Speech \& Language}
\field{number}{1}
\field{title}{On structuring probabilistic dependences in stochastic language modelling}
\field{volume}{8}
\field{year}{1994}
\field{pages}{1\bibrangedash 38}
\range{pages}{38}
\endentry
\entry{ng2002discriminative}{inproceedings}{}
\name{author}{2}{}{%
{{hash=49e889356ff39df159461bc2895c7e16}{%
family={Ng},
familyi={N\bibinitperiod},
given={Andrew\bibnamedelima Y},
giveni={A\bibinitperiod\bibinitdelim Y\bibinitperiod}}}%
{{hash=8a36116840c7ee55901618c95fd08a58}{%
family={Jordan},
familyi={J\bibinitperiod},
given={Michael\bibnamedelima I},
giveni={M\bibinitperiod\bibinitdelim I\bibinitperiod}}}%
}
\strng{namehash}{dca981b2891288e8bdd7d6fbf1a6a9c4}
\strng{fullhash}{dca981b2891288e8bdd7d6fbf1a6a9c4}
\strng{bibnamehash}{dca981b2891288e8bdd7d6fbf1a6a9c4}
\strng{authorbibnamehash}{dca981b2891288e8bdd7d6fbf1a6a9c4}
\strng{authornamehash}{dca981b2891288e8bdd7d6fbf1a6a9c4}
\strng{authorfullhash}{dca981b2891288e8bdd7d6fbf1a6a9c4}
\field{sortinit}{N}
\field{sortinithash}{98cf339a479c0454fe09153a08675a15}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Advances in neural information processing systems}
\field{title}{On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes}
\field{year}{2002}
\field{pages}{841\bibrangedash 848}
\range{pages}{8}
\endentry
\entry{och2003systematic}{article}{}
\name{author}{2}{}{%
{{hash=32b0f992581826baf8262f7355351480}{%
family={Och},
familyi={O\bibinitperiod},
given={Franz\bibnamedelima Josef},
giveni={F\bibinitperiod\bibinitdelim J\bibinitperiod}}}%
{{hash=cf68a4c2b64db77cc898cdc9fbdeb0c4}{%
family={Ney},
familyi={N\bibinitperiod},
given={Hermann},
giveni={H\bibinitperiod}}}%
}
\list{publisher}{1}{%
{MIT Press}%
}
\strng{namehash}{222cfc03c6f54a997af001fa35024a3b}
\strng{fullhash}{222cfc03c6f54a997af001fa35024a3b}
\strng{bibnamehash}{222cfc03c6f54a997af001fa35024a3b}
\strng{authorbibnamehash}{222cfc03c6f54a997af001fa35024a3b}
\strng{authornamehash}{222cfc03c6f54a997af001fa35024a3b}
\strng{authorfullhash}{222cfc03c6f54a997af001fa35024a3b}
\field{extraname}{1}
\field{sortinit}{O}
\field{sortinithash}{ff8d4eeb5101e3cf3809959b3592d942}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Computational linguistics}
\field{number}{1}
\field{title}{A systematic comparison of various statistical alignment models}
\field{volume}{29}
\field{year}{2003}
\field{pages}{19\bibrangedash 51}
\range{pages}{33}
\endentry
\entry{och2004alignment}{article}{}
\name{author}{2}{}{%
{{hash=32b0f992581826baf8262f7355351480}{%
family={Och},
familyi={O\bibinitperiod},
given={Franz\bibnamedelima Josef},
giveni={F\bibinitperiod\bibinitdelim J\bibinitperiod}}}%
{{hash=cf68a4c2b64db77cc898cdc9fbdeb0c4}{%
family={Ney},
familyi={N\bibinitperiod},
given={Hermann},
giveni={H\bibinitperiod}}}%
}
\list{publisher}{1}{%
{MIT Press}%
}
\strng{namehash}{222cfc03c6f54a997af001fa35024a3b}
\strng{fullhash}{222cfc03c6f54a997af001fa35024a3b}
\strng{bibnamehash}{222cfc03c6f54a997af001fa35024a3b}
\strng{authorbibnamehash}{222cfc03c6f54a997af001fa35024a3b}
\strng{authornamehash}{222cfc03c6f54a997af001fa35024a3b}
\strng{authorfullhash}{222cfc03c6f54a997af001fa35024a3b}
\field{extraname}{2}
\field{sortinit}{O}
\field{sortinithash}{ff8d4eeb5101e3cf3809959b3592d942}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Computational linguistics}
\field{number}{4}
\field{title}{The alignment template approach to statistical machine translation}
\field{volume}{30}
\field{year}{2004}
\field{pages}{417\bibrangedash 449}
\range{pages}{33}
\endentry
\entry{papineni2002bleu}{inproceedings}{}
\name{author}{4}{}{%
{{hash=7f72c67734e28d79452d687f2b2825d0}{%
family={Papineni},
familyi={P\bibinitperiod},
given={Kishore},
giveni={K\bibinitperiod}}}%
{{hash=fcdf7cf3f3cfe87d0f08f8f4d98b1137}{%
family={Roukos},
familyi={R\bibinitperiod},
given={Salim},
giveni={S\bibinitperiod}}}%
{{hash=630f7af400534d0e9f11cc0befbb3fe3}{%
family={Ward},
familyi={W\bibinitperiod},
given={Todd},
giveni={T\bibinitperiod}}}%
{{hash=ecc966c09b4816bda3be0efb9bedb125}{%
family={Zhu},
familyi={Z\bibinitperiod},
given={Wei-Jing},
giveni={W\bibinithyphendelim J\bibinitperiod}}}%
}
\list{organization}{1}{%
{Association for Computational Linguistics}%
}
\strng{namehash}{d4eb40956a6de2c2fe50bfef6a72df63}
\strng{fullhash}{0a6e6b36539eaebe00a3fef93d4cd32a}
\strng{bibnamehash}{d4eb40956a6de2c2fe50bfef6a72df63}
\strng{authorbibnamehash}{d4eb40956a6de2c2fe50bfef6a72df63}
\strng{authornamehash}{d4eb40956a6de2c2fe50bfef6a72df63}
\strng{authorfullhash}{0a6e6b36539eaebe00a3fef93d4cd32a}
\field{sortinit}{P}
\field{sortinithash}{bb5b15f2db90f7aef79bb9e83defefcb}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Proceedings of the 40th annual meeting on association for computational linguistics}
\field{title}{BLEU: a method for automatic evaluation of machine translation}
\field{year}{2002}
\field{pages}{311\bibrangedash 318}
\range{pages}{8}
\endentry
\entry{parsing2009speech}{article}{}
\name{author}{1}{}{%
{{hash=39bd56e32c83d8349b276dbb954c1bd6}{%
family={Parsing},
familyi={P\bibinitperiod},
given={Constituency},
giveni={C\bibinitperiod}}}%
}
\strng{namehash}{39bd56e32c83d8349b276dbb954c1bd6}
\strng{fullhash}{39bd56e32c83d8349b276dbb954c1bd6}
\strng{bibnamehash}{39bd56e32c83d8349b276dbb954c1bd6}
\strng{authorbibnamehash}{39bd56e32c83d8349b276dbb954c1bd6}
\strng{authornamehash}{39bd56e32c83d8349b276dbb954c1bd6}
\strng{authorfullhash}{39bd56e32c83d8349b276dbb954c1bd6}
\field{sortinit}{P}
\field{sortinithash}{bb5b15f2db90f7aef79bb9e83defefcb}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{Speech and language processing}
\field{year}{2009}
\endentry
\entry{resnick1992adventures}{book}{}
\name{author}{1}{}{%
{{hash=2becf933ecad0836916af8d8e92ca548}{%
family={Resnick},
familyi={R\bibinitperiod},
given={Sidney\bibnamedelima I},
giveni={S\bibinitperiod\bibinitdelim I\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Springer Science \& Business Media}%
}
\strng{namehash}{2becf933ecad0836916af8d8e92ca548}
\strng{fullhash}{2becf933ecad0836916af8d8e92ca548}
\strng{bibnamehash}{2becf933ecad0836916af8d8e92ca548}
\strng{authorbibnamehash}{2becf933ecad0836916af8d8e92ca548}
\strng{authornamehash}{2becf933ecad0836916af8d8e92ca548}
\strng{authorfullhash}{2becf933ecad0836916af8d8e92ca548}
\field{sortinit}{R}
\field{sortinithash}{b9c68a358aea118dfa887b6e902414a7}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{Adventures in stochastic processes}
\field{year}{1992}
\endentry
\entry{shannon1948mathematical}{article}{}
\name{author}{1}{}{%
{{hash=536c91678d1dde76c9acd47047556291}{%
family={Shannon},
familyi={S\bibinitperiod},
given={Claude\bibnamedelima E},
giveni={C\bibinitperiod\bibinitdelim E\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Wiley Online Library}%
}
\strng{namehash}{536c91678d1dde76c9acd47047556291}
\strng{fullhash}{536c91678d1dde76c9acd47047556291}
\strng{bibnamehash}{536c91678d1dde76c9acd47047556291}
\strng{authorbibnamehash}{536c91678d1dde76c9acd47047556291}
\strng{authornamehash}{536c91678d1dde76c9acd47047556291}
\strng{authorfullhash}{536c91678d1dde76c9acd47047556291}
\field{extraname}{1}
\field{sortinit}{S}
\field{sortinithash}{c319cff79d99c853d775f88277d4e45f}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Bell system technical journal}
\field{number}{3}
\field{title}{A mathematical theory of communication}
\field{volume}{27}
\field{year}{1948}
\field{pages}{379\bibrangedash 423}
\range{pages}{45}
\endentry
\entry{shannon1949communication}{article}{}
\name{author}{1}{}{%
{{hash=536c91678d1dde76c9acd47047556291}{%
family={Shannon},
familyi={S\bibinitperiod},
given={Claude\bibnamedelima E},
giveni={C\bibinitperiod\bibinitdelim E\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Wiley Online Library}%
}
\strng{namehash}{536c91678d1dde76c9acd47047556291}
\strng{fullhash}{536c91678d1dde76c9acd47047556291}
\strng{bibnamehash}{536c91678d1dde76c9acd47047556291}
\strng{authorbibnamehash}{536c91678d1dde76c9acd47047556291}
\strng{authornamehash}{536c91678d1dde76c9acd47047556291}
\strng{authorfullhash}{536c91678d1dde76c9acd47047556291}
\field{extraname}{2}
\field{sortinit}{S}
\field{sortinithash}{c319cff79d99c853d775f88277d4e45f}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Bell system technical journal}
\field{number}{4}
\field{title}{Communication theory of secrecy systems}
\field{volume}{28}
\field{year}{1949}
\field{pages}{656\bibrangedash 715}
\range{pages}{60}
\endentry
\entry{shiwen1993automatic}{article}{}
\name{author}{1}{}{%
{{hash=79a954956a47a1a00e0fe51f901be97a}{%
family={Shiwen},
familyi={S\bibinitperiod},
given={Yu},
giveni={Y\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Springer}%
}
\strng{namehash}{79a954956a47a1a00e0fe51f901be97a}
\strng{fullhash}{79a954956a47a1a00e0fe51f901be97a}
\strng{bibnamehash}{79a954956a47a1a00e0fe51f901be97a}
\strng{authorbibnamehash}{79a954956a47a1a00e0fe51f901be97a}
\strng{authornamehash}{79a954956a47a1a00e0fe51f901be97a}
\strng{authorfullhash}{79a954956a47a1a00e0fe51f901be97a}
\field{sortinit}{S}
\field{sortinithash}{c319cff79d99c853d775f88277d4e45f}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Machine Translation}
\field{number}{1-2}
\field{title}{Automatic evaluation of output quality for machine translation systems}
\field{volume}{8}
\field{year}{1993}
\field{pages}{117\bibrangedash 126}
\range{pages}{10}
\endentry
\entry{snover2006study}{inproceedings}{}
\name{author}{5}{}{%
{{hash=57fddde22dd45c3fd89f698609a15e64}{%
family={Snover},
familyi={S\bibinitperiod},
given={Matthew},
giveni={M\bibinitperiod}}}%
{{hash=c401d97f1db13573221c0d16dc3cf8c8}{%
family={Dorr},
familyi={D\bibinitperiod},
given={Bonnie},
giveni={B\bibinitperiod}}}%
{{hash=ed9b7985941f821b7c600e3973f62e51}{%
family={Schwartz},
familyi={S\bibinitperiod},
given={Richard},
giveni={R\bibinitperiod}}}%
{{hash=0a0cf3ca917fdcd5c1b176d34e1d6a7f}{%
family={Micciulla},
familyi={M\bibinitperiod},
given={Linnea},
giveni={L\bibinitperiod}}}%
{{hash=be711c1d20e2f962368bf225974dc978}{%
family={Makhoul},
familyi={M\bibinitperiod},
given={John},
giveni={J\bibinitperiod}}}%
}
\strng{namehash}{a778f5e3fb96c1f0f14573ab770f17d2}
\strng{fullhash}{3c6143a66e4a7a04971c5c4c84f895fe}
\strng{bibnamehash}{a778f5e3fb96c1f0f14573ab770f17d2}
\strng{authorbibnamehash}{a778f5e3fb96c1f0f14573ab770f17d2}
\strng{authornamehash}{a778f5e3fb96c1f0f14573ab770f17d2}
\strng{authorfullhash}{3c6143a66e4a7a04971c5c4c84f895fe}
\field{sortinit}{S}
\field{sortinithash}{c319cff79d99c853d775f88277d4e45f}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Proceedings of association for machine translation in the Americas}
\field{number}{6}
\field{title}{A study of translation edit rate with targeted human annotation}
\field{volume}{200}
\field{year}{2006}
\endentry
\entry{sutskever2014sequence}{inproceedings}{}
\name{author}{3}{}{%
{{hash=8d569d1d5b8b5a7836017a98b430f959}{%
family={Sutskever},
familyi={S\bibinitperiod},
given={Ilya},
giveni={I\bibinitperiod}}}%
{{hash=494b568c5dc85ba8f3f409635f9c5f25}{%
family={Vinyals},
familyi={V\bibinitperiod},
given={Oriol},
giveni={O\bibinitperiod}}}%
{{hash=c636f146591d51579a8119b777394878}{%
family={Le},
familyi={L\bibinitperiod},
given={Quoc\bibnamedelima V},
giveni={Q\bibinitperiod\bibinitdelim V\bibinitperiod}}}%
}
\strng{namehash}{d60494862bf48faf76d925f3780a6aee}
\strng{fullhash}{d60494862bf48faf76d925f3780a6aee}
\strng{bibnamehash}{d60494862bf48faf76d925f3780a6aee}
\strng{authorbibnamehash}{d60494862bf48faf76d925f3780a6aee}
\strng{authornamehash}{d60494862bf48faf76d925f3780a6aee}
\strng{authorfullhash}{d60494862bf48faf76d925f3780a6aee}
\field{sortinit}{S}
\field{sortinithash}{c319cff79d99c853d775f88277d4e45f}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Advances in neural information processing systems}
\field{title}{Sequence to sequence learning with neural networks}
\field{year}{2014}
\field{pages}{3104\bibrangedash 3112}
\range{pages}{9}
\endentry
\entry{vogel1996hmm}{inproceedings}{}
\name{author}{3}{}{%
{{hash=f5e541db27e153df8a70b314010a4f41}{%
family={Vogel},
familyi={V\bibinitperiod},
given={Stephan},
giveni={S\bibinitperiod}}}%
{{hash=cf68a4c2b64db77cc898cdc9fbdeb0c4}{%
family={Ney},
familyi={N\bibinitperiod},
given={Hermann},
giveni={H\bibinitperiod}}}%
{{hash=d787184506526ffd52d4bb2cb9173bb7}{%
family={Tillmann},
familyi={T\bibinitperiod},
given={Christoph},
giveni={C\bibinitperiod}}}%
}
\list{organization}{1}{%
{Association for Computational Linguistics}%
}
\strng{namehash}{e122ef47b66643f4bae0cf4c7cbf1d62}
\strng{fullhash}{e122ef47b66643f4bae0cf4c7cbf1d62}
\strng{bibnamehash}{e122ef47b66643f4bae0cf4c7cbf1d62}
\strng{authorbibnamehash}{e122ef47b66643f4bae0cf4c7cbf1d62}
\strng{authornamehash}{e122ef47b66643f4bae0cf4c7cbf1d62}
\strng{authorfullhash}{e122ef47b66643f4bae0cf4c7cbf1d62}
\field{sortinit}{V}
\field{sortinithash}{02432525618c08e2b03cac47c19764af}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Proceedings of the 16th conference on Computational linguistics-Volume 2}
\field{title}{HMM-based word alignment in statistical translation}
\field{year}{1996}
\field{pages}{836\bibrangedash 841}
\range{pages}{6}
\endentry
\entry{xiao2013unsupervised}{article}{}
\name{author}{2}{}{%
{{hash=41028368e6169b6177f4b66947f5eed0}{%
family={Xiao},
familyi={X\bibinitperiod},
given={Tong},
giveni={T\bibinitperiod}}}%
{{hash=82cda4d98e48a61bccb0fdf27e3c0b92}{%
family={Zhu},
familyi={Z\bibinitperiod},
given={Jingbo},
giveni={J\bibinitperiod}}}%
}
\strng{namehash}{ceb863673c97634498db3ff3c6ab25be}
\strng{fullhash}{ceb863673c97634498db3ff3c6ab25be}
\strng{bibnamehash}{ceb863673c97634498db3ff3c6ab25be}
\strng{authorbibnamehash}{ceb863673c97634498db3ff3c6ab25be}
\strng{authornamehash}{ceb863673c97634498db3ff3c6ab25be}
\strng{authorfullhash}{ceb863673c97634498db3ff3c6ab25be}
\field{sortinit}{X}
\field{sortinithash}{e90038f30fa4b9ce59606fc8347e3cc7}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Journal of Artificial Intelligence Research}
\field{title}{Unsupervised sub-tree alignment for tree-to-tree translation}
\field{volume}{48}
\field{year}{2013}
\field{pages}{733\bibrangedash 782}
\range{pages}{50}
\endentry
\entry{zhu2015long}{article}{}
\name{author}{3}{}{%
{{hash=7db206795c9c6671b7060b6153bcdab6}{%
family={Zhu},
familyi={Z\bibinitperiod},
given={Xiaodan},
giveni={X\bibinitperiod}}}%
{{hash=aafed55fdbb7a25c1ab43ed724eb953c}{%
family={Sobhani},
familyi={S\bibinitperiod},
given={Parinaz},
giveni={P\bibinitperiod}}}%
{{hash=9ef1c27eeeb236462f52032de708fe81}{%
family={Guo},
familyi={G\bibinitperiod},
given={Hongyu},
giveni={H\bibinitperiod}}}%
}
\strng{namehash}{08aaf389d8d0218d66adedd3df030f19}
\strng{fullhash}{08aaf389d8d0218d66adedd3df030f19}
\strng{bibnamehash}{08aaf389d8d0218d66adedd3df030f19}
\strng{authorbibnamehash}{08aaf389d8d0218d66adedd3df030f19}
\strng{authornamehash}{08aaf389d8d0218d66adedd3df030f19}
\strng{authorfullhash}{08aaf389d8d0218d66adedd3df030f19}
\field{sortinit}{Z}
\field{sortinithash}{8f7b480688e809b50b6f6577b16f3db5}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{arXiv: Computation and Language}
\field{title}{Long Short-Term Memory Over Tree Structures.}
\field{year}{2015}
\endentry
\entry{liuke-markov-2004}{book}{}
\name{author}{1}{}{%
{{hash=c01ef9a560378730f00ebeecceb572d4}{%
family={刘克},
familyi={刘\bibinitperiod}}}%
}
\list{publisher}{1}{%
{清华大学出版社}%
}
\strng{namehash}{c01ef9a560378730f00ebeecceb572d4}
\strng{fullhash}{c01ef9a560378730f00ebeecceb572d4}
\strng{bibnamehash}{c01ef9a560378730f00ebeecceb572d4}
\strng{authorbibnamehash}{c01ef9a560378730f00ebeecceb572d4}
\strng{authornamehash}{c01ef9a560378730f00ebeecceb572d4}
\strng{authorfullhash}{c01ef9a560378730f00ebeecceb572d4}
\field{sortinit}{刘}
\field{sortinithash}{f3ff24b163d4496b49484b7a115b76c9}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{实用马尔可夫决策过程}
\field{volume}{3}
\field{year}{2004}
\endentry
\entry{mao-prob-book-2011}{book}{}
\name{author}{6}{}{%
{{hash=2830831f67df549d8bcc4980e281a6ca}{%
family={茆诗松},
familyi={茆\bibinitperiod}}}%
{{hash=07f329c27730232bd243800625979283}{%
family={程依明},
familyi={程\bibinitperiod}}}%
{{hash=614b04f1697449a3d7a6615f9552d64d}{%
family={濮晓龙},
familyi={濮\bibinitperiod}}}%
{{hash=75212c77695d1b78aaf6d5f383728eb4}{%
family={平装},
familyi={平\bibinitperiod}}}%
{{hash=4d7ffbb58d61f76765dea25a0d4da1ec}{%
family={查看清},
familyi={查\bibinitperiod}}}%
{{hash=562a92d3f2b96306488b04b8b94b427a}{%
family={单书目},
familyi={单\bibinitperiod}}}%
}
\list{publisher}{1}{%
{北京: 高等教育出版社}%
}
\strng{namehash}{a5d297d55af03f5c30541752e4e66972}
\strng{fullhash}{0cd8944e1838d053c86a350a486cd430}
\strng{bibnamehash}{a5d297d55af03f5c30541752e4e66972}
\strng{authorbibnamehash}{a5d297d55af03f5c30541752e4e66972}
\strng{authornamehash}{a5d297d55af03f5c30541752e4e66972}
\strng{authorfullhash}{0cd8944e1838d053c86a350a486cd430}
\field{sortinit}{茆}
\field{sortinithash}{e6b0878d3262ba263a8d6ee4986b856f}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{概率论与数理统计教程: 第二版}
\field{year}{2011}
\endentry
\enddatalist
\endrefsection
\endinput
...@@ -103,8 +103,8 @@ ...@@ -103,8 +103,8 @@
% CHAPTERS % CHAPTERS
%---------------------------------------------------------------------------------------- %----------------------------------------------------------------------------------------
\include{Chapter1/chapter1} \include{Chapter1/chapter1}
\include{Chapter2/chapter2} %\include{Chapter2/chapter2}
\include{Chapter3/chapter3} %\include{Chapter3/chapter3}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论