Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
eb79fea0
Commit
eb79fea0
authored
Feb 26, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
update chapter1-3
parent
f63f5cc9
显示空白字符变更
内嵌
并排
正在显示
3 个修改的文件
包含
1056 行增加
和
67 行删除
+1056
-67
Book/Chapter2/chapter2.tex
+6
-10
Book/Chapter3/Chapter3.tex
+55
-57
Book/mt-book.bbl
+995
-0
没有找到文件。
Book/Chapter2/chapter2.tex
查看文件 @
eb79fea0
...
@@ -18,7 +18,7 @@
...
@@ -18,7 +18,7 @@
\parinterval
语言分析部分将以汉语为例介绍词法和句法分析。它们都是自然语言处理中的基本问题,而且在机器翻译中也会经常被使用。同样,我们会介绍这两个任务的定义和解决问题的思路。
\parinterval
语言分析部分将以汉语为例介绍词法和句法分析。它们都是自然语言处理中的基本问题,而且在机器翻译中也会经常被使用。同样,我们会介绍这两个任务的定义和解决问题的思路。
\parinterval
语言建模是机器翻译中最常用的一种技术,它主要用于句子的生成和流畅度评价。我们会以传统计语言模型为例,对语言建模的相关概念进行介绍。但是,这里并不深入探讨语言模型技术,在后面的章节中还有会单独的内容对神经网络语言模型等前沿技术进行讨论。
\parinterval
语言建模是机器翻译中最常用的一种技术,它主要用于句子的生成和流畅度评价。我们会以传统计语言模型为例,对语言建模的相关概念进行介绍。但是,这里并不深入探讨语言模型技术,在后面的章节中还有会单独的内容对神经网络语言模型等前沿技术进行讨论。
\\
\\
\\
\\
%--问题概述-----------------------------------------
%--问题概述-----------------------------------------
\section
{
问题概述
}
\index
{
Chapter2.1
}
\section
{
问题概述
}
\index
{
Chapter2.1
}
...
@@ -67,9 +67,7 @@
...
@@ -67,9 +67,7 @@
\parinterval
本章将会对上述问题及方法进行介绍。首先,会用一个例子给出统计建模的基本思路,之后会应用这种方法进行中文分词、语言建模和句法分析。
\parinterval
本章将会对上述问题及方法进行介绍。首先,会用一个例子给出统计建模的基本思路,之后会应用这种方法进行中文分词、语言建模和句法分析。
%--概率论基础-----------------------------------------
%--概率论基础-----------------------------------------
\section
{
概率论基础
}
\index
{
Chapter2.2
}
\section
{
概率论基础
}
\index
{
Chapter2.2
}
\parinterval
为了便于后续内容的介绍,首先对本书中使用的概率和统计学概念和符号与定理进行说明。
\parinterval
为了便于后续内容的介绍,首先对本书中使用的概率和统计学概念和符号与定理进行说明。
%--随机变量和概率---------------------
%--随机变量和概率---------------------
\subsection
{
随机变量和概率
}
\index
{
Chapter2.2.1
}
\subsection
{
随机变量和概率
}
\index
{
Chapter2.2.1
}
\parinterval
在自然界中,有这样一类具有偶然性的事件,它在一定条件下是否会发生是不确定的。例如,明天会下雨、掷一枚硬币是正面朝上、扔一个骰子的点数是5……这类可能会发生也可能不会发生,通过大量的重复试验,能发现其发生具有某种规律性的事件叫做
\textbf
{
随机事件
}
。
\parinterval
在自然界中,有这样一类具有偶然性的事件,它在一定条件下是否会发生是不确定的。例如,明天会下雨、掷一枚硬币是正面朝上、扔一个骰子的点数是5……这类可能会发生也可能不会发生,通过大量的重复试验,能发现其发生具有某种规律性的事件叫做
\textbf
{
随机事件
}
。
...
@@ -225,7 +223,6 @@
...
@@ -225,7 +223,6 @@
\bigcup
_{
i=1
}^
n B
_
i=S
\textrm
{
且
}
B
_
iB
_
j=
\varnothing
, i,j=1,...,n,i
\neq
j
\bigcup
_{
i=1
}^
n B
_
i=S
\textrm
{
且
}
B
_
iB
_
j=
\varnothing
, i,j=1,...,n,i
\neq
j
\label
{
eqC2.8-new
}
\label
{
eqC2.8-new
}
\end{eqnarray}
\end{eqnarray}
\parinterval
设
$
B
_
1
,…,B
_
n
$
是S的一个划分,A为事件,则
\parinterval
设
$
B
_
1
,…,B
_
n
$
是S的一个划分,A为事件,则
\begin{eqnarray}
\begin{eqnarray}
\textrm
{
P
}
(A)=
\sum
_{
k=1
}^
n
\textrm
{
P
}
(A
\mid
B
_
k)
\textrm
{
P
}
(B
_
k)
\textrm
{
P
}
(A)=
\sum
_{
k=1
}^
n
\textrm
{
P
}
(A
\mid
B
_
k)
\textrm
{
P
}
(B
_
k)
...
@@ -325,6 +322,7 @@
...
@@ -325,6 +322,7 @@
\begin{figure}
[htp]
\begin{figure}
[htp]
\centering
\centering
\includegraphics
[scale=0.5]
{
./Chapter2/Figures/figure-Self-information-function.pdf
}
\includegraphics
[scale=0.5]
{
./Chapter2/Figures/figure-Self-information-function.pdf
}
\setlength
{
\belowcaptionskip
}{
-1.5em
}
\caption
{
自信息函数图像
}
\caption
{
自信息函数图像
}
\label
{
fig:Self-information-function
}
\label
{
fig:Self-information-function
}
\end{figure}
\end{figure}
...
@@ -547,6 +545,7 @@
...
@@ -547,6 +545,7 @@
\begin{figure}
[htp]
\begin{figure}
[htp]
\centering
\centering
\input
{
./Chapter2/Figures/figure-the-dice-game-model
}
\input
{
./Chapter2/Figures/figure-the-dice-game-model
}
\setlength
{
\belowcaptionskip
}{
-1.0em
}
\caption
{
预设的骰子模型
}
\caption
{
预设的骰子模型
}
\label
{
fig:the-dice-game-model
}
\label
{
fig:the-dice-game-model
}
\end{figure}
\end{figure}
...
@@ -702,7 +701,7 @@ $\textrm{P}(w_2|w_1)\times$ & $\textrm{P}(w_2)\times$ & $\textrm{P}(w_2|w_1)\tim
...
@@ -702,7 +701,7 @@ $\textrm{P}(w_2|w_1)\times$ & $\textrm{P}(w_2)\times$ & $\textrm{P}(w_2|w_1)\tim
$
\textrm
{
P
}
(
w
_
3
|w
_
1
w
_
2
)
\times
$
&
$
\textrm
{
P
}
(
w
_
3
)
\times
$
&
$
\textrm
{
P
}
(
w
_
3
|w
_
2
)
\times
$
&
$
...
$
&
$
\textrm
{
P
}
(
w
_
3
|w
_
1
w
_
2
)
\times
$
\\
$
\textrm
{
P
}
(
w
_
3
|w
_
1
w
_
2
)
\times
$
&
$
\textrm
{
P
}
(
w
_
3
)
\times
$
&
$
\textrm
{
P
}
(
w
_
3
|w
_
2
)
\times
$
&
$
...
$
&
$
\textrm
{
P
}
(
w
_
3
|w
_
1
w
_
2
)
\times
$
\\
$
\textrm
{
P
}
(
w
_
4
|w
_
1
w
_
2
w
_
3
)
\times
$
&
$
\textrm
{
P
}
(
w
_
4
)
\times
$
&
$
\textrm
{
P
}
(
w
_
4
|w
_
3
)
\times
$
&
$
...
$
&
$
\textrm
{
P
}
(
w
_
4
|w
_
1
w
_
2
w
_
3
)
\times
$
\\
$
\textrm
{
P
}
(
w
_
4
|w
_
1
w
_
2
w
_
3
)
\times
$
&
$
\textrm
{
P
}
(
w
_
4
)
\times
$
&
$
\textrm
{
P
}
(
w
_
4
|w
_
3
)
\times
$
&
$
...
$
&
$
\textrm
{
P
}
(
w
_
4
|w
_
1
w
_
2
w
_
3
)
\times
$
\\
$
...
$
&
$
...
$
&
$
...
$
&
$
...
$
&
$
...
$
\\
$
...
$
&
$
...
$
&
$
...
$
&
$
...
$
&
$
...
$
\\
$
\textrm
{
P
}
(
w
_
m|w
_
1
... w
_{
m
-
1
}
)
$
&
$
\textrm
{
P
}
(
w
_
m
)
$
&
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
1
}
)
$
&
$
...
$
&
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
\\
$
\textrm
{
P
}
(
w
_
m|w
_
1
... w
_{
m
-
1
}
)
$
&
$
\textrm
{
P
}
(
w
_
m
)
$
&
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
1
}
)
$
&
$
...
$
&
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
\end{tabular}
\end{tabular}
}
}
\end{center}
\end{center}
...
@@ -712,10 +711,8 @@ $\textrm{P}(w_m|w_1 ... w_{m-1})$ & $\textrm{P}(w_m)$ & $\textrm{P}(w_m|w_{m-1})
...
@@ -712,10 +711,8 @@ $\textrm{P}(w_m|w_1 ... w_{m-1})$ & $\textrm{P}(w_m)$ & $\textrm{P}(w_m|w_{m-1})
\parinterval
可以看到,1-gram语言模型只是
$
n
$
-gram语言模型的一种特殊形式。
$
n
$
-gram的优点在于,它所使用的历史信息是有限的,即
$
n
$
-1个单词。这种性质也反映了经典的马尔可夫链的思想
\cite
{
liuke-markov-2004
}
\cite
{
resnick1992adventures
}
有时也被称作马尔可夫假设或者马尔可夫属性。因此
$
n
$
-gram也可以被看作是变长序列上的一种马尔可夫模型,比如,2-gram语言模型对应着1阶马尔可夫模型,3-gram语言模型对应着2阶马尔可夫模型,以此类推。
\parinterval
可以看到,1-gram语言模型只是
$
n
$
-gram语言模型的一种特殊形式。
$
n
$
-gram的优点在于,它所使用的历史信息是有限的,即
$
n
$
-1个单词。这种性质也反映了经典的马尔可夫链的思想
\cite
{
liuke-markov-2004
}
\cite
{
resnick1992adventures
}
有时也被称作马尔可夫假设或者马尔可夫属性。因此
$
n
$
-gram也可以被看作是变长序列上的一种马尔可夫模型,比如,2-gram语言模型对应着1阶马尔可夫模型,3-gram语言模型对应着2阶马尔可夫模型,以此类推。
\parinterval
那么,如何计算
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
?有很多种选择,比如:
\parinterval
那么,如何计算
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
?有很多种选择,比如:
\begin{adjustwidth}
{
1em
}{}
\begin{itemize}
\begin{itemize}
\item
极大似然估计。直接利用不同词序列在训练数据中出现的频度计算出
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
\item
极大似然估计。直接利用不同词序列在训练数据中出现的频度计算出
$
\textrm
{
P
}
(
w
_
m
$
\\
$
|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
\begin{eqnarray}
\begin{eqnarray}
\textrm
{
P
}
(w
_
m|w
_{
m-n+1
}
...w
_{
m-1
}
)=
\frac
{
count(w
_{
m-n+1
}
...w
_
m)
}{
count(w
_{
m-n+1
}
...w
_{
m-1
}
)
}
\textrm
{
P
}
(w
_
m|w
_{
m-n+1
}
...w
_{
m-1
}
)=
\frac
{
count(w
_{
m-n+1
}
...w
_
m)
}{
count(w
_{
m-n+1
}
...w
_{
m-1
}
)
}
\label
{
eqC2.29-new
}
\label
{
eqC2.29-new
}
...
@@ -723,7 +720,6 @@ $\textrm{P}(w_m|w_1 ... w_{m-1})$ & $\textrm{P}(w_m)$ & $\textrm{P}(w_m|w_{m-1})
...
@@ -723,7 +720,6 @@ $\textrm{P}(w_m|w_1 ... w_{m-1})$ & $\textrm{P}(w_m)$ & $\textrm{P}(w_m|w_{m-1})
\item
人工神经网络方法。构建一个人工神经网络估计
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
的值,比如,可以构建一个前馈神经网络来对
$
n
$
-gram进行建模。
\item
人工神经网络方法。构建一个人工神经网络估计
$
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
)
$
的值,比如,可以构建一个前馈神经网络来对
$
n
$
-gram进行建模。
\end{itemize}
\end{itemize}
\end{adjustwidth}
\parinterval
极大似然估计方法和前面介绍的统计分词中的方法是一致的,它的核心是使用
$
n
$
-gram出现的频度进行参数估计,因此是也自然语言处理中一类经典的
$
n
$
-gram方法。基于人工神经网络的方法在近些年也非常受关注,它直接利用多层神经网络对问题的输入
$
(
w
_{
m
-
n
+
1
}
...w
_{
m
-
1
}
)
$
和输出
$
(
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
))
$
进行建模,而模型的参数通过网络中神经元之间连接的权重进行体现。严格意义上了来说,基于人工神经网络的方法并不算基于
$
n
$
-gram的方法,或者说它并显性记录
$
n
$
-gram的生成概率,也不不依赖
$
n
$
-gram的频度进行参数估计。为了保证内容的连贯性,本章将仍以传统
$
n
$
-gram语言模型为基础进行讨论,基于人工神经网络的方法将会在第五章和第六章进行详细介绍。
\parinterval
极大似然估计方法和前面介绍的统计分词中的方法是一致的,它的核心是使用
$
n
$
-gram出现的频度进行参数估计,因此是也自然语言处理中一类经典的
$
n
$
-gram方法。基于人工神经网络的方法在近些年也非常受关注,它直接利用多层神经网络对问题的输入
$
(
w
_{
m
-
n
+
1
}
...w
_{
m
-
1
}
)
$
和输出
$
(
\textrm
{
P
}
(
w
_
m|w
_{
m
-
n
+
1
}
... w
_{
m
-
1
}
))
$
进行建模,而模型的参数通过网络中神经元之间连接的权重进行体现。严格意义上了来说,基于人工神经网络的方法并不算基于
$
n
$
-gram的方法,或者说它并显性记录
$
n
$
-gram的生成概率,也不不依赖
$
n
$
-gram的频度进行参数估计。为了保证内容的连贯性,本章将仍以传统
$
n
$
-gram语言模型为基础进行讨论,基于人工神经网络的方法将会在第五章和第六章进行详细介绍。
...
@@ -1198,11 +1194,11 @@ r_6: & VP \to VV NN \nonumber
...
@@ -1198,11 +1194,11 @@ r_6: & VP \to VV NN \nonumber
\begin{figure}
[htp]
\begin{figure}
[htp]
\centering
\centering
\input
{
./Chapter2/Figures/figure-example-of-zh-syntactic-analysis
}
\input
{
./Chapter2/Figures/figure-example-of-zh-syntactic-analysis
}
\setlength
{
\belowcaptionskip
}{
-1.0em
}
\caption
{
中文句法分析实例
}
\caption
{
中文句法分析实例
}
\label
{
fig:example-of-zh-syntactic-analysis
}
\label
{
fig:example-of-zh-syntactic-analysis
}
\end{figure}
\end{figure}
%-------------------------------------------
%-------------------------------------------
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section
{
小结及深入阅读
}
\index
{
Chapter2.6
}
\section
{
小结及深入阅读
}
\index
{
Chapter2.6
}
...
...
Book/Chapter3/Chapter3.tex
查看文件 @
eb79fea0
...
@@ -14,7 +14,6 @@
...
@@ -14,7 +14,6 @@
\chapter
{
基于词的翻译模型
}
\chapter
{
基于词的翻译模型
}
\parinterval
使用统计方法对翻译问题进行建模是机器翻译发展中的重要里程碑。这种思想也影响了当今的统计机器翻译和神经机器翻译方法。虽然技术不断发展,传统的统计模型已经不再``新鲜'',但它对于今天机器翻译的研究仍然有着重要的启示作用。在了解前沿、展望未来的同时,我们更要冷静的思考前人给我们带来了什么。基于此,本章将介绍统计机器翻译的开山之作
\ \
—
\ \
IBM模型,它提出了使用统计模型进行翻译的思想,并在建模中引入了单词对齐这一重要概念。IBM模型由Peter E. Brown等人于上世纪九十年代初提出
\cite
{
brown1993mathematics
}
。客观的说,这项工作的视野和对问题的理解,已经超过当时很多人所能看到的东西,其衍生出来的一系列方法和新的问题还被后人花费将近10年的时间来进行研究与讨论。时至今日,IBM模型中的一些思想仍然影响着很多研究工作。
\parinterval
使用统计方法对翻译问题进行建模是机器翻译发展中的重要里程碑。这种思想也影响了当今的统计机器翻译和神经机器翻译方法。虽然技术不断发展,传统的统计模型已经不再``新鲜'',但它对于今天机器翻译的研究仍然有着重要的启示作用。在了解前沿、展望未来的同时,我们更要冷静的思考前人给我们带来了什么。基于此,本章将介绍统计机器翻译的开山之作
\ \
—
\ \
IBM模型,它提出了使用统计模型进行翻译的思想,并在建模中引入了单词对齐这一重要概念。IBM模型由Peter E. Brown等人于上世纪九十年代初提出
\cite
{
brown1993mathematics
}
。客观的说,这项工作的视野和对问题的理解,已经超过当时很多人所能看到的东西,其衍生出来的一系列方法和新的问题还被后人花费将近10年的时间来进行研究与讨论。时至今日,IBM模型中的一些思想仍然影响着很多研究工作。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section
{
什么是基于词的翻译模型
}
\index
{
Chapter3.1
}
%Index的作用,目前不清晰
\section
{
什么是基于词的翻译模型
}
\index
{
Chapter3.1
}
%Index的作用,目前不清晰
...
@@ -114,9 +113,7 @@
...
@@ -114,9 +113,7 @@
%---------------------------
%---------------------------
\parinterval
对于第二个问题,尽管机器能够找到很多这样的译文选择路径,但它并不知道哪些路径是好的。说的再直白一些,简单的枚举路径实际上就是一个体力活,没有什么智能。因此计算机还需要再聪明一些,运用它的能够``掌握''的知识判断翻译结果的好与坏。这一步是最具挑战的,当然也有很多思路。在统计机器翻译中,这个问题被定义为:设计一种统计模型,它可以给每个译文一个可能性,而这个可能性越高表明译文越接近人工翻译。如图
\ref
{
fig:3-4
}
所示,每个单词翻译候选的右侧黑色框里的数字就是单词的翻译概率。使用这些单词的翻译概率,我们可以得到整句译文的概率(符号P表示)。这样,我们用概率化的模型描述了每个翻译候选的可能性。基于每个翻译候选的可能性,机器翻译系统可以对所有的翻译``路径''进行打分,比如,图
\ref
{
fig:3-4
}
中第一条路径的分数为0.042,第二条是0.006,以此类推。最后,系统可以选择分数最高的路径作为源语言句子的最终译文。
\parinterval
对于第二个问题,尽管机器能够找到很多这样的译文选择路径,但它并不知道哪些路径是好的。说的再直白一些,简单的枚举路径实际上就是一个体力活,没有什么智能。因此计算机还需要再聪明一些,运用它的能够``掌握''的知识判断翻译结果的好与坏。这一步是最具挑战的,当然也有很多思路。在统计机器翻译中,这个问题被定义为:设计一种统计模型,它可以给每个译文一个可能性,而这个可能性越高表明译文越接近人工翻译。如图
\ref
{
fig:3-4
}
所示,每个单词翻译候选的右侧黑色框里的数字就是单词的翻译概率。使用这些单词的翻译概率,我们可以得到整句译文的概率(符号P表示)。这样,我们用概率化的模型描述了每个翻译候选的可能性。基于每个翻译候选的可能性,机器翻译系统可以对所有的翻译``路径''进行打分,比如,图
\ref
{
fig:3-4
}
中第一条路径的分数为0.042,第二条是0.006,以此类推。最后,系统可以选择分数最高的路径作为源语言句子的最终译文。
\subsubsection
{
(三)人工 vs. 机器
}
\index
{
Chapter3.2.1.3
}
\subsubsection
{
(三)人工 vs. 机器
}
\index
{
Chapter3.2.1.3
}
\parinterval
人在翻译时的决策是非常确定并且快速的,但计算机处理这个问题时却充满了概率化的思想。当然它们也有类似的地方。首先,计算机使用统计模型的目的是把翻译知识变得可计算,并把这些``知识''储存在相关的模型参数中,这个模型和我们大脑的作用是类似的
\footnote
{
这里,并不是要把统计模型等同于生物学或者认知科学上的人脑,我们指的是他们处理翻译问题时发挥的作用类似。
}
;其次,计算机对统计模型进行训练的过程相当于人类学习知识的过程,或者二者都可以称为学习;再有,计算机使用学习到的模型对新句子进行翻译的过程相当于人运用知识的过程。在统计机器翻译中,模型学习的过程被称为
\textbf
{
训练
}
,目的是从双语平行数据中自动学习翻译``知识'';而使用模型处理新句子的过程被称为
\textbf
{
解码
}
或
\textbf
{
推断
}
,目的是使用学习到的知识对新的句子进行翻译。这也反映了机器翻译的两个核心步骤:训练和解码。图
\ref
{
fig:3-4
}
的右侧标注在翻译过程中训练和解码的位置。最终,统计机器翻译的核心由三部分构成 - 建模、训练和解码。本章后续内容会围绕这三个问题展开讨论。
\parinterval
人在翻译时的决策是非常确定并且快速的,但计算机处理这个问题时却充满了概率化的思想。当然它们也有类似的地方。首先,计算机使用统计模型的目的是把翻译知识变得可计算,并把这些``知识''储存在相关的模型参数中,这个模型和我们大脑的作用是类似的
\footnote
{
这里,并不是要把统计模型等同于生物学或者认知科学上的人脑,我们指的是他们处理翻译问题时发挥的作用类似。
}
;其次,计算机对统计模型进行训练的过程相当于人类学习知识的过程,或者二者都可以称为学习;再有,计算机使用学习到的模型对新句子进行翻译的过程相当于人运用知识的过程。在统计机器翻译中,模型学习的过程被称为
\textbf
{
训练
}
,目的是从双语平行数据中自动学习翻译``知识'';而使用模型处理新句子的过程被称为
\textbf
{
解码
}
或
\textbf
{
推断
}
,目的是使用学习到的知识对新的句子进行翻译。这也反映了机器翻译的两个核心步骤:训练和解码。图
\ref
{
fig:3-4
}
的右侧标注在翻译过程中训练和解码的位置。最终,统计机器翻译的核心由三部分构成 - 建模、训练和解码。本章后续内容会围绕这三个问题展开讨论。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
...
@@ -205,7 +202,7 @@
...
@@ -205,7 +202,7 @@
\label
{
eqC3.2-new
}
\label
{
eqC3.2-new
}
\end{eqnarray}
\end{eqnarray}
\noindent
这里运算
$
|
\cdot
|
$
表示句子长度。类似的,可以得到``机器''和``translation''、“机器”和“look”的单词翻译概率:
\noindent
这里运算
$
|
\cdot
|
$
表示句子长度。类似的,可以得到``机器''和``translation''、“机器”和“look”
\\
的单词翻译概率:
\begin{eqnarray}
\begin{eqnarray}
\textrm
{
P
}
(
\text
{
``机器''
}
,
\text
{
``translation''
}
;
\mathbf
{
s
}
,
\mathbf
{
t
}
)
&
=
&
\frac
{
2
}{
63
}
\\
\textrm
{
P
}
(
\text
{
``机器''
}
,
\text
{
``translation''
}
;
\mathbf
{
s
}
,
\mathbf
{
t
}
)
&
=
&
\frac
{
2
}{
63
}
\\
\textrm
{
P
}
(
\text
{
``机器''
}
,
\text
{
``look''
}
;
\mathbf
{
s
}
,
\mathbf
{
t
}
)
&
=
&
\frac
{
0
}{
63
}
\textrm
{
P
}
(
\text
{
``机器''
}
,
\text
{
``look''
}
;
\mathbf
{
s
}
,
\mathbf
{
t
}
)
&
=
&
\frac
{
0
}{
63
}
...
@@ -253,7 +250,7 @@
...
@@ -253,7 +250,7 @@
\subsection
{
句子级翻译模型
}
\index
{
Chapter3.2.4
}
\subsection
{
句子级翻译模型
}
\index
{
Chapter3.2.4
}
\label
{
sec:sentence-level-translation
}
\label
{
sec:sentence-level-translation
}
\parinterval
在
获得单词翻译概率的基础上
,本节继续介绍如何获取句子级翻译概率。如图
\ref
{
fig:3-6
}
所示,条件概率
$
\textrm
{
P
}
(
t|s
)
$
表示给出源语言句子
$
s
$
的情况下译文为
$
t
$
的概率。这也是整个句子级翻译模型的核心,一方面我们需要从数据中学习这个模型的参数,另一方面,对于新输入的句子,我们需要使用这个模型得到最佳的译文。下面介绍句子级翻译的建模方法。
\parinterval
在
了解单词翻译概率之后
,本节继续介绍如何获取句子级翻译概率。如图
\ref
{
fig:3-6
}
所示,条件概率
$
\textrm
{
P
}
(
t|s
)
$
表示给出源语言句子
$
s
$
的情况下译文为
$
t
$
的概率。这也是整个句子级翻译模型的核心,一方面我们需要从数据中学习这个模型的参数,另一方面,对于新输入的句子,我们需要使用这个模型得到最佳的译文。下面介绍句子级翻译的建模方法。
%----------------------------------------------
%----------------------------------------------
% 图3.10
% 图3.10
\begin{figure}
[htp]
\begin{figure}
[htp]
...
@@ -285,7 +282,7 @@
...
@@ -285,7 +282,7 @@
\parinterval
当然,这里最核心的问题还是函数
$
g
(
s,t
)
$
的定义。而第二个问题其实不需要解决,因为我们通常只关注于可能性最大的翻译结果,即
$
g
(
s,t
)
$
的计算结果最大时对应的译文。这个问题会在后面进行讨论。
\parinterval
当然,这里最核心的问题还是函数
$
g
(
s,t
)
$
的定义。而第二个问题其实不需要解决,因为我们通常只关注于可能性最大的翻译结果,即
$
g
(
s,t
)
$
的计算结果最大时对应的译文。这个问题会在后面进行讨论。
\parinterval
回到设计
$
g
(
s,t
)
$
的问题上。这里,我们采用``大题小作''的方法,这个技巧在第二章已经进行了充分的介绍。具体来说,直接建模句子之间的对应比较困难,但可以利用单词之间的对应来描述句子之间的对应关系。这
里,
就用到了上一小节所介绍的单词翻译概率。
\parinterval
回到设计
$
g
(
s,t
)
$
的问题上。这里,我们采用``大题小作''的方法,这个技巧在第二章已经进行了充分的介绍。具体来说,直接建模句子之间的对应比较困难,但可以利用单词之间的对应来描述句子之间的对应关系。这就用到了上一小节所介绍的单词翻译概率。
\parinterval
我们首先引入一个非常重要的概念
\
—
\ \textbf
{
词对齐
}
,它是统计机器翻译中最核心的概念之一。词对齐描述了平行句对中单词之间的对应关系,它体现了一种观点:本质上句子之间的对应是由词之间的对应表示的。当然,这个观点在神经机器翻译或者其它模型中可能会有不同的理解,但是翻译句子的过程中我们考虑词级的对应关系是符合我们对语言的认知的。图
\ref
{
fig:3-7
}
展示了一个句对
$
s
$
和
$
t
$
,单词的右下标数字表示了该词在句中的位置,而虚线表示的是句子
$
s
$
和
$
t
$
中的词对齐关系。比如,``满意''的右下标数字5表示在句子
$
s
$
中处于第5个位置,``satisfied''的右下标数字3表示在句子
$
t
$
中处于第3个位置,``满意''和``satisfied''之间的虚线表示两个单词之间是对齐的。为方便描述,我们用二元组
$
(
j,i
)
$
来描述词对齐,它表示源语言句子的第
$
j
$
个单词对应目标语言句子的第
$
i
$
个单词,即单词
$
s
_
j
$
和
$
t
_
i
$
对应。通常,也会把
$
(
j,i
)
$
称作一条
\textbf
{
词对齐连接
}
。图
\ref
{
fig:3-7
}
中共有5条虚线,表示有5组单词之间的词对齐连接。我们把这些词对齐连接构成的集合作为词对齐的一种表示,记为
$
A
$
,即
$
A
=
{
\{
(
1
,
1
)
,
(
2
,
4
)
,
(
3
,
5
)
,
(
4
,
2
)(
5
,
3
)
}
\}
$
。
\parinterval
我们首先引入一个非常重要的概念
\
—
\ \textbf
{
词对齐
}
,它是统计机器翻译中最核心的概念之一。词对齐描述了平行句对中单词之间的对应关系,它体现了一种观点:本质上句子之间的对应是由词之间的对应表示的。当然,这个观点在神经机器翻译或者其它模型中可能会有不同的理解,但是翻译句子的过程中我们考虑词级的对应关系是符合我们对语言的认知的。图
\ref
{
fig:3-7
}
展示了一个句对
$
s
$
和
$
t
$
,单词的右下标数字表示了该词在句中的位置,而虚线表示的是句子
$
s
$
和
$
t
$
中的词对齐关系。比如,``满意''的右下标数字5表示在句子
$
s
$
中处于第5个位置,``satisfied''的右下标数字3表示在句子
$
t
$
中处于第3个位置,``满意''和``satisfied''之间的虚线表示两个单词之间是对齐的。为方便描述,我们用二元组
$
(
j,i
)
$
来描述词对齐,它表示源语言句子的第
$
j
$
个单词对应目标语言句子的第
$
i
$
个单词,即单词
$
s
_
j
$
和
$
t
_
i
$
对应。通常,也会把
$
(
j,i
)
$
称作一条
\textbf
{
词对齐连接
}
。图
\ref
{
fig:3-7
}
中共有5条虚线,表示有5组单词之间的词对齐连接。我们把这些词对齐连接构成的集合作为词对齐的一种表示,记为
$
A
$
,即
$
A
=
{
\{
(
1
,
1
)
,
(
2
,
4
)
,
(
3
,
5
)
,
(
4
,
2
)(
5
,
3
)
}
\}
$
。
%----------------------------------------------
%----------------------------------------------
...
@@ -304,7 +301,7 @@ g(s,t) = \prod_{(j,i)\in \widehat{A}}\textrm{P}(s_j,t_i)
...
@@ -304,7 +301,7 @@ g(s,t) = \prod_{(j,i)\in \widehat{A}}\textrm{P}(s_j,t_i)
\label
{
eqC3.8-new
}
\label
{
eqC3.8-new
}
\end{eqnarray}
\end{eqnarray}
\noindent
其中
$
g
(
s,t
)
$
被定义为句子
$
s
$
中的单词和句子
$
t
$
中的单词的翻译概率的乘积,并且这两个单词之间必须有对齐连接。
$
\textrm
{
P
}
(
s
_
j,t
_
i
)
$
表示具有对齐链接的源语言单词
$
s
_
j
$
和目标语言单词
$
t
_
i
$
的单词翻译概率。以图
\ref
{
fig:3-7
}
中的句对为例,其中``我''与``I''、``对''与``with''、``你'' 与``you''
\\
等相互对应,可以把它们的翻译概率相乘得到
$
g
(
s,t
)
$
的计算结果,如下:
\noindent
其中
$
g
(
s,t
)
$
被定义为句子
$
s
$
中的单词和句子
$
t
$
中的单词的翻译概率的乘积,并且这两个单词之间必须有对齐连接。
$
\textrm
{
P
}
(
s
_
j,t
_
i
)
$
表示具有对齐链接的源语言单词
$
s
_
j
$
和目标语言单词
$
t
_
i
$
的单词翻译概率。以图
\ref
{
fig:3-7
}
中的句对为例,其中``我''与``I''、``对''与``with''、``你'' 与``you''等相互对应,可以把它们的翻译概率相乘得到
$
g
(
s,t
)
$
的计算结果,如下:
\begin{eqnarray}
\begin{eqnarray}
{
g(s,t)
}&
=
&
\textrm
{
P
}
(
\textrm
{
``我'',``I''
}
)
\times
\textrm
{
P
}
(
\textrm
{
``对'',``with''
}
)
\times
\textrm
{
P
}
(
\textrm
{
``你'',``you''
}
)
\times
\nonumber
\\
{
g(s,t)
}&
=
&
\textrm
{
P
}
(
\textrm
{
``我'',``I''
}
)
\times
\textrm
{
P
}
(
\textrm
{
``对'',``with''
}
)
\times
\textrm
{
P
}
(
\textrm
{
``你'',``you''
}
)
\times
\nonumber
\\
&
&
\textrm
{
P
}
(
\textrm
{
``感到'', ``am''
}
)
\times
\textrm
{
P
}
(
\textrm
{
``满意'',``satisfied''
}
)
&
&
\textrm
{
P
}
(
\textrm
{
``感到'', ``am''
}
)
\times
\textrm
{
P
}
(
\textrm
{
``满意'',``satisfied''
}
)
...
@@ -469,7 +466,7 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
...
@@ -469,7 +466,7 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\label
{
eqC3.16-new
}
\label
{
eqC3.16-new
}
\end{eqnarray}
\end{eqnarray}
\parinterval
公式
\ref
{
eqC3.16-new
}
把
$
s
$
到
$
t
$
的翻译概率转化为
$
\frac
{
\textrm
{
P
}
(
s|t
)
\textrm
{
P
(
t
)
}}{
\textrm
{
P
}
(
s
)
}$
,包括三个部分:第一部分是由译文
$
t
$
到源语言句子
$
s
$
的翻译概率
$
\textrm
{
P
}
(
s|t
)
$
,也被称为翻译模型。它表示给定目标语句
$
t
$
生成源语句
$
s
$
的概率,需要注意是翻译的方向已经从
$
\textrm
{
P
}
(
s|t
)
$
转向了
$
\textrm
{
P
}
(
t|s
)
$
,但无须刻意的区分,可以简单地理解为翻译模型刻画了
$
s
$
和
$
t
$
的翻译对应程度;第二部分是
$
\textrm
{
P
}
(
t
)
$
,也被称为语言模型。它表示的是目标语言句子
$
t
$
出现的可能性;第三部分是
$
\textrm
{
P
}
(
s
)
$
,表示源语言句子
$
s
$
出现的可能性。因为
$
s
$
是输入的不变量,而且
$
\textrm
{
P
}
(
s
)
\ge
0
$
,所以省略分母部分
$
\textrm
{
P
}
(
s
)
$
不会影响
$
\frac
{
\textrm
{
P
}
(
s|t
)
\textrm
{
P
(
t
)
}}{
\textrm
{
P
}
(
s
)
}$
最大值的求解。于是,机器翻译的目标可以被重新定义为:给定源语言句子
$
s
$
,寻找这样的目标语言译文
$
t
$
,它使得翻译模型
$
\textrm
{
P
}
(
s|t
)
$
和语言模型
$
\textrm
{
P
}
(
t
)
$
乘积最大:
\parinterval
公式
\ref
{
eqC3.16-new
}
把
$
s
$
到
$
t
$
的翻译概率转化为
$
\frac
{
\textrm
{
P
}
(
s|t
)
\textrm
{
P
(
t
)
}}{
\textrm
{
P
}
(
s
)
}$
,
它
包括三个部分:第一部分是由译文
$
t
$
到源语言句子
$
s
$
的翻译概率
$
\textrm
{
P
}
(
s|t
)
$
,也被称为翻译模型。它表示给定目标语句
$
t
$
生成源语句
$
s
$
的概率,需要注意是翻译的方向已经从
$
\textrm
{
P
}
(
s|t
)
$
转向了
$
\textrm
{
P
}
(
t|s
)
$
,但无须刻意的区分,可以简单地理解为翻译模型刻画了
$
s
$
和
$
t
$
的翻译对应程度;第二部分是
$
\textrm
{
P
}
(
t
)
$
,也被称为语言模型。它表示的是目标语言句子
$
t
$
出现的可能性;第三部分是
$
\textrm
{
P
}
(
s
)
$
,表示源语言句子
$
s
$
出现的可能性。因为
$
s
$
是输入的不变量,而且
$
\textrm
{
P
}
(
s
)
\ge
0
$
,所以省略分母部分
$
\textrm
{
P
}
(
s
)
$
不会影响
$
\frac
{
\textrm
{
P
}
(
s|t
)
\textrm
{
P
(
t
)
}}{
\textrm
{
P
}
(
s
)
}$
最大值的求解。于是,机器翻译的目标可以被重新定义为:给定源语言句子
$
s
$
,寻找这样的目标语言译文
$
t
$
,它使得翻译模型
$
\textrm
{
P
}
(
s|t
)
$
和语言模型
$
\textrm
{
P
}
(
t
)
$
乘积最大:
\begin{eqnarray}
\begin{eqnarray}
\hat
{
t
}
&
=
&
\argmax
_
t
\textrm
{
P
}
(t|s)
\nonumber
\\
\hat
{
t
}
&
=
&
\argmax
_
t
\textrm
{
P
}
(t|s)
\nonumber
\\
&
=
&
\argmax
_
t
\frac
{
\textrm
{
P
}
(s|t)
\textrm
{
P
}
(t)
}{
\textrm
{
P
}
(s)
}
\nonumber
\\
&
=
&
\argmax
_
t
\frac
{
\textrm
{
P
}
(s|t)
\textrm
{
P
}
(t)
}{
\textrm
{
P
}
(s)
}
\nonumber
\\
...
@@ -489,7 +486,7 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
...
@@ -489,7 +486,7 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
\textbf
{
建模
}
(modeling):如何建立
$
\textrm
{
P
}
(
s|t
)
$
和
$
\textrm
{
P
}
(
t
)
$
的数学模型。换句话说,需要用可计算的方式对翻译问题和语言建模问题进行描述,这也是最核心的问题。
\item
\textbf
{
建模
}
(modeling):如何建立
$
\textrm
{
P
}
(
s|t
)
$
和
$
\textrm
{
P
}
(
t
)
$
的数学模型。换句话说,需要用可计算的方式对翻译问题和语言建模问题进行描述,这也是最核心的问题。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
\textbf
{
训练
}
(training):如何获得
$
\textrm
{
P
}
(
s|t
)
$
和
$
\textrm
{
P
}
(
t
)
$
所需的参数。即从数据中得到
得到
模型的最优参数。
\item
\textbf
{
训练
}
(training):如何获得
$
\textrm
{
P
}
(
s|t
)
$
和
$
\textrm
{
P
}
(
t
)
$
所需的参数。即从数据中得到模型的最优参数。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
\textbf
{
解码
}
(decoding):如何完成搜索最优解的过程。即完成
$
\argmax
$
。
\item
\textbf
{
解码
}
(decoding):如何完成搜索最优解的过程。即完成
$
\argmax
$
。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
...
@@ -604,15 +601,11 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
...
@@ -604,15 +601,11 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\label
{
eqC3.20-new
}
\label
{
eqC3.20-new
}
\end{eqnarray}
\end{eqnarray}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section
{
IBM模型1-2
}
\index
{
Chapter3.4
}
\section
{
IBM模型1-2
}
\index
{
Chapter3.4
}
\parinterval
公式
\ref
{
eqC3.18-new
}
和公式
\ref
{
eqC3.19-new
}
把翻译问题定义为对译文和词对齐同时进行生成的问题。其中有两个问题:首先,公式
\ref
{
eqC3.18-new
}
的右端(
$
\sum
_
a
\textrm
{
P
}
(
s,a|t
)
$
)要求对所有的词对齐概率进行求和,但是词对齐的数量随着句子长度是呈指数增长的,如何遍历所有的对齐
$
a
$
?其次,公式
\ref
{
eqC3.19-new
}
虽然对词对齐的问题进行了描述,但是模型中的很多参数仍然很复杂,如何计算
$
\textrm
{
P
}
(
m|t
)
$
、
$
\textrm
{
P
}
(
a
_
j|a
_
1
^{
j
-
1
}
,s
_
1
^{
j
-
1
}
,m,t
)
$
和
$
\textrm
{
P
}
(
s
_
j|a
_
1
^{
j
}
,s
_
1
^{
j
-
1
}
,m,t
)
$
?针对这些问题,Brown等人总共提出了5种解决方案,这也就是被后人所熟知的5个IBM翻译模型。第一个问题可以通过一定的数学或者工程技巧进行求解;第二个问题可以通过一些假设进行化简,依据化简的层次和复杂度不同,可以分为IBM模型1、IBM模型2、IBM模型3、IBM模型4以及IBM模型5。本节首先介绍较为简单的IBM模型1-2。
\parinterval
公式
\ref
{
eqC3.18-new
}
和公式
\ref
{
eqC3.19-new
}
把翻译问题定义为对译文和词对齐同时进行生成的问题。其中有两个问题:首先,公式
\ref
{
eqC3.18-new
}
的右端(
$
\sum
_
a
\textrm
{
P
}
(
s,a|t
)
$
)要求对所有的词对齐概率进行求和,但是词对齐的数量随着句子长度是呈指数增长的,如何遍历所有的对齐
$
a
$
?其次,公式
\ref
{
eqC3.19-new
}
虽然对词对齐的问题进行了描述,但是模型中的很多参数仍然很复杂,如何计算
$
\textrm
{
P
}
(
m|t
)
$
、
$
\textrm
{
P
}
(
a
_
j|a
_
1
^{
j
-
1
}
,s
_
1
^{
j
-
1
}
,m,t
)
$
和
$
\textrm
{
P
}
(
s
_
j|a
_
1
^{
j
}
,s
_
1
^{
j
-
1
}
,m,t
)
$
?针对这些问题,Brown等人总共提出了5种解决方案,这也就是被后人所熟知的5个IBM翻译模型。第一个问题可以通过一定的数学或者工程技巧进行求解;第二个问题可以通过一些假设进行化简,依据化简的层次和复杂度不同,可以分为IBM模型1、IBM模型2、IBM模型3、IBM模型4以及IBM模型5。本节首先介绍较为简单的IBM模型1-2。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection
{
IBM模型1
}
\index
{
Chapter3.4.1
}
\subsection
{
IBM模型1
}
\index
{
Chapter3.4.1
}
\parinterval
IBM模型1对公式
\ref
{
eqC3.19-new
}
中的三项进行了简化。具体化简方法如下:
\parinterval
IBM模型1对公式
\ref
{
eqC3.19-new
}
中的三项进行了简化。具体化简方法如下:
\begin{itemize}
\begin{itemize}
\vspace
{
0.5em
}
\vspace
{
0.5em
}
...
@@ -635,9 +628,8 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
...
@@ -635,9 +628,8 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\end{eqnarray}
\end{eqnarray}
我们用一个简单的例子对公式
\ref
{
eqC3.23-new
}
进行说明。比如,在图
\ref
{
fig:3-18
}
中,``桌子''对齐到``table'',可被描述为
$
f
(
s
_
2
|t
_{
a
_
2
}
)=
f
(
\textrm
{
``桌子''
}
|
\textrm
{
``table''
}
)
$
,表示给定``table''翻译为``桌子''的概率。通常,
$
f
(
s
_
2
|t
_{
a
_
2
}
)
$
被认为是一种概率词典,它反应了两种语言词汇一级的对应程度。
我们用一个简单的例子对公式
\ref
{
eqC3.23-new
}
进行说明。比如,在图
\ref
{
fig:3-18
}
中,``桌子''对齐到``table'',可被描述为
$
f
(
s
_
2
|t
_{
a
_
2
}
)=
f
(
\textrm
{
``桌子''
}
|
\textrm
{
``table''
}
)
$
,表示给定``table''翻译为``桌子''的概率。通常,
$
f
(
s
_
2
|t
_{
a
_
2
}
)
$
被认为是一种概率词典,它反应了两种语言词汇一级的对应程度。
\vspace
{
0.5em
}
\end{itemize}
\end{itemize}
\vspace
{
3.0em
}
%----------------------------------------------
%----------------------------------------------
% 图3.28
% 图3.28
\begin{figure}
[htp]
\begin{figure}
[htp]
...
@@ -662,7 +654,7 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
...
@@ -662,7 +654,7 @@ g(s,t) \equiv \prod_{j,i \in \widehat{A}}{\textrm{P}(s_j,t_i)} \times \textrm{P
\label
{
eqC3.25-new
}
\label
{
eqC3.25-new
}
\end{eqnarray}
\end{eqnarray}
\parinterval
公式
\ref
{
eqC3.25-new
}
分为两个主要部分。第一部分:遍历所有的对齐
$
a
$
。其中
$
a
$
由
$
\{
a
_
1
,...,a
_
m
\}
$
组成,每个
$
a
_
j
\in
\{
a
_
1
,...,a
_
m
\}
$
从译文的开始位置
$
(
0
)
$
循环到截止位置
$
(
l
)
$
。如图
\ref
{
fig:3-19
}
表示的例子,描述的是源语单词
$
s
_
3
$
从译文的开始
$
t
_
0
$
遍历到结尾
$
t
_
3
$
,即
$
a
_
3
$
的取值范围。第二部分: 对于每个
$
a
$
累加对齐概率
$
\textrm
{
P
}
(
s,a|t
)=
\frac
{
\varepsilon
}{
(
l
+
1
)
^
m
}{
\prod
_{
j
=
1
}^{
m
}
f
(
s
_
j|t
_{
a
_
j
}
)
}$
。
\parinterval
公式
\ref
{
eqC3.25-new
}
分为两个主要部分。第一部分:遍历所有的对齐
$
a
$
。其中
$
a
$
由
$
\{
a
_
1
,...,a
_
m
\}
$
\\
组成,每个
$
a
_
j
\in
\{
a
_
1
,...,a
_
m
\}
$
从译文的开始位置
$
(
0
)
$
循环到截止位置
$
(
l
)
$
。如图
\ref
{
fig:3-19
}
表示的例子,描述的是源语单词
$
s
_
3
$
从译文的开始
$
t
_
0
$
遍历到结尾
$
t
_
3
$
,即
$
a
_
3
$
的取值范围。第二部分: 对于每个
$
a
$
累加对齐概率
$
\textrm
{
P
}
(
s,a|t
)=
\frac
{
\varepsilon
}{
(
l
+
1
)
^
m
}{
\prod
_{
j
=
1
}^{
m
}
f
(
s
_
j|t
_{
a
_
j
}
)
}$
。
%----------------------------------------------
%----------------------------------------------
% 图3.29
% 图3.29
\begin{figure}
[htp]
\begin{figure}
[htp]
...
@@ -1057,7 +1049,7 @@ a(i|j,m,l) &=\frac{\sum_{k=0}^{K}c_{\mathbb{E}}(i|j;s^{[k]},t^{[k]})} {\sum_{i}
...
@@ -1057,7 +1049,7 @@ a(i|j,m,l) &=\frac{\sum_{k=0}^{K}c_{\mathbb{E}}(i|j;s^{[k]},t^{[k]})} {\sum_{i}
\textrm
{
P
}
(
\pi
_{
jk
}
= i |
\pi
_{
j1
}^{
k-1
}
,
\pi
_{
1
}^{
j-1
}
,
\tau
_{
0
}^{
l
}
,
\varphi
_{
0
}^{
l
}
,t)
&
=
&
d(i|j,m,l)
\label
{
eqC3.55-new
}
\textrm
{
P
}
(
\pi
_{
jk
}
= i |
\pi
_{
j1
}^{
k-1
}
,
\pi
_{
1
}^{
j-1
}
,
\tau
_{
0
}^{
l
}
,
\varphi
_{
0
}^{
l
}
,t)
&
=
&
d(i|j,m,l)
\label
{
eqC3.55-new
}
\end{eqnarray}
\end{eqnarray}
\parinterval
我们把
$
d
(
i|j,m,l
)
$
称为扭曲度。这里
$
\textrm
{
P
}
(
\varphi
_
j|
\varphi
_
1
^{
j
-
1
}
,t
)=
{
\textrm
{
P
}
(
\varphi
_
j|t
_
j
)
}$
和
$
\textrm
{
P
}
(
\pi
_{
jk
}
=
i|
\pi
_{
j
1
}^{
k
-
1
}
,
\pi
_{
1
}^{
j
-
1
}
,
$
\\
$
\tau
_
0
^
l,
\varphi
_
0
^
l,t
)=
d
(
i|j,m,l
)
$
仅对
$
1
\le
j
\le
l
$
成立。这样就完成了图
\ref
{
fig:3-30
}
中第1、 3和4部分的建模。
\parinterval
我们把
$
d
(
i|j,m,l
)
$
称为扭曲度。这里
$
\textrm
{
P
}
(
\varphi
_
j|
\varphi
_
1
^{
j
-
1
}
,t
)=
{
\textrm
{
P
}
(
\varphi
_
j|t
_
j
)
}$
和
$
{
\textrm
{
P
}
(
\pi
_{
jk
}
=
i|
\pi
_{
j
1
}^{
k
-
1
}
,
}$
$
\pi
_{
1
}^{
j
-
1
}
,
\tau
_
0
^
l,
\varphi
_
0
^
l,t
)=
d
(
i|j,m,l
)
$
仅对
$
1
\le
j
\le
l
$
成立。这样就完成了图
\ref
{
fig:3-30
}
中第1、 3和4部分的建模。
\parinterval
对于
$
j
=
0
$
的情况需要单独进行考虑。实际上,
$
t
_
0
$
只是一个虚拟的单词。它要对应
$
s
$
中原本为空对齐的单词。这里假设,要等其他非空对应单词都被生成(放置)后,才考虑这些空对齐单词的生成(放置)。即非空对单词都被生成后,在那些还有空的位置上放置这些空对的源语单词。此外,在任何的空位置上放置空对的源语单词都是等概率的,即放置空对齐源语言单词服从均匀分布。这样在已经放置了
$
k
$
个空对齐源语言单词的时候,应该还有
$
\varphi
_
0
-
k
$
个空位置。如果第
$
j
$
个位置为空,那么
$
\textrm
{
P
}
(
\pi
_{
0
k
}
=
j|
\pi
_{
01
}^{
k
-
1
}
,
\pi
_
1
^
l,
\tau
_
0
^
l,
\varphi
_
0
^
l,t
)=
\frac
{
1
}{
\varphi
_
0
-
k
}$
,否则
$
\textrm
{
P
}
(
\pi
_{
0
k
}
=
j|
\pi
_{
01
}^{
k
-
1
}
,
\pi
_
1
^
l,
\tau
_
0
^
l,
\varphi
_
0
^
l,t
)=
0
$
。这样对于
$
t
_
0
$
所对应的
$
\tau
_
0
$
,就有
\parinterval
对于
$
j
=
0
$
的情况需要单独进行考虑。实际上,
$
t
_
0
$
只是一个虚拟的单词。它要对应
$
s
$
中原本为空对齐的单词。这里假设,要等其他非空对应单词都被生成(放置)后,才考虑这些空对齐单词的生成(放置)。即非空对单词都被生成后,在那些还有空的位置上放置这些空对的源语单词。此外,在任何的空位置上放置空对的源语单词都是等概率的,即放置空对齐源语言单词服从均匀分布。这样在已经放置了
$
k
$
个空对齐源语言单词的时候,应该还有
$
\varphi
_
0
-
k
$
个空位置。如果第
$
j
$
个位置为空,那么
$
\textrm
{
P
}
(
\pi
_{
0
k
}
=
j|
\pi
_{
01
}^{
k
-
1
}
,
\pi
_
1
^
l,
\tau
_
0
^
l,
\varphi
_
0
^
l,t
)=
\frac
{
1
}{
\varphi
_
0
-
k
}$
,否则
$
\textrm
{
P
}
(
\pi
_{
0
k
}
=
j|
\pi
_{
01
}^{
k
-
1
}
,
\pi
_
1
^
l,
\tau
_
0
^
l,
\varphi
_
0
^
l,t
)=
0
$
。这样对于
$
t
_
0
$
所对应的
$
\tau
_
0
$
,就有
\begin{eqnarray}
\begin{eqnarray}
...
@@ -1135,7 +1127,7 @@ p_0+p_1 & = & 1 \label{eqC3.62-new}
...
@@ -1135,7 +1127,7 @@ p_0+p_1 & = & 1 \label{eqC3.62-new}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection
{
IBM 模型5
}
\index
{
Chapter3.5.4
}
\subsection
{
IBM 模型5
}
\index
{
Chapter3.5.4
}
\parinterval
模型3和模型4并不是``准确''的模型。这两个模型会把一部分概率分配给一些根本就不存在的句子。这个问题被称作IBM模型3和模型4的缺陷(Deficiency)。说的具体一些,模型3和模型4中并没有这样的约束:如果已经放置了某个源语言单词的位置不能再放置其它单词,也就是说句子的任何位置只能放置一个词,不能多也不能少。由于缺乏这个约束,模型3和模型4中在所有合法的词对齐上概率和不等于1。这部分缺失的概率被分配到其它不合法的词对齐上。举例来说,如图
\ref
{
fig:3-32
}
所示,``吃 早饭''和``Have breakfast''之间的合法词对齐用直线表示 。但是在模型3和模型4中, 在它们上的概率和为
$
0
.
9
<
1
$
。损失掉的概率被分配到像5和6这样的对齐上了(红色)。虽然IBM模型并不支持一对多的对齐,但是模型3和模型4把概率分配给这些``不合法''的词对齐上,因此也就产生所谓的d
ific
ency问题。
\parinterval
模型3和模型4并不是``准确''的模型。这两个模型会把一部分概率分配给一些根本就不存在的句子。这个问题被称作IBM模型3和模型4的缺陷(Deficiency)。说的具体一些,模型3和模型4中并没有这样的约束:如果已经放置了某个源语言单词的位置不能再放置其它单词,也就是说句子的任何位置只能放置一个词,不能多也不能少。由于缺乏这个约束,模型3和模型4中在所有合法的词对齐上概率和不等于1。这部分缺失的概率被分配到其它不合法的词对齐上。举例来说,如图
\ref
{
fig:3-32
}
所示,``吃 早饭''和``Have breakfast''之间的合法词对齐用直线表示 。但是在模型3和模型4中, 在它们上的概率和为
$
0
.
9
<
1
$
。损失掉的概率被分配到像5和6这样的对齐上了(红色)。虽然IBM模型并不支持一对多的对齐,但是模型3和模型4把概率分配给这些``不合法''的词对齐上,因此也就产生所谓的d
efici
ency问题。
%----------------------------------------------
%----------------------------------------------
% 图3.5.4
% 图3.5.4
...
@@ -1271,7 +1263,7 @@ p_0+p_1 & = & 1 \label{eqC3.62-new}
...
@@ -1271,7 +1263,7 @@ p_0+p_1 & = & 1 \label{eqC3.62-new}
\label
{
eqC3.71-new
}
\label
{
eqC3.71-new
}
\end{eqnarray}
\end{eqnarray}
\parinterval
本质上,模型3和模型4就是对应
$
\textrm
{
P
}
(
{
\textrm
{
failure
}
|t
}
)
>
0
$
的情况。这部分概率是模型损失掉的。有时候也把这类Deficiency问题称为Technical Deficiency。还有一种Deficiency问题被称作
Spiritual Deficiency
,它是指
$
\textrm
{
P
}
(
{
\textrm
{
well
}
|t
}
)
+
\textrm
{
P
}
(
{
\textrm
{
ill
}
|t
}
)
=
1
$
且
$
\textrm
{
P
}
(
{
\textrm
{
ill
}
|t
}
)
>
0
$
的情况。模型1和模型2就有Spiritually Deficiency的问题。可以注意到,Technical Deficiency只存在于模型3和模型4中,模型1和模型2并没有Technical Deficiency问题。根本原因是模型1和模型2的词对齐是从源语言出发对应到目标语言,
$
t
$
到
$
s
$
的翻译过程实际上是从单词
$
s
_
1
$
开始到单词
$
s
_
m
$
结束,依次把每个源语言单词
$
s
_
i
$
对应到唯一一个目标语言位置。显然,这个过程能够保证每个源语言单词仅对应一个目标语言单词。但是,模型3和模型4中对齐是从目标语言出发对应到源语言,
$
t
$
到
$
s
$
的翻译过程从
$
t
_
1
$
开始
$
t
_
l
$
结束,依次把目标语言单词
$
t
_
j
$
生成的单词对应到某个源语言位置上。但是这个过程不能保证
$
t
_
j
$
中生成的单词所对应的位置没有被其它已经完成对齐的目标语单词所生成的某个源语言单词对应过,因此也就产生了Deficency问题。
\parinterval
本质上,模型3和模型4就是对应
$
\textrm
{
P
}
(
{
\textrm
{
failure
}
|t
}
)
>
0
$
的情况。这部分概率是模型损失掉的。有时候也把这类Deficiency问题称为Technical Deficiency。还有一种Deficiency问题被称作
{
\red
{
Spiritual Deficiency
}}
,它是指
$
\textrm
{
P
}
(
{
\textrm
{
well
}
|t
}
)
+
\textrm
{
P
}
(
{
\textrm
{
ill
}
|t
}
)
=
1
$
且
$
\textrm
{
P
}
(
{
\textrm
{
ill
}
|t
}
)
>
0
$
的情况。模型1和模型2就有Spiritually Deficiency的问题。可以注意到,Technical Deficiency只存在于模型3和模型4中,模型1和模型2并没有Technical Deficiency问题。根本原因是模型1和模型2的词对齐是从源语言出发对应到目标语言,
$
t
$
到
$
s
$
的翻译过程实际上是从单词
$
s
_
1
$
开始到单词
$
s
_
m
$
结束,依次把每个源语言单词
$
s
_
i
$
对应到唯一一个目标语言位置。显然,这个过程能够保证每个源语言单词仅对应一个目标语言单词。但是,模型3和模型4中对齐是从目标语言出发对应到源语言,
$
t
$
到
$
s
$
的翻译过程从
$
t
_
1
$
开始
$
t
_
l
$
结束,依次把目标语言单词
$
t
_
j
$
生成的单词对应到某个源语言位置上。但是这个过程不能保证
$
t
_
j
$
中生成的单词所对应的位置没有被其它已经完成对齐的目标语单词所生成的某个源语言单词对应过,因此也就产生了Deficency问题。
\parinterval
这里还要强调的是,Technical Deficiency是模型3和模型4是模型本身的缺陷造成的,如果有一个``更好''的模型就可以完全避免这个问题。而Spiritually Deficiency几乎是不能从模型上根本解决的,因为对于任意一种语言我们都不能枚举所有的句子(
$
\textrm
{
P
}
(
{
\textrm
{
ill
}
|t
}
)
$
实际上是得不到的)。
\parinterval
这里还要强调的是,Technical Deficiency是模型3和模型4是模型本身的缺陷造成的,如果有一个``更好''的模型就可以完全避免这个问题。而Spiritually Deficiency几乎是不能从模型上根本解决的,因为对于任意一种语言我们都不能枚举所有的句子(
$
\textrm
{
P
}
(
{
\textrm
{
ill
}
|t
}
)
$
实际上是得不到的)。
...
@@ -1310,59 +1302,58 @@ p_0+p_1 & = & 1 \label{eqC3.62-new}
...
@@ -1310,59 +1302,58 @@ p_0+p_1 & = & 1 \label{eqC3.62-new}
\chapter
{
附录A
}
\chapter
{
附录A
}
\label
{
appendix-A
}
\label
{
appendix-A
}
\section
{
IBM模型3训练方法
}
\section
{
IBM模型3训练方法
}
\parinterval
模型3的参数估计与模型1和模型2采用相同的方法。这里直接给出辅助函数。
\parinterval
模型3的参数估计与模型1和模型2采用相同的方法。这里直接给出辅助函数。
\begin{eqnarray}
\begin{eqnarray}
h(t,d,n,p,
\lambda
,
\mu
,
\nu
,
\zeta
)
&
=
&
\textrm
{
P
}_{
\theta
}
(
\
bm
{
s
}
|
\bm
{
t
}
)-
\sum
_{
e
}
\lambda
e(
\sum
_{
s
}
t(s|t)-1)-
\sum
_{
i
}
\mu
iml(
\sum
_{
j
}
d(j|i,m,l)-1)
\nonumber
\\
h(t,d,n,p,
\lambda
,
\mu
,
\nu
,
\zeta
)
&
=
&
\textrm
{
P
}_{
\theta
}
(
\
mathbf
{
s
}
|
\mathbf
{
t
}
)-
\sum
_{
e
}
\lambda
e(
\sum
_{
s
}
t(s|t)-1)-
\sum
_{
i
}
\mu
iml(
\sum
_{
j
}
d(j|i,m,l)-1)
\nonumber
\\
&
&
-
\sum
_{
e
}
\nu
e(
\sum
_{
\varphi
}
n(
\varphi
|e)-1)-
\zeta
(p
^
0+p
^
1-1)
&
&
-
\sum
_{
e
}
\nu
e(
\sum
_{
\varphi
}
n(
\varphi
|e)-1)-
\zeta
(p
^
0+p
^
1-1)
\label
{
eq:1.1
}
\label
{
eq:1.1
}
\end{eqnarray}
\end{eqnarray}
%----------------------------------------------
%----------------------------------------------
\parinterval
由于篇幅所限这里略去了推导步骤直接给出一些用于参数估计的等式。
\parinterval
由于篇幅所限这里略去了推导步骤直接给出一些用于参数估计的等式。
\begin{eqnarray}
\begin{eqnarray}
c(s|t,
\
bm
{
s
}
,
\bm
{
t
}
) =
\sum
_{
\bm
{
a
}}
(
\textrm
{
p
}_{
\theta
}
(
\bm
{
s
}
,
\bm
{
a
}
|
\bm
{
t
}
)
\times
\sum
_{
i=1
}^{
m
}
(
\delta
(s
_
i,s)
\cdot
\delta
(t
_{
ai
}
,t)))
c(s|t,
\
mathbf
{
s
}
,
\mathbf
{
t
}
) =
\sum
_{
\mathbf
{
a
}}
(
\textrm
{
p
}_{
\theta
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)
\times
\sum
_{
i=1
}^{
m
}
(
\delta
(s
_
i,s)
\cdot
\delta
(t
_{
ai
}
,t)))
\label
{
eq:1.2
}
\label
{
eq:1.2
}
\end{eqnarray}
\end{eqnarray}
\begin{eqnarray}
\begin{eqnarray}
c(i|j,m,l;
\
bm
{
s
}
,
\bm
{
t
}
) =
\sum
_{
\bm
{
a
}}
(
\textrm
{
p
}_{
\theta
}
(
\bm
{
s
}
,
\bm
{
a
}
|
\bm
{
t
}
)
\times
\delta
(i,a
_
j))
c(i|j,m,l;
\
mathbf
{
s
}
,
\mathbf
{
t
}
) =
\sum
_{
\mathbf
{
a
}}
(
\textrm
{
p
}_{
\theta
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)
\times
\delta
(i,a
_
j))
\label
{
eq:1.3
}
\label
{
eq:1.3
}
\end{eqnarray}
\end{eqnarray}
\begin{eqnarray}
\begin{eqnarray}
c(
\varphi
|e;
\
bm
{
s
}
,
\bm
{
t
}
) =
\sum
_{
\bm
{
a
}}
(
\textrm
{
p
}_{
\theta
}
(
\bm
{
s
}
,
\bm
{
a
}
|
\bm
{
t
}
)
\times
\sum
_{
j=1
}^{
l
}
\delta
(
\varphi
,
\varphi
_{
j
}
)
\delta
(e,e
_
j))
c(
\varphi
|e;
\
mathbf
{
s
}
,
\mathbf
{
t
}
) =
\sum
_{
\mathbf
{
a
}}
(
\textrm
{
p
}_{
\theta
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)
\times
\sum
_{
j=1
}^{
l
}
\delta
(
\varphi
,
\varphi
_{
j
}
)
\delta
(e,e
_
j))
\label
{
eq:1.4
}
\label
{
eq:1.4
}
\end{eqnarray}
\end{eqnarray}
\begin{eqnarray}
\begin{eqnarray}
c(0|
\
bm
{
s
}
,
\bm
{
t
}
) =
\sum
_{
\bm
{
a
}}
(
\textrm
{
p
}_{
\theta
}
(
\bm
{
s
}
,
\bm
{
a
}
|
\bm
{
t
}
)
\times
(m-2
\varphi
_
0) )
c(0|
\
mathbf
{
s
}
,
\mathbf
{
t
}
) =
\sum
_{
\mathbf
{
a
}}
(
\textrm
{
p
}_{
\theta
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)
\times
(m-2
\varphi
_
0) )
\label
{
eq:1.5
}
\label
{
eq:1.5
}
\end{eqnarray}
\end{eqnarray}
\begin{eqnarray}
\begin{eqnarray}
c(1|
\
bm
{
s
}
,
\bm
{
t
}
) =
\sum
_{
\bm
{
a
}}
(
\textrm
{
p
}_{
\theta
}
(
\bm
{
s
}
,
\bm
{
a
}
|
\bm
{
t
}
)
\times
\varphi
_
0)
c(1|
\
mathbf
{
s
}
,
\mathbf
{
t
}
) =
\sum
_{
\mathbf
{
a
}}
(
\textrm
{
p
}_{
\theta
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)
\times
\varphi
_
0)
\label
{
eq:1.6
}
\label
{
eq:1.6
}
\end{eqnarray}
\end{eqnarray}
%----------------------------------------------
%----------------------------------------------
\parinterval
进一步,
\parinterval
进一步,
\begin{eqnarray}
\begin{eqnarray}
t(s|t) =
\lambda
t
^{
-1
}
\times
\sum
_{
k=1
}^{
S
}
c(s|t;
\
bm
{
s
}
(k),
\bm
{
t
}
(k))
t(s|t) =
\lambda
t
^{
-1
}
\times
\sum
_{
k=1
}^{
S
}
c(s|t;
\
mathbf
{
s
}
(k),
\mathbf
{
t
}
(k))
\label
{
eq:1.7
}
\label
{
eq:1.7
}
\end{eqnarray}
\end{eqnarray}
\begin{eqnarray}
\begin{eqnarray}
d(i|j,m,l) =
\mu
j m l
^{
-1
}
\times
\sum
_{
k=1
}^{
S
}
c(i|j,m,l;
\
bm
{
s
}
(k),
\bm
{
t
}
(k))
d(i|j,m,l) =
\mu
j m l
^{
-1
}
\times
\sum
_{
k=1
}^{
S
}
c(i|j,m,l;
\
mathbf
{
s
}
(k),
\mathbf
{
t
}
(k))
\label
{
eq:1.8
}
\label
{
eq:1.8
}
\end{eqnarray}
\end{eqnarray}
\begin{eqnarray}
\begin{eqnarray}
n(
\varphi
|t) =
\nu
t
^{
-1
}
\times
\sum
_{
s=1
}^{
S
}
c(
\varphi
|t;
\
bm
{
s
}
(k),
\bm
{
t
}
(k))
n(
\varphi
|t) =
\nu
t
^{
-1
}
\times
\sum
_{
s=1
}^{
S
}
c(
\varphi
|t;
\
mathbf
{
s
}
(k),
\mathbf
{
t
}
(k))
\label
{
eq:1.9
}
\label
{
eq:1.9
}
\end{eqnarray}
\end{eqnarray}
\begin{eqnarray}
\begin{eqnarray}
pk =
\zeta
^{
-1
}
\sum
_{
k=1
}^{
S
}
c(k;
\
bm
{
s
}
(k),
\bm
{
t
}
(k))
pk =
\zeta
^{
-1
}
\sum
_{
k=1
}^{
S
}
c(k;
\
mathbf
{
s
}
(k),
\mathbf
{
t
}
(k))
\label
{
eq:1.10
}
\label
{
eq:1.10
}
\end{eqnarray}
\end{eqnarray}
%----------------------------------------------
%----------------------------------------------
\parinterval
在模型3中,因为产出率的引入,我们并不能像在模型1和模型2中那样,在保证正确性的情况下加速参数估计的过程。这就使得每次迭代过程中,我们都不得不面对大小为
$
(
l
+
1
)
^
m
$
的词对齐空间。遍历所有
$
(
l
+
1
)
^
m
$
个词对齐所带来的高时间复杂度显然是不能被接受的。因此就要考虑是不是可以仅利用词对齐空间中的部分词对齐对这些参数进行估计。比较简单且直接的方法就是仅利用Viterbi对齐来进行参数估计。遗憾的是,在模型3中我们没有方法直接获得Viterbi对齐。这样只能采用一种折中的方法,即仅考虑那些使得
$
\textrm
{
P
}_{
\theta
}
(
\
bm
{
s
}
,
\bm
{
a
}
|
\bm
{
t
}
)
$
值较高的词对齐。这里把这部分词对齐组成的集合记为S。式(
\ref
{
eq:1.2
}
)可以被修改为,
\parinterval
在模型3中,因为产出率的引入,我们并不能像在模型1和模型2中那样,在保证正确性的情况下加速参数估计的过程。这就使得每次迭代过程中,我们都不得不面对大小为
$
(
l
+
1
)
^
m
$
的词对齐空间。遍历所有
$
(
l
+
1
)
^
m
$
个词对齐所带来的高时间复杂度显然是不能被接受的。因此就要考虑是不是可以仅利用词对齐空间中的部分词对齐对这些参数进行估计。比较简单且直接的方法就是仅利用Viterbi对齐来进行参数估计。遗憾的是,在模型3中我们没有方法直接获得Viterbi对齐。这样只能采用一种折中的方法,即仅考虑那些使得
$
\textrm
{
P
}_{
\theta
}
(
\
mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)
$
值较高的词对齐。这里把这部分词对齐组成的集合记为S。式(
\ref
{
eq:1.2
}
)可以被修改为,
\begin{eqnarray}
\begin{eqnarray}
c(s|t,
\
bm
{
s
}
,
\bm
{
t
}
)
\approx
\sum
_{
\bm
{
a
}
\in
\bm
{
S
}}
(
\textrm
{
P
}_{
\theta
}
(
\bm
{
s
}
,
\bm
{
a
}
|
\bm
{
t
}
)
\times
\sum
_{
i=1
}^{
m
}
(
\delta
(s
_
i,s)
\cdot
\delta
(t
_{
ai
}
,t)))
c(s|t,
\
mathbf
{
s
}
,
\mathbf
{
t
}
)
\approx
\sum
_{
\mathbf
{
a
}
\in
\mathbf
{
S
}}
(
\textrm
{
P
}_{
\theta
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)
\times
\sum
_{
i=1
}^{
m
}
(
\delta
(s
_
i,s)
\cdot
\delta
(t
_{
ai
}
,t)))
\label
{
eq:1.11
}
\label
{
eq:1.11
}
\end{eqnarray}
\end{eqnarray}
%----------------------------------------------
%----------------------------------------------
...
@@ -1371,21 +1362,23 @@ c(s|t,\bm{s},\bm{t}) \approx \sum_{\bm{a} \in \bm{S}}(\textrm{P}_{\theta}(\bm{s}
...
@@ -1371,21 +1362,23 @@ c(s|t,\bm{s},\bm{t}) \approx \sum_{\bm{a} \in \bm{S}}(\textrm{P}_{\theta}(\bm{s}
\parinterval
在模型3中,可以如下定义
\textrm
{
S
}
\parinterval
在模型3中,可以如下定义
\textrm
{
S
}
\begin{eqnarray}
\begin{eqnarray}
\textrm
{
S
}
= N(b
^{
\infty
}
(V(
\
bm
{
s
}
|
\bm
{
t
}
;2)))
\cup
(
\mathop
{
\cup
}
\limits
_{
ij
}
N(b
_{
i
\leftrightarrow
j
}^{
\infty
}
(V
_{
i
\leftrightarrow
j
}
(
\bm
{
s
}
|
\bm
{
t
}
,2))))
\textrm
{
S
}
= N(b
^{
\infty
}
(V(
\
mathbf
{
s
}
|
\mathbf
{
t
}
;2)))
\cup
(
\mathop
{
\cup
}
\limits
_{
ij
}
N(b
_{
i
\leftrightarrow
j
}^{
\infty
}
(V
_{
i
\leftrightarrow
j
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
,2))))
\label
{
eq:1.12
}
\label
{
eq:1.12
}
\end{eqnarray}
\end{eqnarray}
%----------------------------------------------
%----------------------------------------------
\parinterval
其中
$
b
^{
\infty
}
(
V
(
\bm
{
s
}
|
\bm
{
t
}
;
2
))
$
和
$
b
_{
i
\leftrightarrow
j
}^{
\infty
}
(
V
_{
i
\leftrightarrow
j
}
(
\bm
{
s
}
|
\bm
{
t
}
,
2
))
$
分别是对
$
V
(
\bm
{
s
}
|
\bm
{
t
}
;
3
)
$
和
$
V
_{
i
\leftrightarrow
j
}
(
\bm
{
s
}
|
\bm
{
t
}
,
3
)
$
的估计。在计算
\textrm
{
S
}
的过程中,我们需要知道一个对齐
$
\bf
{
a
}$
的邻居
$
\bf
{
a
}
'
$
的概率,即如何通过
$
\textrm
{
p
}_{
\theta
}
(
\bm
{
a
}
,
\bm
{
s
}
|
\bm
{
t
}
)
$
计算
$
\textrm
{
p
}_{
\theta
}
(
\bm
{
a
}
',
\bm
{
s
}
|
\bm
{
t
}
)
$
。在模型3总,如果
$
\bf
{
a
}$
和
$
\bf
{
a
}
'
$
区别于某个源语单词的对齐到的目标位置上(
$
a
_
j
$
不等于
$
a
_{
j
}
'
$
),那么
\parinterval
其中
$
b
^{
\infty
}
(
V
(
\mathbf
{
s
}
|
\mathbf
{
t
}
;
2
))
$
和
$
b
_{
i
\leftrightarrow
j
}^{
\infty
}
(
V
_{
i
\leftrightarrow
j
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
,
2
))
$
分别是对
$
V
(
\mathbf
{
s
}
|
\mathbf
{
t
}
;
3
)
$
和
$
V
_{
i
\leftrightarrow
j
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
,
3
)
$
的估计。在计算
\textrm
{
S
}
的过程中,我们需要知道一个对齐
$
\bf
{
a
}$
的邻居
$
\bf
{
a
}
'
$
的概率,即如何通过
$
\textrm
{
p
}_{
\theta
}
(
\mathbf
{
a
}
,
\mathbf
{
s
}
|
\mathbf
{
t
}
)
$
计算
$
\textrm
{
p
}_{
\theta
}
(
\mathbf
{
a
}
',
\mathbf
{
s
}
|
\mathbf
{
t
}
)
$
。在模型3总,如果
$
\bf
{
a
}$
和
$
\bf
{
a
}
'
$
区别于某个源语单词的对齐到的目标位置上(
$
a
_
j
$
不等于
$
a
_{
j
}
'
$
),那么
\begin{small}
\begin{eqnarray}
\begin{eqnarray}
\textrm
{
p
}_{
\theta
}
(
\
bm
{
a
}
',
\bm
{
s
}
|
\bm
{
t
}
) =
\textrm
{
p
}_{
\theta
}
(
\bm
{
a
}
,
\bm
{
s
}
|
\bm
{
t
}
)
\cdot
\frac
{
\varphi
_{
j'
}
+1
}{
\varphi
_
j
}
\cdot
\frac
{
n(
\varphi
_{
j'
}
+1|t
_{
j'
}
)
}{
n(
\varphi
_{
j'
}
|t
_{
j'
}
)
}
\cdot
\frac
{
n(
\varphi
_{
j-1
}
|t
_{
j
}
)
}{
n(
\varphi
_{
j
}
|t
_{
j
}
)
}
\cdot
\frac
{
t(s
_
i|t
_{
j'
}
)
}{
t(s
_{
i
}
|t
_{
j
}
)
}
\cdot
\frac
{
d(i|j',m,l)
}{
d(i|j,m,l)
}
\textrm
{
p
}_{
\theta
}
(
\
mathbf
{
a
}
',
\mathbf
{
s
}
|
\mathbf
{
t
}
) =
\textrm
{
p
}_{
\theta
}
(
\mathbf
{
a
}
,
\mathbf
{
s
}
|
\mathbf
{
t
}
)
\cdot
\frac
{
\varphi
_{
j'
}
+1
}{
\varphi
_
j
}
\cdot
\frac
{
n(
\varphi
_{
j'
}
+1|t
_{
j'
}
)
}{
n(
\varphi
_{
j'
}
|t
_{
j'
}
)
}
\cdot
\frac
{
n(
\varphi
_{
j-1
}
|t
_{
j
}
)
}{
n(
\varphi
_{
j
}
|t
_{
j
}
)
}
\cdot
\frac
{
t(s
_
i|t
_{
j'
}
)
}{
t(s
_{
i
}
|t
_{
j
}
)
}
\cdot
\frac
{
d(i|j',m,l)
}{
d(i|j,m,l)
}
\label
{
eq:1.13
}
\label
{
eq:1.13
}
\end{eqnarray}
\end{eqnarray}
\end{small}
%----------------------------------------------
%----------------------------------------------
\parinterval
如果
$
\bf
{
a
}$
和
$
\bf
{
a
}
'
$
区别于两个位置
$
i
_
1
$
和
$
i
_
2
$
的对齐上,
$
aj
_
1
=
aj
_{
2
}
'
$
且
$
aj
_
2
=
aj
_{
1
}
'
$
,那么(
{
\color
{
red
}
\bf
这句话前半部分是i,后半部分是j,是否有误?另外这个公式的下标有点不太清楚,我按自己理解的标了
}
)
\parinterval
如果
$
\bf
{
a
}$
和
$
\bf
{
a
}
'
$
区别于两个位置
$
i
_
1
$
和
$
i
_
2
$
的对齐上,
$
aj
_
1
=
aj
_{
2
}
'
$
且
$
aj
_
2
=
aj
_{
1
}
'
$
,那么(
{
\color
{
red
}
\bf
这句话前半部分是i,后半部分是j,是否有误?另外这个公式的下标有点不太清楚,我按自己理解的标了
}
)
\begin{eqnarray}
\begin{eqnarray}
\textrm
{
P
}_{
\theta
}
(
\
bm
{
a'
}
,
\bm
{
s
}
|
\bm
{
t
}
) =
\textrm
{
P
}_{
\theta
}
(
\bm
{
a
}
,
\bm
{
s
}
|
\bm
{
t
}
)
\cdot
\frac
{
t(s
_{
i
_
2
}
|t
_{
ai
_
2
}
)
}{
t(s
_{
i
_
1
}
|t
_{
ai
_
1
}
)
}
\cdot
\frac
{
d(i
_
2)|ai
_
2,m,l)
}{
d(i
_
1|ai
_
1,m,l)
}
\textrm
{
P
}_{
\theta
}
(
\
mathbf
{
a'
}
,
\mathbf
{
s
}
|
\mathbf
{
t
}
) =
\textrm
{
P
}_{
\theta
}
(
\mathbf
{
a
}
,
\mathbf
{
s
}
|
\mathbf
{
t
}
)
\cdot
\frac
{
t(s
_{
i
_
2
}
|t
_{
ai
_
2
}
)
}{
t(s
_{
i
_
1
}
|t
_{
ai
_
1
}
)
}
\cdot
\frac
{
d(i
_
2)|ai
_
2,m,l)
}{
d(i
_
1|ai
_
1,m,l)
}
\label
{
eq:1.14
}
\label
{
eq:1.14
}
\end{eqnarray}
\end{eqnarray}
%----------------------------------------------
%----------------------------------------------
...
@@ -1398,27 +1391,29 @@ c(s|t,\bm{s},\bm{t}) \approx \sum_{\bm{a} \in \bm{S}}(\textrm{P}_{\theta}(\bm{s}
...
@@ -1398,27 +1391,29 @@ c(s|t,\bm{s},\bm{t}) \approx \sum_{\bm{a} \in \bm{S}}(\textrm{P}_{\theta}(\bm{s}
\parinterval
模型4的参数估计基本与模型3一致。需要修改的是扭曲度的估计公式,如下:
\parinterval
模型4的参数估计基本与模型3一致。需要修改的是扭曲度的估计公式,如下:
\begin{eqnarray}
\begin{eqnarray}
c
_
1(
\Delta
_
i|ca,cb;
\
bm
{
s
}
,
\bm
{
t
}
) =
\sum
_{
\bm
{
a
}}
(
\textrm
{
P
}_{
\theta
}
(s,
\bm
{
a
}
|t)
\times
s
_
1(
\Delta
_
i|ca,cb;
\bm
{
a
}
,
\bm
{
s
}
,
\bm
{
t
}
))
c
_
1(
\Delta
_
i|ca,cb;
\
mathbf
{
s
}
,
\mathbf
{
t
}
) =
\sum
_{
\mathbf
{
a
}}
(
\textrm
{
P
}_{
\theta
}
(s,
\mathbf
{
a
}
|t)
\times
s
_
1(
\Delta
_
i|ca,cb;
\mathbf
{
a
}
,
\mathbf
{
s
}
,
\mathbf
{
t
}
))
\label
{
eq:1.15
}
\label
{
eq:1.15
}
\end{eqnarray}
\end{eqnarray}
\begin{small}
\begin{eqnarray}
\begin{eqnarray}
s
_
1(
\Delta
_
i|ca,cb;
\rm
{
a
}
,
\
bm
{
s
}
,
\bm
{
t
}
) =
\sum
_{
p=1
}^
l (
\varepsilon
(
\phi
_
p)
\cdot
\delta
(
\pi
_{
p1
}
-
\odot
_{
[p]
}
,
\Delta
_
i)
\cdot
\delta
(A(e
_{
p-1
}
),ca)
\cdot
\delta
(B(
\tau
_{
p1
}
),cb))
s
_
1(
\Delta
_
i|ca,cb;
\rm
{
a
}
,
\
mathbf
{
s
}
,
\mathbf
{
t
}
) =
\sum
_{
p=1
}^
l (
\varepsilon
(
\phi
_
p)
\cdot
\delta
(
\pi
_{
p1
}
-
\odot
_{
[p]
}
,
\Delta
_
i)
\cdot
\delta
(A(e
_{
p-1
}
),ca)
\cdot
\delta
(B(
\tau
_{
p1
}
),cb))
\label
{
eq:1.16
}
\label
{
eq:1.16
}
\end{eqnarray}
\end{eqnarray}
\end{small}
\begin{eqnarray}
\begin{eqnarray}
d
_
1(
\Delta
_
i|ca,cb;
\
bm
{
s
}
,
\bm
{
t
}
) =
\mu
_{
1cacb
}^{
-1
}
\times
\sum
_{
s=1
}^{
S
}
c(
\Delta
_
i|ca,cb;
\bm
{
s
}
(s),
\bm
{
t
}
(s))
d
_
1(
\Delta
_
i|ca,cb;
\
mathbf
{
s
}
,
\mathbf
{
t
}
) =
\mu
_{
1cacb
}^{
-1
}
\times
\sum
_{
s=1
}^{
S
}
c(
\Delta
_
i|ca,cb;
\mathbf
{
s
}
(s),
\mathbf
{
t
}
(s))
\label
{
eq:1.17
}
\label
{
eq:1.17
}
\end{eqnarray}
\end{eqnarray}
\begin{eqnarray}
\begin{eqnarray}
c
_{
>1
}
(
\Delta
_
i|cb;
\
bm
{
s
}
,
\bm
{
t
}
) =
\sum
_{
\bm
{
a
}}
(
\textrm
{
p
}_{
\theta
}
(
\bm
{
s
}
,
\bm
{
a
}
|
\bm
{
t
}
)
\times
s
_{
>1
}
(
\Delta
_
i|cb;
\bm
{
a
}
,
\bm
{
s
}
,
\bm
{
t
}
))
c
_{
>1
}
(
\Delta
_
i|cb;
\
mathbf
{
s
}
,
\mathbf
{
t
}
) =
\sum
_{
\mathbf
{
a
}}
(
\textrm
{
p
}_{
\theta
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)
\times
s
_{
>1
}
(
\Delta
_
i|cb;
\mathbf
{
a
}
,
\mathbf
{
s
}
,
\mathbf
{
t
}
))
\label
{
eq:1.18
}
\label
{
eq:1.18
}
\end{eqnarray}
\end{eqnarray}
\begin{eqnarray}
\begin{eqnarray}
s
_{
>1
}
(
\Delta
_
i|cb;
\
bm
{
a
}
,
\bm
{
s
}
,
\bm
{
t
}
) =
\sum
_{
p=1
}^
l(
\varepsilon
(
\phi
_
p-1)
\sum
_{
k=2
}^{
\phi
_
p
}
\delta
(p-
\pi
_{
[p]k-1
}
,
\Delta
_
i)
\cdot
\delta
(B(
\tau
_{
[p]k
}
),cb))
s
_{
>1
}
(
\Delta
_
i|cb;
\
mathbf
{
a
}
,
\mathbf
{
s
}
,
\mathbf
{
t
}
) =
\sum
_{
p=1
}^
l(
\varepsilon
(
\phi
_
p-1)
\sum
_{
k=2
}^{
\phi
_
p
}
\delta
(p-
\pi
_{
[p]k-1
}
,
\Delta
_
i)
\cdot
\delta
(B(
\tau
_{
[p]k
}
),cb))
\label
{
eq:1.19
}
\label
{
eq:1.19
}
\end{eqnarray}
\end{eqnarray}
\begin{eqnarray}
\begin{eqnarray}
d
_{
>1
}
(
\Delta
_
i|cb;
\
bm
{
s
}
,
\bm
{
t
}
) =
\mu
_{
>1cb
}^{
-1
}
\times
\sum
_{
s=1
}^{
S
}
c
_{
>1
}
(
\Delta
_
i|cb;
\bm
{
s
}
(s),
\bm
{
t
}
(s))
d
_{
>1
}
(
\Delta
_
i|cb;
\
mathbf
{
s
}
,
\mathbf
{
t
}
) =
\mu
_{
>1cb
}^{
-1
}
\times
\sum
_{
s=1
}^{
S
}
c
_{
>1
}
(
\Delta
_
i|cb;
\mathbf
{
s
}
(s),
\mathbf
{
t
}
(s))
\label
{
eq:1.20
}
\label
{
eq:1.20
}
\end{eqnarray}
\end{eqnarray}
%----------------------------------------------
%----------------------------------------------
...
@@ -1437,59 +1432,62 @@ d_{>1}(\Delta_i|cb;\bm{s},\bm{t}) = \mu_{>1cb}^{-1} \times \sum_{s=1}^{S}c_{>1}(
...
@@ -1437,59 +1432,62 @@ d_{>1}(\Delta_i|cb;\bm{s},\bm{t}) = \mu_{>1cb}^{-1} \times \sum_{s=1}^{S}c_{>1}(
\parinterval
模型4需要像模型3一样,通过定义一个词对齐集合
\textrm
{
S
}
,使得每次迭代都在
\textrm
{
S
}
上进行,进而降低运算量。模型4中
\textrm
{
S
}
的定义为,
\parinterval
模型4需要像模型3一样,通过定义一个词对齐集合
\textrm
{
S
}
,使得每次迭代都在
\textrm
{
S
}
上进行,进而降低运算量。模型4中
\textrm
{
S
}
的定义为,
\begin{eqnarray}
\begin{eqnarray}
\textrm
{
S
}
= N(
\tilde
{
b
}^{
\infty
}
(V(
\
bm
{
s
}
|
\bm
{
t
}
;2)))
\cup
(
\mathop
{
\cup
}
\limits
_{
ij
}
N(
\tilde
{
b
}_{
i
\leftrightarrow
j
}^{
\infty
}
(V
_{
i
\leftrightarrow
j
}
(
\bm
{
s
}
|
\bm
{
t
}
,2))))
\textrm
{
S
}
= N(
\tilde
{
b
}^{
\infty
}
(V(
\
mathbf
{
s
}
|
\mathbf
{
t
}
;2)))
\cup
(
\mathop
{
\cup
}
\limits
_{
ij
}
N(
\tilde
{
b
}_{
i
\leftrightarrow
j
}^{
\infty
}
(V
_{
i
\leftrightarrow
j
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
,2))))
\label
{
eq:1.22
}
\label
{
eq:1.22
}
\end{eqnarray}
\end{eqnarray}
%----------------------------------------------
%----------------------------------------------
\parinterval
对于一个对齐
$
\bm
{
a
}$
,可用模型3对它的邻居进行排名,即按
$
\textrm
{
p
}_{
\theta
}
(
b
(
\bm
{
a
}
)
|
\bm
{
s
}
,
\bm
{
t
}
;
3
)
$
排序。
$
\tilde
{
b
}
(
\bm
{
a
}
)
$
表示这个排名表中满足
$
\textrm
{
p
}_{
\theta
}
(
\bm
{
a
}
'|
\bm
{
s
}
,
\bm
{
t
}
;
4
)
>
\textrm
{
P
}_{
\theta
}
(
\bm
{
a
}
|
\bm
{
s
}
,
\bm
{
t
}
;
4
)
$
的最高排名的
$
\bm
{
a
}
'
$
。同理可知
$
\tilde
{
b
}_{
i
\leftrightarrow
j
}^{
\infty
}
(
\bm
{
a
}
)
$
的意义。这里之所以不用模型3中采用的方法直接利用
$
b
^{
\infty
}
(
\bm
{
a
}
)
$
得到模型4中高概率的对齐,是因为模型4中,要想获得某个对齐
$
\bm
{
a
}$
的邻居
$
\bm
{
a
}
'
$
,必须做很大调整,比如:调整
$
\tau
_{
[
j
]
1
}$
和
$
\odot
_{
[
j
]
}$
等等。这个过程要比模型3的相应过程复杂得多。因此在模型4中只能借助于模型3的中间步骤来进行估计。
\parinterval
对于一个对齐
$
\mathbf
{
a
}$
,可用模型3对它的邻居进行排名,即按
$
\textrm
{
p
}_{
\theta
}
(
b
(
\mathbf
{
a
}
)
|
\mathbf
{
s
}
,
\mathbf
{
t
}
;
3
)
$
排序。
$
\tilde
{
b
}
(
\mathbf
{
a
}
)
$
\\
表示这个排名表中满足
$
\textrm
{
p
}_{
\theta
}
(
\mathbf
{
a
}
'|
\mathbf
{
s
}
,
\mathbf
{
t
}
;
4
)
>
\textrm
{
P
}_{
\theta
}
(
\mathbf
{
a
}
|
\mathbf
{
s
}
,
\mathbf
{
t
}
;
4
)
$
的最高排名的
$
\mathbf
{
a
}
'
$
。同理可知
$
\tilde
{
b
}_{
i
\leftrightarrow
j
}^{
\infty
}
(
\mathbf
{
a
}
)
$
\\
的意义。这里之所以不用模型3中采用的方法直接利用
$
b
^{
\infty
}
(
\mathbf
{
a
}
)
$
得到模型4中高概率的对齐,是因为模型4中,要想获得某个对齐
$
\mathbf
{
a
}$
的邻居
$
\mathbf
{
a
}
'
$
,必须做很大调整,比如:调整
$
\tau
_{
[
j
]
1
}$
和
$
\odot
_{
[
j
]
}$
等等。这个过程要比模型3的相应过程复杂得多。因此在模型4中只能借助于模型3的中间步骤来进行估计。
\setlength
{
\belowdisplayskip
}{
3pt
}
%调整空白大小
%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section
{
IBM模型5训练方法
}
\section
{
IBM模型5训练方法
}
\parinterval
模型5的参数估计过程也与模型3的过程基本一致,二者的区别在于扭曲度的估计公式。在模型5中,
\parinterval
模型5的参数估计过程也与模型3的过程基本一致,二者的区别在于扭曲度的估计公式。在模型5中,
\begin{eqnarray}
\begin{eqnarray}
c
_
1(
\Delta
_
i|cb,v1,v2;
\
bm
{
s
}
,
\bm
{
t
}
) =
\sum
_{
\bm
{
a
}}
(
\textrm
{
P
}
(
\bm
{
s
}
,
\bm
{
a
}
|
\bm
{
t
}
)
\times
s
_
1(
\Delta
_
i|cb,v1,v2;
\bm
{
a
}
,
\bm
{
s
}
,
\bm
{
t
}
))
c
_
1(
\Delta
_
i|cb,v1,v2;
\
mathbf
{
s
}
,
\mathbf
{
t
}
) =
\sum
_{
\mathbf
{
a
}}
(
\textrm
{
P
}
(
\mathbf
{
s
}
,
\mathbf
{
a
}
|
\mathbf
{
t
}
)
\times
s
_
1(
\Delta
_
i|cb,v1,v2;
\mathbf
{
a
}
,
\mathbf
{
s
}
,
\mathbf
{
t
}
))
\label
{
eq:1.23
}
\label
{
eq:1.23
}
\end{eqnarray}
\end{eqnarray}
\begin{eqnarray}
\begin{eqnarray}
s
_
1(
\Delta
_
i|cb,v1,v2;
\rm
{
a
}
,
\
bm
{
s
}
,
\bm
{
t
}
)
&
=
&
\sum
_{
p=1
}^
l (
\varepsilon
(
\phi
_
p)
\cdot
\delta
(v
_{
\pi
_{
p1
}}
,
\Delta
_
i)
\cdot
\delta
(X
_{
\{
p-1
\}
}
,v1)
\\
s
_
1(
\Delta
_
i|cb,v1,v2;
\rm
{
a
}
,
\
mathbf
{
s
}
,
\mathbf
{
t
}
)
&
=
&
\sum
_{
p=1
}^
l (
\varepsilon
(
\phi
_
p)
\cdot
\delta
(v
_{
\pi
_{
p1
}}
,
\Delta
_
i)
\cdot
\delta
(X
_{
\{
p-1
\}
}
,v1)
\nonumber
\\
&
&
\cdot
\delta
(v
_
m-
\phi
_
p+1,v2)
\cdot
\delta
(v
_{
\pi
_{
p1
}}
,v
_{
\pi
_{
p1-1
}}
)
&
&
\cdot
\delta
(v
_
m-
\phi
_
p+1,v2)
\cdot
\delta
(v
_{
\pi
_{
p1
}}
,v
_{
\pi
_{
p1-1
}}
)
\label
{
eq:1.24
}
\label
{
eq:1.24
}
\end{eqnarray}
\end{eqnarray}
\begin{eqnarray}
\begin{eqnarray}
d
_
1(
\Delta
_
i|cb;
\
bm
{
s
}
,
\bm
{
t
}
) =
\mu
_{
1cb
}^{
-1
}
\times
\sum
_{
s=1
}^{
S
}
c(
\Delta
_
i|cb;
\bm
{
f
}
(s),
\bm
{
e
}
(s))
d
_
1(
\Delta
_
i|cb;
\
mathbf
{
s
}
,
\mathbf
{
t
}
) =
\mu
_{
1cb
}^{
-1
}
\times
\sum
_{
s=1
}^{
S
}
c(
\Delta
_
i|cb;
\mathbf
{
f
}
(s),
\mathbf
{
e
}
(s))
\label
{
eq:1.25
}
\label
{
eq:1.25
}
\end{eqnarray}
\end{eqnarray}
\begin{eqnarray}
\begin{eqnarray}
c
_{
>1
}
(
\Delta
_
i|cb,v;
\
bm
{
s
}
,
\bm
{
t
}
) =
\sum
_{
\bm
{
a
}}
(
\textrm
{
p
}
(
\bm
{
f
}
,
\bm
{
s
}
|
\bm
{
t
}
)
\times
s
_{
>1
}
(
\Delta
_
i|cb,v;
\bm
{
a
}
,
\bm
{
s
}
,
\bm
{
t
}
))
c
_{
>1
}
(
\Delta
_
i|cb,v;
\
mathbf
{
s
}
,
\mathbf
{
t
}
) =
\sum
_{
\mathbf
{
a
}}
(
\textrm
{
p
}
(
\mathbf
{
f
}
,
\mathbf
{
s
}
|
\mathbf
{
t
}
)
\times
s
_{
>1
}
(
\Delta
_
i|cb,v;
\mathbf
{
a
}
,
\mathbf
{
s
}
,
\mathbf
{
t
}
))
\label
{
eq:1.26
}
\label
{
eq:1.26
}
\end{eqnarray}
\end{eqnarray}
%\begin{small}
\begin{eqnarray}
\begin{eqnarray}
s
_{
>1
}
(
\Delta
_
i|cb,v;
\bm
{
a
}
,
\bm
{
s
}
,
\bm
{
t
}
)
&
=
&
\sum
_{
p=1
}^
l(
\varepsilon
(
\phi
_
p-1)
\sum
_{
k=2
}^{
\phi
_
p
}
(
\delta
(v
_{
\pi
_{
pk
}}
-V
_{
\pi
_{
[p]k-1
}}
,
\Delta
_
i)
\cdot
\delta
(B(
\tau
_{
[p]k
}
)
\\
s
_{
>1
}
(
\Delta
_
i|cb,v;
\mathbf
{
a
}
,
\mathbf
{
s
}
,
\mathbf
{
t
}
)
&
=
&
\sum
_{
p=1
}^
l(
\varepsilon
(
\phi
_
p-1)
\sum
_{
k=2
}^{
\phi
_
p
}
(
\delta
(v
_{
\pi
_{
pk
}}
-V
_{
\pi
_{
[p]k-1
}}
,
\Delta
_
i)
\nonumber
\\
&
&
,cb)
\cdot
\delta
(vm-v
_{
\pi
_{
p(k-1)
}}
-
\phi
_
p+k,v)
\cdot
\delta
(v
_{
\pi
_{
p1
}}
,v
_{
\pi
_{
p1-1
}}
)))
&
&
\cdot
\delta
(B(
\tau
_{
[p]k
}
) ,cb)
\cdot
\delta
(vm-v
_{
\pi
_{
p(k-1)
}}
-
\phi
_
p+k,v)
\nonumber
\\
&
&
\cdot
\delta
(v
_{
\pi
_{
p1
}}
,v
_{
\pi
_{
p1-1
}}
)))
\label
{
eq:1.27
}
\label
{
eq:1.27
}
\end{eqnarray}
\end{eqnarray}
%\end{small}
\begin{eqnarray}
\begin{eqnarray}
d
_{
>1
}
(
\Delta
_
i|cb,v;
\
bm
{
s
}
,
\bm
{
t
}
) =
\mu
_{
>1cb
}^{
-1
}
\times
\sum
_{
s=1
}^{
S
}
c
_{
>1
}
(
\Delta
_
i|cb,v;
\bm
{
f
}
(s),
\bm
{
e
}
(s))
d
_{
>1
}
(
\Delta
_
i|cb,v;
\
mathbf
{
s
}
,
\mathbf
{
t
}
) =
\mu
_{
>1cb
}^{
-1
}
\times
\sum
_{
s=1
}^{
S
}
c
_{
>1
}
(
\Delta
_
i|cb,v;
\mathbf
{
f
}
(s),
\mathbf
{
e
}
(s))
\label
{
eq:1.28
}
\label
{
eq:1.28
}
\end{eqnarray}
\end{eqnarray}
%----------------------------------------------
%----------------------------------------------
\parinterval
这里
$
X
_{
\{
p
-
1
\}
}$
表示在位置小于
$
p
$
的非空对的目标语单词对应的源语单词的平均置位。
\parinterval
这里
$
X
_{
\{
p
-
1
\}
}$
表示在位置小于
$
p
$
的非空对的目标语单词对应的源语单词的平均置位。
\parinterval
从式(
\ref
{
eq:1.24
}
)中可以看出因子
$
\delta
(
v
_{
\pi
_{
p
1
}}
,v
_{
\pi
_{
p
1
-
1
}}
)
$
保证了,即使对齐
$
\
bm
{
a
}$
不合理(一个源语位置对应多个目标语位置)也可以避免在这个不合理的对齐上计算结果。需要注意的是因子
$
\delta
(
v
_{
\pi
_{
p
1
}}
,v
_{
\pi
_{
p
1
-
1
}}
)
$
,只能保证
$
\bm
{
a
}$
中不合理的部分不产生坏的影响,而
$
\bm
{
a
}$
中其它正确的部分仍会参与迭代。
\parinterval
从式(
\ref
{
eq:1.24
}
)中可以看出因子
$
\delta
(
v
_{
\pi
_{
p
1
}}
,v
_{
\pi
_{
p
1
-
1
}}
)
$
保证了,即使对齐
$
\
mathbf
{
a
}$
不合理(一个源语位置对应多个目标语位置)也可以避免在这个不合理的对齐上计算结果。需要注意的是因子
$
\delta
(
v
_{
\pi
_{
p
1
}}
,v
_{
\pi
_{
p
1
-
1
}}
)
$
,只能保证
$
\mathbf
{
a
}$
中不合理的部分不产生坏的影响,而
$
\mathbf
{
a
}$
中其它正确的部分仍会参与迭代。
\parinterval
不过上面的参数估计过程与前面4个模型中参数估计过程并不完全一样。前面四个模型在每次迭代中,可以在给定
$
\
bm
{
s
}$
、
$
\bm
{
t
}$
和一个对齐
$
\bm
{
a
}$
的情况下直接计算并更新参数。但是在模型5的参数估计过程中,如公式(
\ref
{
eq:1.24
}
)中,需要模拟出由
$
\bm
{
t
}$
生成
$
\bm
{
s
}$
的过程才能得到正确的结果,因为从
$
\bm
{
t
}$
、
$
\bm
{
s
}$
和
$
\bm
{
a
}$
中是不能直接得到 的正确结果的。具体说,就是要从目标语句子的第一个单词开始到最后一个单词结束,依次生成每个目标语单词对应的源语单词,每处理完一个目标语单词就要暂停,然后才能计算式(
\ref
{
eq:1.24
}
)中求和符号里面的内容。这也就是说即使给定了
$
\bm
{
s
}$
、
$
\bm
{
t
}$
和一个对齐
$
\bm
{
a
}$
,也不能直接在它们上计算,必须重新模拟
$
\bm
{
t
}$
到
$
\bm
{
s
}$
的生成过程。
\parinterval
不过上面的参数估计过程与前面4个模型中参数估计过程并不完全一样。前面四个模型在每次迭代中,可以在给定
$
\
mathbf
{
s
}$
、
$
\mathbf
{
t
}$
和一个对齐
$
\mathbf
{
a
}$
的情况下直接计算并更新参数。但是在模型5的参数估计过程中,如公式(
\ref
{
eq:1.24
}
)中,需要模拟出由
$
\mathbf
{
t
}$
生成
$
\mathbf
{
s
}$
的过程才能得到正确的结果,因为从
$
\mathbf
{
t
}$
、
$
\mathbf
{
s
}$
和
$
\mathbf
{
a
}$
中是不能直接得到 的正确结果的。具体说,就是要从目标语句子的第一个单词开始到最后一个单词结束,依次生成每个目标语单词对应的源语单词,每处理完一个目标语单词就要暂停,然后才能计算式(
\ref
{
eq:1.24
}
)中求和符号里面的内容。这也就是说即使给定了
$
\mathbf
{
s
}$
、
$
\mathbf
{
t
}$
和一个对齐
$
\mathbf
{
a
}$
,也不能直接在它们上计算,必须重新模拟
$
\mathbf
{
t
}$
到
$
\mathbf
{
s
}$
的生成过程。
\parinterval
从前面的分析可以看出,虽然模型5比模型4更精确,但是模型5过于复杂以至于给参数估计增加了巨大的计算量(对于每组
$
\
bm
{
t
}$
、
$
\bm
{
s
}$
和
$
\bm
{
a
}$
都要模拟
$
\bm
{
t
}$
生成
$
\bm
{
s
}$
的翻译过程,时间复杂度成指数增加)。因此模型5并不具有很强的实际意义。
\parinterval
从前面的分析可以看出,虽然模型5比模型4更精确,但是模型5过于复杂以至于给参数估计增加了巨大的计算量(对于每组
$
\
mathbf
{
t
}$
、
$
\mathbf
{
s
}$
和
$
\mathbf
{
a
}$
都要模拟
$
\mathbf
{
t
}$
生成
$
\mathbf
{
s
}$
的翻译过程,时间复杂度成指数增加)。因此模型5并不具有很强的实际意义。
\parinterval
在模型5中同样需要定义一个词对齐集合S,使得每次迭代都在
\textrm
{
S
}
上进行。这里对
\textrm
{
S
}
进行如下定义
\parinterval
在模型5中同样需要定义一个词对齐集合S,使得每次迭代都在
\textrm
{
S
}
上进行。这里对
\textrm
{
S
}
进行如下定义
\begin{eqnarray}
\begin{eqnarray}
\textrm
{
S
}
= N(
\tilde
{
\tilde
{
b
}}^{
\infty
}
(V(
\
bm
{
s
}
|
\bm
{
t
}
;2)))
\cup
(
\mathop
{
\cup
}
\limits
_{
ij
}
N(
\tilde
{
\tilde
{
b
}}_{
i
\leftrightarrow
j
}^{
\infty
}
(V
_{
i
\leftrightarrow
j
}
(
\bm
{
s
}
|
\bm
{
t
}
,2))))
\textrm
{
S
}
= N(
\tilde
{
\tilde
{
b
}}^{
\infty
}
(V(
\
mathbf
{
s
}
|
\mathbf
{
t
}
;2)))
\cup
(
\mathop
{
\cup
}
\limits
_{
ij
}
N(
\tilde
{
\tilde
{
b
}}_{
i
\leftrightarrow
j
}^{
\infty
}
(V
_{
i
\leftrightarrow
j
}
(
\mathbf
{
s
}
|
\mathbf
{
t
}
,2))))
\label
{
eq:1.29
}
\label
{
eq:1.29
}
\end{eqnarray}
\end{eqnarray}
%----------------------------------------------
%----------------------------------------------
\parinterval
这里
$
\tilde
{
\tilde
{
b
}}
(
\bm
{
a
}
)
$
借用了模型4中
$
\tilde
{
b
}
(
\bm
{
a
}
)
$
的概念。不过
$
\tilde
{
\tilde
{
b
}}
(
\bm
{
a
}
)
$
表示在利用模型3进行排名的列表中满足
$
\textrm
{
p
}_{
\theta
}
(
\bm
{
a
}
'|
\bm
{
s
}
,
\bm
{
t
}
;
5
)
$
的最高排名的词对齐。
\parinterval
这里
$
\tilde
{
\tilde
{
b
}}
(
\mathbf
{
a
}
)
$
借用了模型4中
$
\tilde
{
b
}
(
\mathbf
{
a
}
)
$
的概念。不过
$
\tilde
{
\tilde
{
b
}}
(
\mathbf
{
a
}
)
$
表示在利用模型3进行排名的列表中满足
$
\textrm
{
p
}_{
\theta
}
(
\mathbf
{
a
}
'|
\mathbf
{
s
}
,
\mathbf
{
t
}
;
5
)
$
的最高排名的词对齐。
\end{appendices}
\end{appendices}
...
...
Book/mt-book.bbl
0 → 100644
查看文件 @
eb79fea0
% $ biblatex auxiliary file $
% $ biblatex bbl format version 3.1 $
% Do not modify the above lines!
%
% This is an auxiliary file used by the 'biblatex' package.
% This file may safely be deleted. It will be recreated by
% biber as required.
%
\begingroup
\makeatletter
\@ifundefined{ver@biblatex.sty}
{\@latex@error
{Missing 'biblatex' package}
{The bibliography requires the 'biblatex' package.}
\aftergroup\endinput}
{}
\endgroup
\refsection{0}
\datalist[entry]{nyt/global//global/global}
\entry{aho1972theory}{book}{}
\name{author}{2}{}{%
{{hash=87e9142329f09390b038692270dc2168}{%
family={Aho},
familyi={A\bibinitperiod},
given={Alfred\bibnamedelima V},
giveni={A\bibinitperiod\bibinitdelim V\bibinitperiod}}}%
{{hash=cafe1d770c56825ebccdb81e9f7c9b3b}{%
family={Ullman},
familyi={U\bibinitperiod},
given={Jeffrey\bibnamedelima D},
giveni={J\bibinitperiod\bibinitdelim D\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Prentice-Hall Englewood Cliffs, NJ}%
}
\strng{namehash}{012da699a378a549fed2220d3c78ed22}
\strng{fullhash}{012da699a378a549fed2220d3c78ed22}
\strng{bibnamehash}{012da699a378a549fed2220d3c78ed22}
\strng{authorbibnamehash}{012da699a378a549fed2220d3c78ed22}
\strng{authornamehash}{012da699a378a549fed2220d3c78ed22}
\strng{authorfullhash}{012da699a378a549fed2220d3c78ed22}
\field{sortinit}{A}
\field{sortinithash}{a3dcedd53b04d1adfd5ac303ecd5e6fa}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{The theory of parsing, translation, and compiling}
\field{volume}{1}
\field{year}{1972}
\endentry
\entry{bahdanau2014neural}{article}{}
\name{author}{3}{}{%
{{hash=6d80adec79a13a33e73215c5f46f1605}{%
family={Bahdanau},
familyi={B\bibinitperiod},
given={Dzmitry},
giveni={D\bibinitperiod}}}%
{{hash=3da7501a79d9346572c7fd6e41b615df}{%
family={Cho},
familyi={C\bibinitperiod},
given={Kyunghyun},
giveni={K\bibinitperiod}}}%
{{hash=40a8e4774982146adc2688546f54efb2}{%
family={Bengio},
familyi={B\bibinitperiod},
given={Yoshua},
giveni={Y\bibinitperiod}}}%
}
\strng{namehash}{ccf5ebef61998aaab5ec6eace8f4564d}
\strng{fullhash}{ccf5ebef61998aaab5ec6eace8f4564d}
\strng{bibnamehash}{ccf5ebef61998aaab5ec6eace8f4564d}
\strng{authorbibnamehash}{ccf5ebef61998aaab5ec6eace8f4564d}
\strng{authornamehash}{ccf5ebef61998aaab5ec6eace8f4564d}
\strng{authorfullhash}{ccf5ebef61998aaab5ec6eace8f4564d}
\field{sortinit}{B}
\field{sortinithash}{8de16967003c7207dae369d874f1456e}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{arXiv preprint arXiv:1409.0473}
\field{title}{Neural machine translation by jointly learning to align and translate}
\field{year}{2014}
\endentry
\entry{bengio2003neural}{article}{}
\name{author}{4}{}{%
{{hash=40a8e4774982146adc2688546f54efb2}{%
family={Bengio},
familyi={B\bibinitperiod},
given={Yoshua},
giveni={Y\bibinitperiod}}}%
{{hash=dcb65deeb8d2de03d00f0aeeb3499771}{%
family={Ducharme},
familyi={D\bibinitperiod},
given={R{é}jean},
giveni={R\bibinitperiod}}}%
{{hash=da21e966c02c3cfd33d74369c7435c1a}{%
family={Vincent},
familyi={V\bibinitperiod},
given={Pascal},
giveni={P\bibinitperiod}}}%
{{hash=bd9126e06687017f43910a8eb056bb0a}{%
family={Jauvin},
familyi={J\bibinitperiod},
given={Christian},
giveni={C\bibinitperiod}}}%
}
\strng{namehash}{058f6aa7282521dda725a309bd2d3fea}
\strng{fullhash}{214c0985c7c874b6fb51e84e6ea66db3}
\strng{bibnamehash}{058f6aa7282521dda725a309bd2d3fea}
\strng{authorbibnamehash}{058f6aa7282521dda725a309bd2d3fea}
\strng{authornamehash}{058f6aa7282521dda725a309bd2d3fea}
\strng{authorfullhash}{214c0985c7c874b6fb51e84e6ea66db3}
\field{sortinit}{B}
\field{sortinithash}{8de16967003c7207dae369d874f1456e}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Journal of machine learning research}
\field{number}{Feb}
\field{title}{A neural probabilistic language model}
\field{volume}{3}
\field{year}{2003}
\field{pages}{1137\bibrangedash 1155}
\range{pages}{19}
\endentry
\entry{brown1990statistical}{article}{}
\name{author}{8}{}{%
{{hash=b269d63ed0974176f251e8034564855e}{%
family={Brown},
familyi={B\bibinitperiod},
given={Peter\bibnamedelima F},
giveni={P\bibinitperiod\bibinitdelim F\bibinitperiod}}}%
{{hash=7e6f41b987a6ec2b9b01a3d33cdd2ddb}{%
family={Cocke},
familyi={C\bibinitperiod},
given={John},
giveni={J\bibinitperiod}}}%
{{hash=4a93f8dffb0593ae148a8ef335eabe24}{%
family={Della\bibnamedelima Pietra},
familyi={D\bibinitperiod\bibinitdelim P\bibinitperiod},
given={Stephen\bibnamedelima A},
giveni={S\bibinitperiod\bibinitdelim A\bibinitperiod}}}%
{{hash=4bbdbda1345838fb46c88bd6afda258c}{%
family={Della\bibnamedelima Pietra},
familyi={D\bibinitperiod\bibinitdelim P\bibinitperiod},
given={Vincent\bibnamedelima J},
giveni={V\bibinitperiod\bibinitdelim J\bibinitperiod}}}%
{{hash=48d2d6e25183229596dbf23cf956498e}{%
family={Jelinek},
familyi={J\bibinitperiod},
given={Frederick},
giveni={F\bibinitperiod}}}%
{{hash=88426f033c21f91cad168597555d363d}{%
family={Lafferty},
familyi={L\bibinitperiod},
given={John},
giveni={J\bibinitperiod}}}%
{{hash=619872e7225f85d3b1c89906ec54e067}{%
family={Mercer},
familyi={M\bibinitperiod},
given={Robert\bibnamedelima L},
giveni={R\bibinitperiod\bibinitdelim L\bibinitperiod}}}%
{{hash=60b30df74a8e4cd8b96789ea5dae645e}{%
family={Roossin},
familyi={R\bibinitperiod},
given={Paul\bibnamedelima S},
giveni={P\bibinitperiod\bibinitdelim S\bibinitperiod}}}%
}
\strng{namehash}{e1a7aeb09589fa95d5b84765dc9acb1d}
\strng{fullhash}{16f3c666fcb85cefe7854f3250ea6ff5}
\strng{bibnamehash}{e1a7aeb09589fa95d5b84765dc9acb1d}
\strng{authorbibnamehash}{e1a7aeb09589fa95d5b84765dc9acb1d}
\strng{authornamehash}{e1a7aeb09589fa95d5b84765dc9acb1d}
\strng{authorfullhash}{16f3c666fcb85cefe7854f3250ea6ff5}
\field{sortinit}{B}
\field{sortinithash}{8de16967003c7207dae369d874f1456e}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Computational linguistics}
\field{number}{2}
\field{title}{A statistical approach to machine translation}
\field{volume}{16}
\field{year}{1990}
\field{pages}{79\bibrangedash 85}
\range{pages}{7}
\endentry
\entry{chen2014fast}{inproceedings}{}
\name{author}{2}{}{%
{{hash=aed188db3fc6855ac5666aa14e04a3bb}{%
family={Chen},
familyi={C\bibinitperiod},
given={Danqi},
giveni={D\bibinitperiod}}}%
{{hash=2214edb8305f7ccd7cdc310b3a8ae1b4}{%
family={Manning},
familyi={M\bibinitperiod},
given={Christopher\bibnamedelima D},
giveni={C\bibinitperiod\bibinitdelim D\bibinitperiod}}}%
}
\strng{namehash}{ee9c66797e7327b2ee7b96862e634853}
\strng{fullhash}{ee9c66797e7327b2ee7b96862e634853}
\strng{bibnamehash}{ee9c66797e7327b2ee7b96862e634853}
\strng{authorbibnamehash}{ee9c66797e7327b2ee7b96862e634853}
\strng{authornamehash}{ee9c66797e7327b2ee7b96862e634853}
\strng{authorfullhash}{ee9c66797e7327b2ee7b96862e634853}
\field{sortinit}{C}
\field{sortinithash}{4c244ceae61406cdc0cc2ce1cb1ff703}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)}
\field{title}{A fast and accurate dependency parser using neural networks}
\field{year}{2014}
\field{pages}{740\bibrangedash 750}
\range{pages}{11}
\endentry
\entry{chen1999empirical}{article}{}
\name{author}{2}{}{%
{{hash=22329e4fad1d1d229e5afbe4fe5bcca6}{%
family={Chen},
familyi={C\bibinitperiod},
given={Stanley\bibnamedelima F},
giveni={S\bibinitperiod\bibinitdelim F\bibinitperiod}}}%
{{hash=cff3ac3b4d16dde2f682dce454449cff}{%
family={Goodman},
familyi={G\bibinitperiod},
given={Joshua},
giveni={J\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Elsevier}%
}
\strng{namehash}{e7766dbeb1e894d1a1c85e82dc9d26a7}
\strng{fullhash}{e7766dbeb1e894d1a1c85e82dc9d26a7}
\strng{bibnamehash}{e7766dbeb1e894d1a1c85e82dc9d26a7}
\strng{authorbibnamehash}{e7766dbeb1e894d1a1c85e82dc9d26a7}
\strng{authornamehash}{e7766dbeb1e894d1a1c85e82dc9d26a7}
\strng{authorfullhash}{e7766dbeb1e894d1a1c85e82dc9d26a7}
\field{sortinit}{C}
\field{sortinithash}{4c244ceae61406cdc0cc2ce1cb1ff703}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Computer Speech \& Language}
\field{number}{4}
\field{title}{An empirical study of smoothing techniques for language modeling}
\field{volume}{13}
\field{year}{1999}
\field{pages}{359\bibrangedash 394}
\range{pages}{36}
\endentry
\entry{chomsky2002syntactic}{book}{}
\name{author}{1}{}{%
{{hash=28167c0b3800bc5cfb686676277005b0}{%
family={Chomsky},
familyi={C\bibinitperiod},
given={Noam},
giveni={N\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Walter de Gruyter}%
}
\strng{namehash}{28167c0b3800bc5cfb686676277005b0}
\strng{fullhash}{28167c0b3800bc5cfb686676277005b0}
\strng{bibnamehash}{28167c0b3800bc5cfb686676277005b0}
\strng{authorbibnamehash}{28167c0b3800bc5cfb686676277005b0}
\strng{authornamehash}{28167c0b3800bc5cfb686676277005b0}
\strng{authorfullhash}{28167c0b3800bc5cfb686676277005b0}
\field{sortinit}{C}
\field{sortinithash}{4c244ceae61406cdc0cc2ce1cb1ff703}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{Syntactic structures}
\field{year}{2002}
\endentry
\entry{gale1995good}{article}{}
\name{author}{2}{}{%
{{hash=2347dfd9dcf20ea2a38d78f8e6c8e8ab}{%
family={Gale},
familyi={G\bibinitperiod},
given={William\bibnamedelima A},
giveni={W\bibinitperiod\bibinitdelim A\bibinitperiod}}}%
{{hash=cf4650e11caf59af25efb68329bcd096}{%
family={Sampson},
familyi={S\bibinitperiod},
given={Geoffrey},
giveni={G\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Taylor \& Francis}%
}
\strng{namehash}{2ac04dc08f08d1c00b1f04f417ac73bb}
\strng{fullhash}{2ac04dc08f08d1c00b1f04f417ac73bb}
\strng{bibnamehash}{2ac04dc08f08d1c00b1f04f417ac73bb}
\strng{authorbibnamehash}{2ac04dc08f08d1c00b1f04f417ac73bb}
\strng{authornamehash}{2ac04dc08f08d1c00b1f04f417ac73bb}
\strng{authorfullhash}{2ac04dc08f08d1c00b1f04f417ac73bb}
\field{sortinit}{G}
\field{sortinithash}{62eb2aa29549e4fdbd3cb154ec5711cb}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Journal of quantitative linguistics}
\field{number}{3}
\field{title}{Good-turing frequency estimation without tears}
\field{volume}{2}
\field{year}{1995}
\field{pages}{217\bibrangedash 237}
\range{pages}{21}
\endentry
\entry{good1953population}{article}{}
\name{author}{1}{}{%
{{hash=287d039fb19c46dd90dd18326ebee81a}{%
family={Good},
familyi={G\bibinitperiod},
given={Irving\bibnamedelima J},
giveni={I\bibinitperiod\bibinitdelim J\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Oxford University Press}%
}
\strng{namehash}{287d039fb19c46dd90dd18326ebee81a}
\strng{fullhash}{287d039fb19c46dd90dd18326ebee81a}
\strng{bibnamehash}{287d039fb19c46dd90dd18326ebee81a}
\strng{authorbibnamehash}{287d039fb19c46dd90dd18326ebee81a}
\strng{authornamehash}{287d039fb19c46dd90dd18326ebee81a}
\strng{authorfullhash}{287d039fb19c46dd90dd18326ebee81a}
\field{sortinit}{G}
\field{sortinithash}{62eb2aa29549e4fdbd3cb154ec5711cb}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Biometrika}
\field{number}{3-4}
\field{title}{The population frequencies of species and the estimation of population parameters}
\field{volume}{40}
\field{year}{1953}
\field{pages}{237\bibrangedash 264}
\range{pages}{28}
\endentry
\entry{huang2008advanced}{inproceedings}{}
\name{author}{1}{}{%
{{hash=2ba9f491620cf8f3ee610ef7fdf2c9dd}{%
family={Huang},
familyi={H\bibinitperiod},
given={Liang},
giveni={L\bibinitperiod}}}%
}
\strng{namehash}{2ba9f491620cf8f3ee610ef7fdf2c9dd}
\strng{fullhash}{2ba9f491620cf8f3ee610ef7fdf2c9dd}
\strng{bibnamehash}{2ba9f491620cf8f3ee610ef7fdf2c9dd}
\strng{authorbibnamehash}{2ba9f491620cf8f3ee610ef7fdf2c9dd}
\strng{authornamehash}{2ba9f491620cf8f3ee610ef7fdf2c9dd}
\strng{authorfullhash}{2ba9f491620cf8f3ee610ef7fdf2c9dd}
\field{sortinit}{H}
\field{sortinithash}{6db6145dae8dc9e1271a8d556090b50a}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{Advanced Dynamic Programming in CL}
\field{year}{2008}
\endentry
\entry{huang2015bidirectional}{article}{}
\name{author}{3}{}{%
{{hash=6e8d947dd72de23b8500095b595e1e99}{%
family={Huang},
familyi={H\bibinitperiod},
given={Zhiheng},
giveni={Z\bibinitperiod}}}%
{{hash=b1dd1a9ff59cc6aeba590fc68bcc39cf}{%
family={Xu},
familyi={X\bibinitperiod},
given={Wei},
giveni={W\bibinitperiod}}}%
{{hash=f5a13dcc79cf0ffe67e50260860f709a}{%
family={Yu},
familyi={Y\bibinitperiod},
given={Kai},
giveni={K\bibinitperiod}}}%
}
\strng{namehash}{2f75424f8afa62a5d143e289d08f1665}
\strng{fullhash}{2f75424f8afa62a5d143e289d08f1665}
\strng{bibnamehash}{2f75424f8afa62a5d143e289d08f1665}
\strng{authorbibnamehash}{2f75424f8afa62a5d143e289d08f1665}
\strng{authornamehash}{2f75424f8afa62a5d143e289d08f1665}
\strng{authorfullhash}{2f75424f8afa62a5d143e289d08f1665}
\field{sortinit}{H}
\field{sortinithash}{6db6145dae8dc9e1271a8d556090b50a}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{arXiv preprint arXiv:1508.01991}
\field{title}{Bidirectional LSTM-CRF models for sequence tagging}
\field{year}{2015}
\endentry
\entry{kneser1995improved}{inproceedings}{}
\name{author}{2}{}{%
{{hash=d9f3c3457f75f60955fa5c2b36fc86ec}{%
family={Kneser},
familyi={K\bibinitperiod},
given={Reinhard},
giveni={R\bibinitperiod}}}%
{{hash=cf68a4c2b64db77cc898cdc9fbdeb0c4}{%
family={Ney},
familyi={N\bibinitperiod},
given={Hermann},
giveni={H\bibinitperiod}}}%
}
\list{organization}{1}{%
{IEEE}%
}
\strng{namehash}{68602597fa7a823464f42d5ef1f755d3}
\strng{fullhash}{68602597fa7a823464f42d5ef1f755d3}
\strng{bibnamehash}{68602597fa7a823464f42d5ef1f755d3}
\strng{authorbibnamehash}{68602597fa7a823464f42d5ef1f755d3}
\strng{authornamehash}{68602597fa7a823464f42d5ef1f755d3}
\strng{authorfullhash}{68602597fa7a823464f42d5ef1f755d3}
\field{sortinit}{K}
\field{sortinithash}{d3edc18d54b9438a72c24c925bfb38f4}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{1995 International Conference on Acoustics, Speech, and Signal Processing}
\field{title}{Improved backing-off for m-gram language modeling}
\field{volume}{1}
\field{year}{1995}
\field{pages}{181\bibrangedash 184}
\range{pages}{4}
\endentry
\entry{koehn2003statistical}{inproceedings}{}
\name{author}{3}{}{%
{{hash=dac0b41a5ea5e261d00f3251b76b91bd}{%
family={Koehn},
familyi={K\bibinitperiod},
given={Philipp},
giveni={P\bibinitperiod}}}%
{{hash=32b0f992581826baf8262f7355351480}{%
family={Och},
familyi={O\bibinitperiod},
given={Franz\bibnamedelima Josef},
giveni={F\bibinitperiod\bibinitdelim J\bibinitperiod}}}%
{{hash=e2a39610bfa3753b6cd9117b5f1c4854}{%
family={Marcu},
familyi={M\bibinitperiod},
given={Daniel},
giveni={D\bibinitperiod}}}%
}
\list{organization}{1}{%
{Association for Computational Linguistics}%
}
\strng{namehash}{9f2b4690ea540aa758f18faa6477fd3a}
\strng{fullhash}{9f2b4690ea540aa758f18faa6477fd3a}
\strng{bibnamehash}{9f2b4690ea540aa758f18faa6477fd3a}
\strng{authorbibnamehash}{9f2b4690ea540aa758f18faa6477fd3a}
\strng{authornamehash}{9f2b4690ea540aa758f18faa6477fd3a}
\strng{authorfullhash}{9f2b4690ea540aa758f18faa6477fd3a}
\field{sortinit}{K}
\field{sortinithash}{d3edc18d54b9438a72c24c925bfb38f4}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1}
\field{title}{Statistical phrase-based translation}
\field{year}{2003}
\field{pages}{48\bibrangedash 54}
\range{pages}{7}
\endentry
\entry{kolmogorov2018foundations}{book}{}
\name{author}{2}{}{%
{{hash=9d75b8e6905d1c3bbd7c677597929d6c}{%
family={Kolmogorov},
familyi={K\bibinitperiod},
given={Andre\bibnamedelima Nikolaevich},
giveni={A\bibinitperiod\bibinitdelim N\bibinitperiod}}}%
{{hash=528750b676e83a30cc4ff893ee954b75}{%
family={Bharucha-Reid},
familyi={B\bibinithyphendelim R\bibinitperiod},
given={Albert\bibnamedelima T},
giveni={A\bibinitperiod\bibinitdelim T\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Courier Dover Publications}%
}
\strng{namehash}{f43d1e88513d70674f8e142337d15d17}
\strng{fullhash}{f43d1e88513d70674f8e142337d15d17}
\strng{bibnamehash}{f43d1e88513d70674f8e142337d15d17}
\strng{authorbibnamehash}{f43d1e88513d70674f8e142337d15d17}
\strng{authornamehash}{f43d1e88513d70674f8e142337d15d17}
\strng{authorfullhash}{f43d1e88513d70674f8e142337d15d17}
\field{sortinit}{K}
\field{sortinithash}{d3edc18d54b9438a72c24c925bfb38f4}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{Foundations of the theory of probability: Second English Edition}
\field{year}{2018}
\endentry
\entry{lafferty2001conditional}{article}{}
\name{author}{3}{}{%
{{hash=88426f033c21f91cad168597555d363d}{%
family={Lafferty},
familyi={L\bibinitperiod},
given={John},
giveni={J\bibinitperiod}}}%
{{hash=17d73a3a5be48993791cbe4db8855331}{%
family={McCallum},
familyi={M\bibinitperiod},
given={Andrew},
giveni={A\bibinitperiod}}}%
{{hash=b99bb6fa4fedf907a397363d63528047}{%
family={Pereira},
familyi={P\bibinitperiod},
given={Fernando\bibnamedelima CN},
giveni={F\bibinitperiod\bibinitdelim C\bibinitperiod}}}%
}
\strng{namehash}{f1fb6bc84c219f4a487f94edf3d76b14}
\strng{fullhash}{f1fb6bc84c219f4a487f94edf3d76b14}
\strng{bibnamehash}{f1fb6bc84c219f4a487f94edf3d76b14}
\strng{authorbibnamehash}{f1fb6bc84c219f4a487f94edf3d76b14}
\strng{authornamehash}{f1fb6bc84c219f4a487f94edf3d76b14}
\strng{authorfullhash}{f1fb6bc84c219f4a487f94edf3d76b14}
\field{sortinit}{L}
\field{sortinithash}{dad3efd0836470093a7b4a7bb756eb8c}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{Conditional random fields: Probabilistic models for segmenting and labeling sequence data}
\field{year}{2001}
\endentry
\entry{ma2016end}{article}{}
\name{author}{2}{}{%
{{hash=a8f9a3f746656cec93579a6eb8fcd518}{%
family={Ma},
familyi={M\bibinitperiod},
given={Xuezhe},
giveni={X\bibinitperiod}}}%
{{hash=4c40167d6c8ae2073badfccef0c76767}{%
family={Hovy},
familyi={H\bibinitperiod},
given={Eduard},
giveni={E\bibinitperiod}}}%
}
\strng{namehash}{19c7a6df63f9822d4097371fd8d8a305}
\strng{fullhash}{19c7a6df63f9822d4097371fd8d8a305}
\strng{bibnamehash}{19c7a6df63f9822d4097371fd8d8a305}
\strng{authorbibnamehash}{19c7a6df63f9822d4097371fd8d8a305}
\strng{authornamehash}{19c7a6df63f9822d4097371fd8d8a305}
\strng{authorfullhash}{19c7a6df63f9822d4097371fd8d8a305}
\field{sortinit}{M}
\field{sortinithash}{2e5c2f51f7fa2d957f3206819bf86dc3}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{arXiv preprint arXiv:1603.01354}
\field{title}{End-to-end sequence labeling via bi-directional lstm-cnns-crf}
\field{year}{2016}
\endentry
\entry{mikolov2010recurrent}{inproceedings}{}
\name{author}{5}{}{%
{{hash=4a0e59cc1dbb8ca9e8342475f60e326a}{%
family={Mikolov},
familyi={M\bibinitperiod},
given={Tom{á}{š}},
giveni={T\bibinitperiod}}}%
{{hash=532398c21f4c14f31d6c3f5c9fb97d3b}{%
family={Karafi{á}t},
familyi={K\bibinitperiod},
given={Martin},
giveni={M\bibinitperiod}}}%
{{hash=ec089170ef346616c7b4c55ff60fd6cc}{%
family={Burget},
familyi={B\bibinitperiod},
given={Luk{á}{š}},
giveni={L\bibinitperiod}}}%
{{hash=c2b4fbf4b66e87721a2fbe956a495a78}{%
family={{Č}ernock{ỳ}},
familyi={Č\bibinitperiod},
given={Jan},
giveni={J\bibinitperiod}}}%
{{hash=d787f09b6c6cc374a9ad21fe9120fc1f}{%
family={Khudanpur},
familyi={K\bibinitperiod},
given={Sanjeev},
giveni={S\bibinitperiod}}}%
}
\strng{namehash}{2db95ca456b29eae853859553b1267c8}
\strng{fullhash}{8ba380599995fb34b87426fbc79dbda6}
\strng{bibnamehash}{2db95ca456b29eae853859553b1267c8}
\strng{authorbibnamehash}{2db95ca456b29eae853859553b1267c8}
\strng{authornamehash}{2db95ca456b29eae853859553b1267c8}
\strng{authorfullhash}{8ba380599995fb34b87426fbc79dbda6}
\field{sortinit}{M}
\field{sortinithash}{2e5c2f51f7fa2d957f3206819bf86dc3}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Eleventh annual conference of the international speech communication association}
\field{title}{Recurrent neural network based language model}
\field{year}{2010}
\endentry
\entry{nagao1984framework}{article}{}
\name{author}{1}{}{%
{{hash=a9664468e1992444282044b192539ec1}{%
family={Nagao},
familyi={N\bibinitperiod},
given={Makoto},
giveni={M\bibinitperiod}}}%
}
\strng{namehash}{a9664468e1992444282044b192539ec1}
\strng{fullhash}{a9664468e1992444282044b192539ec1}
\strng{bibnamehash}{a9664468e1992444282044b192539ec1}
\strng{authorbibnamehash}{a9664468e1992444282044b192539ec1}
\strng{authornamehash}{a9664468e1992444282044b192539ec1}
\strng{authorfullhash}{a9664468e1992444282044b192539ec1}
\field{sortinit}{N}
\field{sortinithash}{98cf339a479c0454fe09153a08675a15}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Artificial and human intelligence}
\field{title}{A framework of a mechanical translation between Japanese and English by analogy principle}
\field{year}{1984}
\field{pages}{351\bibrangedash 354}
\range{pages}{4}
\endentry
\entry{ney1994structuring}{article}{}
\name{author}{3}{}{%
{{hash=cf68a4c2b64db77cc898cdc9fbdeb0c4}{%
family={Ney},
familyi={N\bibinitperiod},
given={Hermann},
giveni={H\bibinitperiod}}}%
{{hash=b2ef0258c04f3ad7e91e09d0279e802e}{%
family={Essen},
familyi={E\bibinitperiod},
given={Ute},
giveni={U\bibinitperiod}}}%
{{hash=d9f3c3457f75f60955fa5c2b36fc86ec}{%
family={Kneser},
familyi={K\bibinitperiod},
given={Reinhard},
giveni={R\bibinitperiod}}}%
}
\strng{namehash}{55fd427c3f707df2bb830dcbeac8cfeb}
\strng{fullhash}{55fd427c3f707df2bb830dcbeac8cfeb}
\strng{bibnamehash}{55fd427c3f707df2bb830dcbeac8cfeb}
\strng{authorbibnamehash}{55fd427c3f707df2bb830dcbeac8cfeb}
\strng{authornamehash}{55fd427c3f707df2bb830dcbeac8cfeb}
\strng{authorfullhash}{55fd427c3f707df2bb830dcbeac8cfeb}
\field{sortinit}{N}
\field{sortinithash}{98cf339a479c0454fe09153a08675a15}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Computer Speech \& Language}
\field{number}{1}
\field{title}{On structuring probabilistic dependences in stochastic language modelling}
\field{volume}{8}
\field{year}{1994}
\field{pages}{1\bibrangedash 38}
\range{pages}{38}
\endentry
\entry{ng2002discriminative}{inproceedings}{}
\name{author}{2}{}{%
{{hash=49e889356ff39df159461bc2895c7e16}{%
family={Ng},
familyi={N\bibinitperiod},
given={Andrew\bibnamedelima Y},
giveni={A\bibinitperiod\bibinitdelim Y\bibinitperiod}}}%
{{hash=8a36116840c7ee55901618c95fd08a58}{%
family={Jordan},
familyi={J\bibinitperiod},
given={Michael\bibnamedelima I},
giveni={M\bibinitperiod\bibinitdelim I\bibinitperiod}}}%
}
\strng{namehash}{dca981b2891288e8bdd7d6fbf1a6a9c4}
\strng{fullhash}{dca981b2891288e8bdd7d6fbf1a6a9c4}
\strng{bibnamehash}{dca981b2891288e8bdd7d6fbf1a6a9c4}
\strng{authorbibnamehash}{dca981b2891288e8bdd7d6fbf1a6a9c4}
\strng{authornamehash}{dca981b2891288e8bdd7d6fbf1a6a9c4}
\strng{authorfullhash}{dca981b2891288e8bdd7d6fbf1a6a9c4}
\field{sortinit}{N}
\field{sortinithash}{98cf339a479c0454fe09153a08675a15}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Advances in neural information processing systems}
\field{title}{On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes}
\field{year}{2002}
\field{pages}{841\bibrangedash 848}
\range{pages}{8}
\endentry
\entry{papineni2002bleu}{inproceedings}{}
\name{author}{4}{}{%
{{hash=7f72c67734e28d79452d687f2b2825d0}{%
family={Papineni},
familyi={P\bibinitperiod},
given={Kishore},
giveni={K\bibinitperiod}}}%
{{hash=fcdf7cf3f3cfe87d0f08f8f4d98b1137}{%
family={Roukos},
familyi={R\bibinitperiod},
given={Salim},
giveni={S\bibinitperiod}}}%
{{hash=630f7af400534d0e9f11cc0befbb3fe3}{%
family={Ward},
familyi={W\bibinitperiod},
given={Todd},
giveni={T\bibinitperiod}}}%
{{hash=ecc966c09b4816bda3be0efb9bedb125}{%
family={Zhu},
familyi={Z\bibinitperiod},
given={Wei-Jing},
giveni={W\bibinithyphendelim J\bibinitperiod}}}%
}
\list{organization}{1}{%
{Association for Computational Linguistics}%
}
\strng{namehash}{d4eb40956a6de2c2fe50bfef6a72df63}
\strng{fullhash}{0a6e6b36539eaebe00a3fef93d4cd32a}
\strng{bibnamehash}{d4eb40956a6de2c2fe50bfef6a72df63}
\strng{authorbibnamehash}{d4eb40956a6de2c2fe50bfef6a72df63}
\strng{authornamehash}{d4eb40956a6de2c2fe50bfef6a72df63}
\strng{authorfullhash}{0a6e6b36539eaebe00a3fef93d4cd32a}
\field{sortinit}{P}
\field{sortinithash}{bb5b15f2db90f7aef79bb9e83defefcb}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Proceedings of the 40th annual meeting on association for computational linguistics}
\field{title}{BLEU: a method for automatic evaluation of machine translation}
\field{year}{2002}
\field{pages}{311\bibrangedash 318}
\range{pages}{8}
\endentry
\entry{parsing2009speech}{article}{}
\name{author}{1}{}{%
{{hash=39bd56e32c83d8349b276dbb954c1bd6}{%
family={Parsing},
familyi={P\bibinitperiod},
given={Constituency},
giveni={C\bibinitperiod}}}%
}
\strng{namehash}{39bd56e32c83d8349b276dbb954c1bd6}
\strng{fullhash}{39bd56e32c83d8349b276dbb954c1bd6}
\strng{bibnamehash}{39bd56e32c83d8349b276dbb954c1bd6}
\strng{authorbibnamehash}{39bd56e32c83d8349b276dbb954c1bd6}
\strng{authornamehash}{39bd56e32c83d8349b276dbb954c1bd6}
\strng{authorfullhash}{39bd56e32c83d8349b276dbb954c1bd6}
\field{sortinit}{P}
\field{sortinithash}{bb5b15f2db90f7aef79bb9e83defefcb}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{Speech and language processing}
\field{year}{2009}
\endentry
\entry{resnick1992adventures}{book}{}
\name{author}{1}{}{%
{{hash=2becf933ecad0836916af8d8e92ca548}{%
family={Resnick},
familyi={R\bibinitperiod},
given={Sidney\bibnamedelima I},
giveni={S\bibinitperiod\bibinitdelim I\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Springer Science \& Business Media}%
}
\strng{namehash}{2becf933ecad0836916af8d8e92ca548}
\strng{fullhash}{2becf933ecad0836916af8d8e92ca548}
\strng{bibnamehash}{2becf933ecad0836916af8d8e92ca548}
\strng{authorbibnamehash}{2becf933ecad0836916af8d8e92ca548}
\strng{authornamehash}{2becf933ecad0836916af8d8e92ca548}
\strng{authorfullhash}{2becf933ecad0836916af8d8e92ca548}
\field{sortinit}{R}
\field{sortinithash}{b9c68a358aea118dfa887b6e902414a7}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{Adventures in stochastic processes}
\field{year}{1992}
\endentry
\entry{shannon1948mathematical}{article}{}
\name{author}{1}{}{%
{{hash=536c91678d1dde76c9acd47047556291}{%
family={Shannon},
familyi={S\bibinitperiod},
given={Claude\bibnamedelima E},
giveni={C\bibinitperiod\bibinitdelim E\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Wiley Online Library}%
}
\strng{namehash}{536c91678d1dde76c9acd47047556291}
\strng{fullhash}{536c91678d1dde76c9acd47047556291}
\strng{bibnamehash}{536c91678d1dde76c9acd47047556291}
\strng{authorbibnamehash}{536c91678d1dde76c9acd47047556291}
\strng{authornamehash}{536c91678d1dde76c9acd47047556291}
\strng{authorfullhash}{536c91678d1dde76c9acd47047556291}
\field{sortinit}{S}
\field{sortinithash}{c319cff79d99c853d775f88277d4e45f}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Bell system technical journal}
\field{number}{3}
\field{title}{A mathematical theory of communication}
\field{volume}{27}
\field{year}{1948}
\field{pages}{379\bibrangedash 423}
\range{pages}{45}
\endentry
\entry{shiwen1993automatic}{article}{}
\name{author}{1}{}{%
{{hash=79a954956a47a1a00e0fe51f901be97a}{%
family={Shiwen},
familyi={S\bibinitperiod},
given={Yu},
giveni={Y\bibinitperiod}}}%
}
\list{publisher}{1}{%
{Springer}%
}
\strng{namehash}{79a954956a47a1a00e0fe51f901be97a}
\strng{fullhash}{79a954956a47a1a00e0fe51f901be97a}
\strng{bibnamehash}{79a954956a47a1a00e0fe51f901be97a}
\strng{authorbibnamehash}{79a954956a47a1a00e0fe51f901be97a}
\strng{authornamehash}{79a954956a47a1a00e0fe51f901be97a}
\strng{authorfullhash}{79a954956a47a1a00e0fe51f901be97a}
\field{sortinit}{S}
\field{sortinithash}{c319cff79d99c853d775f88277d4e45f}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{Machine Translation}
\field{number}{1-2}
\field{title}{Automatic evaluation of output quality for machine translation systems}
\field{volume}{8}
\field{year}{1993}
\field{pages}{117\bibrangedash 126}
\range{pages}{10}
\endentry
\entry{snover2006study}{inproceedings}{}
\name{author}{5}{}{%
{{hash=57fddde22dd45c3fd89f698609a15e64}{%
family={Snover},
familyi={S\bibinitperiod},
given={Matthew},
giveni={M\bibinitperiod}}}%
{{hash=c401d97f1db13573221c0d16dc3cf8c8}{%
family={Dorr},
familyi={D\bibinitperiod},
given={Bonnie},
giveni={B\bibinitperiod}}}%
{{hash=ed9b7985941f821b7c600e3973f62e51}{%
family={Schwartz},
familyi={S\bibinitperiod},
given={Richard},
giveni={R\bibinitperiod}}}%
{{hash=0a0cf3ca917fdcd5c1b176d34e1d6a7f}{%
family={Micciulla},
familyi={M\bibinitperiod},
given={Linnea},
giveni={L\bibinitperiod}}}%
{{hash=be711c1d20e2f962368bf225974dc978}{%
family={Makhoul},
familyi={M\bibinitperiod},
given={John},
giveni={J\bibinitperiod}}}%
}
\strng{namehash}{a778f5e3fb96c1f0f14573ab770f17d2}
\strng{fullhash}{3c6143a66e4a7a04971c5c4c84f895fe}
\strng{bibnamehash}{a778f5e3fb96c1f0f14573ab770f17d2}
\strng{authorbibnamehash}{a778f5e3fb96c1f0f14573ab770f17d2}
\strng{authornamehash}{a778f5e3fb96c1f0f14573ab770f17d2}
\strng{authorfullhash}{3c6143a66e4a7a04971c5c4c84f895fe}
\field{sortinit}{S}
\field{sortinithash}{c319cff79d99c853d775f88277d4e45f}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Proceedings of association for machine translation in the Americas}
\field{number}{6}
\field{title}{A study of translation edit rate with targeted human annotation}
\field{volume}{200}
\field{year}{2006}
\endentry
\entry{sutskever2014sequence}{inproceedings}{}
\name{author}{3}{}{%
{{hash=8d569d1d5b8b5a7836017a98b430f959}{%
family={Sutskever},
familyi={S\bibinitperiod},
given={Ilya},
giveni={I\bibinitperiod}}}%
{{hash=494b568c5dc85ba8f3f409635f9c5f25}{%
family={Vinyals},
familyi={V\bibinitperiod},
given={Oriol},
giveni={O\bibinitperiod}}}%
{{hash=c636f146591d51579a8119b777394878}{%
family={Le},
familyi={L\bibinitperiod},
given={Quoc\bibnamedelima V},
giveni={Q\bibinitperiod\bibinitdelim V\bibinitperiod}}}%
}
\strng{namehash}{d60494862bf48faf76d925f3780a6aee}
\strng{fullhash}{d60494862bf48faf76d925f3780a6aee}
\strng{bibnamehash}{d60494862bf48faf76d925f3780a6aee}
\strng{authorbibnamehash}{d60494862bf48faf76d925f3780a6aee}
\strng{authornamehash}{d60494862bf48faf76d925f3780a6aee}
\strng{authorfullhash}{d60494862bf48faf76d925f3780a6aee}
\field{sortinit}{S}
\field{sortinithash}{c319cff79d99c853d775f88277d4e45f}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{booktitle}{Advances in neural information processing systems}
\field{title}{Sequence to sequence learning with neural networks}
\field{year}{2014}
\field{pages}{3104\bibrangedash 3112}
\range{pages}{9}
\endentry
\entry{zhu2015long}{article}{}
\name{author}{3}{}{%
{{hash=7db206795c9c6671b7060b6153bcdab6}{%
family={Zhu},
familyi={Z\bibinitperiod},
given={Xiaodan},
giveni={X\bibinitperiod}}}%
{{hash=aafed55fdbb7a25c1ab43ed724eb953c}{%
family={Sobhani},
familyi={S\bibinitperiod},
given={Parinaz},
giveni={P\bibinitperiod}}}%
{{hash=9ef1c27eeeb236462f52032de708fe81}{%
family={Guo},
familyi={G\bibinitperiod},
given={Hongyu},
giveni={H\bibinitperiod}}}%
}
\strng{namehash}{08aaf389d8d0218d66adedd3df030f19}
\strng{fullhash}{08aaf389d8d0218d66adedd3df030f19}
\strng{bibnamehash}{08aaf389d8d0218d66adedd3df030f19}
\strng{authorbibnamehash}{08aaf389d8d0218d66adedd3df030f19}
\strng{authornamehash}{08aaf389d8d0218d66adedd3df030f19}
\strng{authorfullhash}{08aaf389d8d0218d66adedd3df030f19}
\field{sortinit}{Z}
\field{sortinithash}{8f7b480688e809b50b6f6577b16f3db5}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{journaltitle}{arXiv: Computation and Language}
\field{title}{Long Short-Term Memory Over Tree Structures.}
\field{year}{2015}
\endentry
\entry{liuke-markov-2004}{book}{}
\name{author}{1}{}{%
{{hash=c01ef9a560378730f00ebeecceb572d4}{%
family={刘克},
familyi={刘\bibinitperiod}}}%
}
\list{publisher}{1}{%
{清华大学出版社}%
}
\strng{namehash}{c01ef9a560378730f00ebeecceb572d4}
\strng{fullhash}{c01ef9a560378730f00ebeecceb572d4}
\strng{bibnamehash}{c01ef9a560378730f00ebeecceb572d4}
\strng{authorbibnamehash}{c01ef9a560378730f00ebeecceb572d4}
\strng{authornamehash}{c01ef9a560378730f00ebeecceb572d4}
\strng{authorfullhash}{c01ef9a560378730f00ebeecceb572d4}
\field{sortinit}{刘}
\field{sortinithash}{f3ff24b163d4496b49484b7a115b76c9}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{实用马尔可夫决策过程}
\field{volume}{3}
\field{year}{2004}
\endentry
\entry{mao-prob-book-2011}{book}{}
\name{author}{6}{}{%
{{hash=2830831f67df549d8bcc4980e281a6ca}{%
family={茆诗松},
familyi={茆\bibinitperiod}}}%
{{hash=07f329c27730232bd243800625979283}{%
family={程依明},
familyi={程\bibinitperiod}}}%
{{hash=614b04f1697449a3d7a6615f9552d64d}{%
family={濮晓龙},
familyi={濮\bibinitperiod}}}%
{{hash=75212c77695d1b78aaf6d5f383728eb4}{%
family={平装},
familyi={平\bibinitperiod}}}%
{{hash=4d7ffbb58d61f76765dea25a0d4da1ec}{%
family={查看清},
familyi={查\bibinitperiod}}}%
{{hash=562a92d3f2b96306488b04b8b94b427a}{%
family={单书目},
familyi={单\bibinitperiod}}}%
}
\list{publisher}{1}{%
{北京: 高等教育出版社}%
}
\strng{namehash}{a5d297d55af03f5c30541752e4e66972}
\strng{fullhash}{0cd8944e1838d053c86a350a486cd430}
\strng{bibnamehash}{a5d297d55af03f5c30541752e4e66972}
\strng{authorbibnamehash}{a5d297d55af03f5c30541752e4e66972}
\strng{authornamehash}{a5d297d55af03f5c30541752e4e66972}
\strng{authorfullhash}{0cd8944e1838d053c86a350a486cd430}
\field{sortinit}{茆}
\field{sortinithash}{e6b0878d3262ba263a8d6ee4986b856f}
\field{labelnamesource}{author}
\field{labeltitlesource}{title}
\field{title}{概率论与数理统计教程: 第二版}
\field{year}{2011}
\endentry
\enddatalist
\endrefsection
\endinput
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论