Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
badf7cdd
Commit
badf7cdd
authored
Mar 24, 2021
by
曹润柘
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求
!1066
parents
0f3f2ff1
c8497f21
全部展开
显示空白字符变更
内嵌
并排
正在显示
5 个修改的文件
包含
12 行增加
和
12 行删除
+12
-12
Chapter16/chapter16.tex
+1
-1
Chapter5/chapter5.tex
+2
-2
Chapter6/chapter6.tex
+2
-2
Chapter7/chapter7.tex
+0
-0
Chapter8/chapter8.tex
+7
-7
没有找到文件。
Chapter16/chapter16.tex
查看文件 @
badf7cdd
...
@@ -887,7 +887,7 @@
...
@@ -887,7 +887,7 @@
\item
预训练模型也是自然语言处理的重要突破之一,也给低资源机器翻译提供了新的思路。除了基于语言模型或掩码语言模型的方法,也有很多新的架构和模型被提出,如排列语言模型、降噪自编码器等
\upcite
{
DBLP:conf/nips/YangDYCSL19,DBLP:conf/acl/LewisLGGMLSZ20,DBLP:conf/iclr/LanCGGSS20,DBLP:conf/acl/ZhangHLJSL19
}
。预训练技术也逐渐向多语言领域扩展
\upcite
{
DBLP:conf/nips/ConneauL19,DBLP:conf/emnlp/HuangLDGSJZ19,song2019mass
}
,甚至不再只局限于文本任务
\upcite
{
DBLP:conf/iccv/SunMV0S19,DBLP:conf/nips/LuBPL19,DBLP:conf/interspeech/ChuangLLL20
}
。对于如何将预训练模型高效地应用到下游任务中,也进行了很多的经验性对比与分析
\upcite
{
Peters2018DeepCW,DBLP:conf/rep4nlp/PetersRS19,DBLP:conf/cncl/SunQXH19
}
。
\item
预训练模型也是自然语言处理的重要突破之一,也给低资源机器翻译提供了新的思路。除了基于语言模型或掩码语言模型的方法,也有很多新的架构和模型被提出,如排列语言模型、降噪自编码器等
\upcite
{
DBLP:conf/nips/YangDYCSL19,DBLP:conf/acl/LewisLGGMLSZ20,DBLP:conf/iclr/LanCGGSS20,DBLP:conf/acl/ZhangHLJSL19
}
。预训练技术也逐渐向多语言领域扩展
\upcite
{
DBLP:conf/nips/ConneauL19,DBLP:conf/emnlp/HuangLDGSJZ19,song2019mass
}
,甚至不再只局限于文本任务
\upcite
{
DBLP:conf/iccv/SunMV0S19,DBLP:conf/nips/LuBPL19,DBLP:conf/interspeech/ChuangLLL20
}
。对于如何将预训练模型高效地应用到下游任务中,也进行了很多的经验性对比与分析
\upcite
{
Peters2018DeepCW,DBLP:conf/rep4nlp/PetersRS19,DBLP:conf/cncl/SunQXH19
}
。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
多任务学习是多语言翻译的一种典型方法。通过共享编码器模块或是注意力模块来进行一对多
\upcite
{
DBLP:conf/acl/DongWHYW15
}
或多对一
\upcite
{
DBLP:journals/tacl/LeeCH17
}
或多对多
\upcite
{
DBLP:conf/naacl/FiratCB16
}
的学习,然而这些方法需要为每个翻译语言对设计单独的编码器和解码器,限制了其扩展性。为了解决以上问题,研究人员进一步探索了用于多语言翻译的单个机器翻译模型的方法,也就是本章提到的多语言单模型系统
\upcite
{
DBLP:journals/corr/HaNW16,DBLP:journals/tacl/JohnsonSLKWCTVW17
}
。为了弥补多语言单模型系统中缺乏语言表示多样性的问题,可以重新组织多语言共享模块,设计特定任务相关模块
\upcite
{
DBLP:conf/coling/BlackwoodBW18,DBLP:conf/wmt/SachanN18,DBLP:conf/wmt/LuKLBZS18,DBLP:conf/acl/WangZZZXZ19
}
;也可以将多语言单词编码和语言聚类分离,用一种多语言词典编码框架共享
词汇
级别的信息,有助于语言间的泛化
\upcite
{
DBLP:conf/iclr/WangPAN19
}
;还可以将语言聚类为不同的组,并为每个聚类单独训练一个多语言模型
\upcite
{
DBLP:conf/emnlp/TanCHXQL19
}
。
\item
多任务学习是多语言翻译的一种典型方法。通过共享编码器模块或是注意力模块来进行一对多
\upcite
{
DBLP:conf/acl/DongWHYW15
}
或多对一
\upcite
{
DBLP:journals/tacl/LeeCH17
}
或多对多
\upcite
{
DBLP:conf/naacl/FiratCB16
}
的学习,然而这些方法需要为每个翻译语言对设计单独的编码器和解码器,限制了其扩展性。为了解决以上问题,研究人员进一步探索了用于多语言翻译的单个机器翻译模型的方法,也就是本章提到的多语言单模型系统
\upcite
{
DBLP:journals/corr/HaNW16,DBLP:journals/tacl/JohnsonSLKWCTVW17
}
。为了弥补多语言单模型系统中缺乏语言表示多样性的问题,可以重新组织多语言共享模块,设计特定任务相关模块
\upcite
{
DBLP:conf/coling/BlackwoodBW18,DBLP:conf/wmt/SachanN18,DBLP:conf/wmt/LuKLBZS18,DBLP:conf/acl/WangZZZXZ19
}
;也可以将多语言单词编码和语言聚类分离,用一种多语言词典编码框架共享
单词
级别的信息,有助于语言间的泛化
\upcite
{
DBLP:conf/iclr/WangPAN19
}
;还可以将语言聚类为不同的组,并为每个聚类单独训练一个多语言模型
\upcite
{
DBLP:conf/emnlp/TanCHXQL19
}
。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
零资源翻译也是近几年受到广泛关注的研究方向
\upcite
{
firat2016zero,DBLP:journals/corr/abs-1805-10338
}
。在零资源翻译中,仅使用少量并行语料库(覆盖
$
k
$
个语言),一个模型就能在任何
$
k
(
k
-
1
)
$
个语言对之间进行翻译
\upcite
{
DBLP:conf/naacl/Al-ShedivatP19
}
。 但是,零资源翻译的性能通常很不稳定并且明显落后于有监督的翻译方法。为了改善零资源翻译,可以开发新的跨语言正则化方法,例如对齐正则化方法
\upcite
{
DBLP:journals/corr/abs-1903-07091
}
,一致性正则化方法
\upcite
{
DBLP:conf/naacl/Al-ShedivatP19
}
;也可以通过反向翻译或基于枢轴语言的翻译生成伪数据
\upcite
{
DBLP:conf/acl/GuWCL19,firat2016zero,DBLP:conf/emnlp/CurreyH19
}
。
\item
零资源翻译也是近几年受到广泛关注的研究方向
\upcite
{
firat2016zero,DBLP:journals/corr/abs-1805-10338
}
。在零资源翻译中,仅使用少量并行语料库(覆盖
$
k
$
个语言),一个模型就能在任何
$
k
(
k
-
1
)
$
个语言对之间进行翻译
\upcite
{
DBLP:conf/naacl/Al-ShedivatP19
}
。 但是,零资源翻译的性能通常很不稳定并且明显落后于有监督的翻译方法。为了改善零资源翻译,可以开发新的跨语言正则化方法,例如对齐正则化方法
\upcite
{
DBLP:journals/corr/abs-1903-07091
}
,一致性正则化方法
\upcite
{
DBLP:conf/naacl/Al-ShedivatP19
}
;也可以通过反向翻译或基于枢轴语言的翻译生成伪数据
\upcite
{
DBLP:conf/acl/GuWCL19,firat2016zero,DBLP:conf/emnlp/CurreyH19
}
。
...
...
Chapter5/chapter5.tex
查看文件 @
badf7cdd
...
@@ -753,13 +753,13 @@ g(\seq{s},\seq{t}) & \equiv & \prod_{j,i \in \widehat{A}}{\funp{P}(s_j,t_i)} \ti
...
@@ -753,13 +753,13 @@ g(\seq{s},\seq{t}) & \equiv & \prod_{j,i \in \widehat{A}}{\funp{P}(s_j,t_i)} \ti
\label
{
eq:5-22
}
\label
{
eq:5-22
}
\end{eqnarray}
\end{eqnarray}
\item
源语单词
$
s
_
j
$
的生成概率
$
\funp
{
P
}
(
s
_
j|a
_
1
^{
j
}
,s
_
1
^{
j
-
1
}
,m,
\seq
{
t
}
)
$
仅依赖与其对齐的译文单词
$
t
_{
a
_
j
}$
,即
词汇翻译概率
$
f
(
s
_
j|t
_{
a
_
j
}
)
$
。此时词汇
翻译概率满足
$
\sum
_{
s
_
j
}{
f
(
s
_
j|t
_{
a
_
j
}
)
}
=
1
$
。比如在图
\ref
{
fig:5-18
}
表示的例子中,源语单词“上”出现的概率只和与它对齐的单词“on”有关系,与其他单词没有关系。
\item
源语单词
$
s
_
j
$
的生成概率
$
\funp
{
P
}
(
s
_
j|a
_
1
^{
j
}
,s
_
1
^{
j
-
1
}
,m,
\seq
{
t
}
)
$
仅依赖与其对齐的译文单词
$
t
_{
a
_
j
}$
,即
单词翻译概率
$
f
(
s
_
j|t
_{
a
_
j
}
)
$
。此时单词
翻译概率满足
$
\sum
_{
s
_
j
}{
f
(
s
_
j|t
_{
a
_
j
}
)
}
=
1
$
。比如在图
\ref
{
fig:5-18
}
表示的例子中,源语单词“上”出现的概率只和与它对齐的单词“on”有关系,与其他单词没有关系。
\begin{eqnarray}
\begin{eqnarray}
\funp
{
P
}
(s
_
j|a
_
1
^{
j
}
,s
_
1
^{
j-1
}
,m,
\seq
{
t
}
)
&
\equiv
&
f(s
_
j|t
_{
a
_
j
}
)
\funp
{
P
}
(s
_
j|a
_
1
^{
j
}
,s
_
1
^{
j-1
}
,m,
\seq
{
t
}
)
&
\equiv
&
f(s
_
j|t
_{
a
_
j
}
)
\label
{
eq:5-23
}
\label
{
eq:5-23
}
\end{eqnarray}
\end{eqnarray}
用一个简单的例子对公式
\eqref
{
eq:5-23
}
进行说明。比如,在图
\ref
{
fig:5-18
}
中,“桌子”对齐到“table”,可被描述为
$
f
(
s
_
2
|t
_{
a
_
2
}
)=
f
(
\textrm
{
“桌子”
}
|
\textrm
{
“table”
}
)
$
,表示给定“table”翻译为“桌子”的概率。通常,
$
f
(
s
_
2
|t
_{
a
_
2
}
)
$
被认为是一种概率词典,它反应了两种语言
词汇
一级的对应关系。
用一个简单的例子对公式
\eqref
{
eq:5-23
}
进行说明。比如,在图
\ref
{
fig:5-18
}
中,“桌子”对齐到“table”,可被描述为
$
f
(
s
_
2
|t
_{
a
_
2
}
)=
f
(
\textrm
{
“桌子”
}
|
\textrm
{
“table”
}
)
$
,表示给定“table”翻译为“桌子”的概率。通常,
$
f
(
s
_
2
|t
_{
a
_
2
}
)
$
被认为是一种概率词典,它反应了两种语言
单词
一级的对应关系。
\end{itemize}
\end{itemize}
\parinterval
将上述三个假设和公式
\eqref
{
eq:5-19
}
代入公式
\eqref
{
eq:5-18
}
中,得到
$
\funp
{
P
}
(
\seq
{
s
}
|
\seq
{
t
}
)
$
的表达式:
\parinterval
将上述三个假设和公式
\eqref
{
eq:5-19
}
代入公式
\eqref
{
eq:5-18
}
中,得到
$
\funp
{
P
}
(
\seq
{
s
}
|
\seq
{
t
}
)
$
的表达式:
...
...
Chapter6/chapter6.tex
查看文件 @
badf7cdd
...
@@ -103,7 +103,7 @@
...
@@ -103,7 +103,7 @@
\label
{
eq:6-4
}
\label
{
eq:6-4
}
\end{eqnarray}
\end{eqnarray}
\parinterval
类似于模型1,模型2的表达式
\eqref
{
eq:6-4
}
也能被拆分为两部分进行理解。第一部分:遍历所有的
$
\seq
{
a
}$
;第二部分:对于每个
$
\seq
{
a
}$
累加对齐概率
$
\funp
{
P
}
(
\seq
{
s
}
,
\seq
{
a
}
|
\seq
{
t
}
)
$
,即计算对齐概率
$
a
(
a
_
j|j,m,l
)
$
和
词汇
翻译概率
$
f
(
s
_
j|t
_{
a
_
j
}
)
$
对于所有源语言位置的乘积。
\parinterval
类似于模型1,模型2的表达式
\eqref
{
eq:6-4
}
也能被拆分为两部分进行理解。第一部分:遍历所有的
$
\seq
{
a
}$
;第二部分:对于每个
$
\seq
{
a
}$
累加对齐概率
$
\funp
{
P
}
(
\seq
{
s
}
,
\seq
{
a
}
|
\seq
{
t
}
)
$
,即计算对齐概率
$
a
(
a
_
j|j,m,l
)
$
和
单词
翻译概率
$
f
(
s
_
j|t
_{
a
_
j
}
)
$
对于所有源语言位置的乘积。
\parinterval
同样的,模型2的解码及训练优化和模型1的十分相似,在此不再赘述,详细推导过程可以参看
{
\chapterfive
}
\ref
{
IBM-model1
}
小节解码及计算优化部分。这里直接给出IBM模型2的最终表达式:
\parinterval
同样的,模型2的解码及训练优化和模型1的十分相似,在此不再赘述,详细推导过程可以参看
{
\chapterfive
}
\ref
{
IBM-model1
}
小节解码及计算优化部分。这里直接给出IBM模型2的最终表达式:
\begin{eqnarray}
\begin{eqnarray}
...
@@ -232,7 +232,7 @@
...
@@ -232,7 +232,7 @@
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
第二部分:对
$
i
=
0
$
时的产出率建模(
{
\color
{
blue!70
}
蓝色
}
),即空标记
$
t
_
0
$
的产出率生成概率。它依赖于
$
\seq
{
t
}$
和区间
$
[
1
,i
-
1
]
$
的目标语单词的产出率
$
\varphi
_
1
^
l
$
。
\item
第二部分:对
$
i
=
0
$
时的产出率建模(
{
\color
{
blue!70
}
蓝色
}
),即空标记
$
t
_
0
$
的产出率生成概率。它依赖于
$
\seq
{
t
}$
和区间
$
[
1
,i
-
1
]
$
的目标语单词的产出率
$
\varphi
_
1
^
l
$
。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
第三部分:对
词汇
翻译建模(
{
\color
{
green!70
}
绿色
}
),目标语言单词
$
t
_
i
$
生成第
$
k
$
个源语言单词
$
\tau
_{
ik
}$
时的概率,依赖于
$
\seq
{
t
}$
、所有目标语言单词的产出率
$
\varphi
_
0
^
l
$
、区间
$
i
\in
[
1
,l
]
$
的目标语言单词生成的源语言单词
$
\tau
_
1
^{
i
-
1
}$
和目标语单词
$
t
_
i
$
生成的前
$
k
$
个源语言单词
$
\tau
_{
i
1
}^{
k
-
1
}$
。
\item
第三部分:对
单词
翻译建模(
{
\color
{
green!70
}
绿色
}
),目标语言单词
$
t
_
i
$
生成第
$
k
$
个源语言单词
$
\tau
_{
ik
}$
时的概率,依赖于
$
\seq
{
t
}$
、所有目标语言单词的产出率
$
\varphi
_
0
^
l
$
、区间
$
i
\in
[
1
,l
]
$
的目标语言单词生成的源语言单词
$
\tau
_
1
^{
i
-
1
}$
和目标语单词
$
t
_
i
$
生成的前
$
k
$
个源语言单词
$
\tau
_{
i
1
}^{
k
-
1
}$
。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
第四部分:对于每个
$
i
\in
[
1
,l
]
$
的目标语言单词生成的源语言单词的扭曲度建模(
{
\color
{
yellow!70!black
}
黄色
}
),即第
$
i
$
个目标语言单词生成的第
$
k
$
个源语言单词在源文中的位置
$
\pi
_{
ik
}$
的概率。其中
$
\pi
_
1
^{
i
-
1
}$
表示区间
$
[
1
,i
-
1
]
$
的目标语言单词生成的源语言单词的扭曲度,
$
\pi
_{
i
1
}^{
k
-
1
}$
表示第
$
i
$
目标语言单词生成的前
$
k
-
1
$
个源语言单词的扭曲度。
\item
第四部分:对于每个
$
i
\in
[
1
,l
]
$
的目标语言单词生成的源语言单词的扭曲度建模(
{
\color
{
yellow!70!black
}
黄色
}
),即第
$
i
$
个目标语言单词生成的第
$
k
$
个源语言单词在源文中的位置
$
\pi
_{
ik
}$
的概率。其中
$
\pi
_
1
^{
i
-
1
}$
表示区间
$
[
1
,i
-
1
]
$
的目标语言单词生成的源语言单词的扭曲度,
$
\pi
_{
i
1
}^{
k
-
1
}$
表示第
$
i
$
目标语言单词生成的前
$
k
-
1
$
个源语言单词的扭曲度。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
...
...
Chapter7/chapter7.tex
查看文件 @
badf7cdd
差异被折叠。
点击展开。
Chapter8/chapter8.tex
查看文件 @
badf7cdd
...
@@ -245,7 +245,7 @@ r_3:\quad \funp{X}\ &\to\ &\langle \ \text{大幅度},\quad \textrm{drastically}
...
@@ -245,7 +245,7 @@ r_3:\quad \funp{X}\ &\to\ &\langle \ \text{大幅度},\quad \textrm{drastically}
r
_
4:
\quad
\funp
{
X
}
\
&
\to\
&
\langle
\ \text
{
了
}
,
\quad
\textrm
{
have
}
\ \rangle
\nonumber
r
_
4:
\quad
\funp
{
X
}
\
&
\to\
&
\langle
\ \text
{
了
}
,
\quad
\textrm
{
have
}
\ \rangle
\nonumber
\end{eqnarray}
\end{eqnarray}
\noindent
其中,规则
$
r
_
1
$
和
$
r
_
2
$
是含有变量的规则,这些变量可以被其他规则的右部替换;规则
$
r
_
2
$
是调序规则;规则
$
r
_
3
$
和
$
r
_
4
$
是纯
词汇
化规则,表示单词或者短语的翻译。
\noindent
其中,规则
$
r
_
1
$
和
$
r
_
2
$
是含有变量的规则,这些变量可以被其他规则的右部替换;规则
$
r
_
2
$
是调序规则;规则
$
r
_
3
$
和
$
r
_
4
$
是纯
单词
化规则,表示单词或者短语的翻译。
\parinterval
对于一个双语句对:
\parinterval
对于一个双语句对:
\begin{eqnarray}
\begin{eqnarray}
...
@@ -389,7 +389,7 @@ y&=&\beta_0 y_{\pi_1} ... \beta_{m-1} y_{\pi_m} \beta_m
...
@@ -389,7 +389,7 @@ y&=&\beta_0 y_{\pi_1} ... \beta_{m-1} y_{\pi_m} \beta_m
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
(
$
h
_{
1
-
2
}$
)短语翻译概率(取对数),即
$
\textrm
{
log
}
(
\funp
{
P
}
(
\alpha
\mid
\beta
))
$
和
$
\textrm
{
log
}
(
\funp
{
P
}
(
\beta
\mid
\alpha
))
$
,特征的计算与基于短语的模型完全一样;
\item
(
$
h
_{
1
-
2
}$
)短语翻译概率(取对数),即
$
\textrm
{
log
}
(
\funp
{
P
}
(
\alpha
\mid
\beta
))
$
和
$
\textrm
{
log
}
(
\funp
{
P
}
(
\beta
\mid
\alpha
))
$
,特征的计算与基于短语的模型完全一样;
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
(
$
h
_{
3
-
4
}$
)
词汇
化翻译概率(取对数),即
$
\textrm
{
log
}
(
\funp
{
P
}_{
\textrm
{
lex
}}
(
\alpha
\mid
\beta
))
$
和
$
\textrm
{
log
}
(
\funp
{
P
}_{
\textrm
{
lex
}}
(
\beta
\mid
\alpha
))
$
,特征的计算与基于短语的模型完全一样;
\item
(
$
h
_{
3
-
4
}$
)
单词
化翻译概率(取对数),即
$
\textrm
{
log
}
(
\funp
{
P
}_{
\textrm
{
lex
}}
(
\alpha
\mid
\beta
))
$
和
$
\textrm
{
log
}
(
\funp
{
P
}_{
\textrm
{
lex
}}
(
\beta
\mid
\alpha
))
$
,特征的计算与基于短语的模型完全一样;
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
(
$
h
_{
5
}$
)翻译规则数量,让模型自动学习对规则数量的偏好,同时避免使用过少规则造成分数偏高的现象;
\item
(
$
h
_{
5
}$
)翻译规则数量,让模型自动学习对规则数量的偏好,同时避免使用过少规则造成分数偏高的现象;
\vspace
{
0.5em
}
\vspace
{
0.5em
}
...
@@ -696,8 +696,8 @@ span\textrm{[0,4]}&=&\textrm{“猫} \quad \textrm{喜欢} \quad \textrm{吃} \q
...
@@ -696,8 +696,8 @@ span\textrm{[0,4]}&=&\textrm{“猫} \quad \textrm{喜欢} \quad \textrm{吃} \q
&
都是基于串的解码方法
\\
&
都是基于串的解码方法
\\
\rule
{
0pt
}{
15pt
}
基于森林
&
(源语言)使用句法森林,这里森林只是对多个句法树的一
\\
\rule
{
0pt
}{
15pt
}
基于森林
&
(源语言)使用句法森林,这里森林只是对多个句法树的一
\\
&
种压缩结构表示
\\
&
种压缩结构表示
\\
\rule
{
0pt
}{
15pt
}
词汇
化规则
&
含有终结符的规则
\\
\rule
{
0pt
}{
15pt
}
单词
化规则
&
含有终结符的规则
\\
\rule
{
0pt
}{
15pt
}
非
词汇
规则
&
不含有终结符的规则
\\
\rule
{
0pt
}{
15pt
}
非
单词
规则
&
不含有终结符的规则
\\
\rule
{
0pt
}{
15pt
}
句法软约束
&
不强制规则推导匹配语言学句法树,通常把句法信息作为特
\\
\rule
{
0pt
}{
15pt
}
句法软约束
&
不强制规则推导匹配语言学句法树,通常把句法信息作为特
\\
&
征使用
\\
&
征使用
\\
\rule
{
0pt
}{
15pt
}
句法硬约束
&
要求推导必须符合语言学句法树,不符合的推导会被过滤掉
\\
\rule
{
0pt
}{
15pt
}
句法硬约束
&
要求推导必须符合语言学句法树,不符合的推导会被过滤掉
\\
...
@@ -1333,7 +1333,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
...
@@ -1333,7 +1333,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
\end{eqnarray}
\end{eqnarray}
\noindent
于是,可以定义短语翻译概率特征为
$
\log
(
\textrm
{
P
(
}
\tau
(
\alpha
_
r
)
|
\tau
(
\beta
_
r
)))
$
和
$
\log
(
\textrm
{
P
(
}
\tau
(
\beta
_
r
)
|
\tau
(
\alpha
_
r
)))
$
。它们的计算方法与基于短语的系统是完全一样的
\footnote
[9]
{
对于树到串规则,
$
\tau
(
\beta
_
r
)
$
就是规则目标语言端的符号串。
}
;
\noindent
于是,可以定义短语翻译概率特征为
$
\log
(
\textrm
{
P
(
}
\tau
(
\alpha
_
r
)
|
\tau
(
\beta
_
r
)))
$
和
$
\log
(
\textrm
{
P
(
}
\tau
(
\beta
_
r
)
|
\tau
(
\alpha
_
r
)))
$
。它们的计算方法与基于短语的系统是完全一样的
\footnote
[9]
{
对于树到串规则,
$
\tau
(
\beta
_
r
)
$
就是规则目标语言端的符号串。
}
;
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
(
$
h
_{
3
-
4
}$
)
词汇
化翻译概率(取对数),即
$
\log
(
\funp
{
P
}_{
\textrm
{
lex
}}
(
\tau
(
\alpha
_
r
)
|
\tau
(
\beta
_
r
)))
$
和
$
\log
(
\funp
{
P
}_{
\textrm
{
lex
}}
(
\tau
(
\beta
_
r
)
|
\tau
(
\alpha
_
r
)))
$
。这两个特征的计算方法与基于短语的系统也是一样的。
\item
(
$
h
_{
3
-
4
}$
)
单词
化翻译概率(取对数),即
$
\log
(
\funp
{
P
}_{
\textrm
{
lex
}}
(
\tau
(
\alpha
_
r
)
|
\tau
(
\beta
_
r
)))
$
和
$
\log
(
\funp
{
P
}_{
\textrm
{
lex
}}
(
\tau
(
\beta
_
r
)
|
\tau
(
\alpha
_
r
)))
$
。这两个特征的计算方法与基于短语的系统也是一样的。
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\end{itemize}
\end{itemize}
...
@@ -1362,7 +1362,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
...
@@ -1362,7 +1362,7 @@ r_9: \quad \textrm{IP(}\textrm{NN}_1\ \textrm{VP}_2) \rightarrow \textrm{S(}\tex
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
(
$
h
_{
11
}$
)组合规则的数量,学习对组合规则的偏好;
\item
(
$
h
_{
11
}$
)组合规则的数量,学习对组合规则的偏好;
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
(
$
h
_{
12
}$
)
词汇
化规则的数量,学习对含有终结符规则的偏好;
\item
(
$
h
_{
12
}$
)
单词
化规则的数量,学习对含有终结符规则的偏好;
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
(
$
h
_{
13
}$
)低频规则的数量,学习对训练数据中出现频次低于3的规则的偏好。低频规则大多不可靠,设计这个特征的目的也是为了区分不同质量的规则。
\item
(
$
h
_{
13
}$
)低频规则的数量,学习对训练数据中出现频次低于3的规则的偏好。低频规则大多不可靠,设计这个特征的目的也是为了区分不同质量的规则。
\end{itemize}
\end{itemize}
...
@@ -1571,7 +1571,7 @@ d_1 & = & {d'} \circ {r_5}
...
@@ -1571,7 +1571,7 @@ d_1 & = & {d'} \circ {r_5}
\parinterval
对于这个问题,有两种常用的解决办法:
\parinterval
对于这个问题,有两种常用的解决办法:
\begin{itemize}
\begin{itemize}
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
对文法进行限制。比如,可以限制规则中变量的数量;或者不允许连续的变量,这样的规则也被称作满足
{
\small\bfnew
{
词汇化标准形式
}}
\index
{
词汇
化标准形式
}
(Lexicalized Norm Form)
\index
{
Lexicalized Norm Form
}
(LNF)的规则。比如,层次短语规则就是LNF规则。由于LNF 中单词(终结符)可以作为锚点,因此规则匹配时所有变量的匹配范围是固定的;
\item
对文法进行限制。比如,可以限制规则中变量的数量;或者不允许连续的变量,这样的规则也被称作满足
{
\small\bfnew
{
单词化标准形式
}}
\index
{
单词
化标准形式
}
(Lexicalized Norm Form)
\index
{
Lexicalized Norm Form
}
(LNF)的规则。比如,层次短语规则就是LNF规则。由于LNF 中单词(终结符)可以作为锚点,因此规则匹配时所有变量的匹配范围是固定的;
\vspace
{
0.5em
}
\vspace
{
0.5em
}
\item
对规则进行二叉化,使用CKY方法进行分析。这个方法也是句法分析中常用的策略。所谓规则二叉化是把规则转化为最多只含两个变量或连续词串的规则(串到树规则)。比如,对于如下的规则:
\item
对规则进行二叉化,使用CKY方法进行分析。这个方法也是句法分析中常用的策略。所谓规则二叉化是把规则转化为最多只含两个变量或连续词串的规则(串到树规则)。比如,对于如下的规则:
\begin{eqnarray}
\begin{eqnarray}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论