Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
5ece0446
Commit
5ece0446
authored
Mar 29, 2021
by
单韦乔
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'shanweiqiao' 到 'caorunzhe'
1、13章修改 查看合并请求
!1073
parents
a47ffe43
a3fa0c69
显示空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
3 行增加
和
3 行删除
+3
-3
Chapter1/chapter1.tex
+1
-1
Chapter13/chapter13.tex
+2
-2
没有找到文件。
Chapter1/chapter1.tex
查看文件 @
5ece0446
...
...
@@ -246,7 +246,7 @@
\sectionnewpage
\section
{
基于规则的方法
}
\label
{
section-1.4
}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\parinterval
机器翻译技术大体上可以分为
三种方法,分别为基于规则的机器翻译、统计机器翻译以及神经机器翻译
。第一代机器翻译技术是主要使用基于规则的机器翻译方法,其主要思想是通过形式文法定义的规则引入源语言和目标语中的语言学知识。此类方法在机器翻译技术诞生之初就被人所关注,特别是在上世纪70年代,以基于规则方法为代表的专家系统是人工智能中最具代表性的研究领域。甚至到了统计机器翻译时代,很多系统中也大量地使用了基于规则的翻译知识表达形式。
\parinterval
机器翻译技术大体上可以分为
两种方法,分别为基于规则的机器翻译方法以及数据驱动的机器翻译方法。进一步,数据驱动的机器翻译方法又可以分为统计机器翻译方法以及神经机器翻译方法
。第一代机器翻译技术是主要使用基于规则的机器翻译方法,其主要思想是通过形式文法定义的规则引入源语言和目标语中的语言学知识。此类方法在机器翻译技术诞生之初就被人所关注,特别是在上世纪70年代,以基于规则方法为代表的专家系统是人工智能中最具代表性的研究领域。甚至到了统计机器翻译时代,很多系统中也大量地使用了基于规则的翻译知识表达形式。
\parinterval
早期,基于规则的机器翻译大多依赖人工定义及书写的规则。主要有两类方法
\upcite
{
nirenburg1989knowledge,hutchins1986machine,zarechnak1979history
}
:一类是基于转换规则的机器翻译方法,简称转换法。另一类是基于中间语言的方法。它们都以词典和人工书写的规则库作为翻译知识,用一系列规则的组合完成翻译。
...
...
Chapter13/chapter13.tex
查看文件 @
5ece0446
...
...
@@ -448,7 +448,7 @@ R(\mathbi{w}) & = & ({\Vert{\mathbi{w}}\Vert}_2)^2 \\
\end{figure}
%----------------------------------------------
\item
{
\small\bfnew
{
训练目标函数与任务评价指标不一致问题
}}
。
在训练数据上使用极大似然估计,而在新数据上进行推断的时候
,通常使用BLEU等外部评价指标来评价模型的性能。在机器翻译任务中,这个问题的一种体现是,训练数据上更低的困惑度不一定能带来BLEU的提升。更加理想的情况是,模型应该直接使性能评价指标最大化,而不是训练集数据上的似然函数
\upcite
{
DBLP:conf/acl/ShenCHHWSL16
}
。但是很多模型性能评价指标不可微分,这使得研究人员无法直接利用基于梯度的方法来优化这些指标。
\item
{
\small\bfnew
{
训练目标函数与任务评价指标不一致问题
}}
。
通常,在训练过程中,模型采用极大似然估计对训练数据进行学习,而在推断过程中
,通常使用BLEU等外部评价指标来评价模型的性能。在机器翻译任务中,这个问题的一种体现是,训练数据上更低的困惑度不一定能带来BLEU的提升。更加理想的情况是,模型应该直接使性能评价指标最大化,而不是训练集数据上的似然函数
\upcite
{
DBLP:conf/acl/ShenCHHWSL16
}
。但是很多模型性能评价指标不可微分,这使得研究人员无法直接利用基于梯度的方法来优化这些指标。
\vspace
{
0.5em
}
\end{itemize}
...
...
@@ -903,7 +903,7 @@ L_{\textrm{seq}} = - \textrm{logP}_{\textrm{s}}(\hat{\seq{y}} | \seq{x})
\vspace
{
0.5em
}
\item
{
\small\bfnew
{
基于正则化的方法
}}
。通过对模型参数的更新施加约束来减轻灾难性的遗忘,通常是在损失函数中引入了一个额外的正则化项,使得模型在学习新数据时巩固先前的知识
\upcite
{
DBLP:journals/pami/LiH18a,DBLP:conf/iccv/TrikiABT17
}
。
\vspace
{
0.5em
}
\item
{
\small\bfnew
{
基于实例的方法
}}
。
基于实例的方法。
在学习新任务的同时混合训练先前的任务样本以减轻遗忘,这些样本可以是从先前任务的训练数据中精心挑选出的子集,或者利用生成模型生成的伪样本
\upcite
{
DBLP:conf/cvpr/RebuffiKSL17,DBLP:conf/eccv/CastroMGSA18
}
。
\item
{
\small\bfnew
{
基于实例的方法
}}
。在学习新任务的同时混合训练先前的任务样本以减轻遗忘,这些样本可以是从先前任务的训练数据中精心挑选出的子集,或者利用生成模型生成的伪样本
\upcite
{
DBLP:conf/cvpr/RebuffiKSL17,DBLP:conf/eccv/CastroMGSA18
}
。
\vspace
{
0.5em
}
\item
{
\small\bfnew
{
基于动态模型架构的方法
}}
。例如,增加神经元或新的神经网络层进行重新训练,或者是在新任务训练时只更新部分参数
\upcite
{
rusu2016progressive,DBLP:journals/corr/FernandoBBZHRPW17
}
。
\vspace
{
0.5em
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论