Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
706442fd
Commit
706442fd
authored
Sep 16, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
更新 chapter8.tex
parent
44151631
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
3 行增加
和
3 行删除
+3
-3
Chapter8/chapter8.tex
+3
-3
没有找到文件。
Chapter8/chapter8.tex
查看文件 @
706442fd
...
...
@@ -1574,7 +1574,7 @@ d_1 = {d'} \circ {r_5}
\textrm
{
VP
}_
1
\ \ \textrm
{
NP
}_
2
&
\rightarrow
&
\textrm
{
V103(
}
\ \ \textrm
{
VP
}_
1
\ \ \textrm
{
NP
}_
2 )
\nonumber
\end{eqnarray}
\noindent
可以看到,这两条新的规则源语言端只有两个部分,代表两个分叉。V103是一个新的标签,它没有任何句法含义。不过,为了保证二叉化后规则目标语部分的连续性,需要考虑源语言和目标语二叉化的同步性
\upcite
{
zhang2006synchronous
,Tong2009Better
}
。这样的规则与CKY方法一起使用完成解码,具体内容可以参考
\ref
{
section-8.2.4
}
节的内容。
\noindent
可以看到,这两条新的规则源语言端只有两个部分,代表两个分叉。V103是一个新的标签,它没有任何句法含义。不过,为了保证二叉化后规则目标语部分的连续性,需要考虑源语言和目标语二叉化的同步性
\upcite
{
DBLP:conf/naacl/ZhangHGK06
,Tong2009Better
}
。这样的规则与CKY方法一起使用完成解码,具体内容可以参考
\ref
{
section-8.2.4
}
节的内容。
\vspace
{
0.5em
}
\end{itemize}
...
...
@@ -1592,9 +1592,9 @@ d_1 = {d'} \circ {r_5}
\begin{itemize}
\vspace
{
0.5em
}
\item
从建模的角度看,早期的统计机器翻译模型已经涉及到了树结构的表示问题
\upcite
{
DBLP:conf/acl/AlshawiBX97,DBLP:conf/acl/WangW98
}
。不过,基于句法的翻译模型的真正崛起还源自同步文法的提出。初期的工作大多集中在反向转录文法和括号转录文法方面
\upcite
{
DBLP:conf/acl-vlc/Wu95,wu1997stochastic,DBLP:conf/acl/WuW98
}
,这类方法也被用于短语获取
\upcite
{
ja2006obtaining,DBLP:conf/acl/ZhangQMG08
}
。进一步,研究者提出了更加通用的层次模型来描述翻译过程
\upcite
{
chiang2005a,DBLP:conf/coling/ZollmannVOP08,DBLP:conf/acl/WatanabeTI06
}
,本章介绍的层次短语模型就是其中典型的代表。之后,使用语言学句法的模型也逐渐兴起。最具代表性的是在单语言端使用语言学句法信息的模型
\upcite
{
DBLP:conf/naacl/GalleyHKM04,galley2006scalable,marcu2006spmt,DBLP:conf/naacl/HuangK06,DBLP:conf/emnlp/DeNeefeKWM07,DBLP:conf/wmt/LiuG08,
DBLP:conf/acl/LiuLL06
}
,即:树到串翻译模型和串到树翻译模型。值得注意的是,除了直接用句法信息定义翻译规则,也有研究者将句法信息作为软约束改进层次短语模型
\upcite
{
zollmann2006syntax,DBLP:conf/acl/MartonR08
}
。这类方法具有很大的灵活性,既保留了层次短语模型比较健壮的特点,同时也兼顾了语言学句法对翻译的指导作用。在同一时期,也有研究者提出同时使用双语两端的语言学句法树对翻译进行建模,比较有代表性的工作是使用同步树插入文法(Synchronous Tree-Insertion Grammars)和同步树替换文法(Synchronous Tree-Substitution Grammars)进行树到树翻译的建模
\upcite
{
Nesson06inductionof,Zhang07atree-to-tree,DBLP:conf/acl/LiuLL09
}
。不过,树到树翻译假设两种语言间的句法结构能够相互转换,而这个假设并不总是成立。因此树到树翻译系统往往要配合一些技术,如树二叉化,来提升系统的健壮性。
\item
从建模的角度看,早期的统计机器翻译模型已经涉及到了树结构的表示问题
\upcite
{
DBLP:conf/acl/AlshawiBX97,DBLP:conf/acl/WangW98
}
。不过,基于句法的翻译模型的真正崛起还源自同步文法的提出。初期的工作大多集中在反向转录文法和括号转录文法方面
\upcite
{
DBLP:conf/acl-vlc/Wu95,wu1997stochastic,DBLP:conf/acl/WuW98
}
,这类方法也被用于短语获取
\upcite
{
ja2006obtaining,DBLP:conf/acl/ZhangQMG08
}
。进一步,研究者提出了更加通用的层次模型来描述翻译过程
\upcite
{
chiang2005a,DBLP:conf/coling/ZollmannVOP08,DBLP:conf/acl/WatanabeTI06
}
,本章介绍的层次短语模型就是其中典型的代表。之后,使用语言学句法的模型也逐渐兴起。最具代表性的是在单语言端使用语言学句法信息的模型
\upcite
{
DBLP:conf/naacl/GalleyHKM04,galley2006scalable,marcu2006spmt,DBLP:conf/naacl/HuangK06,DBLP:conf/emnlp/DeNeefeKWM07,DBLP:conf/wmt/LiuG08,
liu2006tree
}
,即:树到串翻译模型和串到树翻译模型。值得注意的是,除了直接用句法信息定义翻译规则,也有研究者将句法信息作为软约束改进层次短语模型
\upcite
{
zollmann2006syntax,DBLP:conf/acl/MartonR08
}
。这类方法具有很大的灵活性,既保留了层次短语模型比较健壮的特点,同时也兼顾了语言学句法对翻译的指导作用。在同一时期,也有研究者提出同时使用双语两端的语言学句法树对翻译进行建模,比较有代表性的工作是使用同步树插入文法(Synchronous Tree-Insertion Grammars)和同步树替换文法(Synchronous Tree-Substitution Grammars)进行树到树翻译的建模
\upcite
{
Nesson06inductionof,Zhang07atree-to-tree,liu2009improving
}
。不过,树到树翻译假设两种语言间的句法结构能够相互转换,而这个假设并不总是成立。因此树到树翻译系统往往要配合一些技术,如树二叉化,来提升系统的健壮性。
\vspace
{
0.5em
}
\item
在基于句法的模型中,常常会使用句法分析器完成句法分析树的生成。由于句法分析器会产生错误,因此这些错误会对机器翻译系统产生影响。对于这个问题,一种解决办法是同时考虑更多的句法树,这样增加正确句法分析结果被使用到的概率。其中,比较典型的方式基于句法森林的方法
\upcite
{
DBLP:conf/acl/MiHL08,DBLP:conf/emnlp/MiH08
}
,比如,在规则抽取或者解码阶段使用句法森林,而不是仅仅使用一棵单独的句法树。另一种思路是,对句法结构进行松弛操作,即在翻译的过程中并不严格遵循句法结构
\upcite
{
DBLP:conf/acl/ZhuX11
,DBLP:conf/emnlp/ZhangZZ11
}
。实际上,前面提到的基于句法软约束的模型也是这类方法的一种体现
\upcite
{
DBLP:conf/wmt/ZollmannV06,DBLP:conf/acl/MartonR08
}
。实际上,机器翻译领域的长期存在一个问题:使用什么样的句法结构是最适合机器翻译?因此,有研究者尝试对比不同的句法分析结果对机器翻译系统的影响
\upcite
{
DBLP:conf/wmt/PopelMGZ11,DBLP:conf/coling/XiaoZZZ10
}
。也有研究者面向机器翻译任务自动归纳句法结构
\upcite
{
DBLP:journals/tacl/ZhaiZZZ13
}
,而不是直接使用从单语小规模树库学习到的句法分析器,这样可以提高系统的健壮性。
\item
在基于句法的模型中,常常会使用句法分析器完成句法分析树的生成。由于句法分析器会产生错误,因此这些错误会对机器翻译系统产生影响。对于这个问题,一种解决办法是同时考虑更多的句法树,这样增加正确句法分析结果被使用到的概率。其中,比较典型的方式基于句法森林的方法
\upcite
{
DBLP:conf/acl/MiHL08,DBLP:conf/emnlp/MiH08
}
,比如,在规则抽取或者解码阶段使用句法森林,而不是仅仅使用一棵单独的句法树。另一种思路是,对句法结构进行松弛操作,即在翻译的过程中并不严格遵循句法结构
\upcite
{
zhu2011improving
,DBLP:conf/emnlp/ZhangZZ11
}
。实际上,前面提到的基于句法软约束的模型也是这类方法的一种体现
\upcite
{
DBLP:conf/wmt/ZollmannV06,DBLP:conf/acl/MartonR08
}
。实际上,机器翻译领域的长期存在一个问题:使用什么样的句法结构是最适合机器翻译?因此,有研究者尝试对比不同的句法分析结果对机器翻译系统的影响
\upcite
{
DBLP:conf/wmt/PopelMGZ11,DBLP:conf/coling/XiaoZZZ10
}
。也有研究者面向机器翻译任务自动归纳句法结构
\upcite
{
DBLP:journals/tacl/ZhaiZZZ13
}
,而不是直接使用从单语小规模树库学习到的句法分析器,这样可以提高系统的健壮性。
\vspace
{
0.5em
}
\item
本章所讨论的模型大多基于短语结构树。另一个重要的方向是使用依存树进行翻译建模
\upcite
{
DBLP:journals/mt/QuirkM06,DBLP:conf/wmt/XiongLL07,DBLP:conf/coling/Lin04
}
。依存树比短语结构树有更简单的结构,而且依存关系本身也是对“语义”的表征,因此也可以扑捉到短语结构树所无法涵盖的信息。同其它基于句法的模型类似,基于依存树的模型大多也需要进行规则抽取、解码等步骤,因此这方面的研究工作大多涉及翻译规则的抽取、基于依存树的解码等
\upcite
{
DBLP:conf/acl/DingP05,DBLP:conf/coling/ChenXMJL14,DBLP:conf/coling/SuLMZLL10,DBLP:conf/coling/XieXL14,DBLP:conf/emnlp/LiWL15
}
。此外,基于依存树的模型也可以与句法森林结构相结合,对系统性能进行进一步提升
\upcite
{
DBLP:conf/acl/MiL10,DBLP:conf/coling/TuLHLL10
}
。
\vspace
{
0.5em
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论