Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
9a971ca7
Commit
9a971ca7
authored
Sep 22, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
更新 chapter8.tex
parent
fe7a0a94
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
4 行增加
和
4 行删除
+4
-4
Chapter8/chapter8.tex
+4
-4
没有找到文件。
Chapter8/chapter8.tex
查看文件 @
9a971ca7
...
...
@@ -70,7 +70,7 @@
\parinterval
句法树结构可以赋予机器翻译对语言进一步抽象的能力,这样,可以不需要使用连续词串,而是通过句法结构来对大范围的译文生成和调序进行建模。图
\ref
{
fig:8-3
}
是一个在翻译中融入源语言(汉语)句法信息的实例。这个例子中,介词短语“在
$
...
$
后”包含15个单词,因此,使用短语很难涵盖这样的片段。这时,系统会把“在
$
...
$
后”错误地翻译为“In
$
...
$
”。通过句法树,可以知道“在
$
...
$
后”对应着一个完整的子树结构PP(介词短语)。因此也很容易知道介词短语中“在
$
...
$
后”是一个模板(红色),而“在”和“后”之间的部分构成从句部分(蓝色)。最终得到正确的译文“After
$
...
$
”。
\parinterval
使用句法信息在机器翻译中
不新鲜。在基于规则和模板的翻译模型中,就大量使用了句法等结构信息。只是由于早期句法分析技术不成熟,系统的整体效果并不突出。在数据驱动的方法中,句法可以很好地融合在统计建模中。通过概率化的文
法设计,可以对翻译过程进行很好的描述。
\parinterval
使用句法信息在机器翻译中
并不新鲜。在基于规则和模板的翻译模型中,就大量使用了句法等结构信息。只是由于早期句法分析技术不成熟,系统的整体效果并不突出。在数据驱动的方法中,句法可以很好地融合在统计建模中。通过概率化的句
法设计,可以对翻译过程进行很好的描述。
%----------------------------------------------------------------------------------------
% NEW SECTION
...
...
@@ -1574,7 +1574,7 @@ d_1 = {d'} \circ {r_5}
\textrm
{
VP
}_
1
\ \ \textrm
{
NP
}_
2
&
\rightarrow
&
\textrm
{
V103(
}
\ \ \textrm
{
VP
}_
1
\ \ \textrm
{
NP
}_
2 )
\nonumber
\end{eqnarray}
\noindent
可以看到,这两条新的规则源语言端只有两个部分,代表两个分叉。V103是一个新的标签,它没有任何句法含义。不过,为了保证二叉化后规则目标语部分的连续性,需要考虑源语言和目标语二叉化的同步性
\upcite
{
DBLP:conf/naacl/ZhangHGK06,Tong2009Better
}
。这样的规则与CKY方法一起使用完成解码,具体内容可以参考
\ref
{
section-8.2.4
}
节的内容。
\noindent
可以看到,这两条新的规则
中
源语言端只有两个部分,代表两个分叉。V103是一个新的标签,它没有任何句法含义。不过,为了保证二叉化后规则目标语部分的连续性,需要考虑源语言和目标语二叉化的同步性
\upcite
{
DBLP:conf/naacl/ZhangHGK06,Tong2009Better
}
。这样的规则与CKY方法一起使用完成解码,具体内容可以参考
\ref
{
section-8.2.4
}
节的内容。
\vspace
{
0.5em
}
\end{itemize}
...
...
@@ -1586,7 +1586,7 @@ d_1 = {d'} \circ {r_5}
\sectionnewpage
\section
{
小结及深入阅读
}
\parinterval
自基于规则的方法开始,如何使用句法信息就是机器翻译研究人员关注的热点。在统计机器翻译时代,句法信息与机器翻译的结合成为了最具时
态
特色的研究方向之一。句法结构具有高度的抽象性,因此可以缓解基于词串方法不善于处理句子上层结构的问题。
\parinterval
自基于规则的方法开始,如何使用句法信息就是机器翻译研究人员关注的热点。在统计机器翻译时代,句法信息与机器翻译的结合成为了最具时
代
特色的研究方向之一。句法结构具有高度的抽象性,因此可以缓解基于词串方法不善于处理句子上层结构的问题。
\parinterval
本章对基于句法的机器翻译模型进行了介绍,并重点讨论了相关的建模、翻译规则抽取以及解码问题。从某种意义上说,基于句法的模型与基于短语的模型都同属一类模型,因为二者都假设:两种语言间存在由短语或者规则构成的翻译推导,而机器翻译的目标就是找到最优的翻译推导。但是,由于句法信息有其独特的性质,因此也给机器翻译带来了新的问题。有几方面问题值得关注:
...
...
@@ -1594,7 +1594,7 @@ d_1 = {d'} \circ {r_5}
\vspace
{
0.5em
}
\item
从建模的角度看,早期的统计机器翻译模型已经涉及到了树结构的表示问题
\upcite
{
DBLP:conf/acl/AlshawiBX97,DBLP:conf/acl/WangW98
}
。不过,基于句法的翻译模型的真正崛起是在同步文法提出之后。初期的工作大多集中在反向转录文法和括号转录文法方面
\upcite
{
DBLP:conf/acl-vlc/Wu95,wu1997stochastic,DBLP:conf/acl/WuW98
}
,这类方法也被用于短语获取
\upcite
{
ja2006obtaining,DBLP:conf/acl/ZhangQMG08
}
。进一步,研究者提出了更加通用的层次模型来描述翻译过程
\upcite
{
chiang2005a,DBLP:conf/coling/ZollmannVOP08,DBLP:conf/acl/WatanabeTI06
}
,本章介绍的层次短语模型就是其中典型的代表。之后,使用语言学句法的模型也逐渐兴起。最具代表性的是在单语言端使用语言学句法信息的模型
\upcite
{
DBLP:conf/naacl/GalleyHKM04,galley2006scalable,marcu2006spmt,DBLP:conf/naacl/HuangK06,DBLP:conf/emnlp/DeNeefeKWM07,DBLP:conf/wmt/LiuG08,liu2006tree
}
,即:树到串翻译模型和串到树翻译模型。值得注意的是,除了直接用句法信息定义翻译规则,也有研究者将句法信息作为软约束改进层次短语模型
\upcite
{
DBLP:conf/wmt/ZollmannV06,DBLP:conf/acl/MartonR08
}
。这类方法具有很大的灵活性,既保留了层次短语模型比较健壮的特点,同时也兼顾了语言学句法对翻译的指导作用。在同一时期,也有研究者提出同时使用双语两端的语言学句法树对翻译进行建模,比较有代表性的工作是使用同步树插入文法(Synchronous Tree-Insertion Grammars)和同步树替换文法(Synchronous Tree-Substitution Grammars)进行树到树翻译的建模
\upcite
{
Nesson06inductionof,Zhang07atree-to-tree,liu2009improving
}
。不过,树到树翻译假设两种语言间的句法结构能够相互转换,而这个假设并不总是成立。因此树到树翻译系统往往要配合一些技术,如树二叉化,来提升系统的健壮性。
\vspace
{
0.5em
}
\item
在基于句法的模型中,常常会使用句法分析器完成句法分析树的生成。由于句法分析器会产生错误,因此这些错误会对机器翻译系统产生影响。对于这个问题,一种解决办法是同时考虑更多的句法树,
这样增加正确句法分析结果被使用到的概率。其中,比较典型的方式基于句法森林的方法
\upcite
{
DBLP:conf/acl/MiHL08,DBLP:conf/emnlp/MiH08
}
,比如,在规则抽取或者解码阶段使用句法森林,而不是仅仅使用一棵单独的句法树。另一种思路是,对句法结构进行松弛操作,即在翻译的过程中并不严格遵循句法结构
\upcite
{
zhu2011improving,DBLP:conf/emnlp/ZhangZZ11
}
。实际上,前面提到的基于句法软约束的模型也是这类方法的一种体现
\upcite
{
DBLP:conf/wmt/ZollmannV06,DBLP:conf/acl/MartonR08
}
。事实上,机器翻译领域的长期存在一个问题:使用什么样的句法结构是
最适合机器翻译?因此,有研究者尝试对比不同的句法分析结果对机器翻译系统的影响
\upcite
{
DBLP:conf/wmt/PopelMGZ11,DBLP:conf/coling/XiaoZZZ10
}
。也有研究者面向机器翻译任务自动归纳句法结构
\upcite
{
DBLP:journals/tacl/ZhaiZZZ13
}
,而不是直接使用从单语小规模树库学习到的句法分析器,这样可以提高系统的健壮性。
\item
在基于句法的模型中,常常会使用句法分析器完成句法分析树的生成。由于句法分析器会产生错误,因此这些错误会对机器翻译系统产生影响。对于这个问题,一种解决办法是同时考虑更多的句法树,
从而增加正确句法分析结果被使用到的概率。其中,比较典型的方式基于句法森林的方法
\upcite
{
DBLP:conf/acl/MiHL08,DBLP:conf/emnlp/MiH08
}
,比如,在规则抽取或者解码阶段使用句法森林,而不是仅仅使用一棵单独的句法树。另一种思路是,对句法结构进行松弛操作,即在翻译的过程中并不严格遵循句法结构
\upcite
{
zhu2011improving,DBLP:conf/emnlp/ZhangZZ11
}
。实际上,前面提到的基于句法软约束的模型也是这类方法的一种体现
\upcite
{
DBLP:conf/wmt/ZollmannV06,DBLP:conf/acl/MartonR08
}
。事实上,机器翻译领域长期存在一个问题:使用什么样的句法结构
最适合机器翻译?因此,有研究者尝试对比不同的句法分析结果对机器翻译系统的影响
\upcite
{
DBLP:conf/wmt/PopelMGZ11,DBLP:conf/coling/XiaoZZZ10
}
。也有研究者面向机器翻译任务自动归纳句法结构
\upcite
{
DBLP:journals/tacl/ZhaiZZZ13
}
,而不是直接使用从单语小规模树库学习到的句法分析器,这样可以提高系统的健壮性。
\vspace
{
0.5em
}
\item
本章所讨论的模型大多基于短语结构树。另一个重要的方向是使用依存树进行翻译建模
\upcite
{
DBLP:journals/mt/QuirkM06,DBLP:conf/wmt/XiongLL07,DBLP:conf/coling/Lin04
}
。依存树比短语结构树有更简单的结构,而且依存关系本身也是对“语义”的表征,因此也可以扑捉到短语结构树所无法涵盖的信息。同其它基于句法的模型类似,基于依存树的模型大多也需要进行规则抽取、解码等步骤,因此这方面的研究工作大多涉及翻译规则的抽取、基于依存树的解码等
\upcite
{
DBLP:conf/acl/DingP05,DBLP:conf/coling/ChenXMJL14,DBLP:conf/coling/SuLMZLL10,DBLP:conf/coling/XieXL14,DBLP:conf/emnlp/LiWL15
}
。此外,基于依存树的模型也可以与句法森林结构相结合,对系统性能进行进一步提升
\upcite
{
DBLP:conf/acl/MiL10,DBLP:conf/coling/TuLHLL10
}
。
\vspace
{
0.5em
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论