Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
562c4279
Commit
562c4279
authored
Sep 07, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
update
parent
8d998aa2
隐藏空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
43 行增加
和
8 行删除
+43
-8
Chapter6/chapter6.tex
+5
-7
bibliography.bib
+38
-1
没有找到文件。
Chapter6/chapter6.tex
查看文件 @
562c4279
...
...
@@ -471,17 +471,15 @@ p_0+p_1 & = & 1 \label{eq:6-21}
\sectionnewpage
\section
{
小结及深入阅读
}
{
\color
{
red
}
产出率需要增加
}
\parinterval
本章对IBM系列模型进行了全面的介绍和讨论,从一个简单的基于单词的翻译模型开始,本章以建模、解码、训练多个维度对统计机器翻译进行了描述,期间也涉及了词对齐、优化等多个重要概念。IBM 模型共分为5个模型,对翻译问题的建模依次由浅入深,同时模型复杂度也依次增加。IBM模型作为入门统计机器翻译的``必经之路'',其思想对今天的机器翻译仍然产生着影响。虽然单独使用IBM模型进行机器翻译现在已经不多见,甚至很多从事神经机器翻译等前沿研究的人对IBM模型已经逐渐淡忘,但是不能否认IBM模型标志着一个时代的开始。从某种意义上,当使用公式
$
\hat
{
\vectorn
{
t
}}
=
\argmax
_{
\vectorn
{
t
}}
\funp
{
P
}
(
\vectorn
{
t
}
|
\vectorn
{
s
}
)
$
描述机器翻译问题的时候,或多或少都在与IBM模型使用相似的思想。
\parinterval
当然,本书也无法涵盖IBM模型的所有内涵,很多内容需要感兴趣的读者继续研究和挖掘,有两个方向可以考虑:
\parinterval
{
\color
{
red
}
差一段小结
}
\begin{itemize}
\vspace
{
0.5em
}
\item
IBM模型在提出后的十余年中,一直受到了学术界的关注。一个比较有代表性的成果是GIZA++(
\url
{
https://github.com/moses-smt/giza-pp
}
),它集成了IBM模型和隐马尔可夫模型,并实现了这些模型的训练。在随后相当长的一段时间里,GIZA++也是机器翻译研究的标配,用于获得双语平行数据上单词一级的对齐结果。此外,研究者也对IBM模型进行了大量的分析,为后人研究统计机器翻译提供了大量依据
\upcite
{
och2004alignment
}
。虽然IBM模型很少被独立使用,甚至直接用基于IBM模型的解码器也不多见,但是它通常会作为其他模型的一部分参与到对翻译的建模中。这部分工作会在下一章基于短语和句法的模型中进行讨论
\upcite
{
koehn2003statistical
}
。此外,IBM模型也给机器翻译提供了一种非常简便的计算双语词串对应好坏的方式,因此也被广泛用于度量双语词串对应的强度,是自然语言处理中的一种常用特征。
\item
扭曲度是机器翻译中的一个经典概念。广义上来说,事物位置的变换都可以用扭曲度进行描述,比如,在物理成像系统中,扭曲度模型可以帮助进行镜头校正
\upcite
{
1966Decentering,ClausF05
}
。在机器翻译中,扭曲度本质上在描述源语言和目标源单词顺序的偏差。这种偏差可以用于对调序的建模。因此扭曲度的使用也可以被看做是一种对调序问题的描述,这也是机器翻译区别于语音识别等任务的主要因素之一。在早期的统计机器翻译系统中,如Pharaoh
\upcite
{
DBLP:conf/amta/Koehn04
}
,大量使用了扭曲度这个概念。虽然,随着机器翻译的发展,更复杂的调序模型被提出
\upcite
{
Gros2008MSD,xiong2006maximum,och2004alignment,DBLP:conf/naacl/KumarB05,li-etal-2014-neural,vaswani2017attention
}
,但是扭曲度所引发的对调序问题的思考是非常深刻的,这也是IBM模型最大的贡献之一。
\vspace
{
0.5em
}
\item
除了在机器翻译建模上的开创性工作,IBM模型的另一项重要贡献是建立了统计词对齐的基础模型。在训练IBM模型的过程中,除了学习到模型参数,还可以得到双语数据上的词对齐结果。也就是说词对齐标注是IBM模型训练的间接产物。这也使得IBM模型成为了自动词对齐的重要方法。包括GIZA++在内的很多工作,实际上更多的是被用于自动词对齐任务,而非简单的训练IBM模型参数。随着词对齐概念的不断深入,这个任务逐渐成为了自然语言处理中的重要分支,比如,对IBM模型的结果进行对称化
\upcite
{
och2003systematic
}
,也可以直接使用判别式模型利用分类模型解决词对齐问题
\upcite
{
ittycheriah2005maximum
}
,甚至可以把对齐的思想用于短语和句法结构的双语对应
\upcite
{
xiao2013unsupervised
}
。除了GIZA++,研究人员也开发了很多优秀的自动词对齐工具,比如,FastAlign (
\url
{
https://github.com/clab/fast
_
align
}
)、Berkeley Aligner(
\url
{
https://github.com/mhajiloo/berkeleyaligner
}
)等,这些工具现在也有很广泛的应用。
\item
IBM模型的另一个贡献是在机器翻译中引入了繁衍率的概念。本质上,繁衍率是一种对翻译长度的建模。在IBM模型中,通过计算单词的繁衍率就可以得到整个句子的长度。需要注意的是,在机器翻译中译文长度对翻译性能有着至关重要的影响。虽然,在很多机器翻译模型中并没有直接使用繁衍率这个概念,但是几乎所有的现代机器翻译系统中都有译文长度的控制模块。比如,在统计机器翻译和神经机器翻译中,都把译文单词数量作为一个特征用于生成合理长度的译文
\upcite
{
Koehn2007Moses,ChiangLMMRS05,bahdanau2014neural
}
。此外,在神经机器翻译中,非自回归的解码中也使用繁衍率模型对译文长度进行预测(
{
\color
{
red
}
参考文献待补充
}
)。
\vspace
{
0.5em
}
\end{itemize}
...
...
bibliography.bib
查看文件 @
562c4279
...
...
@@ -764,7 +764,6 @@
author = {Philipp Koehn},
title = {Pharaoh: {A} Beam Search Decoder for Phrase-Based Statistical Machine
Translation Models},
//series = {Lecture Notes in Computer Science},
volume = {3265},
pages = {115--124},
publisher = {Springer},
...
...
@@ -2076,6 +2075,36 @@
pages = {836--841},
year = {1996},
}
@inproceedings{1966Decentering,
author = {Brown D.C.},
title = {Decentering Distortion of Lenses},
publisher = {Photogrammetric Engineering},
volume = {32},
pages = {444--462},
year = {1966}
}
@inproceedings{ClausF05,
author = {David Claus and
Andrew W. Fitzgibbon},
title = {A Rational Function Lens Distortion Model for General Cameras},
pages = {213--219},
publisher = {{IEEE} Computer Society Conference on Computer Vision and Pattern
Recognition},
year = {2005},
}
@inproceedings{ChiangLMMRS05,
author = {David Chiang and
Adam Lopez and
Nitin Madnani and
Christof Monz and
Philip Resnik and
Michael Subotin},
title = {The Hiero Machine Translation System: Extensions, Evaluation, and
Analysis},
pages = {779--786},
publisher = {Annual Meeting of the Association for Computational Linguistics},
year = {2005},
}
%%%%% chapter 6------------------------------------------------------
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
...
...
@@ -2213,6 +2242,14 @@
publisher = {Annual Meeting of the Association for Computational Linguistics},
year = {2011}
}
@inproceedings{DBLP:conf/acl/KleinM03,
author = {Dan Klein and
Christopher D. Manning},
title = {Accurate Unlexicalized Parsing},
pages = {423--430},
publisher = {Annual Meeting of the Association for Computational Linguistics},
year = {2003}
}
%%%%% chapter 7------------------------------------------------------
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论