Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
133c045f
Commit
133c045f
authored
May 10, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'master' 到 'caorunzhe'
Master 查看合并请求
!125
parents
760ce175
2b47026c
显示空白字符变更
内嵌
并排
正在显示
3 个修改的文件
包含
106 行增加
和
52 行删除
+106
-52
Book/Chapter4/chapter4.tex
+1
-1
Book/mt-book-xelatex.idx
+102
-48
Book/mt-book-xelatex.tex
+3
-3
没有找到文件。
Book/Chapter4/chapter4.tex
查看文件 @
133c045f
...
...
@@ -2322,7 +2322,7 @@ d_1 = {d'} \circ {r_5}
\begin{itemize}
\vspace
{
0.5em
}
\item
统计机器翻译的成功很大程度上来自判别式模型引入任意特征的能力。因此,在统计机器翻译时代,很多工作都集中在新特征的设计上。比如,可以基于不同的统计特征和先验知识设计翻译特征
\cite
{
och2004smorgasbord,Chiang200911,gildea2003loosely
}
,也可以模仿分类任务设计大规模的稀疏特征
\cite
{
chiang2008online
}
。另一方面,模型训练和特征权重调优也是统计机器翻译中的重要问题,除了最小错误率训练,还有很多方法
。在过去十年,研究人员提出了许多有效的方法来学习现代SMT系统的特征值和权重
,比如,最大似然估计
\cite
{
koehn2003statistical,Peter1993The
}
、判别式方法
\cite
{
Blunsom2008A
}
、贝叶斯方法
\cite
{
Blunsom2009A,Cohn2009A
}
、最小风险训练
\cite
{
smith2006minimum,li2009first-
}
、基于Margin的方法
\cite
{
watanabe2007online,Chiang200911
}
以及基于排序模型的方法(PRO)
\cite
{
Hopkins2011Tuning,dreyer2015apro
}
。实际上,统计机器翻译的训练和解码也存在不一致的问题,比如,特征值由双语数据上的极大似然估计得到(没有剪枝),而解码时却使用束剪枝,而且模型的目标是最大化机器翻译评价指标。对于这个问题也可以通过调整训练的目标函数进行缓解
\cite
{
XiaoA,marcu2006practical
}
。
\item
统计机器翻译的成功很大程度上来自判别式模型引入任意特征的能力。因此,在统计机器翻译时代,很多工作都集中在新特征的设计上。比如,可以基于不同的统计特征和先验知识设计翻译特征
\cite
{
och2004smorgasbord,Chiang200911,gildea2003loosely
}
,也可以模仿分类任务设计大规模的稀疏特征
\cite
{
chiang2008online
}
。另一方面,模型训练和特征权重调优也是统计机器翻译中的重要问题,除了最小错误率训练,还有很多方法,比如,最大似然估计
\cite
{
koehn2003statistical,Peter1993The
}
、判别式方法
\cite
{
Blunsom2008A
}
、贝叶斯方法
\cite
{
Blunsom2009A,Cohn2009A
}
、最小风险训练
\cite
{
smith2006minimum,li2009first-
}
、基于Margin的方法
\cite
{
watanabe2007online,Chiang200911
}
以及基于排序模型的方法(PRO)
\cite
{
Hopkins2011Tuning,dreyer2015apro
}
。实际上,统计机器翻译的训练和解码也存在不一致的问题,比如,特征值由双语数据上的极大似然估计得到(没有剪枝),而解码时却使用束剪枝,而且模型的目标是最大化机器翻译评价指标。对于这个问题也可以通过调整训练的目标函数进行缓解
\cite
{
XiaoA,marcu2006practical
}
。
\vspace
{
0.5em
}
\item
统计机器翻译的另一个基础问题是如何表示并获取翻译单元(如短语)。传统方法中,研究者大多使用词对齐或者句法树等结构化信息,通过启发性方法进行短语和翻译规则的获取。不过这类方法最大的问题是上游系统(比如,词对齐、句法分析等)中的错误会影响到下游系统。因此,很多研究者尝试使用更多样的对齐或者句法分析来指导翻译单元的获取。比如,可以绕过词对齐,直接进行短语对齐
\cite
{
denero2010phrase
}
;也可以使用多个句法树或者句法森林来覆盖更多的句法现象,进而增加规则抽取的召回率
\cite
{
mi2008forest,xiao2010empirical
}
。另一个有趣的方向是用更紧凑的方式表示更多样的翻译假设,比如,直接将翻译结果用有限状态自动机表示,进行更大搜索空间上的解码
\cite
{
de2010hierarchical,Casacuberta2004Machine
}
。
\vspace
{
0.5em
}
...
...
Book/mt-book-xelatex.idx
查看文件 @
133c045f
\indexentry{流畅度|hyperpage}{12}
\indexentry{Fluency|hyperpage}{12}
\indexentry{准确性|hyperpage}{12}
\indexentry{Accuracy|hyperpage}{12}
\indexentry{充分性|hyperpage}{12}
\indexentry{Adequacy|hyperpage}{12}
\indexentry{翻译候选|hyperpage}{13}
\indexentry{Translation Candidate|hyperpage}{13}
\indexentry{训练|hyperpage}{15}
\indexentry{Training|hyperpage}{15}
\indexentry{解码|hyperpage}{15}
\indexentry{Decoding|hyperpage}{15}
\indexentry{推断|hyperpage}{15}
\indexentry{Inference|hyperpage}{15}
\indexentry{词对齐|hyperpage}{20}
\indexentry{Word Alignment|hyperpage}{20}
\indexentry{词对齐连接|hyperpage}{20}
\indexentry{解码|hyperpage}{23}
\indexentry{Decoding|hyperpage}{23}
\indexentry{噪声信道模型|hyperpage}{26}
\indexentry{Noise Channel Model|hyperpage}{26}
\indexentry{词对齐|hyperpage}{29}
\indexentry{Word Alignment|hyperpage}{29}
\indexentry{非对称的词对齐|hyperpage}{29}
\indexentry{Asymmetric Word Alignment|hyperpage}{29}
\indexentry{空对齐|hyperpage}{29}
\indexentry{拉格朗日乘数法|hyperpage}{37}
\indexentry{The Lagrange Multiplier Method|hyperpage}{37}
\indexentry{期望最大化|hyperpage}{40}
\indexentry{Expectation Maximization|hyperpage}{40}
\indexentry{期望频次|hyperpage}{40}
\indexentry{Expected Count|hyperpage}{41}
\indexentry{产出率|hyperpage}{44}
\indexentry{繁衍率|hyperpage}{44}
\indexentry{Fertility|hyperpage}{44}
\indexentry{扭曲度|hyperpage}{46}
\indexentry{Distortion|hyperpage}{46}
\indexentry{概念单元|hyperpage}{48}
\indexentry{概念|hyperpage}{48}
\indexentry{Concept|hyperpage}{48}
\indexentry{缺陷|hyperpage}{49}
\indexentry{Deficiency|hyperpage}{49}
\indexentry{凸函数|hyperpage}{54}
\indexentry{Convex function|hyperpage}{54}
\indexentry{对称化|hyperpage}{55}
\indexentry{Symmetrization|hyperpage}{55}
\indexentry{系统偏置|hyperpage}{56}
\indexentry{System Bias|hyperpage}{56}
\indexentry{组合性翻译|hyperpage}{10}
\indexentry{Compositional Translation|hyperpage}{10}
\indexentry{短语|hyperpage}{10}
\indexentry{短语切分|hyperpage}{15}
\indexentry{Phrasal Segmentation|hyperpage}{15}
\indexentry{短语对|hyperpage}{15}
\indexentry{推导|hyperpage}{15}
\indexentry{Derivation|hyperpage}{15}
\indexentry{生成式模型|hyperpage}{18}
\indexentry{Generative Model|hyperpage}{18}
\indexentry{判别式模型|hyperpage}{18}
\indexentry{Discriminative Model|hyperpage}{18}
\indexentry{对数线性模型|hyperpage}{19}
\indexentry{Log-linear Model|hyperpage}{19}
\indexentry{短语抽取|hyperpage}{20}
\indexentry{Phrase Extraction|hyperpage}{20}
\indexentry{词汇化翻译概率|hyperpage}{23}
\indexentry{Lexical Translation Probability|hyperpage}{23}
\indexentry{短语表|hyperpage}{23}
\indexentry{Phrase Table|hyperpage}{23}
\indexentry{调序|hyperpage}{24}
\indexentry{Reordering|hyperpage}{24}
\indexentry{模型训练|hyperpage}{28}
\indexentry{Model Training|hyperpage}{28}
\indexentry{权重调优|hyperpage}{28}
\indexentry{Weight Tuning|hyperpage}{28}
\indexentry{最小错误率训练|hyperpage}{28}
\indexentry{Minimum Error Rate Training|hyperpage}{28}
\indexentry{调优集合|hyperpage}{28}
\indexentry{Tuning Set|hyperpage}{28}
\indexentry{线搜索|hyperpage}{29}
\indexentry{Line Search|hyperpage}{29}
\indexentry{格搜索|hyperpage}{30}
\indexentry{Grid Search|hyperpage}{30}
\indexentry{覆盖度模型|hyperpage}{32}
\indexentry{Coverage Model|hyperpage}{32}
\indexentry{翻译候选|hyperpage}{32}
\indexentry{Translation Candidate|hyperpage}{32}
\indexentry{翻译假设|hyperpage}{33}
\indexentry{Translation Hypothesis|hyperpage}{33}
\indexentry{剪枝|hyperpage}{34}
\indexentry{Pruning|hyperpage}{34}
\indexentry{束剪枝|hyperpage}{34}
\indexentry{Beam Pruning|hyperpage}{34}
\indexentry{直方图剪枝|hyperpage}{34}
\indexentry{Histogram Pruning|hyperpage}{34}
\indexentry{阈值剪枝|hyperpage}{34}
\indexentry{Threshold Pruning|hyperpage}{34}
\indexentry{假设重组|hyperpage}{34}
\indexentry{Hypothesis Recombination|hyperpage}{34}
\indexentry{基于层次短语的模型|hyperpage}{38}
\indexentry{Hierarchical Phrase-based Model|hyperpage}{38}
\indexentry{同步上下文无关文法|hyperpage}{39}
\indexentry{Synchronous Context-free Grammar|hyperpage}{39}
\indexentry{基于层次短语的文法|hyperpage}{40}
\indexentry{Hierarchical Phrase-based Grammar|hyperpage}{40}
\indexentry{推导|hyperpage}{41}
\indexentry{Derivation|hyperpage}{41}
\indexentry{胶水规则|hyperpage}{41}
\indexentry{Glue Rule|hyperpage}{41}
\indexentry{乔姆斯基范式|hyperpage}{45}
\indexentry{Chomsky Normal Form|hyperpage}{45}
\indexentry{跨度|hyperpage}{45}
\indexentry{Span|hyperpage}{45}
\indexentry{自下而上的分析|hyperpage}{46}
\indexentry{Top-down Parsing|hyperpage}{46}
\indexentry{束剪枝|hyperpage}{48}
\indexentry{Beam Pruning|hyperpage}{48}
\indexentry{立方剪枝|hyperpage}{50}
\indexentry{Cube Pruning|hyperpage}{50}
\indexentry{序列化|hyperpage}{53}
\indexentry{线性化|hyperpage}{53}
\indexentry{Linearization|hyperpage}{53}
\indexentry{树到串翻译规则|hyperpage}{55}
\indexentry{Tree-to-String Translation Rule|hyperpage}{55}
\indexentry{树到树翻译规则|hyperpage}{55}
\indexentry{Tree-to-Tree Translation Rule|hyperpage}{55}
\indexentry{树片段|hyperpage}{56}
\indexentry{Tree Fragment|hyperpage}{56}
\indexentry{同步树替换文法规则|hyperpage}{57}
\indexentry{Synchronous Tree Substitution Grammar Rule|hyperpage}{57}
\indexentry{边缘集合|hyperpage}{63}
\indexentry{Frontier Set|hyperpage}{63}
\indexentry{最小规则|hyperpage}{64}
\indexentry{Minimal Rules|hyperpage}{64}
\indexentry{二叉化|hyperpage}{67}
\indexentry{Binarization|hyperpage}{67}
\indexentry{基于短语的特征|hyperpage}{72}
\indexentry{基于句法的特征|hyperpage}{72}
\indexentry{有向超图|hyperpage}{73}
\indexentry{Directed Hyper-graph|hyperpage}{73}
\indexentry{超边|hyperpage}{73}
\indexentry{Hyper-edge|hyperpage}{73}
\indexentry{半环分析|hyperpage}{73}
\indexentry{Semi-ring Parsing|hyperpage}{73}
\indexentry{组合|hyperpage}{75}
\indexentry{Composition|hyperpage}{75}
\indexentry{基于串的解码|hyperpage}{76}
\indexentry{String-based Decoding|hyperpage}{76}
\indexentry{基于树的解码|hyperpage}{76}
\indexentry{Tree-based Decoding|hyperpage}{76}
\indexentry{Lexicalized Norm Form|hyperpage}{79}
Book/mt-book-xelatex.tex
查看文件 @
133c045f
...
...
@@ -98,7 +98,7 @@
{
\large
\noindent
{
\color
{
red
}
在此感谢所有为本书做出贡献的人
}
\\
\noindent
曹润柘、曾信、孟霞、单韦乔、姜雨帆、王子扬、刘辉、许诺、李北、刘继强、张哲旸、周书含、周涛、张裕浩、李炎洋、林野、
刘晓倩、牛蕊、田丰宁、杜权、陈贺轩
\\
\noindent
曹润柘、曾信、孟霞、单韦乔、姜雨帆、王子扬、刘辉、许诺、李北、刘继强、张哲旸、周书含、周涛、张裕浩、李炎洋、林野、
陈贺轩、刘晓倩、牛蕊、田丰宁、杜权
\\
}
%----------------------------------------------------------------------------------------
...
...
@@ -125,10 +125,10 @@
%\include{Chapter1/chapter1}
%\include{Chapter2/chapter2}
%\include{Chapter3/chapter3}
%
\include{Chapter4/chapter4}
\include
{
Chapter4/chapter4
}
%\include{Chapter5/chapter5}
%\include{Chapter6/chapter6}
\include
{
Chapter7/chapter7
}
%
\include{Chapter7/chapter7}
%\include{ChapterAppend/chapterappend}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论