Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
ed4044bd
Commit
ed4044bd
authored
Sep 23, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求
!256
parents
f9eaf253
77cd96ef
显示空白字符变更
内嵌
并排
正在显示
7 个修改的文件
包含
8 行增加
和
8 行删除
+8
-8
Chapter2/chapter2.tex
+1
-1
Chapter3/chapter3.tex
+1
-1
Chapter4/chapter4.tex
+2
-2
Chapter5/chapter5.tex
+1
-1
Chapter6/chapter6.tex
+1
-1
Chapter7/chapter7.tex
+1
-1
Chapter8/chapter8.tex
+1
-1
没有找到文件。
Chapter2/chapter2.tex
查看文件 @
ed4044bd
...
@@ -1031,7 +1031,7 @@ c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}
...
@@ -1031,7 +1031,7 @@ c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\sectionnewpage
\sectionnewpage
\section
{
小结及
深入
阅读
}
\label
{
sec2:summary
}
\section
{
小结及
拓展
阅读
}
\label
{
sec2:summary
}
\parinterval
本章重点介绍了如何对自然语言处理问题进行统计建模,并从数据中自动学习统计模型的参数,最终使用学习到的模型对新的问题进行处理。之后,将这种思想应用到语言建模任务中,该任务与机器翻译有着紧密的联系。通过系统化的建模,可以发现:经过适当的假设和化简,统计模型可以很好地描述复杂的自然语言处理问题。进一步,本章对面向语言模型预测的搜索方法进行了介绍。相关概念和方法也会在后续章节的内容中被广泛使用。
\parinterval
本章重点介绍了如何对自然语言处理问题进行统计建模,并从数据中自动学习统计模型的参数,最终使用学习到的模型对新的问题进行处理。之后,将这种思想应用到语言建模任务中,该任务与机器翻译有着紧密的联系。通过系统化的建模,可以发现:经过适当的假设和化简,统计模型可以很好地描述复杂的自然语言处理问题。进一步,本章对面向语言模型预测的搜索方法进行了介绍。相关概念和方法也会在后续章节的内容中被广泛使用。
...
...
Chapter3/chapter3.tex
查看文件 @
ed4044bd
...
@@ -870,7 +870,7 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
...
@@ -870,7 +870,7 @@ r_6: & & \textrm{VP} \to \textrm{VV}\ \textrm{NN} \nonumber
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\sectionnewpage
\sectionnewpage
\section
{
小结及
深入
阅读
}
\label
{
sec3:summary
}
\section
{
小结及
拓展
阅读
}
\label
{
sec3:summary
}
\parinterval
本章将统计建模的思想应用到三个自然语言处理任务中,包括:中文分词、命名实体识别、短语结构句法分析。它们和机器翻译有着紧密的联系,往往作为机器翻译系统输入和输出的数据加工方法。可以发现:经过适当的假设和化简,统计模型可以很好的描述复杂的自然语言处理问题。这种建模手段也会在后续章节的内容中被广泛使用。
\parinterval
本章将统计建模的思想应用到三个自然语言处理任务中,包括:中文分词、命名实体识别、短语结构句法分析。它们和机器翻译有着紧密的联系,往往作为机器翻译系统输入和输出的数据加工方法。可以发现:经过适当的假设和化简,统计模型可以很好的描述复杂的自然语言处理问题。这种建模手段也会在后续章节的内容中被广泛使用。
...
...
Chapter4/chapter4.tex
查看文件 @
ed4044bd
...
@@ -854,7 +854,7 @@ Reference: A few days ago, {\red he} contacted the News Channel and said that
...
@@ -854,7 +854,7 @@ Reference: A few days ago, {\red he} contacted the News Channel and said that
% NEW SUB-SECTION
% NEW SUB-SECTION
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\subsection
{
怎样
构建质量评估模型
}
\subsection
{
构建质量评估模型
}
\parinterval
不同于有参考答案的自动评价,质量评估方法的实现较为复杂。质量评估可以被看作是一个统计推断问题,即:如何根据以往得到的经验对从未见过的机器译文的质量做出预测。从这个角度说,质量评估和机器翻译问题一样,都需要设计模型进行求解,而无法像BLEU计算一样直接使用指标性的公式计算就能得到结果。
\parinterval
不同于有参考答案的自动评价,质量评估方法的实现较为复杂。质量评估可以被看作是一个统计推断问题,即:如何根据以往得到的经验对从未见过的机器译文的质量做出预测。从这个角度说,质量评估和机器翻译问题一样,都需要设计模型进行求解,而无法像BLEU计算一样直接使用指标性的公式计算就能得到结果。
...
@@ -921,7 +921,7 @@ Reference: A few days ago, {\red he} contacted the News Channel and said that
...
@@ -921,7 +921,7 @@ Reference: A few days ago, {\red he} contacted the News Channel and said that
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\sectionnewpage
\sectionnewpage
\section
{
小结及
深入
阅读
}
\section
{
小结及
拓展
阅读
}
\parinterval
译文的质量评价是机器翻译研究中不可或缺的环节。与其他任务不同,由于自然语言高度的歧义性和表达方式的多样性,机器翻译的参考答案本身就不唯一。此外,对译文准确、全面的评价准则很难制定,导致译文质量的自动评价变得异常艰难,因此也成为了广受关注的研究课题。本章系统阐述了译文质量评估的研究现状和主要挑战。从人类参与程度和标注类型两个角度对译文质量评价中的经典方法进行介绍,力求让读者对领域内的经典及热点内容有更加全面的了解。不过,由于篇幅限制笔者无法对译文评价的相关工作进行面面俱到的描述,还有很多研究方向值得关注:
\parinterval
译文的质量评价是机器翻译研究中不可或缺的环节。与其他任务不同,由于自然语言高度的歧义性和表达方式的多样性,机器翻译的参考答案本身就不唯一。此外,对译文准确、全面的评价准则很难制定,导致译文质量的自动评价变得异常艰难,因此也成为了广受关注的研究课题。本章系统阐述了译文质量评估的研究现状和主要挑战。从人类参与程度和标注类型两个角度对译文质量评价中的经典方法进行介绍,力求让读者对领域内的经典及热点内容有更加全面的了解。不过,由于篇幅限制笔者无法对译文评价的相关工作进行面面俱到的描述,还有很多研究方向值得关注:
...
...
Chapter5/chapter5.tex
查看文件 @
ed4044bd
...
@@ -1085,7 +1085,7 @@ c_{\mathbb{E}}(s_u|t_v)=\sum\limits_{k=1}^{K} c_{\mathbb{E}}(s_u|t_v;s^{[k]},t^
...
@@ -1085,7 +1085,7 @@ c_{\mathbb{E}}(s_u|t_v)=\sum\limits_{k=1}^{K} c_{\mathbb{E}}(s_u|t_v;s^{[k]},t^
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\sectionnewpage
\sectionnewpage
\section
{
小结及
深入
阅读
}
\section
{
小结及
拓展
阅读
}
\parinterval
本章对IBM系列模型中的IBM模型1进行了详细的介绍和讨论,从一个简单的基于单词的翻译模型开始,本章从建模、解码、训练多个维度对统计机器翻译进行了描述,期间涉及了词对齐、优化等多个重要概念。IBM模型共分为5个模型,对翻译问题的建模依次由浅入深,同时模型复杂度也依次增加,我们将在
{
\chaptersix
}
对IBM模型2-5进行详细的介绍和讨论。IBM模型作为入门统计机器翻译的``必经之路'',其思想对今天的机器翻译仍然产生着影响。虽然单独使用IBM模型进行机器翻译现在已经不多见,甚至很多从事神经机器翻译等前沿研究的人对IBM模型已经逐渐淡忘,但是不能否认IBM模型标志着一个时代的开始。从某种意义上讲,当使用公式
$
\hat
{
\seq
{
t
}}
=
\argmax
_{
\seq
{
t
}}
\funp
{
P
}
(
\seq
{
t
}
|
\seq
{
s
}
)
$
描述机器翻译问题的时候,或多或少都在使用与IBM模型相似的思想。
\parinterval
本章对IBM系列模型中的IBM模型1进行了详细的介绍和讨论,从一个简单的基于单词的翻译模型开始,本章从建模、解码、训练多个维度对统计机器翻译进行了描述,期间涉及了词对齐、优化等多个重要概念。IBM模型共分为5个模型,对翻译问题的建模依次由浅入深,同时模型复杂度也依次增加,我们将在
{
\chaptersix
}
对IBM模型2-5进行详细的介绍和讨论。IBM模型作为入门统计机器翻译的``必经之路'',其思想对今天的机器翻译仍然产生着影响。虽然单独使用IBM模型进行机器翻译现在已经不多见,甚至很多从事神经机器翻译等前沿研究的人对IBM模型已经逐渐淡忘,但是不能否认IBM模型标志着一个时代的开始。从某种意义上讲,当使用公式
$
\hat
{
\seq
{
t
}}
=
\argmax
_{
\seq
{
t
}}
\funp
{
P
}
(
\seq
{
t
}
|
\seq
{
s
}
)
$
描述机器翻译问题的时候,或多或少都在使用与IBM模型相似的思想。
...
...
Chapter6/chapter6.tex
查看文件 @
ed4044bd
...
@@ -469,7 +469,7 @@ p_0+p_1 & = & 1 \label{eq:6-21}
...
@@ -469,7 +469,7 @@ p_0+p_1 & = & 1 \label{eq:6-21}
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\sectionnewpage
\sectionnewpage
\section
{
小结及
深入
阅读
}
\section
{
小结及
拓展
阅读
}
本章在IBM模型1的基础上进一步介绍了IBM模型2-5以及HMM。同时,本章引入了两个新的概念
\ \dash\
扭曲度和繁衍率。它们都是机器翻译中的经典概念,也经常出现在机器翻译的建模中。另一方面,通过对上述模型的分析,本章进一步探讨建模中的若干基础问题,例如,如何把翻译问题分解为若干步骤,并建立合理的模型解释这些步骤;如何对复杂问题进行化简,以得到可以计算的模型等等。这些思想也在很多自然语言处理问题中被使用。此外,关于扭曲度和繁衍率还有一些问题值得关注:
本章在IBM模型1的基础上进一步介绍了IBM模型2-5以及HMM。同时,本章引入了两个新的概念
\ \dash\
扭曲度和繁衍率。它们都是机器翻译中的经典概念,也经常出现在机器翻译的建模中。另一方面,通过对上述模型的分析,本章进一步探讨建模中的若干基础问题,例如,如何把翻译问题分解为若干步骤,并建立合理的模型解释这些步骤;如何对复杂问题进行化简,以得到可以计算的模型等等。这些思想也在很多自然语言处理问题中被使用。此外,关于扭曲度和繁衍率还有一些问题值得关注:
...
...
Chapter7/chapter7.tex
查看文件 @
ed4044bd
...
@@ -898,7 +898,7 @@ dr = start_i-end_{i-1}-1
...
@@ -898,7 +898,7 @@ dr = start_i-end_{i-1}-1
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\sectionnewpage
\sectionnewpage
\section
{
小节及
深入
阅读
}
\label
{
section-7.8
}
\section
{
小节及
拓展
阅读
}
\label
{
section-7.8
}
\parinterval
统计机器翻译模型是近三十年内自然语言处理的重要里程碑之一。其统计建模的思想长期影响着自然语言处理的研究。无论是前面介绍的基于单词的模型,还是本章介绍的基于短语的模型,甚至后面即将介绍的基于句法的模型,大家都在尝试回答:究竟应该用什么样的知识对机器翻译进行统计建模?不过,这个问题至今还没有确定的答案。但是,显而易见,统计机器翻译为机器翻译的研究提供了一种范式,即让计算机用概率化的 “知识” 描述翻译问题。这些 “ 知识” 体现在统计模型的结构和参数中,并且可以从大量的双语和单语数据中自动学习。这种建模思想在今天的机器翻译研究中仍然随处可见。
\parinterval
统计机器翻译模型是近三十年内自然语言处理的重要里程碑之一。其统计建模的思想长期影响着自然语言处理的研究。无论是前面介绍的基于单词的模型,还是本章介绍的基于短语的模型,甚至后面即将介绍的基于句法的模型,大家都在尝试回答:究竟应该用什么样的知识对机器翻译进行统计建模?不过,这个问题至今还没有确定的答案。但是,显而易见,统计机器翻译为机器翻译的研究提供了一种范式,即让计算机用概率化的 “知识” 描述翻译问题。这些 “ 知识” 体现在统计模型的结构和参数中,并且可以从大量的双语和单语数据中自动学习。这种建模思想在今天的机器翻译研究中仍然随处可见。
...
...
Chapter8/chapter8.tex
查看文件 @
ed4044bd
...
@@ -1584,7 +1584,7 @@ d_1 = {d'} \circ {r_5}
...
@@ -1584,7 +1584,7 @@ d_1 = {d'} \circ {r_5}
% NEW SECTION
% NEW SECTION
%----------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------
\sectionnewpage
\sectionnewpage
\section
{
小结及
深入
阅读
}
\section
{
小结及
拓展
阅读
}
\parinterval
自基于规则的方法开始,如何使用句法信息就是机器翻译研究人员关注的热点。在统计机器翻译时代,句法信息与机器翻译的结合成为了最具时代特色的研究方向之一。句法结构具有高度的抽象性,因此可以缓解基于词串方法不善于处理句子上层结构的问题。
\parinterval
自基于规则的方法开始,如何使用句法信息就是机器翻译研究人员关注的热点。在统计机器翻译时代,句法信息与机器翻译的结合成为了最具时代特色的研究方向之一。句法结构具有高度的抽象性,因此可以缓解基于词串方法不善于处理句子上层结构的问题。
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论