Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
e1a6222c
Commit
e1a6222c
authored
Jan 10, 2021
by
曹润柘
Browse files
Options
Browse Files
Download
Plain Diff
合并分支 'caorunzhe' 到 'master'
Caorunzhe 查看合并请求
!840
parents
50b371ea
7dab5e55
全部展开
隐藏空白字符变更
内嵌
并排
正在显示
5 个修改的文件
包含
7 行增加
和
7 行删除
+7
-7
Chapter3/chapter3.tex
+1
-1
Chapter7/chapter7.tex
+1
-1
Chapter8/Figures/figure-phrase-structure-tree-and-dependency-tree.tex
+2
-2
Chapter9/Figures/figure-absolute-loss.tex
+3
-3
Chapter9/chapter9.tex
+0
-0
没有找到文件。
Chapter3/chapter3.tex
查看文件 @
e1a6222c
...
...
@@ -531,7 +531,7 @@ Z(\seq{x})&=&\sum_{\seq{y}}\exp(\sum_{i=1}^m\sum_{j=1}^k\lambda_{j}F_{j}(y_{i-1}
\parinterval
无论在日常生活中还是在研究工作中,都会遇到各种各样的分类问题,例如挑选西瓜时需要区分“好瓜”和“坏瓜”、编辑看到一篇新闻稿件时要对稿件进行分门别类。事实上,在机器学习中,对“分类任务”的定义会更宽泛而并不拘泥于“类别”的概念,在对样本进行预测时,只要预测标签集合是有限的且预测标签是离散的,就可认定其为分类任务。
\parinterval
具体来说,分类任务目标是训练一个可以根据输入数据预测离散标签的
{
\small\sffamily\bfseries
{
分类器
}}
\index
{
分类器
}
(Classifier
\index
{
Classifier
}
),也可称为分类模型。在有监督的分类任务中
\footnote
{
与之相对应的,还有无监督、半监督分类任务,不过这些内容不是本书讨论的重点。读者可以参看参考文献
\upcite
{
周志华2016机器学习,李航2019统计学习方法
}
对相关概念进行了解。
}
,训练数据集合通常由形似
$
(
\boldsymbol
{
x
}_
i,y
_
i
)
$
的带标注数据构成,
$
\boldsymbol
{
x
}_
i
=(
x
_{
i
1
}
,x
_{
i
2
}
,
\ldots
,x
_{
ik
}
)
$
作为分类器的输入数据(通常被称作一个训练样本),其中
$
x
_{
ij
}$
表示样本
$
\boldsymbol
{
x
}_
i
$
的第
$
j
$
个特征;
$
y
_
i
$
作为输入数据对应的
{
\small\sffamily\bfseries
{
标签
}}
\index
{
标签
}
(Label)
\index
{
Label
}
,反映了输入数据对应的“类别”。若标签集合大小为
$
n
$
,则分类任务的本质是通过对训练数据集合的学习,建立一个从
$
k
$
维样本空间到
$
n
$
维标签空间的映射关系。更确切地说,分类任务的最终目标是学习一个条件概率分布
$
\funp
{
P
}
(
y|
\boldsymbol
{
x
}
)
$
,这样对于输入
$
\boldsymbol
{
x
}$
可以找到概率最大的
$
y
$
作为分类结果输出。
\parinterval
具体来说,分类任务目标是训练一个可以根据输入数据预测离散标签的
{
\small\sffamily\bfseries
{
分类器
}}
\index
{
分类器
}
(Classifier
\index
{
Classifier
}
),也可称为分类模型。在有监督的分类任务中
\footnote
{
与之相对应的,还有无监督、半监督分类任务,不过这些内容不是本书讨论的重点。读者可以参看参考文献
\upcite
{
周志华2016机器学习,李航2019统计学习方法
}
对相关概念进行了解。
}
,训练数据集合通常由形似
$
(
{
\mathbi
{
x
}}^{
[
i
]
}
,y
^{
[
i
]
}
)
$
的带标注数据构成,
${
\mathbi
{
x
}}^{
[
i
]
}
=(
x
^{
[
i
]
}_
1
,
\ldots
,x
^{
[
i
]
}_
k
)
$
作为分类器的输入数据(通常被称作一个训练样本),其中
$
x
^{
[
i
]
}_
j
$
表示样本
$
\mathbi
{
x
}^{
[
i
]
}$
的第
$
j
$
个特征;
$
y
^{
[
i
]
}$
作为输入数据对应的
{
\small\sffamily\bfseries
{
标签
}}
\index
{
标签
}
(Label)
\index
{
Label
}
,反映了输入数据对应的“类别”。若标签集合大小为
$
n
$
,则分类任务的本质是通过对训练数据集合的学习,建立一个从
$
k
$
维样本空间到
$
n
$
维标签空间的映射关系。更确切地说,分类任务的最终目标是学习一个条件概率分布
$
\funp
{
P
}
(
y|
{
\mathbi
{
x
}}
)
$
,这样对于输入
${
\mathbi
{
x
}
}$
可以找到概率最大的
$
y
$
作为分类结果输出。
\parinterval
与概率图模型一样,分类模型中也依赖特征定义。其定义形式与
\ref
{
sec3:feature
}
节的描述一致,这里不再赘述。分类任务一般根据类别数量分为二分类任务和多分类任务,二分类任务是最经典的分类任务,只需要对输出进行非零即一的预测。多分类任务则可以有多种处理手段,比如,可以将其“拆解”为多个二分类任务求解,或者直接让模型输出多个类别中的一个。在命名实体识别中,往往会使用多类别分类模型。比如,在BIO标注下,有三个类别(B、I和O)。一般来说,类别数量越大分类的难度也越大。比如,BIOES标注包含5个类别,因此使用同样的分类器,它要比BIO标注下的分类问题难度大。此外,更多的类别有助于准确的刻画目标问题。因此在实践中需要在类别数量和分类难度之间找到一种平衡。
...
...
Chapter7/chapter7.tex
查看文件 @
e1a6222c
...
...
@@ -652,7 +652,7 @@ dr & = & {\rm{start}}_i-{\rm{end}}_{i-1}-1
\parinterval
想要得到最优的特征权重,最简单的方法是枚举所有特征权重可能的取值,然后评价每组权重所对应的翻译性能,最后选择最优的特征权重作为调优的结果。但是特征权重是一个实数值,因此可以考虑把实数权重进行量化,即把权重看作是在固定间隔上的取值,比如,每隔0.01取值。即使是这样,同时枚举多个特征的权重也是非常耗时的工作,当特征数量增多时这种方法的效率仍然很低。
\parinterval
这里介绍一种更加高效的特征权重调优方法
$
\ \dash
\
${
\small\bfnew
{
最小错误率训练
}}
\index
{
最小错误率训练
}
(Minimum Error Rate Training
\index
{
Minimum Error Rate Training
}
,MERT)。最小错误率训练是统计机器翻译发展中代表性工作,也是机器翻译领域原创的重要技术方法之一
\upcite
{
DBLP:conf/acl/Och03
}
。最小错误率训练假设:翻译结果相对于标准答案的错误是可度量的,进而可以通过降低错误数量的方式来找到最优的特征权重。假设有样本集合
$
S
=
\{
(
s
_
1
,
\seq
{
r
}_
1
)
,...,
(
s
_
N,
\seq
{
r
}_
N
)
\}
$
,
$
s
_
i
$
为样本中第
$
i
$
个源语言句子,
$
\seq
{
r
}_
i
$
为相应的参考译文。注意,
$
\seq
{
r
}_
i
$
可以包含多个参考译文。
$
S
$
通常被称为
{
\small\bfnew
{
调优集合
}}
\index
{
调优集合
}
(Tuning Set)
\index
{
Tuning Set
}
。对于
$
S
$
中的每个源语句子
$
s
_
i
$
,机器翻译模型会解码出
$
n
$
-best推导
$
\hat
{
\seq
{
d
}}_{
i
}
=
\{\hat
{
d
}_{
ij
}
\}
$
,其中
$
\hat
{
d
}_{
ij
}$
表示对于源语言句子
$
s
_
i
$
得到的第
$
j
$
个最好的推导。
$
\{\hat
{
d
}_{
ij
}
\}
$
可以被定义如下:
\parinterval
这里介绍一种更加高效的特征权重调优方法
$
\ \dash
\
${
\small\bfnew
{
最小错误率训练
}}
\index
{
最小错误率训练
}
(Minimum Error Rate Training
\index
{
Minimum Error Rate Training
}
,MERT)。最小错误率训练是统计机器翻译发展中代表性工作,也是机器翻译领域原创的重要技术方法之一
\upcite
{
DBLP:conf/acl/Och03
}
。最小错误率训练假设:翻译结果相对于标准答案的错误是可度量的,进而可以通过降低错误数量的方式来找到最优的特征权重。假设有样本集合
$
S
=
\{
(
s
^{
[
1
]
}
,
\seq
{
r
}^{
[
1
]
}
)
,...,
(
s
^{
[
N
]
}
,
\seq
{
r
}^{
[
N
]
}
)
\}
$
,
$
s
^{
[
i
]
}$
为样本中第
$
i
$
个源语言句子,
$
\seq
{
r
}^{
[
i
]
}$
为相应的参考译文。注意,
$
\seq
{
r
}^{
[
i
]
}$
可以包含多个参考译文。
$
S
$
通常被称为
{
\small\bfnew
{
调优集合
}}
\index
{
调优集合
}
(Tuning Set)
\index
{
Tuning Set
}
。对于
$
S
$
中的每个源语句子
$
s
^{
[
i
]
}$
,机器翻译模型会解码出
$
n
$
-best推导
$
\hat
{
\seq
{
d
}}_{
i
}
=
\{\hat
{
d
}_{
ij
}
\}
$
,其中
$
\hat
{
d
}_{
ij
}$
表示对于源语言句子
$
s
^{
[
i
]
}
$
得到的第
$
j
$
个最好的推导。
$
\{\hat
{
d
}_{
ij
}
\}
$
可以被定义如下:
\begin{eqnarray}
\{\hat
{
d
}_{
ij
}
\}
&
=
&
\arg\max
_{
\{
d
_{
ij
}
\}
}
\sum
_{
i=1
}^{
M
}
\lambda
_
i
\cdot
h
_
i (d,
\seq
{
t
}
,
\seq
{
s
}
)
...
...
Chapter8/Figures/figure-phrase-structure-tree-and-dependency-tree.tex
查看文件 @
e1a6222c
...
...
@@ -23,8 +23,8 @@
\node
[anchor=west] (t4) at ([xshift=0.5em,]t3.east)
{
ball
}
;
\draw
[->] ([xshift=0em]t3.north) .. controls +(north:1em) and +(north:1em) .. ([xshift=-0.2em]t4.north);
\draw
[
->
] ([xshift=0.2em]t4.north) .. controls +(north:2.5em) and +(north:2.5em) .. ([xshift=0.2em]t2.north);
\draw
[
->
] ([xshift=0.0em]t1.north) .. controls +(north:2.5em) and +(north:2.5em) .. ([xshift=-0.2em]t2.north);
\draw
[
<-
] ([xshift=0.2em]t4.north) .. controls +(north:2.5em) and +(north:2.5em) .. ([xshift=0.2em]t2.north);
\draw
[
<-
] ([xshift=0.0em]t1.north) .. controls +(north:2.5em) and +(north:2.5em) .. ([xshift=-0.2em]t2.north);
\node
[anchor=north west] (cap2) at ([yshift=-0.2em,xshift=-0.5em]t2.south west)
{
\small
{
(b) 依存树
}}
;
\end{scope}
...
...
Chapter9/Figures/figure-absolute-loss.tex
查看文件 @
e1a6222c
...
...
@@ -8,12 +8,12 @@
\draw
[->,thick]
(-6,0) -- (5,0);
\draw
[->,thick]
(-5,-4) -- (-5,5);
\draw
[<-] (-2.5,4) -- (-2,5) node [pos=1,right,inner sep=2pt]
{
\footnotesize
{
答案
$
\tilde
{
\mathbi
{
y
}}_
i
$}}
;
\draw
[<-] (-2.5,4) -- (-2,5) node [pos=1,right,inner sep=2pt]
{
\footnotesize
{
答案
$
{
\mathbi
{
y
}}^{
[
i
]
}
$}}
;
{
\draw
[<-] (-3,-3) -- (-2.5,-2) node [pos=0,left,inner sep=2pt]
{
\footnotesize
{
预测
${
\
mathbi
{
y
}}_
i
$}}
;
}
\draw
[<-] (-3,-3) -- (-2.5,-2) node [pos=0,left,inner sep=2pt]
{
\footnotesize
{
预测
${
\
hat
{
\mathbi
{
y
}}}^{
[
i
]
}
$}}
;
}
{
\draw
[<-] (2.3,1) -- (3.3,2) node [pos=1,right,inner sep=2pt]
{
\footnotesize
{
偏差
$
|
\tilde
{
\mathbi
{
y
}}_
i
-
{
\mathbi
{
y
}}_
i
|
$}}
;
\draw
[<-] (2.3,1) -- (3.3,2) node [pos=1,right,inner sep=2pt]
{
\footnotesize
{
偏差
$
|
{
\mathbi
{
y
}}^{
[
i
]
}
-
{
\hat
{
\mathbi
{
y
}}}^{
[
i
]
}
|
$}}
;
\foreach
\x
in
{
-3.8,-3.7,...,3.0
}{
\pgfmathsetmacro
{
\p
}{
- 1/14 * (
\x
+ 4) * (
\x
+ 1) * (
\x
- 1) * (
\x
- 3)
}
;
\pgfmathsetmacro
{
\q
}{
- 1/14 * (4*
\x*\x*\x
+ 3*
\x*\x
- 26*
\x
- 1)
}
;
...
...
Chapter9/chapter9.tex
查看文件 @
e1a6222c
差异被折叠。
点击展开。
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论