Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
fc2a8f51
Commit
fc2a8f51
authored
Aug 20, 2020
by
xiaotong
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
wording (lm search)
parent
ce0d775c
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
8 行增加
和
7 行删除
+8
-7
Chapter2/chapter2.tex
+8
-7
没有找到文件。
Chapter2/chapter2.tex
查看文件 @
fc2a8f51
...
...
@@ -772,13 +772,13 @@ c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}
\begin{itemize}
\vspace
{
0.5em
}
\item
{
\small\bfnew
{
训练
}}
\index
{
训练
}
(Training
\index
{
Training
}
):从训练数据上
获得
语言模型的参数;
\item
{
\small\bfnew
{
训练
}}
\index
{
训练
}
(Training
\index
{
Training
}
):从训练数据上
估计出
语言模型的参数;
\vspace
{
0.5em
}
\item
{
\small\bfnew
{
预测
}}
\index
{
预测
}
(Prediction
\index
{
Prediction
}
):用训练好的语言模型对新输入的句子进行
评价
,或者生成新的句子。
\item
{
\small\bfnew
{
预测
}}
\index
{
预测
}
(Prediction
\index
{
Prediction
}
):用训练好的语言模型对新输入的句子进行
概率评估
,或者生成新的句子。
\vspace
{
0.5em
}
\end{itemize}
\parinterval
模型训练的内容已经在前文进行了介绍,这里重点讨论语言模型的预测。实际上,预测是统计自然语言处理中的常用概念。比如,深度学习中的
{
\small\bfnew
{
推断
}}
\index
{
推断
}
(Inference
\index
{
Inference
}
)、统计机器翻译中的
{
\small\bfnew
{
解码
}}
\index
{
解码
}
(Decoding
\index
{
Decoding
}
)本质上都是预测。具体到语言建模的问题上,预测
往往
对应两类问题:
\parinterval
模型训练的内容已经在前文进行了介绍,这里重点讨论语言模型的预测。实际上,预测是统计自然语言处理中的常用概念。比如,深度学习中的
{
\small\bfnew
{
推断
}}
\index
{
推断
}
(Inference
\index
{
Inference
}
)、统计机器翻译中的
{
\small\bfnew
{
解码
}}
\index
{
解码
}
(Decoding
\index
{
Decoding
}
)本质上都是预测。具体到语言建模的问题上,预测
通常
对应两类问题:
\begin{itemize}
\vspace
{
0.5em
}
...
...
@@ -801,14 +801,14 @@ c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}
\hspace
{
10em
}
The boy caught
\ \ \underline
{
\ \ \ \ \ \ \ \ \ \ \ \ \ \ \
}
\vspace
{
0.8em
}
下划线的部分是缺失的内容,现在要将缺失的部分生成出来。理论上,所有可能的单词串都可以构成缺失部分的内容。这时可以使用语言模型得到所有可能词串构成句子的概率,之后找到概率最高的词串
作为缺失部分的内容
。
下划线的部分是缺失的内容,现在要将缺失的部分生成出来。理论上,所有可能的单词串都可以构成缺失部分的内容。这时可以使用语言模型得到所有可能词串构成句子的概率,之后找到概率最高的词串
填入下划线处
。
\vspace
{
0.5em
}
\end{itemize}
\parinterval
从词序列建模的角度看,这两类预测问题本质上是一样的。因为,它们都在使用语言模型对
单词序列进行概率评估。但是,从实现上看,单词序列生成
更难。因为,它不仅要对所有可能的词序列进行打分,同时要“找到”最好的词序列。由于潜在的词序列不计其数,因此这个“找”最优词序列的过程并不简单。
\parinterval
从词序列建模的角度看,这两类预测问题本质上是一样的。因为,它们都在使用语言模型对
词序列进行概率评估。但是,从实现上看,词序列的生成问题
更难。因为,它不仅要对所有可能的词序列进行打分,同时要“找到”最好的词序列。由于潜在的词序列不计其数,因此这个“找”最优词序列的过程并不简单。
\parinterval
实际上,生成最优词序列的问题也对应着自然语言处理中的一大类问题
\ \dash\
{
\small\bfnew
{
序列生成
}}
\index
{
序列生成
}
(Sequence Generation)
\index
{
Sequence Generation
}
。机器翻译就是一个非常典型的序列生成问题:在机器翻译任务中,需要根据源语言
序列直接生成与之相对应的目标语言序列。但是语言模型本身并不能“制造”单词序列的。因此,严格地说,序列生成问题的本质并非是语言模型凭空“生成”序列,而是使用语言模型在所有候选的单词序列中“找出”最佳序列。这个过程对应着经典的
{
\small\bfnew
{
搜索问题
}}
\index
{
搜索问题
}
(Search Problem)
\index
{
Search Problem
}
。下面将着重介绍序列生成背后的问题
建模方法,以及在序列生成里常用的搜索技术。
\parinterval
实际上,生成最优词序列的问题也对应着自然语言处理中的一大类问题
\ \dash\
{
\small\bfnew
{
序列生成
}}
\index
{
序列生成
}
(Sequence Generation)
\index
{
Sequence Generation
}
。机器翻译就是一个非常典型的序列生成问题:在机器翻译任务中,需要根据源语言
词序列生成与之相对应的目标语言词序列。但是语言模型本身并不能“制造”单词序列的。因此,严格地说,序列生成问题的本质并非让语言模型凭空“生成”序列,而是使用语言模型在所有候选的单词序列中“找出”最佳序列。这个过程对应着经典的
{
\small\bfnew
{
搜索问题
}}
\index
{
搜索问题
}
(Search Problem)
\index
{
Search Problem
}
。下面将着重介绍序列生成背后的
建模方法,以及在序列生成里常用的搜索技术。
%----------------------------------------------------------------------------------------
% NEW SUB-SECTION
...
...
@@ -816,7 +816,8 @@ c_{\textrm{KN}}(\cdot) = \left\{\begin{array}{ll}
\subsection
{
搜索问题的建模
}
\parinterval
具体来说,基于语言模型的序列生成问题的本质是在无数任意排列的单词序列中搜索出最合理、最流畅的“最优解”。这里单词序列
$
w
=
w
_
1
w
_
2
\ldots
w
_
m
$
的合理性和流畅性可以通过语言模型的打分
$
\funp
{
P
}
(
w
)
$
衡量。因此在序列生成任务中,基于语言模型的搜索问题可以被建模为如下形式:
\parinterval
基于语言模型的序列生成问题可以被定义为:在无数任意排列的单词序列中找到概率最高的序列。这里单词序列
$
w
=
w
_
1
w
_
2
\ldots
w
_
m
$
的语言模型得分
$
\funp
{
P
}
(
w
)
$
度量了这个序列的合理性和流畅性。因此在序列生成任务中,基于语言模型的搜索问题可以被描述为:
\begin{eqnarray}
w
^{
'
}
=
\argmax
_{
w
\in
\chi
}
\funp
{
P
}
(w)
\label
{
eq:2-40
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论