Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
dbb11eed
Commit
dbb11eed
authored
Mar 23, 2021
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
更新 chapter17.tex
parent
f2d428b4
显示空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
1 行增加
和
1 行删除
+1
-1
Chapter17/chapter17.tex
+1
-1
没有找到文件。
Chapter17/chapter17.tex
查看文件 @
dbb11eed
...
@@ -76,7 +76,7 @@
...
@@ -76,7 +76,7 @@
\parinterval
经过上面的描述可以看出,音频的表示实际上是一个非常长的采样点序列,这导致了直接使用现有的深度学习技术处理音频序列较为困难。并且,原始的音频信号中可能包含着较多的噪声、环境声或冗余信息,也会对模型产生干扰。因此,一般会对音频序列进行处理来提取声学特征,具体为将长序列的采样点序列转换为短序列的特征向量序列,再用于下游系统。虽然已有一些工作不依赖特征提取,直接在原始的采样点序列上进行声学建模和模型训练
\upcite
{
DBLP:conf/interspeech/SainathWSWV15
}
,但目前的主流方法仍然是基于声学特征进行建模
\upcite
{
DBLP:conf/icassp/MohamedHP12
}
。
\parinterval
经过上面的描述可以看出,音频的表示实际上是一个非常长的采样点序列,这导致了直接使用现有的深度学习技术处理音频序列较为困难。并且,原始的音频信号中可能包含着较多的噪声、环境声或冗余信息,也会对模型产生干扰。因此,一般会对音频序列进行处理来提取声学特征,具体为将长序列的采样点序列转换为短序列的特征向量序列,再用于下游系统。虽然已有一些工作不依赖特征提取,直接在原始的采样点序列上进行声学建模和模型训练
\upcite
{
DBLP:conf/interspeech/SainathWSWV15
}
,但目前的主流方法仍然是基于声学特征进行建模
\upcite
{
DBLP:conf/icassp/MohamedHP12
}
。
\parinterval
声学特征提取的第一步是预处理。其流程主要是对音频进行
{
\small\bfnew
{
预加重
}}
(Pre-emphasis)
\index
{
预加重
}
\index
{
Pre-emphasis
}
、
{
\small\bfnew
{
分帧
}}
\index
{
分帧
}
(Framing)
\index
{
Framing
}
和
{
\small\bfnew
{
加窗
}}
\index
{
加窗
}
(Windowing)
\index
{
Windowing
}
。预加重是通过增强音频信号中的高频部分来减弱语音中对高频信号的抑制,使频谱更加顺滑。分帧(原理如图
\ref
{
fig:17-3
}
所示)是基于短时平稳假设,即根据生物学特征,语音信号是一个缓慢变化的过程,10ms
$
\thicksim
$
30ms的信号片段是相对平稳的。基于这个假设,一般将每25ms作为一帧来提取特征,这个时间称为
{
\small\bfnew
{
帧长
}}
\index
{
帧长
}
(Frame Length)
\index
{
Frame Length
}
。同时,为了保证不同帧之间的信号平滑性,使每两个相邻帧之间存在一定的重合部分。一般每隔10ms取一帧,这个时长称为
{
\small\bfnew
{
帧移
}}
\index
{
帧移
}
(Frame Shift)
\index
{
Frame Shift
}
。为了缓解分帧带来的频谱泄漏问题,需要对每帧的信号进行加窗处理使其幅度在两端渐变到0,一般采用的是
{
\small\bfnew
{
汉明窗
}}
\index
{
汉明窗
}
(Hamming
)
\index
{
Hamming
}
\upcite
{
洪青阳2020语音识别原理与应用
}
。
\parinterval
声学特征提取的第一步是预处理。其流程主要是对音频进行
{
\small\bfnew
{
预加重
}}
(Pre-emphasis)
\index
{
预加重
}
\index
{
Pre-emphasis
}
、
{
\small\bfnew
{
分帧
}}
\index
{
分帧
}
(Framing)
\index
{
Framing
}
和
{
\small\bfnew
{
加窗
}}
\index
{
加窗
}
(Windowing)
\index
{
Windowing
}
。预加重是通过增强音频信号中的高频部分来减弱语音中对高频信号的抑制,使频谱更加顺滑。分帧(原理如图
\ref
{
fig:17-3
}
所示)是基于短时平稳假设,即根据生物学特征,语音信号是一个缓慢变化的过程,10ms
$
\thicksim
$
30ms的信号片段是相对平稳的。基于这个假设,一般将每25ms作为一帧来提取特征,这个时间称为
{
\small\bfnew
{
帧长
}}
\index
{
帧长
}
(Frame Length)
\index
{
Frame Length
}
。同时,为了保证不同帧之间的信号平滑性,使每两个相邻帧之间存在一定的重合部分。一般每隔10ms取一帧,这个时长称为
{
\small\bfnew
{
帧移
}}
\index
{
帧移
}
(Frame Shift)
\index
{
Frame Shift
}
。为了缓解分帧带来的频谱泄漏问题,需要对每帧的信号进行加窗处理使其幅度在两端渐变到0,一般采用的是
{
\small\bfnew
{
汉明窗
}}
\index
{
汉明窗
}
(Hamming
Window)
\index
{
Hamming Window
}
\upcite
{
洪青阳2020语音识别原理与应用
}
。
%----------------------------------------------------------------------------------------------------
%----------------------------------------------------------------------------------------------------
\begin{figure}
[htp]
\begin{figure}
[htp]
\centering
\centering
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论