跳转至

HowJul的学习笔记

第四章语音信号处理

第四章语音信号处理¶

约 421 个字 74 张图片预计阅读时间 1 分钟

Part1 引言¶

绪论¶

语音信号处理应用¶

鸡尾酒会问题指的是人们在鸡尾酒会中交谈，语音信号会重叠在一起，机器需要将他们分离成独立信号。可以采用盲源分离中的独立成分分析来分离各个声源。

语音的数字编码¶

语音数字编码：A/D转换

语音数字编码：D/A转换

Part2 基础处理¶

1. 傅立叶变化和它的各种形式¶

功率谱密度：幅度的平方

2. 时频谱图¶

横坐标是时间，纵坐标是频率，颜色越红表示功率越大，也就是幅度越大（而功率就是幅度的平方，所以颜色代表功率）。

时频谱图的分辨率问题¶

时频谱图：加窗与混叠¶

3. 互相关和自相关¶

随机信号的自相关¶

用于周期性估计的自相关¶

自相关和PSD之间的关系¶

4. 周期性估计¶

Part3 特征提取¶

1. 源滤波器模型¶

语音生成中的“谐振”效应

源滤波器模型：共振峰

2. 线性预测¶

逆滤波器

3. 线性预测编码(LPC)分析¶

4. 倒谱分析与梅尔倒谱系数¶

LPC注重音调结构，细节被抛弃。

5. DTW(动态时间规划)¶

Part4 应用¶

1. 语音识别¶

2. 语音合成¶

语音合成的两种方式：统计参数合成、单元拼接合成。

统计参数合成就是使用大量的语音数据来训练模型，用过对语音信号的统计特征进行建模，生成新的语音。

单元拼接合成如下所示。

Part5 安全相关问题¶

本文总阅读量次