第四章 语音信号处理¶
约 421 个字 74 张图片 预计阅读时间 1 分钟
Part1 引言¶
绪论¶


语音信号处理应用¶

鸡尾酒会问题指的是人们在鸡尾酒会中交谈,语音信号会重叠在一起,机器需要将他们分离成独立信号。可以采用盲源分离中的独立成分分析来分离各个声源。



语音的数字编码¶

语音数字编码:A/D转换


语音数字编码:D/A转换

Part2 基础处理¶
1. 傅立叶变化和它的各种形式¶

功率谱密度:幅度的平方

2. 时频谱图¶
横坐标是时间,纵坐标是频率,颜色越红表示功率越大,也就是幅度越大(而功率就是幅度的平方,所以颜色代表功率)。



时频谱图的分辨率问题¶



时频谱图:加窗与混叠¶


3. 互相关和自相关¶

随机信号的自相关¶

用于周期性估计的自相关¶

自相关和PSD之间的关系¶

4. 周期性估计¶
Part3 特征提取¶
1. 源滤波器模型¶


语音生成中的“谐振”效应

源滤波器模型:共振峰



2. 线性预测¶



逆滤波器


3. 线性预测编码(LPC)分析¶




4. 倒谱分析与梅尔倒谱系数¶
LPC注重音调结构,细节被抛弃。














5. DTW(动态时间规划)¶



Part4 应用¶
1. 语音识别¶








2. 语音合成¶



语音合成的两种方式:统计参数合成、单元拼接合成。
统计参数合成就是使用大量的语音数据来训练模型,用过对语音信号的统计特征进行建模,生成新的语音。
单元拼接合成如下所示。


Part5 安全相关问题¶





本文总阅读量次