跳转至

第四章 语音信号处理

约 421 个字 预计阅读时间 1 分钟

Part1 引言

绪论

image-20231120141542672

image-20231120141554319

语音信号处理应用

image-20231120141637838

鸡尾酒会问题指的是人们在鸡尾酒会中交谈,语音信号会重叠在一起,机器需要将他们分离成独立信号。可以采用盲源分离中的独立成分分析来分离各个声源。

image-20231120142019988

image-20231120142439605

image-20231120142556816

语音的数字编码

image-20231120142615710

语音数字编码:A/D转换

image-20231120142826877

image-20231120143355983

语音数字编码:D/A转换

image-20231120143500153

Part2 基础处理

1. 傅立叶变化和它的各种形式

image-20231120144211416

功率谱密度:幅度的平方

image-20231120144330778

2. 时频谱图

横坐标是时间,纵坐标是频率,颜色越红表示功率越大,也就是幅度越大(而功率就是幅度的平方,所以颜色代表功率)。

image-20231120144411444

image-20231120145111750

image-20231120145259137

时频谱图的分辨率问题

image-20231120145500173

image-20231120145612918

image-20231120145648583

时频谱图:加窗与混叠

image-20231120145746102

image-20231120150206812

3. 互相关和自相关

image-20231120150518259

随机信号的自相关

image-20231120151050428

用于周期性估计的自相关

image-20231120151129769

自相关和PSD之间的关系

image-20231120151300483

4. 周期性估计

Part3 特征提取

1. 源滤波器模型

image-20231120161722862

image-20231120161842624

语音生成中的“谐振”效应

image-20231120162452951

源滤波器模型:共振峰

image-20231120162906678

image-20231120162946524

image-20231120163116705

2. 线性预测

image-20231120163140210

image-20231120163822703

image-20231120163959814

逆滤波器

image-20231120164031955

image-20231120164447452

3. 线性预测编码(LPC)分析

image-20231120164556651

image-20231120201948277

image-20231120202032759

image-20231120202123114

4. 倒谱分析与梅尔倒谱系数

LPC注重音调结构,细节被抛弃。

image-20231120202205957

image-20231120202751851

image-20231120202835022

image-20231120202906054

image-20231120203002913

image-20231120203101664

image-20231120204055453

image-20231120204410039

image-20231120204433126

image-20231120204533676

image-20231120205238238

image-20231120205321582

image-20231120205337981

image-20231120205524353

5. DTW(动态时间规划)

image-20231120205935157

image-20231120205945432

image-20231120210337994

Part4 应用

1. 语音识别

image-20231120210413589

image-20231120210527670

image-20231120210547761

image-20231120210703972

image-20231120210715954

image-20231120210813252

image-20231120210841789

image-20231120210852046

2. 语音合成

image-20231120211018274

image-20231120211032310

image-20231120211159702

语音合成的两种方式:统计参数合成、单元拼接合成。

统计参数合成就是使用大量的语音数据来训练模型,用过对语音信号的统计特征进行建模,生成新的语音。

单元拼接合成如下所示。

image-20231120211331478

image-20231120211344145

Part5 安全相关问题

image-20231120213847484

image-20231120214010323

image-20231120214141804

image-20231120214217195

image-20231120214256082

本文总阅读量