ImageVerifierCode 换一换
格式:DOCX , 页数:5 ,大小:27.08KB ,
资源ID:591408      下载积分:5 金币
已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(《自然语言处理技术》——实训16 提取MFCC特征.docx)为本站会员(极速器)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(发送邮件至doc331@126.com或直接QQ联系客服),我们立即给予删除!

《自然语言处理技术》——实训16 提取MFCC特征.docx

1、项目5初识语音数据加工处理提取MFCC特征1实训目标(1) 掌握Iibrosa库提取MFCC特征的流程。(2) 掌握通过librosa.feature中的mfcc函数实现MFCC特征提取。(3) 熟练掌握使用Matplotlib库对MFCC特征进行可视化展示。2实训环境环境版本说明Windows1064电脑操作系统Python3.8.5Python语言版本pandas1.3.0主要用于数据读取、清洗等操作NumPy1.21.6主要用于Python中的数值计算jieba0.42.1主要用于文本分词Gensim4.2.0主要用于检索文本、计算文本相似度、训练词向量、建模主题等Matplotlib3

2、3.0主要用于数据可视化PaddlePaddle2.4.2是一个深度学习框架,提供了高效的计算框架和优化算法PaddleSpeech1.2.0主要用于语音和音频中的各种关键任务的开发scikit-learn1.0.2广泛地用于统计分析和机器学习建模等数据科学领域Librosa0.8.1主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库NLTK3.5是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等SciPy1.7.3是一个科学计算工具包,可用于数学、科学、工程学等领域pyttsx32.9.0主要用于将文本转换成语音3实训说明在语音信号中,包含着非

3、常丰富的特征参数,各种不同的特征向量代表了不同的物理和声学属性。选择什么特征参数对说话人识别系统的成败意义重大。如果选择了好的特征参数,那么将有助于提高识别率。特征提取就是要尽量取出或削减语音信号中与识别无关的信息的影响,减少后续识别阶段需处理的数据量,生成表征语音信号中携带的说话人信息的特征参数。根据语音特征的不同用途,需要提取不同的特征参数,从而保证识别的准确率。梅尔频率倒谱系数(MelFrequencycepstralCoefficients,MFCC)是一种常用的语音特征,模拟了人耳对声音的感知特性。梅尔频率倒谱系数考虑了人类听觉系统的非线性特性,使得提取到的特征更符合人类的语音感知。

4、MFCC在语音识别、说话人识别、情感识别等领域中有广泛应用。由于其良好的性能和较低的计算复杂度,使得MFeC成为了这些领域中的基本特征。许多研究工作都是基于MFeC特征进行的,如自动语音识别、说话人验证等。本实训将基于实训15预处理后的语音数据,提取MFCC特征,其流程如图3-1所示。MFCC特征提取一可视化展示图3-1提取MFCC特征流程4实训步骤4.1MFCC特征提取在Python中,可以使用Iibrosa库提取MFCC特征,如代码4-1所示。代码4-1提取MFCC特征#定义参数n_mfcc=20#提取的MFCC特征数量n_fft=2048#FFT窗口大小hopjength=512#帧移#

5、提取MFCC特征mfccs=librosa.feature.mfcc(y=audio_data_louder,sr=sampling_rate,n_mfcc=n_mfcc,hop_length=hop_length)在代码4-1中,使用到IibroSa.feature中的mfcc函数提取MFCC特征数量,其中mfcc函数的常用参数说明如表4-1所示。表4-1mfcc函数的常用参数说明参数名称参数说明y接收数组,表示原始音频信号。默认为Nonesr接收int,表示音频采样率。默认为22050n_mfcc接收int,表示返回的MFCC数量。默认为20n_fft接收int,表示计算STFT时的FFT

6、窗口大小,以音频样本数为单位。默认为2048hopjength接收int,表示当计算音频信号时,帧之间的跳跃量,以音频样本数为单位。默认为5124.2可视化展示为了直观地显示音频数据的MFCC特征,对提取的MFCC特征进行可视化,如代码4-2所示。代码4-2MFCC特征可视化importmatplotlib.pyplotaspit#显示MFCC特征plt.imshow(mfccs,CmaP=cool,interpolation=nearest,aspect=auto)plt.title(MFCC特征)pltxlabel(帧)plt.ylabel(MFCC系数Vplt.colorbar()plt

7、show()运行代码4-2,可以得到MFCC特征的热力图,如图4-1所示。0.015.017.5然怅。OLL.WMFCC特征0100200300400500帧-200-250图4-1MFCC特征热力图MFCC特征的热力图是一种可视化表示方法,通常用于展示音频信号的频谱信息和特征在时间和频率上的变化。热力图的每一行代表一个MFeC系数,每一列代表音频信号的时间片段,而每个像素点则表示该时间片段中相应MFCC系数的强度或权重。不同颜色的像素点表示不同的权重或强度,颜色越深表示权重或强度越大。通过观察MFeC特征的热力图,可以更加直观地了解音频信号在时间和频域上的变化情况,同时也可以识别出某些重要的音频特征,如音调、语速和声音强度等。5实训小结技术点自评达标未达标能够通过librosa.feature中的mfcc函数实现MFCC特征提取能够使用可视化库绘制MFCC特征的热力图心得体会(如遇到的问题及解决方法、存在的不足之处等):

宁ICP备18001539号-1