《自然语言处理技术》——实训16 提取MFCC特征.docx

上传人:极速器 文档编号:591408 上传时间:2025-09-01 格式:DOCX 页数:5 大小:27.08KB
下载 相关 举报
《自然语言处理技术》——实训16 提取MFCC特征.docx_第1页
第1页 / 共5页
《自然语言处理技术》——实训16 提取MFCC特征.docx_第2页
第2页 / 共5页
《自然语言处理技术》——实训16 提取MFCC特征.docx_第3页
第3页 / 共5页
《自然语言处理技术》——实训16 提取MFCC特征.docx_第4页
第4页 / 共5页
《自然语言处理技术》——实训16 提取MFCC特征.docx_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、项目5初识语音数据加工处理提取MFCC特征1实训目标(1) 掌握Iibrosa库提取MFCC特征的流程。(2) 掌握通过librosa.feature中的mfcc函数实现MFCC特征提取。(3) 熟练掌握使用Matplotlib库对MFCC特征进行可视化展示。2实训环境环境版本说明Windows1064电脑操作系统Python3.8.5Python语言版本pandas1.3.0主要用于数据读取、清洗等操作NumPy1.21.6主要用于Python中的数值计算jieba0.42.1主要用于文本分词Gensim4.2.0主要用于检索文本、计算文本相似度、训练词向量、建模主题等Matplotlib3

2、3.0主要用于数据可视化PaddlePaddle2.4.2是一个深度学习框架,提供了高效的计算框架和优化算法PaddleSpeech1.2.0主要用于语音和音频中的各种关键任务的开发scikit-learn1.0.2广泛地用于统计分析和机器学习建模等数据科学领域Librosa0.8.1主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库NLTK3.5是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等SciPy1.7.3是一个科学计算工具包,可用于数学、科学、工程学等领域pyttsx32.9.0主要用于将文本转换成语音3实训说明在语音信号中,包含着非

3、常丰富的特征参数,各种不同的特征向量代表了不同的物理和声学属性。选择什么特征参数对说话人识别系统的成败意义重大。如果选择了好的特征参数,那么将有助于提高识别率。特征提取就是要尽量取出或削减语音信号中与识别无关的信息的影响,减少后续识别阶段需处理的数据量,生成表征语音信号中携带的说话人信息的特征参数。根据语音特征的不同用途,需要提取不同的特征参数,从而保证识别的准确率。梅尔频率倒谱系数(MelFrequencycepstralCoefficients,MFCC)是一种常用的语音特征,模拟了人耳对声音的感知特性。梅尔频率倒谱系数考虑了人类听觉系统的非线性特性,使得提取到的特征更符合人类的语音感知。

4、MFCC在语音识别、说话人识别、情感识别等领域中有广泛应用。由于其良好的性能和较低的计算复杂度,使得MFeC成为了这些领域中的基本特征。许多研究工作都是基于MFeC特征进行的,如自动语音识别、说话人验证等。本实训将基于实训15预处理后的语音数据,提取MFCC特征,其流程如图3-1所示。MFCC特征提取一可视化展示图3-1提取MFCC特征流程4实训步骤4.1MFCC特征提取在Python中,可以使用Iibrosa库提取MFCC特征,如代码4-1所示。代码4-1提取MFCC特征#定义参数n_mfcc=20#提取的MFCC特征数量n_fft=2048#FFT窗口大小hopjength=512#帧移#

5、提取MFCC特征mfccs=librosa.feature.mfcc(y=audio_data_louder,sr=sampling_rate,n_mfcc=n_mfcc,hop_length=hop_length)在代码4-1中,使用到IibroSa.feature中的mfcc函数提取MFCC特征数量,其中mfcc函数的常用参数说明如表4-1所示。表4-1mfcc函数的常用参数说明参数名称参数说明y接收数组,表示原始音频信号。默认为Nonesr接收int,表示音频采样率。默认为22050n_mfcc接收int,表示返回的MFCC数量。默认为20n_fft接收int,表示计算STFT时的FFT

6、窗口大小,以音频样本数为单位。默认为2048hopjength接收int,表示当计算音频信号时,帧之间的跳跃量,以音频样本数为单位。默认为5124.2可视化展示为了直观地显示音频数据的MFCC特征,对提取的MFCC特征进行可视化,如代码4-2所示。代码4-2MFCC特征可视化importmatplotlib.pyplotaspit#显示MFCC特征plt.imshow(mfccs,CmaP=cool,interpolation=nearest,aspect=auto)plt.title(MFCC特征)pltxlabel(帧)plt.ylabel(MFCC系数Vplt.colorbar()plt

7、show()运行代码4-2,可以得到MFCC特征的热力图,如图4-1所示。0.015.017.5然怅。OLL.WMFCC特征0100200300400500帧-200-250图4-1MFCC特征热力图MFCC特征的热力图是一种可视化表示方法,通常用于展示音频信号的频谱信息和特征在时间和频率上的变化。热力图的每一行代表一个MFeC系数,每一列代表音频信号的时间片段,而每个像素点则表示该时间片段中相应MFCC系数的强度或权重。不同颜色的像素点表示不同的权重或强度,颜色越深表示权重或强度越大。通过观察MFeC特征的热力图,可以更加直观地了解音频信号在时间和频域上的变化情况,同时也可以识别出某些重要的音频特征,如音调、语速和声音强度等。5实训小结技术点自评达标未达标能够通过librosa.feature中的mfcc函数实现MFCC特征提取能够使用可视化库绘制MFCC特征的热力图心得体会(如遇到的问题及解决方法、存在的不足之处等):

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 人工智能

宁ICP备18001539号-1