基于说话人声音识别的技术研究语音识别技术.docx

资源描述

《基于说话人声音识别的技术研究语音识别技术.docx》由会员分享，可在线阅读，更多相关《基于说话人声音识别的技术研究语音识别技术.docx（10页珍藏版）》请在三一文库上搜索。

1、基于说话人声音识别的技术研究语音识别技术基于声音的人身份技研究通信 1203 班成：艾洲、刘安邦、汪中日余文正、王玉、宁文静xx-12-28 目背景伴随着全球化、网化、信息化、数字化代的到来，我高可靠性的身份技与身份技的需求也日益增。在生物学和信息科学高度展的今天，根据人体自身的生理特征 ( 指、虹膜 ) 和行特征 ( 声音 ) 来身份的生物技作一种便捷、先的信息安全技已在生活中得到广泛的用，它是集光学、感技、外描和算机技于一身的第三代身份验证技术，能满足现代社会对于身份鉴别的准确性、安全性与实用性的更高要求。而语音是人的自然属

2、性之一，由于说话人发声器官的生理差异以及后天形成的行为差异，每个人的语音都带有强烈的个人色彩，这使得通过分析语音信号来识别说话人成为可能。设计总体框架1. 语音库的建立2. 声音样本采集2.1特征参数提取2.2识别模型建立3. 语音识别测试梅尔倒谱系数（ MFCC）简述在话者识别方面，最常用到的语音特征就是梅尔倒谱系数（ MFCC）。因为，根据人耳听觉机理的研究发现，人耳对不同频率的声波有不同的听觉敏感度，得出从 200Hz到 5000Hz的语音信号对语音的清晰度影响最大。所以，人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入信号进行滤波。将每个带通滤波器

3、输出的信号能量作为信号的基本特征，对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成果。因此，这种参数比基于声道模型的“线性预测系数LPC”相比更好，更符合人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能。MFCC 倒谱特征提取流图1.预加重预加重处理其实是将语音信号通过一个高通滤波器：式中的值介于 0.9-1.0 之间，我们通常取 0.97 。预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同的信噪比求。同，也是了消除生程中声和嘴唇的效，来

4、音信号受到音系所抑制的高部分，也了突出高的共振峰2. 分先将 N个采点集合成一个，称。通常情况下N 的 256 或 512，涵盖的 2030ms左右。了避免相两的化大，因此会两相之有一段重叠区域，此重叠区域包含了M个取点，通常 M的 N的 1/2 或 1/3 。通常音所采用音信号的采率 8KHz或 16KHz，以8KHz来，若度 256 个采点，的度是 256/8000 1000=32ms3.加窗将每一乘以明窗，以增加左端和右端的性。假分后的信号 S(n), n=0,1,N-1, N 的大小，那么乘上明窗后W(n)形式如下

5、：不同的 a 值会产生不同的汉明窗，一般情况下a 取 0.46 。4. 快速傅里叶变换由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为：式中 x(n) 为输入的语音信号， N表示傅里叶变换的点数。式中 x(n) 为输入的语音信号， N表示傅里叶变换的点数。5. Mel滤波器组将能量谱通过一组Mel 尺度的三角形

6、滤波器组，定义一个有M个滤波器的滤波器组（滤波器的个数和临界带的个数相近），采用的滤波器为三角滤波器，中心频率为 f(m),m=1,2,.,M。M通常取 22-26 。各 f(m) 之间的间隔随着 m值的减小而缩小，随着 m值的增大而增宽，如图所示：三角带通滤波器有两个主要目的：对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰（因此一段语音的音调或音高，是不会呈现在MFCC参数内，换句话说，以 MFCC为特征的语音辨识系统，并不会受到输入语音的音调不同而有所影响）此外，还可以降低运算量。预加重代码：len=length(x1);heigt=0.98;for i=2:lenx1(i)=x

7、1(i)-heigt*x1(i-1);endfor i=2:lenx2(i)=x2(i)-heigt*x2(i-1);end三角滤波器if (f(m)fh=20000;endF(m,k)=(x-f(m)/(f(m+1)-f(m);melf=2595*log(1+fh/700);m=N/2;else if (f(m+1)M=24;for k=1:12F(m,k)=(f(m+2)-x)/(f(m+2)-f(m+1);i=0:25;n=0:23;elsef=700*(exp(melf/2595*i/(M+1)-1);dctcoef(k,:)=cos(2*n+1)*k*pi/(2*24)F(m,k)=

8、0;N=256;endfor m=1:24endendfor k=1:256count=floor(length(x1)/m);x=fh*k/N;特征值欧氏距离functiond = disteu(x,y)copies= zeros(1,P);d(:,p)= sum(x-y(:, p+copies).2, 1);M, N = size(x); %音频 x 赋值给【 M，Nfor n = 1:N】end%成对欧氏距离的两个矩阵的列之间d(n,:) = sum(x(:,n+copies) - 的距离 M2, P = size(y);%音频 y 赋值给【M2，Py) .2,1);】endendif

9、(M = M2)d = d.0.5;elseerror(不匹配！ ) % 两个音频时间长copies = zeros(1,N);度不相等 for p = 1:Pendd = zeros(N, P);if (N提下语音匹配function finalmsg = test(testdir, n, msg =sprintf(finalmsg = 第此位说话 %d位说话者与模板语音信号匹配code) 者符合要求 !; % 界面显示语句，可随意设定 , 符合要求 !n,k); for k = 1:n % read disp(msg);test sound file of each speakerd =

10、disteu(v, code1); %计 end %此算得到模板和要判断的声音之间的“距离”人不匹配 file = sprintf(%ss%d.wav,testdir, k);dist = sum(min(d,2) / if dist distminsize(d,1); %变换得到一个距离的量s, fs = wavread(file); msg= sprintf(第%d位说话者与 msgc = sprintf(与模板语音信号的模板语音信号不匹配v = mf(s, fs); % ,不符合要求 !n, k);得到差值为 :%10f , dist);测试人语音的 mel 倒谱系数 finalmsg = 此位说话者不符合disp(msgc);%此人匹配 distmin= 4; %要求 !;%界面显示语句，可随意设定阈值设置处if dist1. 语音库的建立：2. 声音样本采样：3.语音识别（识别）4. 语音识别（识别不成功）THANKS The End内容仅供参考

展开阅读全文