第一部分：基本理论：.docx

资源描述

《第一部分：基本理论：.docx》由会员分享，可在线阅读，更多相关《第一部分：基本理论：.docx（7页珍藏版）》请在三一文库上搜索。

1、第一部分：基本理论:语音信号处理方法细则解释备注时域处理语音数字化和预处理数字化：取样- 量化预处理目的：提升语音信号的高频部分，使信号的频谱变得平坦。以便于进行频谱分析或声道参数分析。短时平均能量和短时平均幅度短时平均能量主要用途：1、可以从清音中区分出浊音2、可以用来确定声母与韵母，无声与有声，连字等的分界。3、可以作升-种超音段信息用于语音识别。短时平均幅度：因为短时平均能量对于高电平信号处理过于灵敏，所以采用短时平局幅度。短时过零分析如果信号按段分割，就称为短时，把各段信号的过零率作统计平均，就是短时平均过零率。短时自相关函数和平均幅度差函数短时自相关函数具有自相关函数所有的

2、性质，是语音信号时域分析的一个重要奔里。短时平均幅度差函数与短时自相关函数类似的功效，但运算量和对硬件的要求可以降低许多，相对来说，这种技术应用广泛。高阶统计量1一般指高阶矩、高阶累积量、高阶矩谱、高阶累积量谱。时频处理短时傅里叶变换1、是个一个二维函数，也称时频函数。2、物理意义：函数将窗函数的中心移至某处截取信号，再做傅里叶变换。3、矩形窗具有较窄的主瓣，因而具有较高的频率分辨率，但它具有较高的旁瓣，且会产生“破碎”的频谱；采用哈明窗得到的短时频谱却要平滑的多，因而应用的比较普遍。4、短时傅里叶变换以固定的滑动窗对信号进行分析，从而可表征信号的局域频率特性。小波变换1、时域等宽的分

3、析方法并不是对所有信号都合适，例如：在信号的低频端具有很高的频率分辨率，而在高频端的频率分辨率较低。所以出现了小波变换。2、分析的目的：既要看到森林（信号的概貌），又要看到树木（信号的细节）。倒谱同态处理复倒谱和倒谱无论对于语音通信、语音合成还是语音识别，倒谱参数所含的信息都比其他参数多，其缺点是运算量较大。尽管如此，倒谱分析仍是一种有效的语音信号分析方法。语音信号的倒谱分析1 与同态解卷积将语音信号中的激励信号与声道响应分离，并且只需时十几个倒谱系数就能相当好地描述语音信号的声道响应。避免相位卷绕的算法缘由：在复倒谱分析中，Z变换后得到的是复数，所以取对数时进行的是复对数运算，这时

4、存在相位的多值性问题，称为“相位卷绕”，由于相位卷绕使后面求复倒谱、以及由复倒谱恢复语音等运算均存在不确定性而产生错误。解决方法：最小相位信号法第二部分：语音识别系统项目细节解释备注语料库基本特征1、理论语言学原则指导2、构成和取样按照明确的语言学原则并采取随机抽样方法收集语料，而非简单堆积。3、作为自然语言运用的样本，具有代表性。4、以电子文本形式存储且通过计算机自动处理。5、基于语料库的研究以量化研究为基石，以概率统计为基本手段，以 “数据驱动”为基本理念。6、语料文本是一连续的文本或话语片断，而不是孤立的句子和词汇。以不同层面来考虑可以划分为不同的类型。语音语料屑建立、收集和标注。863

5、汉语语音特性描述。普通话合成语料库语音识别单元的选1、选择原则：这是语音语音识别取首先，对于不同的语言，基元选择的考虑是不同的，例如：汉语，可用“声母一韵母”，也可用音节字、词、等作为识别单兀。第二，识别基元选择具后灵活性，用它可以组成具他的语音或语法单位，具有稳定性。灵活性希望基元尽可能地小，如音嗦；而稳定性则希望基元尽可能地大，如词甚至词组。第三，基元的选择还需要考虑搜索时间模型存储开销。基兀选择愈小、存储量愈小，算法愈复杂，正识率愈低。第四，基元选择也与实际用途有关，有限词汇量的识别基兀可以选的点（如词或短语等）；而无限词汇量则应选的小一点（如音素、声母一韵母等）。识别中非常重

6、要的环节自动分段-端点检作用：用数字处理技术来找出语音信号中的各种段落（如音素、音节、在汉语中的预处理恻技术词素、词等）的始点和终点的位置。主要目的方式:1、基于能量的端点检测2、基于LPC-10声码器的端点检测。3、基于信息嫡的语音端点检测4、基于频带方差的端点检测5、基于倒谱特征的带噪语音信号端点检测6、基于HMM勺端点检测方法7、基于分形技术的端点检测8、基于自相关相似距离的端点检测9、基于迟滞编码的端点检测10、实时端点检测算法是找出字的两个端点，进而找出其中声母段和韵母段语音信号特征参数基音周期概念：指发浊音时声带震动所引起的周期运动时间间隔。几种有效且实用的的方法：

7、1、自相关法及其改进：区分清音和浊音并估计出基音周期。具体方法：1、先对语音信号进行低通滤波，然后再计算短时自相关函数。2 、米用中心削波技术3 、用短时幅度差函数来代替短时自相关函数，这样也省去乘法运算从而节约运算时间。2、并行处理法：语音信号经过预处理后形成一系列脉冲，这一串脉冲保留了信号的周期性特征，而略去与基音周期无关的信息；然后由平行的一些简单的检测器估计基音周期。最后在后处理部分，对这几个基音周期检测器的估值作逻辑组合，输出估计的正确周期。这种算法比较简单，硬件实现容易，不仅能估计出基音周期，而且还可以定出峰点位置，这在一些按基音周期操作的处理中是很有用

8、的。3、倒谱法：a.采样，用哈明窗平滑，求出倒谱。b.求倒谱峰值及其位置，c.峰门值计算比较得出结论d.峰值检测。4、简化逆滤波法：将语音信号降低采样率并提取其模型参数，然后用这些参数对原信号进行逆滤波得到音源序列，最后求出该序列的峰值位置以求得基音周期。线性预测参数1线性预测信号模型：3种信号模型：1、自回归信号模型(AR模型)2 、滑动平均模型(MA莫型)3 、自回归滑动平均模型(ARMA莫型)理论上讲，ARMA莫型和MA模型可以用无限高阶的AR模型来表达。对AR模型作参数估计时遇到的是线性方程组的求解问题，相对来说容易处理，而且实际语音信号中全极点又占了多数。线性预测误差滤波设

9、一个预测误差滤波器，就是求解预测系数 ai使得预测误差e(n)在某个预定的准则下最小，这个过程称之为线性预测分析。语音信号的线性预测分析语音信号序列是一个随机序列，它也可以用上述的三种信号模型化来进行分析。线性预测分析的解法经典的解法后两种：1、自相关法：假定语音信号序列 s(n)在间隔Own WN-1以外等于零，如莱文逊-德宾算法；2、协方差法：不规定语音信号 s(n)的长度范围，而定义自相关序列r(j)中n的范围为0w n 非特定人识别- 自适应方式1、批处理式：训练语音由用户一次性录入，然后进行统一的自适应训练，更新系统参数。2、在线式：训练语音是用户使用识别系统时所识别的语音

10、，系统根据累积德统计量，按照一定时间间隔更新系统参数。3、立即式：训练语音是当前正在识别的语音，没有在线式自适应的累积。说话人自适应和说话人归一化技术MLLR算法介绍基于变换的一种自适应算法。1、语音特征空间的划分：由于MLLR算法的前提假设是相近的语音共享相同的变换，因此需要根据一定的准则对语音空间进行划分，然后对每一类空间倩计其相应的变换。2、参数的估计：可以采用最大期望算法迭代倩计W3、对均值矢量的变换：在估计出最优的变换矩阵后就可以对各均值矢量进行变换以实现自适应了。MA崂法介绍1、MAP算法准则：传计参数过程中，容纳了参数的先验信息，这一信息是由SI系统的训练语音库

11、获得的。2、MAPB法公式推导。说话人归一化技术尽管说话人的差异很大，但人仍然可以轻松地识别理解不同口音和性别的各种人的语音。这说明人的大脑可以进行一些归一化过程，去除语音个性化得特征。1、倒谱均值归一化2、声道长度归一化噪声抑制基于小波变换的噪声r 抑制根据噪声与信号在各尺度（即各频带）上的小波谱具有不同表现这一特点，将各尺度上由噪声产生的小波谱分量，特别是将那些噪声小波谱占主导地位的尺度上的噪声小波谱分量去掉，则保留下来的就是原信号的小波谱，此过程可称为小波谱的重构或还原。然后再利用小波谱重构算法，重构出原信号。基于EVR编码的噪声抑制这种噪声抑制方法算法复杂度不高，不需要额外的硬件设备。它考虑了人耳的听觉感知特性，可以起到相当好地语音增强作用，而且语音的失真非常小，不会引入音乐的噪声。基于HMM莫型的噪声补偿|并行模型联合技术（PMC是一种基于 HMM莫型的参数补偿方法。基本思路是用HMMHJ对干净得语音和背景噪声建模，然后语音模型和噪声模型按照一定的模型匹配函数进行联合，生成模型就称为带噪语音的HMMI型。信道补偿稳健语音识别技术影响语音准确识别的干扰源，最重要的两类：未知加性噪声和未知线性滤波效应。信道补偿技术的主要1、经验补偿技术2、盲补偿3、基于特征及模型的补偿汽车内语音的应用电话中语音的应用方法信道补偿技术在语音识别中的应用

展开阅读全文