为残疾人提供的语音识别.docx

上传人:doc321 文档编号:12855842 上传时间:2021-12-06 格式:DOCX 页数:9 大小:116.69KB
返回 下载 相关 举报
为残疾人提供的语音识别.docx_第1页
第1页 / 共9页
为残疾人提供的语音识别.docx_第2页
第2页 / 共9页
为残疾人提供的语音识别.docx_第3页
第3页 / 共9页
为残疾人提供的语音识别.docx_第4页
第4页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《为残疾人提供的语音识别.docx》由会员分享,可在线阅读,更多相关《为残疾人提供的语音识别.docx(9页珍藏版)》请在三一文库上搜索。

1、为残疾人提供的语音识别摘要在过去的几年里 ,多亏了数据处理的演变, 我们经历了一个语音识别系统很重要的演变。所开发的系统取决于应用程序,它具有孤立词识别和系统的连续语音识别系统。孤立词的识别的系统作为声带命令的应用而连续语音识别系统的系统主要应用有类似的声乐听写。对于残疾人士缺少数据基础和多样性的发声障碍是建立可靠的语音识别系统的重大障碍,这也说明为残疾人建立的语音识别系统在市场上所遇到困境。这项工作发展在于适应一些现有语音识别系统为那些有发声障碍的人。对于孤立词识别系统,我们使用动态方法的培训,这使得该系统有可能逐步适应用户在他的使用过程中。这种方法有可能使残疾用户使用该系统,不用通过长时间

2、的培训,而这培训一般是沉重,对这些人是痛苦的。在同等测试条件它还允许识别系统使用一个训练基地。对于连续识别系统,我们使用两种方法:1- 一个为残疾人士动态适应的连续语音识别系统的模型。这种方法使我们能够让用户适应的识别系统并可以像正常人一样说话。2 为识别使用一个独立的语言分割(ALISP )。这种方法包括使用之间的对应关系ALISP 分割和语音和模型ALISP 的段,以建立识别系统。对于字识别系统,我们使用了DTW 的动态培训。关键词:言语;认知;适应;充满活力;残疾;培训11 绪论在非特定人语音识别系统, 培训令扬声器变化要求发言者广泛的人参与。 这个令扬声器变化更重要的是当发言者有发音障

3、碍。特别是,残疾人很难有独立的扬声器电话模型。在这项工作中, 我们使用的手机模型都是从独立扬声器训练有素的 BREF 数据库中选取适应每次系统识别正确的句子模型。我们第一次提出的方法被运用于最大似然线性回归 (MLLR )和动态时间规整( DTW 的),然后我们提出了实验结果和结论。2 动态时间规整在这种类型的语音识别技术测试数据被转换为模板。识别过程,然后由语音输入与匹配存储的模板。从输入模式模板中最低的距离测量模板是已识别的词。最佳匹配(最低距离度量),是基于在动态规划。这就是所谓的动态时间规整(DTW的)文字识别者。为了了解 DTW ,需要两个概念被处理* 特点:在每个信号信息必须以某种

4、方式表示。* 距离:一些度量形式已被用于为了获得匹配的路径。有两种类型:o 地方:在一个信号特征及其他特点之间计算差异。o 全球:整体计算整个信号之间的区别和另一个信号可能不同的长度。由于特征向量可能有多个元素,一种计算局部距离的方法是需要的。两个特征向量之间的距离测量采用的是欧氏距离度量来测量。因此,特征向量之间的信号特征信号1和 2 给出了向量 X 的 Y 局部的距离,算法:言语是随时间变化的过程。因此,对同一个词会有不同的发音周期,与具有相同的周期同一个词在话语中会有所不同,这是由于不同地区的话,人们讲的时候速度不同。要获得两个全球距离的话语模式(作为一个向量序列为代表)一个时间序列必须

5、执行。这个问题可以参考下图0,在这种时候,时间“矩阵是用于可视化的路线。对于所有的时间序列例子参考模式(模板)上升侧面和底部的输入模式去。在本图中输入2SsPEEhH“是一个 '噪音 '的模板版本讲话”。这个想法是, 'h'是一个更接近匹配的H 比其他任何模板中。 输入 SsPEEhH“将在所有模板进行匹配该系统的信息库。 最佳匹配的模板的其中之一是最低的距离有路径调整到模板输入模式。 给一个路径一个简单的总体远程评分是简单的去弥补局部路径距离的总和。上图显示了测试和训练模式的时间一致。为了推出公式和减少过度的计算,我们在传播方向上作出了一定的约束。下面给出了这

6、个约束。* 匹配路径不能及时向后* 输入的每一个框架必须用在匹配路径上* 通过增大总体范围,现代远程教育重要性被凸显了。该算法被称为动态规划( DP)。当应用到基于模板的语音识别,它常常被称为动态时间规整( DTW 的)。DP 是保证找到通过矩阵的最低距离路径,而最大限度地减少计算量。动态规划算法工作在时间同步的方式:动态规划算法工作在时间同步的方式: 每个时间被考虑为连续时间矩阵 (相当于列处理输入帧逐帧),因此,对于一个长度为 n 的模板,最大数量的路径在任何时候被认为是 n。如果 D(ij )是总体距离可达( ij )和在( ij )地方距离,是用d(ij )。给出 D(1,1)=d(

7、1, 1) , (这是初始条件),我们有一个有效的计算 D( i,j )的递归算法的基础上。最后全球距离 d(n, N)为我们提供了模板的整体比对分数与输入。输入单词,然后确认为这个词所对应的最低得分匹配模板。33 最大似然线性回归MLLR 最初是为适应扬声器,但同样可以应用于环境不匹配的情况。高斯为HMM的参数设置转换矩阵估计这最大限度地适应数据的可能性。 本集的转换相对比较小的系统中高斯总数等多项共享相同的高斯变换矩阵数字。这意味着,转换参数稳健估计可从只有一数量有限的数据,这使所有的高斯 HMM 模型中的设置进行更新。对于少量的数据(或非常稳健转型的估计)只有使用单一的总体性转变。随着越

8、来越多的数据可以利用,更加特别的转换能够进行估计。最初变化的平均估计只有参数,但最近的做法已得到扩展,使高斯变换也可以更新。本节给出了基本 MLLR 理论概述、平均参数和方差。均值和方差是适应于两个不同的阶段。最初发现新的方式被发现。然后,鉴于这些新的方式,差异被更新了。 因此,HMM 模型被修改了。 例如,其中 M 是原来的模型集,模型有集合 M 刚刚更新的平均参数( 1, ., M )以及模型集 M 既有的手段和方差 1, , M 更新和 T 为适应数据 T= ( 1), .,( T) 3.1 MLLR适应方式该 MLLR 的目的是为了获得一个变换矩阵集最大化适应数据的可能性。 转换矩阵是

9、用来给均值的,在新的估计 =Wmm 和 Wm 是 n*(n+1) 转换矩阵(对于 n 维数据)和 m 是扩展的平均向量 m=1, 1, , n 为了确保转换参数稳健估计,转换矩阵高斯并列横跨数,根据回归类树。这种树包含所有系统中的高斯,与统计的叶子(可能每个包含高斯数) 聚集。最具体的变换, 可以适应稳健估计使用产生的所有系统中的高斯。一个特定的转换是 Wm 被束缚在 R 高斯 m1mR. 对于输出概率密度函数 ,高斯认为,可能是通过求解,q 其中和() 在时间上表示高斯mr.。对于整个案件的协方差矩阵计算的解决方案代价是很高的。每个转换可以是一个完整的矩阵或约束为分块对角或对角线。3.2 M

10、LLR适应的差异一般方差协方差矩或阵高斯向量,使用下面的转换可以换一种表达方式。Hm 是线性变换的估计和Bm 是的反 Choleski 因素,所以和。以同样的方式的手段,方差变换是在一个共同的高斯数 m1 .mR. 它是简单的表明,最大似然估计,给出了 之前计算的方法。可以看出,方差变换矩阵将满时,产生的每个高斯完整协方差矩阵。对角线为差异转化可能是通过简单归零非对角线上。44 识别试验该实验的对象是从获得帕金森的人群数据库中抽取的。该数据库记录在 AIX-EN-PROVENCE 医院 . 这些录音都是由法国国家科学研究中心研究工程师文字和普罗旺斯大学语言实验室的议员伯纳德特斯顿记录的。这个数

11、据库包括200 例,每例持续时间不同完整残缺程度也不同,从记录 49 秒到 4 分钟。每一位发言者是应该记录的一句“ LA CHEVRE DE MONSIEUR SEGUIN ”。对于字识别系统,我们用了 40 字的 2 个扬声器数据库。这个数据库是为了一个指挥家创立的。4.1 系统描述对于字识别系统,我们使用动态培训。一开始我们在测试中使用的每一个字一个登记,如果系统识别好词,这个词将在字典中,如果不是它被拒绝。我们使用了一个6.4万字字典连续语音识别系统。我们用这个词的简表数据库模型训练的手机型号。对于单扬声器系统,将其分为 4 组各扬声器的数据库: 3 套为适应和一个测试集。我们分析后,

12、连续的为每一个说话人识别系统的适应性能来适应数据库。对于非特定人识别系统, 我们用每个残疾程度为10适应扬声器和 6 测试扬声器。我们用40 个扬声器来适应以及每一级障碍程度运用6 个扬声器作为连续独立扬声器识别系统的测试,该测试是为了那些遭受帕金森的病人的。4.2 结果对于字识别系统,我们用了一个 40 个字的系统来指挥例如开门关门。下表阐述了识别结果,该结果运用了经典的 DTW 算法且这个结果用了我的方法来获得。表 1:第一个人的文字识别率与动态演变培训句子经典 DTW我们的方法12060230903309042070表 2:第二个人的文字识别率与动态演变培训句子经典 DTW我们的方法15

13、01002409033090450100随着我们的方法在识别率迅速增加,所以在实际的用户,可以提高识别率时,它所采用的方法多次鼓励用户使用该系统。对于连续语音系统,我们开始了对病人的语音识别系统的性能通过使用总体模型。下表说明了结果:5表 1:BRIEF 模型的患者的识别率发言者残疾程度的识别率( %)0123115.125.122.56227.692.565.12335.127.695.12442.562.562.56555.125.1200665.125.127.69所取得的成果表明,古典连续识别系统不产生令人满意的结果。得到的结果表明,这个词的质量下降。下表说明了在每个发言者适应基地连续

14、提高识别率的演变发言者改编后的识别率( %)0123115.125.127.69227.6910.2510.25335.127.6910.25442.565.125.1255.125.127.697.6965.1210.2512.8212.82发言者改编后的识别率( %)0123012315.127.697.6910.2522.565.127.697.6937.6910.2512.8212.8242.562.565.125.1255.127.6910.2510.25发言者改编后的识别率( %)012312.565.125.127.6925.127.697.6910.2535.125.127.6

15、910.2542.565.127.697.695002.565.127.6967.697.6910.2512.82发言者改编后的识别率( %)012312.565.125.127.6922.562.565.127.6963002.562.565.1245.127.6910.2510.2552.567.6910.2510.2565.127.697.6910.25基础设置的增加而提高了识别系统的性能。这种方法使我们能够逐步适应识别系统。在一定数量的适应后,这个系统的表现将趋于稳定但因缺乏充足的数据在这个实验,中我们不能验证这个事实。现在我们分析每个障碍等级特定人语音识别系统的表现。下列表格说明与适

16、应障碍的同样程度的发言者的某些型号的识别率演化的扬声器。发言者识别率( %)BREF模型盘口模型15.1212.8227.6912.8235.1215.3842.5610.2555.1210.2565.1212.82发言者识别率( %)BREF模型盘口模型15.1210.2522.567.6937.6912.8242.567.6955.1210.2565.1210.25发言者识别率( %)BREF模型盘口模型12.5610.2525.1210.2535.1212.8242.5610.255007.6967.6912.82发言者识别率( %)BREF模型盘口模型12.567.6922.5610.

17、253005.1245.1210.2552.567.69765.1210.25同等障碍程度的人的字模型的适应使这类扬声器有这样一个识别系统成为可能。现在我们将分析一个非特定人识别系统的表现, 而该系统是针对的说话者是遭受帕金森疾病的人。结果被统计在下表中。发言者识别率( %)BREF模型盘口模型15.1215.3827.6915.3835.1215.3842.5612.8255.1212.8265.1220.51发言者识别率( %)BREF模型盘口模型15.1212.8222.5610.2537.6917.9742.5612.8255.1212.8265.1215.38发言者识别率( %)BREF模型盘口模型12.5612.8225.1215.3835.1217.9442.5612.8250010.2567.6915.38发言者识别率( %)BREF模型盘口模型12.5610.2522.5612.8230010.2545.1215.3852.5610.2565.1212.82帕金森病人有同种类型的发生障碍,但这些比重取决这个障碍程度。由于干扰的产生,不影响所有音素。85 结论声学适应动态解决方案模型的给出对帕金森病人很重要。 我们可以给那些又发生障碍的人一个连续语音识别系统。9

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1