语音技术前沿及应用200607.ppt

上传人:本田雅阁 文档编号:3010556 上传时间:2019-06-24 格式:PPT 页数:93 大小:13.90MB
返回 下载 相关 举报
语音技术前沿及应用200607.ppt_第1页
第1页 / 共93页
语音技术前沿及应用200607.ppt_第2页
第2页 / 共93页
语音技术前沿及应用200607.ppt_第3页
第3页 / 共93页
语音技术前沿及应用200607.ppt_第4页
第4页 / 共93页
语音技术前沿及应用200607.ppt_第5页
第5页 / 共93页
点击查看更多>>
资源描述

《语音技术前沿及应用200607.ppt》由会员分享,可在线阅读,更多相关《语音技术前沿及应用200607.ppt(93页珍藏版)》请在三一文库上搜索。

1、语音及语言研究、技术及应用,讯飞研究院,安徽中科大讯飞信息科技有限公司 AnHui USTC iFlyTek CO., LTD. 2006年07月,范围与面向,本课程包括: 什么是语音、语言,有什么特性(80分钟) 智能语音及语言技术包括哪些,讯飞优势(120分钟) 本课程面向: 以前没有或者较少接触语音及语言技术的 所有公司员工,什么是语音、语言,有什么特性,语音,讯飞语音 沟通无限 语音:人类发音器官发出的声音 语音产生于几百万年前 但人类能听到的历史不过128年,(1877年:爱迪生发明留声机) 无声电影=有声电影 计算机、声卡=语音的计算机处理技术 人类每天说的话如果存下来,,两个不同

2、频率的“嘟”,语音链,语音产生机理,元音发音器官形状,汉语辅音音素,语音进入计算机:波形和语谱图,喝( h e )茶,语音信号中的一些基本概念,波形 语谱 基频,采样率,量化比特数,声道数 帧,音高,时长,能量,语音的特性1:波形不说明内容,语音的特性2:共振峰基本决定内容,语音的特性3:基频决定声调,语音的特性4:声音一样又不同,语音的特性4:汉语方言一级元音格局,引自:时秀娟,汉语方言元音格局的实验研究,南开大学博士论文,2005年4月。,哈尔滨,济南,青岛,天津,兰州,郑州,成都,南京,人类听觉系统,计算机眼中的语音,就是一系列的物理参数 隐马尔科夫(HMM)语音建模 10秒钟的数据 1

3、0*16K*16bit的数据,且几乎没有任何规律 1000帧,每帧可以计算39个浮点数,3.9万个浮点数,也没什么规律 40个音节,80个声韵母 320个HMM状态,每个状态20个Gauss函数,每个高斯2参数 每个声韵母分别包含哪些帧,几近无穷可能 数据多!所能看到的数据和声韵母联系起来困难,语言,语音语言不分家 语言:人类特有的能力 有2500至3500种语言 汉语属汉藏语系,英语属印欧语系日耳曼语族 语言层级: 音素、声韵母、音节、字、词、短语、句子、篇章 以有限的音节和字按规定的文法构建出无限的句子 语言理解: 词法、语法、语义、语用,计算机眼中的语言,数据少意思多!寥寥数字,无穷意境

4、,智能语音及语言技术包括哪些 讯飞优势,智能语音及语言技术,语音 合成、识别、编码、转换、身份识别及确认、音色分类、评测、哼唱检索、音乐检索、语音检索、Singing TTS、降噪、音效 语言 基础研究:词典编撰、分词断句、词性分析、语言模型、语法分析、语义分析、语用分析 应用研究:拼音输入法、自动摘要、对话系统、文本分类、文本匹配、机器翻译、信息检索、信息抽取,语音合成技术(Speech Synthesis),即Text To Speech的过程,简称TTS技术 中文信息处理领域中的一项前沿技术 涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术 主要解决的问题是将文本状态的文字信

5、息转化为可听的声音信息,语音合成的历史,电子计算机发明以后,语音合成技术得到了飞速的发展,方法也发生了根本性的变化,语音合成技术,语音合成技术,语言合成技术之一 Articulatory Synthesis 根据人类发音机理方式工作的合成方法 模型主要组成部分 声门波发生装置 - 声带 气管-口腔声道腔体模型 嘴唇的辐射模型 主要优缺点 真实的反映了人类发音的整个过程 人类发音过程的模型不够精确,无法得到清晰度高的语音,语音合成技术,语言合成技术之二 Source-filter Synthesis 基于语语音数据信号处理的合成方法 模型主要组成部分 声门波激励源 描述声道模型的滤波器 主要优缺

6、点 合成语音的音质比上一种方法有很大的提高,但是仍然不是很好 可以对合成语音在音色和声调上进行较为灵活的调整,语言合成技术之三 Concatenative Synthesis 利用原始语音片断作为合成单元 关键技术 原始语音片断的获取方法 原始语音片断的挑选方法和拼接算法 主要优缺点 合成语音的音质比上两种方法有质的提高,因为不需要进行大的调整 语料库的录制和制作工作量巨大,同时合成语音的灵活性较低,语音合成技术,输入文本,拼音信息和韵律结构信息,每个单元将取 多个候选 s1 s2 s3 s4,目标代价挑选候选单元,词典等文本分析知识,大规模语音库,再考虑连接代价决定最后选定单元 s1 s2

7、s3 s4 s5 s6,输出语音,InterPhonic系统处理流程,语音合成技术,语言合成技术之四 Trainable TTS 利用HMM模型直接对语谱和韵律进行建模 关键技术 HMM模型对特定人的语音进行建模 良好的合成器对预测出来的语谱和韵律参数进行合成 主要优缺点 合成语句自然流畅,普适性好 能够容易的模拟各种不同的说话人,不同情感,不同语气 因为采用合成器进行语音的合成,清晰度难以提高,语音合成技术,语音合成技术,语言合成技术之五 多模态语音合成 将语音合成与嘴唇,脸部运动结合起来 关键技术 对语音内容和嘴唇运动以及脸部运动进行同步 利用三维模型或者是图像录像进行脸部图像的生成 主要

8、适用场合 可视聊天等各种沟通方式中(例如于msn,QQ等结合) 电子游戏,娱乐服务中 智能计算机的人机界面,休息五分钟,语音合成,分类: 语种:普通话、粤语、英语、日语 嵌入式识别、桌面应用、服务器级应用 难点: 语音的多变性 信息从少到多,文本分析 方法: 波音拼接:单样本-多样本-Corpus-Based(讯飞) 参数合成:源-滤波器模型-PSOLA-HMM-Based Trainable TTS (讯飞) 融合:小尺度(5ms)样本拼接,参数样本挑选(讯飞) 基于发音器官模型的语音合成 水平: 在新闻播报风格上超过一般人水平,达到4.3分(讯飞) 但对于具有表现力和感情的合成,以及自由说

9、话,还存在较多问题(讯飞),大语料库合成系统,粤语合成系统 中文男声系统 纯英文语音合成系统,STOP,STOP,STOP,STOP,嵌入式合成系统,嵌入式合成系统可以广泛的应用在各种手机,PDA,芯片环境中,在容量和运算量受限的情况下,需要能够合成高自然度的语音。 主要研究方向包括 小型化高精度的前端文本分析 基于听感量化思想的大语料库单元裁减算法 伸缩性非常强的多层单元压缩算法 压缩性能好,调整能力强的语音合成器,听感量化嵌入式系统 嵌入式纯中文系统原型,STOP,STOP,Trainable TTS,Trainable TTS 基于HMM对语音进行建模,并通过训练得到合成所需的参数预测模

10、型 基本不需要人工干预的情况下自动、快速地进行系统构建 合成语音具有很高的自然度 音质相比拼接合成有较大的差距,中文女声系统 中文男声系统 纯英文语音合成系统,STOP,STOP,STOP,声音转换(Voice Conversion),功能:从一个人的声音转换为另一个人声音 用途: 模仿(娱乐、军工) 分类: 到特定人、到特定类(男女,老中少,方言)、声音改变 实时转换、语音合成后续模块、在线训练 难点: 参数合成,音质不理想 训练数据多少都不合适 超音色特点难以实现 方法: 高斯混合模型和码本映射相结合(IBM、自动化所) 基于支持向量回归的声音转换(吉林大学) HMM-Based Voic

11、e Conversion(讯飞) 新方向:Average Model (讯飞) 水平: 高质量的声音数据达到50句以上、朗读风格,效果达到满意程度(讯飞) 方言还不理想(讯飞),Voice Conversion/Morphing,音色转换: 在已有语音合成系统基础上模拟各种发音人说话; 使合成系统具有快速适应能力,根据用户的需要提供个性化语音合成服务 扩展语音服务在信息服务以外领域的功能(如娱乐),Voice Conversion/Morphing,音色转换: 根据有限的目标说话人语音数据,采用模型自适应技术对参数预测模型进行说话人自适应 在非常少(1句话)的目标数据基础上,都可以进行合成系统

12、的说话人转换。,燕平 胡郁 50句 燕平 刘庆峰 50句 燕平 刘庆峰 5句 燕平 刘庆峰 1句,STOP,STOP,STOP,STOP,Trainable TTS & Voice Conversion,有些知识分子一生坎坷,除客观原因外,有没有主观因素呢。,Intonation & Emotion TTS,Intonation和EmotionTTS 在现在陈述语气合成的基础上实现感叹,疑问,强调的效果 在正常情绪合成的基础上增强系统在高兴,生气,悲伤等多种情绪方面的表现能力 感叹疑问演示文本:没错!现在资金这么紧缺!你还想扩大生产规模?你说这件事情令人担忧?我觉得完全不会;,Intonati

13、on & Emotion TTS,我们现在进行的情感语音方面的研究主要包括以下几个方面的内容: 情感语料库的设计与录制; 情感语音韵律模型的研究,主要是研究情感语音中基频、时长等韵律参数相对于中立语音的变化规律,实现情感语音的韵律预测; 语音声源参数分析方面的工作,研究发音人在表达不同情感时声源参数对应的“音质”(Voice Quality)特征的变化规律; 情感语音合成系统的建立,包括采用参数调整、Voice Conversion方法等。,中立合成 情感合成 高兴 生气 难过,语音识别技术,即Automatic Speech Recognition过程,简称ASR技术 主要解决将语音信息转化

14、为文本状态的文字信息的问题 可以分为以下几个方面的技术 说话人鉴别 孤立词识别 连续语音识别,语音识别技术回顾,语音识别的历史,相对语音合成,语音识别更加困难,在电子计算机发明以前,很难进行这方面的工作,语音识别的复杂性 孤立词/连续语音?Isolated or Continuous speech 认人/不认人?Speaker-dependent or Independent 小词汇量/大词汇量?Small or large vocabulary 安静环境/噪杂环境?Environment robustness 一般信道/电话信道?Channel adaptability,语音识别技术,语音输

15、入,结果输出,判 决,比 较,特征提取,模 板,最基本的孤立字识别系统,语音识别技术,现代语音识别系统组成 前端处理(特征参数提取) 最大限度地冗余信息的剔出, 和最大限度地语音的区别特征的保留,同时具有ROBUST。例:LPC,LSP,DFT,MFCC。 模型的建立与学习(生学模型、语言模型) 声学模型建立与学习:模板,HMM。 语言模型建立与学习:词 BI-GRAM,TRI-GRAM,POS BI-GRAM, 有监督学习和无监督学习 自适应学习:OFF LINE 有监督与无监督,ON LINE 无监督 识别(分类) 最佳路径搜索,决策最可能的结果 识别方法的有效性(运算量与最优性的矛盾),

16、ROBUST性,语音识别技术,现代语音识别系统系统构成图,语音识别技术,隐马尔可夫模型(HMM),语音识别技术,电话语音识别技术 电话信道环境下的非特定人连续语音识别 考虑到电话信道特性,噪音,话机的差别等因素的语音识别ROBUST问题的研究 电话信道环境下的非特定人连续语音识别数据库的建立,语音识别技术,安徽炫铃20次实际拨打记录分析,拨打时间:2005-5-12 20次拨打,识别动作436次,产生声音296句占67.58,人声171句占39.04 171句人声,语法内句子22.22 语法内正确识别率60.53%,嵌入式语音识别,现有ASR的技术应用,近年来ASR核心研究的前进步伐放慢,性能

17、几乎饱和 现有系统鲁棒性还比较差 使用时需要用户很好配合 在噪声背景下,识别性能下降明显,现有的信号处理方法收效甚微 面对对话中出现不符合语法的病句,集外词,任务外的词,说话习惯的嗯啊.等,现有的系统难以胜任 和人类识别语音相比误差率要大一到两个数量级。 这样的识别性能难以直接应用,但只要用户界面设计、实现的好,现有的技术可以发挥其应有的价值!,语音编码技术,语音编码技术的基本原理 产生语音信号的源-滤波器模型 码激励语音编码技术 分析/合成语音编码技术,语音编码技术,产生语音信号的源-滤波器模型,语音压缩编码技术最新动态,语音编码技术,身份识别和确认(声纹识别 ),功能:通过语音识别或确认说

18、话人身份 分类: 身份确认、身份识别 文本相关、文本无关 难点: 相同人不同身体状态的音色有差别 要防止恶意的模仿 方法: GMM,HMM 水平: 1000个人,97%以上的识别正确率,音色分类,功能:通过语音识别或确认说话人音色 分类: 男女、老中少、南北方 难点: 男女相对比较容易 方法: GMM 水平: 男女声,3秒,99%的效果(讯飞) 南北声,3秒,80%的效果(讯飞),演示,休息五分钟,哼唱检索,功能:通过哼或唱出一首歌曲检索到相应的歌曲 用途:声动炫铃、点歌 难点: 人哼唱的基频和时长不准确 歌曲库大时,旋律本身比较混淆了 效率 方法: 发音段检测+基频时长分析+动态匹配 水平:

19、 1000首,8秒以上,前10候选正确率达到85% 249首,8秒以上,前1候选正确率达到达到74%,前三:84%,前十:92%(讯飞),演示,音乐检索,功能:识别身边正在播放的音乐是哪首歌 难点: 环境噪声 歌曲库大时,旋律本身比较混淆了 效率 方法: 基频时长分析+动态匹配 水平: 3秒录音,几千首歌,识别准确率99%以上,语音检索,功能:输入文本或语音,找出包含该语音的录音 难点: 语音识别本身不鲁棒 效率、网络传输效率 方法: 录音识别成音标或拼音层 水平: 检索效果还不错,Singing TTS,功能:让计算机会唱歌 难点: 韵律变换太大,合成音质损伤严重 韵律建模难度大 方法: 建

20、模后合成器调整 水平: 可以达到娱乐水平,语音增强,功能:将语音从噪声中分离出来 难点: 某些噪声很像语音; 有些语音也算噪声; 降噪效率 方法: 对语音和噪声分别建模 噪音快速建模算法 水平: 达到军工要求(讯飞),音效处理,功能:使语音产生别样的效果 分类: 在线 离线 难点: 离线不是很难 在线的情况下,算法复杂度如何降低 方法: 滤波器、能量频率转换 水平: 回声: 水下: 基频变换: (讯飞),评测技术,自动口语评测技术需求分析,国家普通话推广战略的迫切需求 普通话水平测试人数增长迅速,工作量越来越大 测试员水平的参差不齐,影响到测试结果公信力 只有评分、没有反馈,难以达到“以测促学

21、”目标 指定时间和地点的考试方式难以满足海外考生需求 自动口语评测系统组成 客观评测:对学习者的发音水平进行评分 错误检测: 对学习者的发音错误进行检测 反馈指导:对错误进行反馈,并进行学习指导,自动口语评测技术进展,2002年开始口语评测的研究 2004年大规模的收集一级甲等标准普通话发音数据和普通话测试中的真实数据 2004年12月,国家语委正式立项支持 2005年取得重大进展,自动口语评测技术进展,2005年9月,国家语委在安徽召开现场会,科大讯飞核心技术在业界首次达到实用水平,(2005年9月26日国家语委现场测试数据),国家语委鉴定,语言方向技术的进展,基础研究:词典编撰、分词断句、

22、词性分析、语言模型、语法分析、语义分析、语用分析 应用研究:拼音输入法、自动摘要、对话系统、文本分类、文本匹配、机器翻译、信息检索、信息抽取,语法规则库,讯飞的语言技术,分词断句,词典编撰,词性分析,语义分析,语法分析,语言模型,语音合成,语音识别,语音评测,文本韵律分析,文本分类,自动摘要,对话系统,基础研究,应用研究,语音合成前端,为语音合成后端提供: 正确的拼音和音标 自然的节奏、停顿 合适的轻重读、语气语调信息 所有这些信息将从输入的原始文本中分析获得,语音合成前端,分句,全角化,分词,语音合成前端,特殊符号处理,人名地名等未登录词识别,词性标注,语音合成前端,多音字处理 (行、为、长

23、、) “上上连变”(周总理)、“一不”变调(一定,一般) 文本韵律分析(L0、L1、L3) 句式判断(陈述、疑问、感叹) 疑问焦点预测 轻重读预测,语音合成前端,英文处理 词典编撰 特殊符号处理 衍生词处理(happy-happiness, +ed, +es) 复合词处理(applecore,SingingTTS) 汉语拼音串处理(huguoping, beijing),曾老有没有在11:00查完房时为司马广criticized lisi呢?,语音合成前端,合成前端各处理环节,语言模型,一个句子的概率 Unigram, bigram, trigram 用于语音识别、拼音输入法、机器翻译,拼音输

24、入法,功能:输入拼音,输出汉字 难点: 上这摊某被立即送往医院,但终因史学过多,不止身亡。 伤者谭某被立即送往医院,但终因失血过多,不治身亡。 方法: 语言模型 水平: 95%以上的正确率,大家自有体会,自动摘要,功能:形成文章的摘要 分类: 单文档自动摘要、多文档自动摘要、Query相关自动摘要 选摘句子、生成句子、改写句子 难点: 语义无法理解 依赖于文章本身有无概括句 方法: IDF,提示词,上下文指代消歧 水平: 新闻类型基本实用,其他文体困难(讯飞),对话系统,功能:通过对话完成某些信息查询或操作 分类: 基于文本的、基于语音的 计算机控制、用户控制 上下文相关、上下文无关 用途:

25、短信电话号码信息查询、点歌送歌 聊天机器人、高级信息查询服务 难点: 真正的语义理解几乎没进展 用户的表达方式各式各样:点歌、点首歌、点个歌、下个歌 相同的文字可以表示不同的语义:我想点周华健的朋友送给我的朋友 方法: 槽、上下文约束文法 水平: 受限领域下,大部分的计算机主控条件下,对话成功率在95%左右(讯飞),文本分类,功能:将文本分成制定的若干个类别 用途: 网络净化器、反垃圾邮件 反垃圾短信 数字图书馆 难点: 取决于实际应用类别的定义之间的混淆程度 方法: 区分性训练(Bayes、SVM、EM) 水平: 基本成熟,可有效节约工作量 反垃圾邮件:虚警率3%,漏警率0.5%(讯飞),文

26、本匹配,功能:文本模糊匹配 分类: 两个文本串的匹配 从一个长串中模糊匹配一个子串 从大规模条目中快速匹配 用途: 搜索引擎、对话系统、信息匹配、文本条目查询 难点: 不同应用所需的模糊匹配的定义不一样 匹配召回率和精度的平衡 方法: 动态规划 繁简处理(国國)、分词处理(复合肥)、拼音处理(王峰锋)、同义处理(孤单孤独北半球)、焦点分析(讯飞公司)、上下文约束(一首朋友) 水平: 基本可以达到实用,但针对不同的应用需要调整(讯飞),机器翻译(MT),功能:语音 分类: 文本层面翻译、语音层面的翻译、(方言翻译) 英文辅助写作、英文辅助阅读 难点: 信、达、雅 贵府、看茶 方法: IBM1IB

27、M5 基于对齐语料库 EBMT 水平: 辅助功能有实效,信息检索,功能:Google、Baidu、MSN或受限领域文本的检索 分类: 互联网搜索、公司局域网搜索、Desktop Search 难点: 速度 容量 方法: 建索引、倒排表、分布式 TF*IDF, Okapi(BM25) Page Rank 水平: 成熟且实用,信息抽取,功能:从网页等非格式化信息转换为格式化的数据 难点: 非格式化信息各种形式都有 所需信息往往比较多:机构(简称、地址、电话、网址、简介) Online的效率很难保证 网页后台数据库的抽取 方法: 固定格式的网页分析 模式学习和识别 种子法 水平: 不是很成熟,但Of

28、fline情况下可以满足一些需求(讯飞),中文语音源头技术整合,讯飞研究院,中国科技大学,社科院语言所,清华大学,擅长语音的数字信号处理,对汉语韵律规则非常了解,擅长语音建模和分析处理,讯飞的研究方向,语音合成 语音合成系统国家标准制定 可训练的语音合成系统(中文、英文) 音色转换技术 多感情色彩的语音合成,语音识别 核心语音识别算法研究 哼唱式歌曲检索技术 语音自动分类技术 声纹验证技术,自然语言 合成和识别中的所需的文本分析技术 反垃圾邮件和自动摘要系统 实用的文本对话系统 面向语音服务的网络信息抽取和搜索,口语评测 普通话评测技术鲁棒性改进 发音错误位置的自动检测技术 外国人学汉语 中国人学英语,我们一直在努力! We always do the best!,Email: ,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1