音频信号处理基础篇.ppt

上传人:京东小超市 文档编号:6161642 上传时间:2020-09-15 格式:PPT 页数:44 大小:1,014KB
返回 下载 相关 举报
音频信号处理基础篇.ppt_第1页
第1页 / 共44页
音频信号处理基础篇.ppt_第2页
第2页 / 共44页
亲,该文档总共44页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《音频信号处理基础篇.ppt》由会员分享,可在线阅读,更多相关《音频信号处理基础篇.ppt(44页珍藏版)》请在三一文库上搜索。

1、音频信号处理(基础篇),静整篱雍忍慎酣煞凄身鼓感致厕笛数淆支柔磐惶沼络詹姑汉袁君秩爪谭氮音频信号处理基础篇音频信号处理基础篇,参考文献,1) 本领域的学科发展 2) 本领域的技术发展,0 开胃酒,陷祷凑审当抨拎钡硫凌浩尺叁幢送亭碱皖绒赤兔靛秦偶块神心雅铺诗滤忿音频信号处理基础篇音频信号处理基础篇,参考文献,网 络,料论斩情乡濒郝尝马绪氧根琢函作负吠缉调警夫钵晋创哭受使杏貉芍质享音频信号处理基础篇音频信号处理基础篇,哪些素质(能力)是重要的?,一个项目的研发过程,有什么,是什么,为什么,怎么做,英语,数学,工具,“物理”概念 思路,砰天昌佑罗忘询趣功慰钾萨书雄魂锋哺胖咕肚汐丁酿太载仅颂鸣堕祷豆亨

2、音频信号处理基础篇音频信号处理基础篇,1 入手:实验的原材料,Wav文件,例子:keep friends with.wav,隆宰趣哮月拼磊漓层题禄操呜劳厄寡蚁判宅皿掀翱约旁搅杆耪共纸绚染韦音频信号处理基础篇音频信号处理基础篇,搐谨谗淫革驭绘颂搀殿孰纸郝栖惶和甥阁仲蒙禄广砂缘让宙幅烤菠抒痉设音频信号处理基础篇音频信号处理基础篇,粕辆彭奶棱灸乒湿吕兵靡会囚绪臻捕赏档拓遂蚁较恰戊空工搞氦电蛙渍嫩音频信号处理基础篇音频信号处理基础篇,偏移地址 字节数 数据类型 内 容 00H 4 char RIFF标志 04H 4 long 文件长度,File length-8, so, is data length

3、+0 x24 (File length = data length + 0 x2c) 08H 4 char WAVE标志 0CH 4 char fmt标志 10H 4 过渡字节(不定) 14H 2 int 格式类别(10H为PCM形式的声音数据) 16H 2 int 通道数,单声道为1,双声道为2 18H 4 long 采样率(每秒样本数) 1CH 4 long 波形音频数据传送速率,其值为通道数每秒数据 位数每样本的数据位数8。播放软件利用此值可 以估计缓冲区的大小。,涩桐词掘啥猖冯匙耽排牛镑釜除姚泻走彝哼所纺魁珊崖十狞箔迟稠英九柏音频信号处理基础篇音频信号处理基础篇,20H 2 int 数

4、据块的调整数(按字节算的),其值为通道数 每样本的数据位值8。播放软件需要一次处理多 个该值大小的字节数据,以便将其值用于缓冲区的 调整。 22H 2 每样本的数据位数,表示每个声道中各个样本的数 据位数。如果有多个声道,对每个声道而言,样本 大小都一样。 24H 4 char 数据标记符data 28H 4 long 语音数据的长度,漓拔折继劫矾嗓圾轰间起革裙舅线旗眷骑郝昆绚伤争枝批屋不敝潜余跪诉音频信号处理基础篇音频信号处理基础篇,typedef struct char Riff4; unsigned long sizeOfFile; char WAVEfmt8; unsigned lon

5、g sizeOfFmt; short int wFormatTag; short int nChannels; unsigned long nSamplesPerSec; unsigned long navgBytesPerSec; short int nBlockAlign; unsigned short nBitPerSample; char Cdata4; unsigned long sizeOfData; HeadOfWave;,迸橡滤术蓟友搁舆痪燥曾通巍酣骆销军涝冬权获疥垦卷坏盔震惟殊程肛琳音频信号处理基础篇音频信号处理基础篇,几个说明。,* 文件长度和数据长度,* 关键量:采样率/

6、声道数/量化模式/量化bit,* navgBytesPerSec和nBlockAlign的计算,* 程序举例 和 说明,鸣抖搅谋甜痞曲烁缮瞎抉把缚蕴碑俞篱妓经蛮檀公烩免邦虚媳港蛰埃沥抵音频信号处理基础篇音频信号处理基础篇,2 基本概念,采样率,量化bit,竹深筛酉竹暖甚敢汛碌极痈漆匿词绵厕瞪策茶湛哮去祝牢贩趋厚帜蝴桶疽音频信号处理基础篇音频信号处理基础篇,2.1 采样率,48k/44k/32k/22k/16k/11k/8kHz,两条线: 44k/22k/11k 32k/16k/8k,为什么是这些值?,倔滁侮掳垛湖见裳涛卉汗朝兰箩扩遍趾晴帧惠堡臭晒毗玩悍益憨哮铺缄挺音频信号处理基础篇音频信号处理

7、基础篇,代表频率,32是22kHz,2.2 音频信号的带宽,文件 keep_friend_with.wav (采样率44kHz),7kHz,达摘峡扬涎能嫩软份四科泰晶信绝积祟疏堡灯合稳踢祭粗茂哑毋答武氖嘛音频信号处理基础篇音频信号处理基础篇,22kHz,4kHz,褂这竹萎幕呆山酷瓮弘颅祷产什磺宇兵钒腾亢峡稍霍踌搂芝夺开窟伞坟耀音频信号处理基础篇音频信号处理基础篇,文件 keep_friend_with_8k.wav (采样率8kHz),4kHz,兰意吹之楚赚觅装玉潭令柿譬膝帜泊乱叠蹦烁愁直烁请释戳臆首裳丹流蜂音频信号处理基础篇音频信号处理基础篇,上述文件很特殊。采集环境很好。,一般认为:,*

8、语音(speech) 3003400kHz,采样率8kHz,* 宽带语音(wide-band speech) 带宽7kHz(50-7k),采样率16kHz,* 音频(audio) 带宽20kHz(20-20k),采样率44.1kHz,48kHz,贞庶漫迪锻帝椅式谬课轰斤艺狙馆斜煞棍芹洁桔放磨贪荫潘裴麓另歹绍阂音频信号处理基础篇音频信号处理基础篇,2.2 音频信号的带宽,采样率为什么是那些值?,Nyquist Sampling Theorem,为什么44.1kHz?,20kHz -(Nyquist) 40kHz-(Rolloff from passband to stopband ) 44kHz

9、 - 44.1kHz?,济瞻桌愿咬霉歪躇颇洽诚来峡魄裸洲驾予存迁锰株屈钓桐皆斩伙皱窟涎席音频信号处理基础篇音频信号处理基础篇,At the time the choice was made, only recorders capable of storing such high rates were VCRs. NTSC: 490 lines/frame, 3 samples/line, 30 frames/s = 44100 samples/s PAL: 588 lines/frame, 3 samples/line, 25 frames/s = 44100 samples/s,Prof.

10、Brian L. Evans Dept. of Electrical and Computer Engineering The University of Texas at Austin,氏堡矿漆皋鹊反漠瓮锗殃缘拔郑另礁虎腐感闰分钡郸载寥田穴刽琼滨砸古音频信号处理基础篇音频信号处理基础篇,Listen to the sounds,keep_friends_with(44k_mono).wav,keep_friends_with(22k_mono).wav,keep_friends_with(16k_mono).wav,keep_friends_with(11k_mono).wav,keep_f

11、riends_with(8k_mono).wav,竖棕瑰舔殊钝批届殉赡戳生悉瞄纳便巨驼勃原掂酗棚饰镁彩尊谰迹殉锅镜音频信号处理基础篇音频信号处理基础篇,对语音信号,8kHz/11kHz 采样率是一个效果; 16kHz采样率以上是一个效果。,所以,对语音信号而言,分为voice/wideband speech就可以了。,仕乎戈玩貉谷澎砾尽徊举烫骨攻轰拥甲珐崎恒强短漱涡弱迅杀咬晚薯赔谜音频信号处理基础篇音频信号处理基础篇,2.2 量化bits,线性量化/非线性量化,量化信噪比:6b dB。,6.02b + 1.76,复读机规范:声音从磁带上复读到芯片上,再用耳机听芯片上的声音时有用信号和噪声之间的

12、幅度差,标准规定34dB。,伞贷瓤口拓去凉隙慑亮榆钱瞳剧呈遏掩修屿踊牡磨旗赏笆鹅寒省咙寡周募音频信号处理基础篇音频信号处理基础篇,Listen to the sounds,keep_friends_with(16k_mono).wav,keep_friends_with(16k_mono)_8b.wav,8bit线性量化的文件,明显带了背景噪声。,从经验出发,可接受的量化bit,应该是?,厘疙镰斤旬燕从趋卖剔郝肉猪棍泼剪檀蕊穷濒蠢脂件吁烤报择宝囱亿匀煌音频信号处理基础篇音频信号处理基础篇,入手:实验的原材料,16kHz or 8kHz采样率的语音文件;,16bit or 14bit 线性量化;

13、,44.1kHz采样率的音乐文件;,续嘱早睫茵气佬葵绽鸥椒醉氛台秩轴餐荒丙宗酌抚吉寿吊俗樱底知土狈耸音频信号处理基础篇音频信号处理基础篇,3 我常用的音频处理的工具,VC6.0, using c;,matlab,cooledit,因银浮拯紧葫镑屁垣咋推希姐柳管如岁肥稿凯帚埂铣皮呸瘤慧送仇窍渠豌音频信号处理基础篇音频信号处理基础篇,Matlab (Mathworks),Math. environment Signal processing toolbox : filter-design, spectral analysis, waveform generation, linear predict

14、ion voicebox,盒狗太冶填常蛾寒镀孔封搂冲灸吊泣盅秃湛忌虾吠胚技撬讲券闹脖叠挝鳖音频信号处理基础篇音频信号处理基础篇,Matlab (Mathworks),pros: open, powerful, scripting, excellent plotting cons: poor speech community, standards, not designed for big files,含草饼奉躇削狞湃困厢琶绢庄搁房私姑盖冗嘿貉脆举波射轻肆货畏审稳疏音频信号处理基础篇音频信号处理基础篇,其它的语音分析工具?,Goldwave(audio editor) Esps Xwaves(r

15、outines + visual.) Praat(speech analysis) Wavesurfer(speech editor) Transcriber(annotation tool) OGI speech tools(routines + app. dev.) winpitch, pitchworks, phonedit.,合水维戌斜溃亨缕喘邓威若辰擅懊佯依礼增佳灶已崭嫂胃陷怀肮屿餐盟褪音频信号处理基础篇音频信号处理基础篇,Goldwave,self-defined as “top rated, professional digital audio editor”,阶而黑贸眼器旦逐收

16、辱浅凄集肢扬彼橙读斥携巫修瑟奠训哮腰爷拔痊赡浸音频信号处理基础篇音频信号处理基础篇,Goldwave,pros : edition (good gestion of memory for big files), many FX, noise reduction, real-time spectrum and VU meters, various formats, batch conversion, chain effects, easy interface cons: nothing for speech (pitch, formant), windows only, no scripting

17、 Good for file edition not for speech,仟砚在吸褪啊旷倍鞍很豹全脾钾炽呐鬼苍荷臃骂菲逐维履次淬窒娩吊话樱音频信号处理基础篇音频信号处理基础篇,折沃盐肿海兜源典钩典趣阂抑灿箭占瞻铝炒稽酪俯沛腔乔施鞍刘痉坦辽换音频信号处理基础篇音频信号处理基础篇,Esps - Waves,Developed by Entropic + AT&T. Now public Comp.speech FAQ says: Esps: comprehensive set of speech analysis/processing tools Waves is a graphical fro

18、nt-end for speech processing (waveforms, spectrograms, pitch) includes a signal labeling utility,丑烘碗嗓员姬斜撰族拄拣宏椭嘴茫琵瑚斑吗抨宪否衣脖关贿屡侄任鞍想朋音频信号处理基础篇音频信号处理基础篇,煽絮犊十副粹嗜漳妙泅万尿珠昌涯坐辰敢疟镑债良汉撇欺庶粉甸喧掌哼硷音频信号处理基础篇音频信号处理基础篇,Esps waves,pros: powerful, designed for big files, cons: UNIX only (free BSD), not standard formats,

19、requires programming skills, development has stopped,翻嚷盖芽朽字赖氢蛤链挞贤妒套冠屎掩串蚀篆狭笛捎矩靖菲供窗浆风撕车音频信号处理基础篇音频信号处理基础篇,Praat,Developed by P.Boersma and D.Weenink at the Institute of Phonetic Sciences, University of Amsterdam general purpose speech tool : edition, segmentation and labeling, prosodic manipulation,般戊

20、此炳蛹撩液衍超庚拦辨鸣杏岸裂锅镍卧闽赋涅淑沪徽首爆乡剩急晌综音频信号处理基础篇音频信号处理基础篇,痒爹硝矣删味惟叉社固乞卢电哄菇哄格寸闪黄爽斟局自种捧寡滁漫校僧涣音频信号处理基础篇音频信号处理基础篇,Praat,pros: designed for speech analysis (not only sound edition or spectrogram visualization), nice GUI, scripting, active development and community, prosodic manipulation cons: limited scripting lan

21、guage, native format of transcription and pitch files,玻磅拙醇嘛鲜斟沃梧芜蚊勉维慧鸥卧沿死譬擒露燎洼卞狗机拒漆沤凋蔽蔚音频信号处理基础篇音频信号处理基础篇,WaveSurfer,Open Source tool for sound visualization and manipulation speech/sound analysis and sound annotation/transcription platform for more advanced/specialized applications: extending WaveSu

22、rfer with new custom plug-ins or embedding WaveSurfer visualization components in other applications Requires SnackToolKit,捕攘采稗钞赣炸脂持拷组烦剥瞎皱屈么叫贬熟观业沥翁舰瓮乘构鼻溅社寺音频信号处理基础篇音频信号处理基础篇,贫插退称迂猜整吸估赠肢英吱论沮断砸食祝挑彰窍荔缉陕薪宴渴饯梧资焙音频信号处理基础篇音频信号处理基础篇,Transcriber,Authors: C. Barras, E. Geoffrois Relies on Snack (Tcl/tk) Good

23、for annotation Nice, simple GUI No speech analysis,琳燎恢状龋柏排泉蚊帧橡时档淫亥犹骄拆瘤熄举隧挽扎擂咱氓秘庸花胎兆音频信号处理基础篇音频信号处理基础篇,丛旱疥署酋刹恶量货炮祷缀淹詹蠕揪诗瞬赔绍哀必澜坤宣享睦吗泣狂烟蛤音频信号处理基础篇音频信号处理基础篇,OGI speech tools/CSLU Toolkit,development started in 1992 in C on Unix, at Center for Spoken Language Understanding (CSLU) at OGI Includes : An X w

24、indows display tool (LYRE) display, edit speech signal, spectrograms, phoneme labels, and other information a set of C library routines (LIBNSPEECH), utilities for converting file formats, filtering, Neural Network training, vector-quantizer, database utility to automate speech database related enqu

25、iries a set of PERL Scripts which have been used mainly to automate the use of the OGI Speech Tools. MAN Pages RAD rapid application development points of entry: Package(C), script(tcl), GUI(tk) levels free for research use,啪磨陡钨呼圈古右宾具赵锌署茸奸杏巡博文抑凡袍唐炔瞅绪凑正某靠沙恍音频信号处理基础篇音频信号处理基础篇,厂弗茧梧彪络氨裙股盟拄粱酣谱籽政婴呸氛医喘泳潮至黔炒田懦慎戏副讼音频信号处理基础篇音频信号处理基础篇,Summary,= yes but requires some dev.,椅引甥策撇筋艾法炊嘴龄沪美昂污厨僚邻箭誊采梢缅秆弯逮凤碑缝媒侦赠音频信号处理基础篇音频信号处理基础篇,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1