关于音乐的检索研究--基于旋律的哼唱音乐检索.pdf

资源描述

《关于音乐的检索研究--基于旋律的哼唱音乐检索.pdf》由会员分享，可在线阅读，更多相关《关于音乐的检索研究--基于旋律的哼唱音乐检索.pdf（64页珍藏版）》请在三一文库上搜索。

1、摘要摘要近年来，随着多媒体及网络技术的飞速发展，多媒体信息的数据量急剧的增多，人们已经不能满足于通过歌名、歌词、演唱者等信息进行的文本检索。特别是当人们只记得歌曲的某一旋律片段时，如何快速的通过音乐旋律来检索相关音乐就成为了现在急需要解决的问题。基于旋律的哼唱检索技术现已成为当今的研究热点之一，但直到现在它还没有被广泛的推广起来。这主要是因为，现在大多数的哼唱检索系统都是基于对M I D I 音频文件的检索，并且对哼唱者及哼唱环境有着严格的要求。在现实生活中，人们接触到的都是M P 3 格式、W M A 格式及W A V 格式的音乐文件，M I D I 格式的音乐文件少之又少

2、，因此如何对M P 3 等格式的音频文件进行哼唱检索，并且哼唱条件适用于普通大众，这就是本文解决的问题。针对上述要解决的问题，本文主要做了如下几方面的工作： 1 ) 通过对声音特征参数的分析，从中选出决定乐曲主旋律特征的参数。这一特征参数要满足：不管什么人、用什么样的方式演唱，只要音调相同，特征参数就要相同。 2 ) 由于本文要检索的是带有背景音乐的音频文件，因此本文通过对常见音符音高值算法的分析研究，提出了一种新的音符音高值算法。这种算法不但计算量小，同时也降低了背景音乐对检索工作造成的困扰。 3 ) 通过对音阶与音高间存在的特定关系的分析，在常见的旋律匹配算法的基础上，针对它

3、们各自的优缺点提出了一种改进的字符串匹配算法，进而提高了匹配检索的准确度。 4 ) 最后在上述分析的基础上，实现了在普通环境下对M P 3 、W A V 等不同格式的音频文件的哼唱检索，并对多种不同的情况进行了仿真实验比对及结果分析。关键词主旋律特征；基音提取；音符切分；旋律匹配河北科技大学硕士学位论文 A b s t r a c t I nr e c e n ty e a r s ，谢t ht h er a p i dd e v e l o p m e n to fm u l t i m e d i aa n dn e t w o r kt e c h n o l o g y , m

4、 u l t i m e d i ai n f o r m a t i o nd r a m a t i c a l l yi n c r e a s e dt h ea m o u n to fd a t a , i ti sn o te n o u g ht O p a s si n f o r m a t i o ns u c ha ss o n gn a m e ，t h el y r i c s ，t h es i n g e rf o rt e x tr e t r i e v a l E s p e c i a l l y w h e np e o p l eo n l yr e

5、 m e m b e ram e l o d i cf r a g m e n to fs o n g ，h o wq u i c k l yr e t r i e v er e l a t e d m u s i ct h r o u g ht h em u s i c o ft h e r ew a sa l lu r g e n tn e e dt or e s o l v et h ep r o b l e m H u m m i n gr e t r i e v a lm e l o d y b a s e dt e c h n o l o g yh a sn O Wb e c o

6、m eo n eo f t h eh o tt o p i c s o ft o d a y ，b u tu n t i ln o wi th a sn o tb e e nw i d e l yp r o m o t e d 砸Si Sm a i n l yb e c a u s e ，m o s to f t h eQ B Hs y s t e m sa r ec u r r e n t l yb a s e do nt h eM I D Ia u d i of i l er e t r i e v a l ，a n dh a ss t r i c t r e q u i r e m e

7、n t so nt h eh u m m i n ga n dh u m m i n ge n v i r o n m e n t I nr e a ll i f e ，p e o p l ea r e e x p o s e dt Oa r eM P 3f o r m a ta n dW A Vf o r m a t ，W M Af o r m a tm u s i cf i l e s ，v e r yl i t t l em u s i c i nM I D If o r m a tf i l e s ，S Oh o wt Oh u m m i n gt or e t r i e v e

8、t h ea u d i of i l ef o r m a t ss u c ha sM P 3 ， a n dh u m m i n gc o n d i t i o n ss h a l la p p l yt Ot h eg e n e r a lp u b l i c ，t h i si st h ep r o b l e mo ft h i s a r t i c l e P r o b l e m st ob es o l v e di nv i e wo ft h ea b o v e ，t h ea r t i c l ed ot h ef o l l o w i n gw

9、o r k ： 1 ) T h r o u g ht Ot h ea c o u s t i cf e a t u r ep a r a m e t e ra n a l y s i s ，c h o o s et h ed e c i s i o nk e y m e l o d yc h a r a c t e r i s t i cp a r a m e t e r s T h i sp a r a m e t e rt os a t i s f y ：n om a t t e rw h o s ew i t l lw h a t l 【i n do fm e a n st os i n

10、 g ，a sl o n ga st h es a m et o n e ，c h a r a c t e r i s t i cp a r a m e t e rw i l lb et h e S a m e 2 ) B e c a u s eo ft h i sa r t i c l ei st ob er e t r i e v e d 诵n lt h ea u d i of i l ef o rt h eb a c k g r o u n d m u s i c ，S Ot h i sa r t i c l et h r o u g ht h es t u d yo fc o m m

11、o nn o t e sp i t c ha l g o r i t h m ，p r o p o s e da d i f f e r e n tn o t ep i t c ha l g o r i t h m T h i sa l g o r i t h mn o to n l ys m a l la m o u n to fc o m p u t a t i o n ，b u t a l s or e d u c e st h ep r o b l e mo fb a c k g r o u n dm u s i ct or e t r i e v ew o r k 3 ) T h r

12、 o u g ht h ea n a l y s i so f t h ep r e c i s er e l a t i o n s h i pb e t w e e ns c a l e sa n dp i t c h , m e l o d y m a t c ha l g o r i t h mi nc o m m o no nt h e b a s i sf o rt h e i r r e s p e c t i v ea d v a n t a g e sa n d d i s a d v a n t a g e sp r e s e n t e da ni m p r o v

13、e da l g o r i t h mf o rs t r i n gm a t c h i n g ，t h e r e b yi m p r o v i n g t h em a t c h i n ga c c u r a c yo fr e t r i e v a l 4 ) F i n a l l y , o nt h eb a s i so ft h ea b o v ea n a l y s i s ，i m p l e m e n t e di nt h eg e n e r a lc o n t e x to f M P 3 ，W A Va n do t h e ra u

14、d i of i l e si nd i f f e r e n tf o r m a t sh u m m i n gr e t r i e v a la n ds i m u l a t i o n o fm a n yd i f f e r e n te x p e r i m e n t sa n dr e s u l t sa n a l y s i s K e yw o r d s C h a r a c t e r i s t i c so ft h em a i nt h e m e ；P i t c he x t r a c t i o n ；N o t es e g m e

15、 n t a t i o n ； M e l o d ym a t c h i n g I l 目录目录摘要I A b s t r a c t I I 第l 章绪论1 1 1 课题研究意义及应用前景1 1 2国内外研究概况。2 1 3 存在及要解决的问题4 1 4 课题研究方案5 1 5 论文的组织结构6 第2 章匹配参数的确定8 2 一声音的性质8 2 2 声音特征参数分析一8 2 2 1 能量9 2 2 2 共振峰9 2 2 3M F C C M e l 倒谱系数1 4 2 2 4 基音。l5 2 3 本章小结：1 9 第3 章主旋律特征提取前的工作2 0 3 1音频文件检索及格式转换

16、2 0 3 1 1 音频文件检索2 0 3 1 2 格式转换。2 l 3 2 哼唱输入模块的预处理2 l 3 2 1 滤波去噪2 2 3 2 2 加窗与分帧2 3 3 3 音乐数据模块的预处理。2 4 3 4 本章小结。2 4 第4 章主旋律特征提取及匹配算法2 5 4 1基音提取2 5 4 2 基音提取后处理2 5 4 2 1能量检测一2 5 4 2 2 过零率检测2 6 4 2 3 平滑处理2 6 1 1 1 河北科技大学硕士学位论文 4 3 音符切分2 8 4 4 音符音高算法研究2 9 4 4 1 常用算法2 9 4 4 2 本文提出的算法3 0 4 5 旋律匹配算法研究3 0 4 5

17、 1常用匹配算法3 0 4 5 2 改进字符串匹配算法3 1 4 6 实验及结果分析3 4 4 7 本章小结4 l 第5 章哼唱检索系统及实验4 2 5 1 哼唱检索系统4 2 5 1 1临时乐曲库4 2 5 1 2 反馈形式4 2 5 1 3 哼唱检索系统4 3 5 2 实验4 4 5 2 1同首歌的不同段落分别哼唱检索4 5 5 2 2 检索节奏快背景音乐大的歌曲。4 5 5 2 3同一首歌存在不同的格式版本4 7 5 2 4 同一首歌存在不同的演唱版本。4 8 5 2 5同一首歌用不同的哼唱形式检索。4 9 5 3 系统界面介绍5 0 5 4 本章小结5 2 结论5 3 参考文献5 5

18、攻读硕士学位期间所发表的学术论文一5 9 1 致谢6 0 I V 第1 章绪论第1 章绪论 1 1课题研究意义及应用前景随着现代信息技术，特别是多媒体技术和网络技术的快速发展，文字、图像、视频、音频等多媒体数据量急剧增多，人们能够更加方便快捷的接触到多媒体，此时人们面临的不是缺少多媒体数据，而是如何方便、自然、迅速、准确地找到自己想要的信息成为迫切需要解决的问题。通常的信息检索( i n f o r m a t i o nr e t r i e v a l ，I R ) 研究主要是基于文本对象的，现在已经发展的非常成熟，比如我们非常熟悉的谷歌( G o o g l e ) 、雅虎

19、( Y a h o o ) 和百度 ( B a i d u ) 等搜索引擎，它们只需用户提供一些所需的关键词，就可以检索到与之相关的信息文档。但是基于文本对象的信息检索对于多媒体信息的查询有着很大的局限性：传统的基于文本的检索方法，是通过人工对所需的信息进行描述以及分类。这样不但很难完整的用文本信息描述出多媒体数据丰富多变的内容，而且人工生成文本索引既费时又费力，同时也缺乏统一的描述标准。音乐检索技术【l 】最开始也是始于文本检索的，通过输入指定的歌曲名称、演唱者姓名及相关歌词等歌曲的文本信息进行检索。但是，人们有时嘴里哼唱着一首曲子，能记得歌曲的某些片段却不记得歌词以及演唱者等

20、歌曲的文本信息( 这是因为音乐的内容是人们记忆中的第一位信息，而附加的文字则为第二位信息：其次因为音乐旋律给人们留下的印象更加的深刻、更加的稳定，使人们不容易忘记) 。这种情况下如果采用文本搜索技术，就无法找到目标歌曲，而采用哼唱音乐检索技术就可以有效的解决上述问题。它利用音乐的音符、节奏、旋律、歌曲风格等语义级的特征或者声学层特征从数据库中检索歌曲，用户只需要使用麦克风将音乐片段“哼“ 给电脑“听“ ，电脑就可以根据哼唱的内容来查找目标音乐。自2 0 0 6 年以来，哼唱检索已经成为美国伊利诺斯大学负责主办的国际音乐信息检索评测比赛( M I R E X ) 的测评项目之一【

21、2 1 ，由此可见，“哼唱音乐检索“ 具有极其广泛的应用前景t 1 ) 在日常生活中，人们通过哼唱检索系统只需哼唱歌曲的- - 4 , 段就可以快速的从网上找到自己想要的音乐，这样即使不记得歌名、歌词等文本信息也一样可以实现音乐的检索。 2 ) 去K T V 唱歌是人们日常生活中非常常见的娱乐方式，在成千上万首歌曲中点歌或在不记得歌名的情况下点歌是既费时又费力的，如果使用哼唱检索系统，人们只需哼唱歌曲中的某一小片段，电脑就能快速的返回一个候选歌曲的列表，这样的点歌方式就简单方便多了。河北科技大学硕士学位论文 3 ) 手机已经在不知不觉中成为人们日常生活中不可缺少的通讯工具了，利用

22、手机进行哼唱点歌也将成为一种新的潮流。 4 ) 利用哼唱检索系统，音乐创造者可以通过哼唱比对知道自己的创作是否与众不同。 5 ) 利用哼唱检索系统，版权管理部门可以查出一首音乐是否存在盗版侵权。因此，基于旋律的哼唱音乐检索的研究，具有非常重要的实用价值，同时也是一个富有挑战性的研究领域。 1 2 国内外研究概况基于哼唱的音乐检索技术的研究工作是从上世纪九十年代中后期开始的1 3 ，4 】。近年来，它已经成为国内外研究的热点问题之一，引起了众多研究机构以及学者们的重视。对哼唱检索技术的研究最早始于G h i a s ，G h i a s 在1 9 9 5 年对单声部的M I D

23、I 音乐的哼唱检索技术进行了开创性的研究【5 J ，他使用字符来表示前音符与后音符之间的音调高低变化，用( U ，D ，S ) 来表示音符音调的高低起伏，其中用字符U 表示后一音符的音调比前一音符的音调高，用字符D 表示后一音符的音调比前一音符的音调低，用字符S 表示前后音符的音调一样，从而可以用字符串形式来表示旋律的轮廓。采用时域自相关的算法从哼唱输入中提取音高信息，然后使用字符串近似匹配的方法实现对单声部M I D I 音乐的哼唱检索。随后，哼唱检索技术引起了广大学者的关注，新的研究成果不断涌现。 M c N a b 等人第一次将哼唱检索技术引用到了互联网检索中，他们这一研究

24、对网络中的哼唱检索做了开创性研究【6 7 】，他们通过设置客户端采集查询信号，然后将采集到的数据传送到服务器端进行相关处理，以音符作为匹配的对象，采用D y n a m i c P r o g r a m m i n g 近似匹配符号串来进行哼唱检索的操作。音符分割是一个很容易出错的步骤，台湾清华大学的张智星【8 ，J 为了避开这一过程，采用通过时间上限来定音符，以1 1 6 秒为一音符来进行取旋律信息的提取，然后采用分级过滤的算法对提取出的音高进行处理，这样首先就能排除掉一部分候选音乐，然后采用D T W ( D y n a m i cT i m eW a r p i n g ，

25、动态时间归整) 算法进行精确的旋律特征匹配。这种方法防止了音符分割中出现的错误，降低了旋律匹配的错误率，但同时也加大了匹配的时间。要求用户必须从歌曲的开头开始哼唱的条件下，在存有3 0 0 0 首歌曲的音乐数据库中采用这种方法进行哼唱检索，检索结果的前三位命中率达到了6 8 。随后，多个学者通过用音高与音长的变化来描述乐曲的旋律，来进行哼唱检索研究，并取得了一定的研究成果。微软亚洲研究院的卢烈I I o l ，采用两次筛选的方法进行哼唱检索，首先通过提取乐曲信息的三元组( 音高轮廓、音高变化、音长) 作 2 第l 章绪论为旋律的特征向量，然后采用动态规划的方法对音高轮廓进行粗略

26、比对，这样就能首先排除掉一部分非常不匹配的音乐；之后再通过音高的变化和音长的精细比对，确定出最终的输出结果，在对存有1 0 0 0 首歌曲的音乐数据库进行的哼唱检索中，检索结果的前三位命中率达到了7 4 。T o mb r o n d s t c d 等I l I 】采用音长变化( 变长、变短、不变) 与音高变化( 升高、降低、不变) 来同时描述旋律特征，要求用户以“B a B a B a “ 的哼唱方式进行哼唱输入，并且要求整小段的哼唱，在存有3 9 9 2 5 首歌曲的乐曲数据库中检索，检索结果的前5 位命中率达到了7 5 6 。K o s u g i 等l l2 l 也提出了一

27、种同时考虑音高与音长的哼唱检索方法，该系统命名为S o u n dC o m p a s s ，要求用户必须在节拍器的伴奏下进行哼唱录入，在对存有1 0 0 0 0 首歌曲的乐曲数据库进行的检索中，检索结果的前5 位命中率达到了7 5 。中国科学院声学研究所的李明1 1 3 1 ，采用旋律因子位置关系投票机制，找到旋律可能出现的位置，在这些旋律定位的点上，采用音高轮廓的旋律匹配方法筛选出最有可能的旋律片段，然后采用D T W ( D y n a m i cT i m eW a r p i n g ，动态时间归整) 的旋律匹配方法进行精细的匹配，最后整合相似度找出相应的音乐。上海

28、交通大学的李扬、吴亚栋、刘宝龙提出了一种近似旋律匹配的线性对齐匹配法【1 4 l ( L i n e a rA l i g n m e n tM a t c h i n g ) ，简称为L A M 算法，该算法强调了音乐的节奏性，首先把两段旋律在时间轴上线性延展到相同长度，并在一定的误差范围内对齐接近的音符，考虑旋律的节奏的相似性，然后比较这两段等长音乐的每对音高的距离。最后，综合考虑节奏和音高两方面的相似程度，找出匹配的最大值。上海交通大学的刘宝龙【1 5 】还提出了一种以音高和音长为特征向量，基于隐马尔可夫模型的匹配方法。根据他们提供的实验数据，这两种算法的检索结果的前三位命中

29、率分别达到了9 0 3 与9 0 。浙江大学的冯雅中、庄越挺、潘云鹤将神经网络的概念引入到了哼唱检索中，提出了一种启发式的哼唱检索音乐的层次化方法I J6 J 。首先他们在对音乐库做了统计分析的基础上，总结了一些启发式的规则，帮助对哼唱输入进行基音检测、音符切分，哼唱输入信息表达为音高轮廓图和节奏，音乐库中的音乐按音乐的节奏类型分为不同的节奏区域，并从每首音乐中抽取旋律轮廓图和节奏信息，用递归神经网络记忆旋律轮廓，音乐库的索引是神经网络的权值矩阵，将哼唱输入与音乐库中的音乐匹配的过程就是计算神经网络的输出过程。据研究者提供的实验数据，检索结果的前十位的命中率达到了8 9 。

30、通过对哼唱检索国内外研究概况的了解发现，上述几种情况的前三位命中率有的都达到了9 0 ，但哼唱检索并没有被广泛的推广起来。这主要是因为绝大多数的哼唱检索系统给出的命中率大多都是在实验条件比较苛刻的条件下得出，这就说明命中率大小与实验环境和条件关系较大，故所得到的命中率数据难以说明问题。比 3 河北科技大学硕士学位论文 _ E 墨昌_ - 皇皇崔I I _ 鼻皇墨暑- 高皇= 高高皇= 皇= 罩= = 昌审皇葺昌= ，置罟皇_ - _ _ _ 昌昌审皇= I 皇- - 墨矗皇I 如：有的要求用户必须在一个节拍器伴奏下哼唱、有的要求在安静的室内( 录音棚) 进行哼唱、有的要求用户必须从乐曲的

31、开头哼唱等等，这样的条件显然太苛刻，不适合普通大众使用。百度原本预计在2 0 1 0 年下半年推出哼唱检索系统，但直至现在其入口位置还不明确，还一直在进行内部的调试，并没有被广泛的推广出来。 1 3 存在及要解决的问题虽然哼唱检索研究取得了一定的成果，但还存在着很多的问题： 1 ) 以往的哼唱检索大多数都是基于对M I D I 格式的检索，它只需对哼唱输入进行旋律特征提取，就可以与M I D I 格式中自带的旋律特征进行匹配运算。但随着现代技术的发展，在网络上以及我们现实生活中所听到的音乐绝大多数都是M P 3 、W A V 格式，M I D I 格式的音乐相对来说少之又少，这就要考

32、虑怎样对其他格式的音乐进行处理。 2 ) 音符分割是一个很容易出错的步骤，有的检索为了避免这一步没有进行音符分割，但准确的音符分割对旋律匹配有着非常重要的的影响。怎样才能把音符有效准确的分割出来。 3 ) 旋律特征提取的准确度。旋律特征提取是检索系统关键步骤之一，提高特征提取的准确度是有效提高系统检索性能的关键所在。 4 ) 起调高低及节奏快慢问题，这是哼唱检索中最常见也是最主要的问题。一首歌可以用不同的音调演唱，起调有时高有时低；同样一首歌可以用快节奏演唱也可以用慢节奏演唱。 5 ) 目前大多数的检索还仅限于本地检索，如何进行网络检索是日后研究发展的主要方向。 6 ) 性能评价

33、标准。评价匹配算法的优劣最直接的方法就是依据实验数据( 响应时间和前N 位的命中率) 。目前算法的设计者都是用自己构造的音乐数据库来测试算法，这样很难客观的反应算法的优劣，也无法客观的和其他的算法比较。希望建立一套全面音乐数据库以及配套的算法检测标准来全面的检验算法的性能。本文要解决上述的前三个问题，解决方案如下： 1 ) 首先要检测出M P 3 、R M 、W A V 、W M A 等格式的音频文件，通过格式转换转换成相同的格式； 2 ) 根据发音时间长短及基音频率值进行音符切分； 3 ) 通过对音频信号预处理中分帧参数数值的不断改变，综合考虑处理时间长短及相似度高低两方面选取最

34、为合适的参数数值，并通过对基音提取算法的研究比对，选取出准确度最高的提取算法； 4 ) 通过对旋律特征匹配算法的研究分析，提出改进后的匹配算法，来解决起调高低及节奏快慢的问题，并通过实验结果的比对选取出最为理想的特征提取及特征 4 ；I 本地磁盘；上提取音频文件t ：l J 格式转换l l 哼唱输入上土预处理l 返回列表 I 预处理2 上 1 J 基频提取I 2 基频提取I 3 土土音符划分l I J L 结 l 音符划分I豆 j 霜i 。 I 。出；一音高，F 列 L 音高序列旋律编码旋律编码肥俘匹匪r 图1 l系统的基本框图图1 1 是本文设计的系统框图。

35、系统分为三大模块，分别是哼唱输入模块、音乐数据模块及旋律匹配模块。哼唱输入模块的主要功能是处理哼唱录入的音频文件，提取出能代表其主旋律特征的音高序列；音乐数据模块的主要功能是检索并处理音频文件，提取出能代表它们各自主旋律特征的音高序列；旋律匹配模块的主要功能是把哼唱输入模块提取出的音高序列与音乐数据模块中提取出的音高序列进行匹配运算，得出一相似度值。其中预处理l 模块中要对信号进行滤波去噪、加窗分帧处理，预处理2 模块中只对信号进行加窗分帧处理。哼唱输入模块与音乐数据模块中加窗分帧、基音提取、音符划分、旋律编码都采用相同的处理方法及参数设置。 5 II 音乐敷据模块一哼嚼输入

36、模块 - 河北科技大学硕士学位论文相应的整个系统的工作过程应主要分为六大步来完成( 其中阈值l 为设定的一个相似度值，阈值2 为最终结果的输出个数，K 值为相似度大于阈值1 的个数，系统开始运行时K 值为零) ：第一步：进行哼唱录入；第二步：对哼唱输入进行相应的处理，得出哼唱输入的一音高序列：第三步：音乐数据模块开始音频文件检索( 与第二步同时进行) ，并把检索到的音频文件进行相应的处理，得出一音高序列；第四步：两音高序列进行匹配运算，得出一相似度值；第五步：判断此相似度值是否大于系统设置的阈值l 。如果大于，K 值加l ，并把这首歌曲记录到返回列表中；否则，K 值不变；

37、第六步：判断K 值是否等于设定的阈值2 。如果是，直接输出返回列表，系统检索结束；否则，返回第三步继续进行检索，直至K 值等于设定的阈值2 或第三步检索结束。为了实现上述的六大步骤，本文具体的研究分析过程主要为以下几个方面： 1 ) 对声音特征参数进行分析比对，从中选出决定主旋律特征的参数，进而为后续的主旋律特征的提取及匹配做好准备。 2 ) 在本地磁盘进行了基于W A V 、W M A 、M P 3 格式的音频文件检索，按一定的要求对检索到的音频文件进行筛选，并通过格式转换器把筛选后的音频文件转换成本文所需的W A V 格式。 3 ) 对图1 1 中的预处理l 及预处理2 进行具

38、体的方法确定。 4 ) 对常见音符音高值算法即归一化处理进行分析研究，并综合它们各个算法的优缺点，提出一种新的音符音高值算法。 5 ) 在常见的旋律匹配算法的基础上，针对他们各自的优缺点对字符串匹配算法进行改进，进而提高匹配检索的准确度。 6 ) 通过实验来选取合适的阈值l ，但实验结果显示，无法设定一个具体的匹配相似度阈值。因此不能通过比较阈值1 的大小来进行判定，只能与检索到的音频文件进行逐一的匹配，全部匹配完才能输出一个最终的匹配结果。 7 ) 为了实验的方便性，在前几步的基础上，对第二步格式转后的音频文件进行处理，组建临时乐曲库，并对整个哼唱检索系统进行了实验。 1 5 论文

39、的组织结构根据上述研究方案的确定，本论文的章节安排如下：第l 章：绪论。首先介绍了课题的研究意义、应用前景及国内外的研究概况：其次分析了现阶段哼唱检索存在的问题及本课题要解决的几个问题，并提出了解决方案；最后简要说明了课题的研究方案及论文的组织结构。 6 第1 章绪论第2 章：特征参数确定。通过对几种常用声音信号的特征参数进行实验比对，选取出适合本课题的特征参数。第3 章：主旋律特征提取前的工作。首先详细分析了音乐数据处理模块在预处理之前的音频文件检索及格式转换工作，其次详细介绍了具体的声音信号预处理方法。第4 章：主旋律特征提取及匹配算法研究。这章是本论文的核心章节，其中

40、包含了本课题的两大核心算法，即音符音高值算法及旋律匹配算法。通过对几种常用算法的分析研究，本文提出了新的音符音高值算法及旋律匹配算法。在对声音信号进行基音周期估计及音符切分处理的基础上，把几种音符音高值算法与旋律匹配算法分别进行交替组合，通过对几种组合的实验结果的比对选取出最为合适的算法组合。第5 章：哼唱检索系统及实验。介绍了具体的临时乐曲库的组建方法及所实现的哼唱检索系统，并在几种不同的情况下进行了哼唱检索实验。 7 河北科技大学硕士学位论文第2 章匹配参数的确定声音信号的感知过程与人耳的听觉系统是密不可分的。正常人可以依据听到声音的不同来区分出是什么人在说话、说的什么

41、内容以及在用什么语调说等信息，但计算机本身并不具备这种特性，这就需要人们把声音信号分析转换成其本质特征的参数来进行区分，这个特征参数要满足不管什么人唱，只要音调相同，特征参数要相同的要求。具体的要求如下： 1 ) 不同的人、相同的谱、相同的词，特征参数要相同。 2 ) 相同的人、不同的谱、相同的词，特征参数要不同； 3 ) 相同的人、相同的谱、不同的词，特征参数要相同； 4 ) 相同的人、不同节奏、相同谱、相同的词，特征参数要相同； 5 ) 相同的人、相同的谱、相同的词、不同的音量，特征参数要相同。 2 1 声音的性质从物理角度及发声原理来分析，声音的性质可由决定声音效果的四个要素来描

42、述，即音高、音量、音长及音色【瑚。音高( P i t c h ) 主要由物体振动的频率决定；音量主要由物体振动的振幅大小来决定；音长主要由物体振动持续的时间长短来决定：音色( T i m b r e ) 是指声音的感觉特性，主要由泛音的多少及泛音间的相对强度决定。上述四种性质中，前三种性质里提到的“振动“ 主要是指基音的振动。 2 2 声音特征参数分析在乐音体系中，并不是所有的音都能作为乐音来使用，通常把有着固定音高的音叫做乐音，把音高不固定或音高不明显的音叫做噪音。根据对声音性质的分析及对乐音的理解，本文通过分析几种常见的声音特征参数曲线：能量曲线、共振峰曲线、M F C

43、C 曲线、基音曲线，来选取符合要求的特征参数。每个参数分别做下面的五个实验：实验一：两个人分别用“F 4 一调，在相同的时间内来哼唱“爱“ 这个词：实验二：哼唱离岛中的一句“距离很好”，把这段音频记为A ；在节奏不变的前提下，在A 的基础上把音调整体升4 个半音，这段音频记为B ；同样在节奏不变的前提下，在A 的基础上把音调整体降5 个半音，这段音频记为C ：实验三：同一个人，分别用“D 4 一调及相同的节奏来哼唱“爱一与“狂靠：实验四：哼唱海阔天空中的一句“海阔天空“ ，把这段音频记为A ：在音调不变的前提下，在A 的基础上把节奏整体加快2 0 ，这段音频记为B ；同样在音

44、 8 第2 章匹配参数的确定调不变的前提下，在A 的基础上把节奏整体减慢2 0 ，这段音频记为C 实验五：哼唱海阔天空中的一句“海阔天空“ ，把这段音频记为A ；在其他条件都不变的前提下，在A 的基础上把音量调高2 0 ，这段音频记为B ；在其他条件都不变的前提下，在A 的基础上把音量降低2 0 ，这段音频记为C 。 2 2 1能量能量主要反映的是声音音量这一性质。理论上，它只与声音的大小即声源振动的幅度有关( 振动幅度越大音量越大) ，与声音的音调高低无关。图2 1 是由实验一得出的能量曲线，其中横坐标表示时间( s ) ，纵坐标表示能量值( d B ) 。通过对图2 1 中a ) 、b ) 两个分图的比对可以看出：不同的两个人，用相同的音调、演唱相同

展开阅读全文