串声消除中自适应滤波与快速解卷积算法.doc

资源描述

《串声消除中自适应滤波与快速解卷积算法.doc》由会员分享，可在线阅读，更多相关《串声消除中自适应滤波与快速解卷积算法.doc（9页珍藏版）》请在三一文库上搜索。

1、精品论文串声消除中自适应滤波与快速解卷积算法的综合比较李丹，付中华5（西北工业大学计算机学院，陕西省语音与图像信息处理重点实验室，西安 710129）摘要：串声消除是虚拟声重放中的重要问题，其目的在于消除交叉串声，得到正确的双耳声信号再现原始信号的空间听觉效果。在现存众多的串声消除算法中，时域自适应滤波算法及频域快速解卷算法应用最为广泛，但是到目前为止还未有对两种算法进行全面比较的研究。在本文中，将选取最具代表性的 Least Mean Square (LMS)及 Fast Deconvolution(FD)算法从串10声分离度、音色畸变及对 HRTF 测量误差的敏感性三个不同方面，在

2、实际重放环境中通过客观及主观评价实验对两种算法进行比较。实验结果将为实际重放条件下串声消除算法选择提供重要参考，同时也揭示了仅仅通过仿真实验来评判串声消除算法性能的不足。关键词：串声消除；时域自适应滤波算法；频域快速解卷积算法中图分类号：TN91215Comprehensive Comparison of the Least Mean Square Algorithm and the Fast Deconvolution Algorithm for Crosstalk CancellationLI Dan, FU Zhonghua20(School of Computer Science,

3、Northwestern Polytechnical University, Shaanxi Provincial KeyLaboratory of Speech and Image Information Processing, Xian 710129)Abstract: Crosstalk cancellation is an important issue in 3D audio rendering, which aims atreproduce binaural signals at listeners ears using dual or multiple loudspeakers.

4、 Among many existing algorithms, the adaptive filtering in time domain and the direct deconvolution in25frequency domain have been the predominant ones. Though they have been widely used, these two methods have never been compared comprehensively as we known. In this paper, wethoroughly examine thei

5、r performances from different aspects, including channel separation, timbre distortion, and sensitivity to the HRTF measurement errors. Both objective and subjective evaluations are implemented in a practical environment. The experimental results may provide a30more comprehensive reference for metho

6、d choice in practical applications. Additionally, thelimitation of using simulation to evaluate the performance of crosstalk cancellation is highlighted.Keywords: Crosstalk Cancellation; LMS; FD0引言35虚拟声（Virtual Acoustics），也称三维音频（3D Audio）、双耳音频（Binaural Audio）等，它根据人耳对声音信号的感知特点，使用信号处理方法对声源到两耳之间的传递函数

7、进行模拟，以重建复杂三维虚拟空间声场1。人工头捡拾或双耳声合成的方法均可得到虚拟声信号。双耳声信号是适合耳机重放的，如果将双耳声信号馈给布置在倾听者前方的一对扬声器重放，就会引入交叉串声（Crosstalk）, 即左扬声器的声音有很大一部分被右耳听到，右40扬声器的声音有很大一部分被左耳听到。交叉串声会导致声音空间信息畸变，同时也会引起重放音色的改变。基金项目：国家自然自然基金资助项目（60901077）；高等学校博士学科点专项科研基金资助课题（20096102120044）作者简介：李丹，（1987-），女，研究生，研究生方向为虚拟声合成及重放。通信联系人：付中华，（1977-），男

8、，副教授，研究方向语音信号处理，数字音频信号处理，声纹识别及语音识别等。E-mail: - 2 -Bauer 在 1961 年率先提出串声消除的概念2，然后由 Schroeder 和 Atal 应用到实际中，此后又出现了许多方法。串声消除是一个典型的系统求逆问题，可以用直接方法与自适应方法实现1。直接方法假设扬声器到人耳的传递函数已知，在时域与频域均可求解，时域45的代表算法有最小二乘（LS）方法，维纳滤波方法，最大误差最小化方法等，频域的代表算法为频域快速解卷积算法。自适应方法在人耳处放置 2 个微型麦克风，采集到达人耳的声音以作为自适应滤波器的反馈信号，并根据扬声器至人耳的传输函

9、数的变化自适应地更新串声消除滤波器的系数，代表算法有 LMS 算法，多误差 Filtered-x LMS 算法，频域 LMS算法，频域多误差 Filtered-x LMS 算法。50在众多串声消除算法中，时域自适应滤波与频域快速解卷算法应用最为广泛，但是到目前为止却没有对它们综合比较的研究。本文将选取各自最具代表性的 LMS 算法3与 FD 算法45从串声分离度、对 HRTF 测量误差的敏感性及对重放音色的影响三个方面，在实际重放环境中通过客观及主观评价实验进行综合比较，为实际运用中串声消除算法的选择提供相关的参考依据。551问题及算法原理简介1.1串声消除问题双耳声信号经过双扬声器构

10、成的电声传递网络C 到达两耳，Ci, j 为扬声器到双耳的头相关传输函数（Head-Related Transfer Function,HRTF），其中C12 和 C21 信号为交叉串声。交叉串声会导致声音空间信息畸变，同时也会引起重放音色的改变。为了完全消除交叉串声，60使扬声器重放的双耳声压与耳机重放时完全相同，得到正确的双耳声信号及相应的空间听觉效果，因此需要设计串声消除网络 H ， Hi , j 为串声消除滤波器，i, j = 1,2 。在图 1 中，双12耳声信号 X = X , X T，经过扬声器播放后，人耳最终接收到的信号为Y = Y , Y T ，电声传递网络C 和串声消除网

11、络 H 分别为C11 C12 C = C21 C22 H11 H12 H = H 21 H 22 12(1)65理想情况下，串声消除就是使人耳接收到的信号（加上系统延迟）与双耳声信号相同，即Y = CHX于是有CH = I ,其中 I 是单位矩阵，对该式求解即可得到串声消除矩阵 H 1。H 22 (z ) X2H12 (z ) H 21 (z ) H11 (z ) X1C22 (z )C12 (z )C21 (z )C11 (z )Y2 Y1图 1 虚拟声扬声器重放系统框图Fig. 1 Block diagram of loudspeakers-based virtual sound rend

12、ering system701.2LMS 算法简介以双扬声器重放为例，重放的双耳声压可由下式表示为，其中C11 , C12 , C21 , C22 为扬声器到双耳的传输函数, H 矩阵即为待求串声消除矩阵。- 9 - Y1( z ) C1 1 ( z )C1 2 ( z ) H 1 1( z )H 1 2 ( z ) X 1 ( z ) = (2) Y2 ( z ) C 2 1 ( z )C 2 2( z )H 2 1( z )H 2 2( z )X 2 ( z )75重新整理得到如下结果，最右边的 H 矩阵即为待求串声消除矩阵H11(z) Y1(z)X1(z)C11(z)=X1(z)C12(

13、z)X2(z)C11(z)X2(z)C12(z)H21(z) (3)Y2(z) X1(z)C21(z) X1(z)C22(z)X2(z)C21(z) X2(z)C22(z) H12(z) H22(z) 图 2 基于 LMS 算法的串声消除框图Fig. 2 A crosstalk cancellation block diagram using LMS80将 X 与C 的乘积记为 R ，转换到时域如图 2 所示，得到如下结果，i, l, m = 1, 2 ：J 1rilm ( n ) = clm ( j )xi ( n j )j = 0人耳处实际接收到的信号为 yi (n) ，由公式(5)得到y

14、i (n) = r1i1 (n) h11 (n) + r1i 2 (n) * h21 (n)+ r2 i1 (n) * h12 (n) + r2 i 2 (n) * h22 (n)85LMS 算法的核心是使(6)所示均方误差达到最小，利用梯度下降法进行求解J = Ee(n)2 = E(d (n) y(n)2 误差信号 e(n) ，理想目标信号 d (n) ，实际双耳信号 y(n) 分别定义如公式(7)所示(4)(5) (6)e1 (n)d1 (n)y1 (n) e(n) = , d (n) = , y(n) = e2 (n) d2 (n) y2 (n)(7)1.3FD 算法简介90为了解决扬声

15、器到人耳的传输函数 C 在某些频率上接近奇异因而导致串声消除矩阵元的幅度非常大的问题，Kirkeby 等提出频域快速解卷积算法6。在该算法中，串声消除矩阵 H是按照代价函数 J = E + V ( f ) 最小的条件设计的，其中 E = Y X2 + Y X2 是双耳声压1122的平方误差和。V ( f ) 是频率计权函数，如果需要在某些频率限制串声消除矩阵内的函数的幅度，则在这些频率上V ( f ) 取较大值。 0 是正则化参数，决定频率计权函数的权重。95当从 0 增加到无穷大，解逐渐从仅使 E 最小变到仅使V 最小。通过频率相关的正则化能在很大程度上控制最优串消的时域响应。将正则化参

16、数分解为两部分：增益系数和形状系数 B( z) 。由 J = E + V ( f ) 的 J 最小的条件，可以得到串声消除矩阵 H 的近似解为H z = CT1z1 C z + B(z1)T B(z) CTz1zm(8)( ) () ( ) ()100其中 z m 实现 m 个点的系统延迟，保证系统因果性，特别的，当 B = I ( 2 2 单位矩阵)时相当于用馈给双扬声器的信号总功率谱作为频率计权函数，则串声消除函数记为H z = C Tz 1 C z1+ I CTz 1z m(9)( )2实验与分析2.1数据测量及分析() ( ) ()105110115HRTF 在串声消除系统中起着非常

17、重要的作用，不匹配的 HRTF 不仅会使重放声像发生明显畸变还会影响重放音色。本文主要目的为比较两个算法在串声分离度、对 HRTF 测量误差及对音色的影响三个方面的表现，为了排除其他因素的影响，我们在没有头动与 HRTF 失配问题的环境下进行比较。测量设备为 BHead210 人工头、Genelec6010A 扬声器两支及 MPA416 微型麦克风两支。实验地点为陕西省语音与图像信息处理重点实验室沉浸语音室，房间大小为 6.3m*4.6m*3.3m，本底噪声为 25db，混响时间t60 = 0.16s ，满足 HRTF 测量环境要求。测量摆放如图 3 所示，BHead210 人工头位于半径为

18、 1.5m 的圆的圆中心，两扬声器对称地摆放于同一水平面，与人工头半夹角为30。人工头耳廓与扬声器等高，距离地面1.2m。我们在同一位置上进行十次重复测量，目的在于比较 HRTF 测量误差对于串声消除效果的影响。图 3 BHead210 与 HRTF 测量摆放Fig. 3 BHead210 dummy head and HRTF measurement setup120以右边扬声器到右耳的传输函数C22 为例，图 4 代表十次测量的平均值，这个平均值通过先将 10 组数据进行升采样，再自相关对齐，然后再取平均值，最后降采样得到。图 5 为十次测量数据与均值之间的误差，由图可见 10 组数据

19、与均值的测量误差均在 2dB 之内，均为有效数据。同时由图 5 可以看出即使在同一环境下多次测量 HRTF 也存在不可避免的误差，所以在以往的研究中很多研究者仅仅依靠同一方位上的一组 HRTF 数据仿真进行串声消除效果评估是不准确的。20MEAN HRTF(dB)100-10-20-3020 40 60 80 100 120图 4 C22 的十次平均值125Fig. 4 mean of2C2210ERROR(dB)-1-2 20 40 60 80 100120图 5 十次的测量误差Fig. 5 measurement error1302.2串声分离度比较2.2.1仿真比较结果在以往的研究中

20、，串声分离度是用来衡量串声消除性能的重要指标，应用也最为广泛，其定义为在实际倾听者的耳道声压中，同侧信号与异侧信号的能量之比，以左耳串声分离度为例，其计算公式如公式(10)所示7：135J = E 20 logC11 H11 + C12 H 21( dB )(10)L10C21 H11 + C22 H 21 140145其中 E 代表基于全频带的数学期望，在最理想情况下 X 1 在倾听者左耳处被完全重建，此时C11H11 + C12 H 21 = 1 ,右耳接收到的信号为零，即C21H11 + C22 H 21 = 0 ，此时左耳串声分离度趋向于无穷大，由此可知串声分离度越大表示串声消除效果

21、越好。这里需要特别指出的是用于计算串声消除矩阵的传输函数矩阵与用于计算串声消除分离度的传输函数矩阵不能是同一个，因为即使在没有头动和没有不匹配 HRTF 的理想情况下，HRTF 的测量误差也是不可避免的。在研究中我们发现很多研究者忽略了这个问题，特别是选用每个方向上只有一组 HRTF 数据的公开 HRTF 数据库时。在本章的对比实验中，选用上次测量的平均值用于串声消除矩阵的计算，用原始的十组数据分别计算每次对应的串声分离度。左右耳仿真得到的串声分离度汇总如下：150表 1 两种算法对应的串声分离度（仿真）Tab. 1 channel separation using the two m

22、ethodsmethodLMSFDfactors (dB)J LJ RJ LJ L1234567891018.76098.896116.35067.176718.65149.727413.51077.24027.052818.883721.815313.197519.613710.664721.977514.280116.856410.637910.561921.006219.98759.136815.98687.099919.11479.879313.24177.17966.807219.713724.323513.870420.824911.047923.917214.925717.424

23、011.098811.158323.5805E12.625116.061112.814717.217126.648122.885330.180730.8441注： E 代表全频带的串声分离度的数学期望，代表方差155160165实验结果表明左耳的串声分离度略低于右耳，这可能是由于 BHead210 人工头头部与耳廓的不对称性造成的（参见表 2）。同时 FD 算法对应的串声分离度总是高于对应的 LMS 算法 12.5dB，这说明在仿真实验中 FD 算法在矩阵求逆的准确性方面高于 LMS 算法的。最重要的是从表 1 中可以看出，两种算法得到的 10 组数据之间的波动性很大，由此可知仅由同一方向

24、上的一组数据衡量串声消除效果是不恰当的。LMS 算法对应的小于 FD 算法对应的说明 LMS 算法对 HRTF 测量误差具有更强的鲁棒性。2.2.2真实环境下比较结果实验环境同实验用 HRTF 测量环境，重放信号通过扬声器（同 HRTF 测量用扬声器）用 BHead210 人工头进行捡拾。所有的摆放与 HRTF 测量时相同。我们采用白噪声为原始重放信号，假设只有左或右耳单路信号存在，经过串声消除矩阵 H 后馈给双扬声器进行重放，由人工头做左右耳信号的捡拾。理想情况下，只重放左（右）声道信号时，仅在人工头的左（右）耳处能捡拾到信号，而在右（左）处信号为零。在实际环境中的串声分离度见表

25、 2。表 2 两种算法对应的串声分离度（实际环境）Tab. 2 channel separation using the two methodsdBno CCSLMSFDJ L7.329.659.17J R10.7113.2012.86170175很明显，实际环境中的串声分离度远低于仿真实验中的串声分离度。这可能是由于HRTF 数据的截断及房间的反射造成的。同时可以看出在实际重放环境中 LMS 对应的左、右串声分离度均高于 FD 对应的串声分离度，这也证明了仿真实验中 LMS 算法对 HRTF 测量误差具有更强鲁棒性的结论。结合仿真实验与实际环境重放实验的实验结果我们可以得出一个结论：仅

26、仅通过串声分离度的大小来衡量串声消除算法的性能是不恰当的，而这一点在以往的串声消除算法的研究中往往被忽略了。2.3 音色影响比较2.3.1客观分析比较结果精品论文Magnitude (dB)10 LMS FD0-5-10-15-20110 0.1 0.2 0. 3 0.4 0.5 0.6 0.7 0.80.9 1Normalized Frequency ( rad/sample)180图 6 H 频响曲线11Fig. 6 Magnitude response of the inverse filter H100Magnitude (dB)-10FD LMS-20-300 0.1 0.2 0.

27、3 0.4 0.5 0.6 0.7 0.8 0.9 1Normalized Frequency ( rad/sample)21图 7H 频响曲线21Fig. 7 Magnitude response of the inverse filter HFD LMS100Magnitude (dB)-10-20-30185-400 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.91Normalized Frequency ( rad/sample)12图 8H 频响曲线12Fig. 8 Magnitude response of the inverse filter HFD LM

28、S20100Magnitude (dB)-10-20220 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1Normalized Frequency ( rad/sample)22图 9H 频响曲线190Fig. 9 Magnitude response of the inverse filter H195200图 6图 9 为用 LMS 算法与 FD 算法求出的四个串声消除滤波器对应的频响曲线。很明显，FD 算法得到的四个串声消除滤波器能对低频部分起到提升作用，这对品质一般的扬声器低频起补偿作用。在中频部分，除去 FD 算法导致的离散的波峰之外，两算法的频响曲线

29、基本一致，这些波峰会对重放音色造成一定程度的影响。为了得到更加平直的频响曲线，可以进一步反复试验找到相对最佳的增益系数与形状系数 B( z) ，进行频率相关的正则化。2.3.2主观测听比较结果我们通过主观测听实验来对两种算法对重放音色造成的影响进行评估。原始信号为语音信号与音乐信号，分别同时经过 LMS 与 FD 串声消除网络后由双扬声器进行重放，具体摆放与 HRTF 测量一致。20 名经过听力训练的倾听者对处理后的音频与原始音频文件的音色一致性进行 MOS(Mean Opinion Score)打分，评分范围是 1 到 5 分，分数越高音色一致性越好，两算法对应的打分情况如图 10

30、与图 11 所示：精品论文4.54voice congruity MOS3.532052.5LMSFast Deconvolution图 10 语音信号音色一致性得分Fig. 10 Voice congruity MOS of the two methodsmusic congruity MOS4.543.53LMSFast Deconvolution图 11 音乐信号音色一致性得分210215220225230235Fig. 11 Music congruity MOS of the two methods由上图可以看出，LMS 算法在语音信号与音乐信号音色一致性上 MOS 得分均高于 F

31、D 算法，换言之相较 LMS 算法而言 FD 算法将会对虚拟声重放音色造成更为明显的影响。因此可知对扬声器到双耳的传输函数的准确求逆并不能得到更好的主观测听结果，实际运用中应该只对其主要部分进行求逆即可，这样可避免对重放音色的染色。同时，为了得到较好的重放效果有必要在扬声器重放中引入音色均衡处理。3结论本文对串声消除中常用的 LMS 算法与 FD 算法在理想（没有头动及不匹配 HRTF 问题）且真实条件下，从串声分离度、对 HRTF 测量误差敏感性及对重放音色影响三个方面进行了主观以及客观评测。实验结果显示仅在仿真条件下 FD 算法串声分离度高于 LMS 算法，真实重放条件下情况相

32、反，因此仅仅通过仿真实验的串声分离度来衡量串声消除算法的性能，尤其是每个方向上仅有一对 HRTF 可用时是不妥当的。同时，实验显示 LMS 算法对于真实环境中的扰动因素具有更强的鲁棒性，且对重放音色的影响小于 FD 算法。本文所得结论对真实环境下串声消除有重要的参考价值，在今后的工作中我们将进一步加入头动跟踪以及音色均衡进行更深入的研究。参考文献 (References)1 殷福亮，汪林，陈喆.三维音频技术综述J.通信学报，2011,32（2）：130-138.2 BAUER B B. Stereophonic earphones and binaural loudspeakersJ.

33、Journal of Audio Engineering Society,1961, 9(1):148-151.3 P.A.Nelson,H.Hamada,S.J.Elliott.Adaptive inverse filters for stereophonic sound reproductionA.IEEE Trans. Signal Process,vol.40, pp.July 1992,1621-1632.4 O. Kirkeby, P.A. Nelson, H. Hamada, and F. OrdunaBustamante.Fast deconvolution of multic

34、hannel systems using regularizationA.IEEE Trans. Speech and Audio Processing,6(2),1998,189-194.5 O. Kirkeby,P.A. Nelson,P. Rubak，and A. Farina.Design of cross-talk cancellation networks by using fastdeconvolutionA.AES 106th Convention,Munich, Germany:4916.6 谢菠荪.头相关传输函数与虚拟听觉M.北京：国防工业出版社，2007.7 Myung-Suk Song,Cha Zhang,and Hong-Goo Kang.An Interactive 3D Audio System withLoudspeakersA.IEEE Trans.Multimedia, October 2011,vol.13, pp. 844-855.

展开阅读全文