快速傅氏变换和离散小波变换.doc

资源描述

《快速傅氏变换和离散小波变换.doc》由会员分享，可在线阅读，更多相关《快速傅氏变换和离散小波变换.doc（13页珍藏版）》请在三一文库上搜索。

1、1. 10 快速傅氏变换和离散小波变换长期以来，快速傅氏变换(Fast Fourier Transform)和离散小波变换(Discrete Wavelet Transform)在数字信号处理、石油勘探、地震预报、医学断层诊断、编码理论、量子物理及概率论等领域中都得到了广泛的应用。各种快速傅氏变换(FFT)和离散小波变换(DWT)算法不断出现，成为数值代数方面最活跃的一个研究领域，而其意义远远超过了算法研究的范围，进而为诸多科技领域的研究打开了一个崭新的局面。本章分别对FFT和DWT的基本算法作了简单介绍，若需在此方面做进一步研究，可参考文献2。 1.1 快速傅里叶变换FFT离散傅里叶变换是2

2、0世纪60年代是计算复杂性研究的主要里程碑之一，1965年Cooley和Tukey所研究的计算离散傅里叶变换(Discrete Fourier Test)的快速傅氏变换(FFT)将计算量从(n2)下降至(nlogn)，推进了FFT更深层、更广法的研究与应用。FFT算法有很多版本，但大体上可分为两类：迭代法和递归法，本节仅讨论迭代法，递归法可参见文献1、2。1.1.1 串行FFT迭代算法假定a0,a1, ,an-1 为一个有限长的输入序列，b0, b1, ,bn-1为离散傅里叶变换的结果序列，则有：，其中 W，实际上，上式可写成矩阵W和向量a的乘积形式：一般的n阶矩阵和n维向量相乘，计算时间复杂

3、度为n2，但由于W是一种特殊矩阵，故可以降低计算量。FFT的计算流图如图 22.1所示，其串行算法如下：算法22.1 单处理器上的FFT迭代算法输入：a=(a0,a1, ,an-1)输出：b=(b0,b1, ,bn-1)Begin(1)for k=0 to n-1 do ck=akend for(2)for h=logn-1 downto 0 do (2.1) p=2h(2.2) q=n/p(2.3) z=wq/2(2.4) for k=0 to n-1 doif (k mod p=k mod2p) then (i)ck = ck + ck +p(ii)ck +p=( ck - ck +p)z

4、 k modp /* ck不用(i)计算的新值 */end ifend forend for(3)for k=1 to n-1 do br(k) = ck /* r(k)为k的位反 */end forEnd图 1.1 n=4时的FFT蝶式变换图显然, FFT算法的计算复杂度为O(nlogn)。1.1.2 并行FFT算法设P为处理器的个数，一种并行FFT实现时是将n维向量a划分成p个连续的m维子向量，这里，第i个子向量中下标为im, , (i+1)m-1，其元素被分配至第i号处理器（i=0,1, , p-1）。由图 1.1可以看到，FFT算法由logn步构成，依次以2logn-1、2logn-2

5、、2、1为下标跨度做蝶式计算，我们称下标跨度为2h的计算为第h步（h=logn-1, logn-2, , 1, 0）。并行计算可分两阶段执行：第一阶段，第logn-1步至第logm步，由于下标跨度h m，各处理器之间需要通信；第二阶段，第logm-1步至第0步各处理器之间不需要通信。具体并行算法框架描述如下：算法22.2 FFT并行算法输入：a=(a0,a1, ,an-1)输出：b=(b0,b1, ,bn-1)Begin对所有处理器my_rank(my_rank=0, p-1)同时执行如下的算法:(1)for h=logp-1 downto 0 do /* 第一阶段，第logn-1步至第log

6、m步各处理器之间需要通信*/(1.1) t=2i, ,l=2(i+logm) ,q=n/l , z=wq/2 , j= j+1 ,v=2j /*开始j=0*/(1.2)if (my_rank mod t)=(my_rank mod 2t) then /*本处理器的数据作为变换的前项数据*/(i) tt= my_rank+p/v(ii)接收由tt 号处理器发来的数据块，并将接收的数据块存于cmy_rank*m+n/v到cmy_rank*m+n/v+m之中(iii)for k=0 to m-1 do ck=ck+ck+n/vck+n/v=( ck- ck+n/v)*z(my_rank*m+k) m

7、od lend for(iv)将存于cmy_rank*m+n/v到cmy_rank*m+n/v+m之中的数据块发送到tt 号处理器else /*本处理器的数据作为变换的后项数据*/(v)将存于之中的数据块发送到my_rank-p/v 号处理器(vi)接收由my_rank-p/v 号处理器发来的数据块存于c中end if end for(2)for i=logm-1 downto 0 do /*第二阶段，第logm-1步至第0步各处理器之间不需要通信*/(2.1) l=2i ,q=n/l , z=wq/2 (2.2)for k=0 to m-1 do if (k mod l)=(k mod 2l

8、) then ck=ck+ck+lck+l=( ck- ck+l)*z(my_rank*m+k) mod lend if end forend forEnd由于各处理器对其局部存储器中的m维子向量做变换计算，计算时间为；点对点通信次，每次通信量为m，通信时间为，因此快速傅里叶变换的并行计算时间为。MPI源程序请参见章末附录。1.2 离散小波变换DWT1.2.1 离散小波变换DWT及其串行算法先对一维小波变换作一简单介绍。设f(x)为一维输入信号，记，这里与分别称为定标函数与子波函数，与为二个正交基函数的集合。记P0f=f，在第级上的一维离散小波变换DWT(Discrete Wavelet Tr

9、ansform)通过正交投影Pjf与Qjf将Pj-1f分解为：其中：，，这里，h(n)与g(n)分别为低通与高通权系数，它们由基函数与来确定，p为权系数的长度。为信号的输入数据，N为输入信号的长度，L为所需的级数。由上式可见，每级一维DWT与一维卷积计算很相似。所不同的是：在DWT中，输出数据下标增加1时，权系数在输入数据的对应点下标增加2，这称为“间隔取样”。算法22.3 一维离散小波变换串行算法输入：c0=d0(c00, c10, cN-10) h=(h0, h1, hL-1) g=(g0, g1, gL-1)输出：cij , dij (i=0, 1, N/2j-1, j0)Begin

10、(1)j=0, n=N(2)While (n1) do(2.1)for i=0 to n-1 do(2.1.1)cij+1=0, dij+1=0(2.1.2)for k=0 to L-1 do end forend for(2.2)j=j+1, n=n/2 end whileEnd显然，算法22.3的时间复杂度为O(N*L)。在实际应用中，很多情况下采用紧支集小波（Compactly Supported Wavelets），这时相应的尺度系数和小波系数都是有限长度的，不失一般性设尺度系数只有有限个非零值：h1,hN，N为偶数，同样取小波使其只有有限个非零值：g1,gN。为简单起见，设尺度系数与

11、小波函数都是实数。对有限长度的输入数据序列：(其余点的值都看成0)，它的离散小波变换为:其中J为实际中要求分解的步数，最多不超过log2M，其逆变换为注意到尺度系数和输入系列都是有限长度的序列，上述和实际上都只有有限项。若完全按照上述公式计算，在经过J步分解后，所得到的J+1个序列和的非零项的个数之和一般要大于M，究竟这个项目增加到了多少？下面来分析一下上述计算过程。j=0时计算过程为不难看出，的非零值范围为：即有个非零值。的非零值范围相同。继续往下分解时，非零项出现的规律相似。分解多步后非零项的个数可能比输入序列的长度增加较多。例如，若输入序列长度为100，N=4，则有51项非零，有27项

12、非零，有15项非零，有9项非零，有6项非零，有4项非零，有4项非零。这样分解到6步后得到的序列的非零项个数的总和为116，超过了输入序列的长度。在数据压缩等应用中，希望总的长度基本不增加，这样可以提高压缩比、减少存储量并减少实现的难度。可以采用稍微改变计算公式的方法，使输出序列的非零项总和基本上和输入序列的非零项数相等，并且可以完全重构。这种方法也相当于把输入序列进行延长（增加非零项），因而称为延拓法。只需考虑一步分解的情形，下面考虑第一步分解(j=1)。将输入序列作延拓，若M为偶数，直接将其按M为周期延拓；若M为奇数，首先令。然后按M+1为周期延拓。作了这种延拓后再按前述公式计算，相应的变换

13、矩阵已不再是H和G，事实上这时的变换矩阵类似于循环矩阵。例如，当M=8，N=4时矩阵H变为：当M=7，N=4时矩阵H变为：从上述的矩阵表示可以看出，两种情况下的矩阵内都有完全相同的行，这说明作了重复计算，因而从矩阵中去掉重复的那一行不会减少任何信息量，也就是说，这时我们可以对矩阵进行截短（即去掉一行），使得所得计算结果仍然可以完全恢复原输入信号。当M=8，N=4时截短后的矩阵为：当M=7，N=4时截短后的矩阵为：这时的矩阵都只有行。分解过程成为：向量C1 和D1都只有个元素。重构过程为：可以完全重构。矩阵H，G有等式H*H+G*G=I一般情况下，按上述方式保留矩阵的行，可以完全恢复原信号。这种

14、方法的优点是最后的序列的非0元素的个数基本上和输入序列的非0元素个数相同，特别是若输入序列长度为2的幂，则完全相同，而且可以完全重构输入信号。其代价是得到的变换系数Dj中的一些元素已不再是输入序列的离散小波变换系数，对某些应用可能是不适合的，但在数据压缩等应用领域，这种方法是可行的。1.2.2 离散小波变换并行算法下设输入序列长度N=2t，不失一般性设尺度系数只有有限个非零值：h0，hL-1，L为偶数，同样取小波使其只有有限个非零值：g0，gL-1。为简单起见，我们采用的延拓方法计算。即将有限尺度的序列按周期N延长，使他成为无限长度的序列。这时变换公式也称为周期小波变换。变换公式为：其中表示n

15、+2k对于模N/2j的最小非负剩余。注意这时和是周期为N/2j的周期序列。其逆变换为从变换公式中可以看出，计算输出点和，需要输入序列在n=2k附近的值（一般而言，L远远小于输入序列的长度）。设处理器台数为p，将输入数据按块分配给p台处理器，处理器i得到数据，让处理器i负责和的计算，则不难看出，处理器i 基本上只要用到局部数据，只有L/2个点的计算要用到处理器i+1中的数据，这时做一步并行数据发送：将处理器i+1中前L-1个数据发送给处理器i，则各处理器的计算不再需要数据交换，关于本算法其它描述可参见文献1。算法22.4 离散小波变换并行算法输入：hi(i=0, L-1), gi(i=0, L-

16、1), ci0(i=0, N-1) 输出：cik (i=0, N/2k-1,k0)Begin对所有处理器my_rank(my_rank=0, p-1)同时执行如下的算法:(1)j=0;(2)while (jr) do(2.1)将数据按块分配给p台处理器(2.2)将处理器i+1中前L-1个数据发送给处理器i(2.3)处理器i负责和的计算(2.4)j=j+1end whileEnd这里每一步分解后数据和已经是按块存储在P台处理器上，因此算法第一步中的数据分配除了j=0时需要数据传送外，其余各步不需要数据传送（数据已经到位）。因此，按LogP模型，算法的总的通信时间为：2(Lmax(o,g)+l)，

17、远小于计算时间O(N)。MPI源程序请参见所附光盘。1.3 小结本章主要讨论一维FFT和DWT的简单串、并行算法，二维FFT和DWT在光学、地震以及图象信号处理等方面起着重要的作用。限于篇幅，此处不再予以讨论。同样，FFT和DWT的并行算法的更为详尽描述可参见文献2和文献3,专门介绍快速傅氏变换和卷积算法的著作可参见4。另外，二维小波变换的并行计算及相关算法可参见文献5，LogP模型可参考文献3。参考文献 1. 王能超著数值算法设计华中理工大学出版社,1988.92. 陈国良编著并行计算结构算法编程高等教育出版社,1999.10 3. 陈国良编著并行算法设计与分析（修订版）高等教育出版

18、社，2002.114. Nussbaumer H J. Fast Fourier Transform and Convolution Algorithms.2nded. Springer- Verlag,19825. 陈崚二维正交子波变换的VLSI并行计算电子学报,1995,23(02):95-97 附录 FFT并行算法的MPI源程序1. 源程序fft.c#include #include #include #include #include mpi.h#define MAX_PROCESSOR_NUM 12#define MAX_N 50#define PI 3.141592653#defi

19、ne EPS 10E-8#define V_TAG 99#define P_TAG 100#define Q_TAG 101#define R_TAG 102#define S_TAG 103#define S_TAG2 104void evaluate(complex* f, int beginPos, int endPos, const complex* x, complex *y, int leftPos,int rightPos, int totalLength);void shuffle(complex* f, int beginPos,int endPos);void print(

20、const complex* f, int fLength);void readDoubleComplex(FILE *f,complex &z); int main(int argc, char *argv)complex pMAX_N, qMAX_N, s2*MAX_N, r2*MAX_N;complex w2*MAX_N;complex temp;int variableNum;MPI_Status status;int rank, size;int i, j, k, n;int wLength;int everageLength;int moreLength;int startPos;

21、int stopPos;FILE *fin;MPI_Init(&argc, &argv); MPI_Get_rank(MPI_COMM_WORLD, &rank); MPI_Get_size(MPI_COMM_WORLD, &size);if(rank = 0) fin = fopen(dataIn.txt, r); if (fin = NULL) puts(Not find input data file); puts(Please create a file dataIn.txt); puts( ); puts(2); puts(1.0 2); puts(2.0 -1); exit(-1)

22、;readDoubleComplex(fin, variableNum); if (variableNum MAX_N) puts(variableNum out of range!); exit(-1); for(i = 0; i variableNum; i +) readDoubleComplex(fin, pi);for(i = 0; i variableNum; i +) readDoubleComplex(fin, qi); fclose(fin); puts(Read from data file dataIn.txt); printf(p(t) = ); print(p, va

23、riableNum); printf(q(t) = ); print(q, variableNum); for(i = 1; i size; i +) MPI_Send(&variableNum,1,MPI_INT,i, V_TAG,MPI_COMM_WORLD); MPI_Send(p,variableNum, MPI_DOUBLE_COMPLEX,i,P_TAG, PI_COMM_WORLD); MPI_Send(q,variableNum,MPI_DOUBLE_COMPLEX,i, Q_TAG,MPI_COMM_WORLD);elseMPI_Recv(&variableNum,1,MPI

24、_INT,0, V_TAG,MPI_COMM_WORLD, &status); MPI_Recv(p,variableNum,MPI_DOUBLE_COMPLEX,0, P_TAG, PI_COMM_WORLD, &status); MPI_Recv(q,variableNum,MPI_DOUBLE_COMPLEX,0, Q_TAG,MPI_COMM_WORLD,&status);wLength = 2*variableNum;for(i = 0; i wLength; i +)wi= complex(cos(i*2*PI/wLength),sin(i*2*PI/wLength);everag

25、eLength = wLength / size;moreLength = wLength % size;startPos = moreLength + rank * everageLength;stopPos = startPos + everageLength - 1;if(rank = 0)startPos = 0;stopPos = moreLength+everageLength - 1;evaluate(p, 0, variableNum - 1, w, s,startPos, stopPos, wLength);evaluate(q, 0, variableNum - 1, w,

26、 r, startPos, stopPos, wLength);for(i = startPos; i 0)MPI_Send(s+startPos), everageLength,MPI_DOUBLE_COMPLEX, 0, S_TAG, MPI_COMM_WORLD); MPI_Recv(s,wLength, MPI_DOUBLE_COMPLEX,0, S_ TAG2,MPI_ COMM_WORLD,&status);else for(i = 1; i size; i +) MPI_Recv(s+moreLength+i*everageLength),everageLength, MPI_D

27、OUBLE_COMPLEX, i,S_TAG, MPI_COMM_WORLD, &status);for(i = 1; i size; i +) MPI_Send(s,wLength, MPI_DOUBLE_COMPLEX,i, S_TAG2,MPI_COM M_WORLD); for(int i = 1; i 0)MPI_Send(r+startPos), everageLength,MPI_DOUBLE_COMPLEX,0, R_TAG,MPI_COMM_WORLD);elsefor(i = 1; i size; i +) MPI_Recv(r+moreLength+i*everageLe

28、ngth),everageLength, MPI_DOUBLE_COMPLEX,i, R_TAG,MPI_COMM_WORLD,&status);puts(nAfter FFT r(t)=p(t)q(t); printf(r(t) = ); print(r, wLength - 1); puts(); printf(Use prossor size = %dn,size);MPI_Finalize();void evaluate(complex* f, int beginPos, int endPos, const complex* x,complex* y, int leftPos, int

29、 rightPos, int totalLength)int i;complex tempX2*MAX_N,tempY12*MAX_N,tempY22*MAX_N;int midPos = (beginPos + endPos)/2;if (beginPos endPos)|(leftPos rightPos)puts(Error in use Polynomial!); exit(-1);else if(beginPos = endPos)for(i = leftPos; i = rightPos; i +)yi = fbeginPos;else if(beginPos + 1 = endP

30、os)for(i = leftPos; i = rightPos; i +) yi = fbeginPos + fendPos*xi;elseshuffle(f, beginPos, endPos); for(i = leftPos; i = rightPos; i +) tempXi = xi*xi;evaluate(f, beginPos, midPos, tempX, tempY1, leftPos, rightPos,totalLength);evaluate(f, midPos+1, endPos, tempX, tempY2, leftPos, rightPos, totalLen

31、gth);for(i = leftPos; i = rightPos; i +)yi = tempY1i + xi*tempY2i;void shuffle(complex* f, int beginPos, int endPos)complex temp2*MAX_N;int i, j;for(i = beginPos; i = endPos; i +)tempi = fi; j = beginPos;for(i = beginPos; i = endPos; i +=2)fj = tempi; j +;for(i = beginPos +1; i = endPos; i += 2)fj =

32、 tempi; j +;void print(const complex* f, int fLength)bool isPrint = false;int i;if (abs(f0.real() EPS)printf(“%lf”, f0.real(); isPrint = true; for(i = 1; i EPS) if (isPrint) printf( + ); else isPrint = true; printf(%lft%d, fi.real(),i); else if (fi.real() - EPS) if(isPrint) printf( - ); else isPrint

33、 = true; printf(%lft%d, -fi.real(),i); if (isPrint = false) printf(0);printf(n);2. 运行实例编译：mpicc o fft fft.cc 运行：使用如下命令运行程序mpirun np 1 fftmpirun np 2 fftmpirun np 3 fftmpirun np 4 fftmpirun np 5 fft 运行结果：Input of file dataIn.txt41 3 3 10 1 2 1Output of solutionRead from data file dataIn.txtp(t) = 1 +

34、 3t1 + 3t2 + 1t3q(t) = 1t1 + 2t2 + 1t3After FFT r(t)=p(t)q(t)r(t) = 1t1 + 5t2 + 10t3 + 10t4 + 5t5 + 1t6Use prossor size = 1End of this runningRead from data file dataIn.txtp(t) = 1 + 3t1 + 3t2 + 1t3q(t) = 1t1 + 2t2 + 1t3After FFT r(t)=p(t)q(t)r(t) = 1t1 + 5t2 + 10t3 + 10t4 + 5t5 + 1t6Use prossor siz

35、e = 2 End of this runningRead from data file dataIn.txtp(t) = 1 + 3t1 + 3t2 + 1t3q(t) = 1t1 + 2t2 + 1t3After FFT r(t)=p(t)q(t)r(t) = 1t1 + 5t2 + 10t3 + 10t4 + 5t5 + 1t6Use prossor size = 3 End of this runningRead from data file dataIn.txtp(t) = 1 + 3t1 + 3t2 + 1t3q(t) = 1t1 + 2t2 + 1t3After FFT r(t)

36、=p(t)q(t)r(t) = 1t1 + 5t2 + 10t3 + 10t4 + 5t5 + 1t6Use prossor size = 4 End of this runningRead from data file dataIn.txtp(t) = 1 + 3t1 + 3t2 + 1t3q(t) = 1t1 + 2t2 + 1t3After FFT r(t)=p(t)q(t)r(t) = 1t1 + 5t2 + 10t3 + 10t4 + 5t5 + 1t6Use prossor size = 5 End of this running说明：运行中可以使用参数ProcessSize，如mpirun np ProcessSize fft来运行该程序，其中ProcessSize是所使用的处理器个数, 本实例中依次取1、2、3、4、5个处理器分别进行计算。

展开阅读全文