数据标准化.归一化处理.wps

资源描述

《数据标准化.归一化处理.wps》由会员分享，可在线阅读，更多相关《数据标准化.归一化处理.wps（7页珍藏版）》请在三一文库上搜索。

1、数据的标准化在数据分析之前，我们通常需要先将数据标准化（normalization），利用标准化后的数据进行数据分析。数据准标化也就是数据的指数化统计。数据准化标处理主要包括数据同化趋处理和无量化理纲处两个方面。数据同化趋处理主要解决不同性数据质问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。数据无量化纲处理主要解决数据的可比性。去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。数据标准

2、化的方法数据标准化的方法有很多种，常用的有“最小最大标准化”、“ Z-score 标准化”和“按小数定标标准化”等。经过上述标准化处理，原始数据均转换为无量纲化指标测评值，即各指都于同一个数量别上标值处级，可以行合进综测评分析。一、Min-max 标准化 min-max 标准化方法是对原始数据进行线性变换。设minA 和maxA 分别为属性 A 的最小值和最大值，将 A 的一个原始值 x 通过 min- max 标准化映射成在区间0,1中的值 x，其公式为：新数据=（原数据-极小值）/（极大值-极小值）二、z-score 标准化这种方法基于原始数据的均值（mean）和标准差（

3、standard deviation）进行数据的标准化。将 A 的原始值x 使用z-score 标准化到 x。 z-score 标准化方法适用于属性 A 的最大值和最小值未知的情况，或有超出取值范围的离群数据的情况。新数据=（原数据-均值）/标准差 spss 默认的标准化方法就是 z-score 标准化。用 Excel 进行 z-score 标准化的方法：在 Excel 中没有现成的函数，需要自己分步计算，其实标准化的公式很简单。步骤如下：求出各变量（指标）的算术平均值（数学期望）xi 和标准差si ； .进行标准化处理：zij（xijxi）si,其中：zij 为标准化后的变量

4、值；xij 为实际变量值。将逆指标前的正负号对调。标准化后的变量值围绕 0 上下波动，大于 0 说明高于平均水平，小于0 说明低于平均水平。三、Decimal scaling 小数定标标准化这种方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A 的取值中的最大绝对值。将属性 A 的原始值 x使用 decimal scaling 标准化到 x的计算方法是：x=x/(10*j) 其中，j 是满足条件的最小整数。例如假定 A 的值由-986 到 917，A 的最大绝对值为 986，为使用小数定标标准化，我们用 1000（即，j=3）除以每个值，这样，-986

5、被规范化为-0.986。注意，标准化会对原始数据做出改变，因此需要保存所使用的标准化方法的参数，以便对后续的数据进行统一的标准化。除了上面提到的数据标准化外还有对数 Logistic 模式、模糊量化模式等等：对数Logistic模式：新数据=1/（1+e(-原数据)）模糊量化模式：新数据=1/2+1/2sin派 3.1415/（极大值-极小值）*（X-（极大值-极小值）/2） ,X 为原数据数据归一化数据归一化归一化归一化是一种简化计算的方式，即将有量的表达式，化纲经过变换无量的表达式，成量为纲为纯。归一化是了加快网的收性为训练络敛，可以不进行归一化处理归一化的

6、具体作用是归纳统一样本的统计分布性归一化的具体作用是归纳统一样本的统计分布性。归一化在 0-1之间是统计的概率分布，归一化在-1-+1 之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是为了建模还是为了计算，首先基本度量单位要同一，神经网络是以样本在事件中的统计分别几率来进行训练(概率计算)和预测的，归一化是同一在 0-1 之间的统计概率分布;SVM 是以降维后线性划分距离来分类和仿真的，因此时空降维归一化是统一在-1-+1 之间的统计坐标分布。当所有样本的输入信号都为正值时，与第一隐含层神经元相连的权值只能同时增加或减小，从而导致学习速度很慢。为了避免出现

7、这种情况，加快网络学习速度，可以对输入信号进行归一化，使得所有样本的输入信号其均值接近于0 或与其均方差相比很小。归一化是因为 sigmoid 函数的取值是 0 到 1 之间的，网络最后一个节点的输出也是如此，所以经常要对样本的输出归一化处理。所以这样做分类的问题时用0.9 0.1 0.1就要比用要好。但是归一化处理并不总是合适的，根据输出值的分布情况，标准化等其它统计变换方法有时可能更好。主要是为了数据处理方便提出来的，把数据映射到 01 范围之内处理，更加便捷快速，应该归到数字信号处理范畴之内。归一化方法归一化方法（Normalization Method） 1。把

8、数变为（0，1）之间的小数主要是为了数据处理方便提出来的，把数据映射到 01 范围之内处理，更加便捷快速，应该归到数字信号处理范畴之内。 2 。把有量纲表达式变为无量纲表达式归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。比如，复数阻抗可以归一化书写：Z = R + jL = R(1 + jL/R) ，复数部分变成了纯数量了，没有量纲。标准化方法标准化方法（Normalization Method）数据的标准化数据的标准化是将数据按比例放，使之落入一个小的特定区。由缩间于信用指体系的各个指度量位是不同的，了能够将指参标标单为标与价算，

9、需要指行范化理，通函数将其数评计对标进规处过变换值映射到某个数区。值间关于神经网络（matlab）归一化的整理关于神经网络归一化方法的整理由于采集的各数据单位不一致，因而须对数据进行-1，1归一化处理，一化方法归主要有如下几种，供大家参考：（by james） 1 、性函数，线转换表达式如下： y=(x-MinValue)/(MaxValue-MinValue) 说明：x、y分别为转换前、后的值，MaxValue、MinValue 分别为样本的最大值和最小值。 2 、数函数对转换，表达式如下： y=log10(x) 说明：以10 为底的对数函数转换。 3 、反余切函数，转换表

10、达式如下： y=atan(x)*2/PI 归一化是为了加快训练网络的收敛性，可以不进行归一化处理归一化的具体作用是归纳统一样本的统计分布性归一化的具体作用是归纳统一样本的统计分布性。一化在归 0-1 之是的概间统计率分布，一化在归 -1 + 1 之是的坐分布间统计标。一化有归同一、统一同一、统一和合一和合一的意思。无论是为了建模还是为了计算，首先基本度量位要单同一，神经网络是以样本在事件中的统计分别几率来进行训练（概率计算）和预测的，一化是一在归统 0-1 之的概率分布；间统计当所有样本的输入信号都为正值时，与第一隐含层神经元相连的权值只能同时增加或减小，从而导致

11、学习速度很慢。为了避免出现这种情况，加快网络学习速度，可以对输入信号进行归一化，使得所有样本的输入信号其均值接近于0 或与其均方差相比很小。归一化是因为 sigmoid 函数的取值是 0 到 1 之间的，网络最后一个节点的输出也是如此，所以经常要对样本的输出归一化处理。所以这样做分类的问题时用0.9 0.1 0.1就要比用1 0 0要好。但是一化理并不是合适的，根据出的分布情况，准化归处总输值标等其它方法有可能更好。统计变换时关于用 premnmx 语句进行归一化： Premnmx 语句格式： Pn,minp,maxp,Tn,mint,maxt=premnmx(P,T) 其

12、中P，T 分别为原始入输和出数据输，minp 和maxp 分别为 P 中的最小值和最大值 ( 最大最小是针对矩阵的行来取，而最大最小是针对矩阵的行来取，而 min （（ p) 是针对矩阵的列来是针对矩阵的列来取）取）。mint 和maxt 分别为T 的最小值和最大值。 premnmx 函数用于将网的入数据或出数据行一化，络输输进归归一化后的数据将分布在 -1,1 区内。间我在网如果所用的是一化的本数据，那么以后们训练络时经过归样使用网所用的新数据也和本数据接受相同的理，络时应该样预处这就要用到 tramnmx 。关于用tramnmx语句进行归一化： Tramnmx 语句格式：

13、Pn=tramnmx(P,minp,maxp) 其中P 和 Pn 分别前、后的入数据为变换输，maxp 和 minp 分别为 premnmx 函数找到的最大和最小值值。（by terry2008） matlab 中的归一化处理有三种三种方法 1. premnmx 、 postmnmx 、 tramnmx 2. restd 、 poststd 、 trastd 3. 自己编程具体用那种方法就和你的具体问题有关了（by happy） pm=max(abs(p(i,:); p(i,:)=p(i,:)/pm; 和 for i=1:27 p(i,:)=(p(i,:)-min(p(i,:)/(m

14、ax(p(i,:)-min(p(i,:); end 可以归一到 0 1 之间 0.1+(x-min)/(max-min)*(0.9-0.1)其中 max 和 min 分别表示样本最大值和最小值。这个可以归一到0.1-0.9 矩一化阵归一化化定归义：我是这样认为的，一化化就是要把你需要理的归处数据理后（通某种算法）限制在你需要的一定范内。经过处过围首先归一化是为了后面数据处理的方便，其次是保正程序运行时收敛加快。在 matlab 里面，用于：一化的方法共有三种归（1）premnmx、postmnmx、tramnmx premnmx 指的是一到归 1 1 。（2）prestd、

15、poststd、trastd prestd 一到位方差和零均。归单值（3）是用 matlab 语言自己编程。关于自己程一般是一到编归 0.1 0.9 。为什么要用归一化呢？首先先说一个概念，叫做奇异样本数据，所谓奇异样本数据数据指的是相对于其他输入样本特别大或特别小的样本矢量。下面举例： m=0.11 0.15 0.32 0.45 30; 0.13 0.24 0.27 0.25 45; 其中的第五列数据相对于其他 4 列数据就可以成为奇异样本数据（下面所说的网络均值 bp）。奇异样本数据存在所引起的网络训练时间增加，并可能引起网络无法收敛，所以对于训练样本存在奇异样本数据的数

16、据集在训练之前，最好先进形归一化，若不存在奇异样本数据，则不需要事先归一化。一个小程序： p=1.3711 1.3802 1.3636 1.3598 1.3502 1.3404 1.3284 1.3160 1.3118 1.3032 1.2989 1.2945 1.2923 1.2923 1.2856 1.2788 1.2742 1.2672 1.2577 1.2279 1.1903 1.0864 0.9956 ; t=0 1.38 1.68 1.98 2.08 2.23 2.53 2.83 2.93 3.13 3.23 3.33 3.43 3.53 3.63 3.73 3.83 3.93

17、 4.03 4.13 4.23 4.33 4.43; u=p; tt=t; p=(p-min(p)/(max(p)-min(p);%g 归一化 t=(t-min(t)/(max(t)-min(t); net=newff(minmax(p),23 1,tansig purelin,traingdx); net.trainParam.epochs=1000; net.trainParam.goal=0.001; net.trainParam.show=10; net.trainParam.lr=0.05; net,tr,Y,E=train(net,p,t); a=sim(net,p); out=a*(max(tt)-min(tt)+min(tt);%反归一化 x=u; y=tt; figure(1) plot(x,y,k*,x,y,-k,u,out,ko) title(70EPDM 的压缩永久变形) legend(*试验数据 o预测结果) xlabel(压缩变形保持率) ylabel(时间的对数 log10（t）) grid on

展开阅读全文