《大气统计基础》PPT课件.ppt

资源描述

《《大气统计基础》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《大气统计基础》PPT课件.ppt（69页珍藏版）》请在三一文库上搜索。

1、大气统计方法,第二章大气统计基础,气象资料,实测资料,模式资料,天气和气候分析的根本,第一步,分析数据的基本特性,进一步,气象资料的整理,用统计方法作气象要素的分析和预报是依据大量的气象观测资料来进行的。从概率论或统计学的观点来看，某个气象要素及其变化可看成为一个变量（或随机变量），它的全体在概率论中称为总体，而把收集到的该要素的资料称为样本。利用统计学方法对样本进行分析来估计和推测总体的规律性就是本课程主要介绍的内容。气象中单个或多个要素可看成为统计学中单个或多个变量。本章将介绍对它们的资料（样本）进行初步整理的方法。,我们要研究的对象是气象要素，比如气温、降水量、气压，它们可以是

2、月平均值、年平均值、也可以是日平均值，这要看我们所要研究的气象问题而定。对于长期预报或短期气候预测，经常分析的是气象要素的月或年资料。对于短期预报则常使用日资料，要作出预报就需要先研究它们随时间变化的规律性。,单个变量,我们把单个气象要素记为，取它某一时间段的资料记录作为样本，样本中包含个数据，记为称为样本容量，每一个资料称为所抽取的一个样品。,，,如果取某要素月平均值的年资料，那么这些数据就是一串随时间变化的序列，我们习惯把它称为时间序列，并记为，其中，这种表示法在时间序列分析中常用。,对于气温、气压及降水量等气象要素，观测值变化在正负无穷大之间，这种类型要素可看成为连续型随机变量

3、。至于有一些气象要素，例如冰雹、晕、华等天气现象，气象资料中仅记录此现象“有”或“无”，这类无法用连续型变量表示的变量，一随用“”或“”二值数字化表征，这类变量可看成为离散型随机变量。至于云量，用数字来分级表示的，也属于这一类型。当然，变量类型可以互相转化，例如对连续型变量如气温，规定一个临界值。凡记为“”，的记为“”，那么这时的气温就处理成二值变量，这种做法在模式输出预报技术中经常被采用来作短期天气预报中的定性预报。,多个变量,气象要素观测是三维空间的，有各种等压面上的要素资料，既有空间，又有时间变化。这时就可以把多个要素在某一段时间收集的资料看作为多个变量的样本，每个变量的样本可看成为一

4、个向量。个变量次观测的样本可看成为维空间中个向量，每个向量可用行向量（矩阵）表示,统计量的数字特征,平均值距平，标准差，方差协方差，相关系数峰度系数，偏度系数,中心趋势统计量平均值,平均值（mean）对于包含有个样本的一个变量，即样本平均值为：,变化幅度统计量,统计量中的平均值描述的仅仅是气候变量分布中心在数值上的大小，并没有告诉我们这种变化与正常情况的偏差和变化的波动。变化幅度统计量即表征距离分布中心远近程度的统计量。变化幅度统计量包括：距平（anomaly）方差（variance）和标准差（standard deviation）,距平是气象上常用的量，它也即通常所说的异

5、常，即对平均值的正常情况的偏差。资料中某一个数值与平均值之差就是距平，例如第点资料的距平为：,气象上经常用距平值代替原样本中资料数值作为研究对象，因为在气象要素的研究中，它们受年变化周期影响很大，各月的平均值不一样。例如月、月、月平均值就各不相同。为使之能在同一水平下进行比较，常使用距平值。用距平值作为变量的资料值，使得各变量的平均值为，可以带来研究上的方便，也便于计算。有时直接以它作为预报值，可以给人们一个偏高或偏低的直观了解。,距平的意义,标准差与方差,描述样本中资料与平均值差异的平均状况的统计量就是标准差，它衡量资料围绕平均值的平均变化幅度。平常说：“内陆台站气温日变化较沿海地区要大”。

6、这个日变化大小的比较就是用它们的标准差来比较的。,某气象要素（变量）（含个资料的样本）的标准差计算公式为,数据的标准化,原因及优点-不同单位、不同量级数据之间便于比较计算公式- ，为标准差特点1-通常标准化后的数据为无量纲的数据特点2-标准化数据的平均值为0，标准差为1 为相关系数的引出作了铺垫,数据的标准化,数据标准化处理是不仅使得数据间便与比较，其核心思想是试图消除数据的“位置”和离散程度对进一步分析所带来的影响；例如，1月和7月某日温度相对本月长期平均温度的距平相同，但1月和7月数据离散程度，即标准差不同，则距平标准化值能体现出这两月中这种温度变化是否是属于异常事件。,协方差也

7、可以体现两个变量间的关系，其公式为但协方差是一个带有单位的统计量，不便于不同要素间进行联系，因此需要将原数据作标准化处理。得到相关系数为：,协方差与相关系数,Pearson（“普通”）相关-特点,相关值介于1之间，即常可以用来表示两个变量中的一个被另一个变量解释的程度，但并不能从物理上解释其中一个变量的变化是由另一个变量所致，可能这两个变量的变化皆由其它物理过程所致。,为什么？证明：,线性相关的局限性,Pearson相关既不robustness，也不resistance,Robustness,一个统计分析被称为robustness，则表明该分析不会受到数据分布特征的影响；例如，当数

8、据遵循与高斯分布（正态分布）时，平均值能够很好的体现数据的中心趋势。而当数据不满足高斯分布时，通常的平均值计算方法很可能会产生错误的中心趋势结果。,Resistance,一个统计分析被称为resistance，则表明它不会受到数据极值的影响。例如，一组数据为11，12，13，14，15，16，17，18，19，其平均值为15，但改变数据为11，12，13，14，15，16，17，18，91，其平均数为23。,Spearman排序相关系数,Spearman排序相关很好的体现了数据对之间单调关系的强度；而Pearson相关则反应了数据对之间线性关系的强度,为数据对（x，y）之间序号的差值,自

9、相关（autocorrelation）,自相关指得是序列与自身的相关时间自相关意思是序列不同时刻（过去或未来）之间的相关，也称为滞后相关。通常用Pearson相关来计算自相关。,1998年1月北京日最低温度,“-”表示前n-1个数 “+”表示后n-1个数,自相关-续,“-”表示前n-k个数 “+”表示后n-k个数,1998年1月北京日最低温度时滞相关,落后交叉协方差与相关系数,中心趋势统计量峰度系数(kurtoris) & 偏度系数(skewness),二阶中心矩就是上面提到的方差；三阶中心矩是用来描述变量概率密度分布非对称性的，如果其计算值为正值，表明密度分布曲线的峰点在平均值的右方

10、，反之亦然；四阶中心矩用来描述分布曲线的陡度，如果其计算值小，反映观测值与平均值靠近，分布曲线就比较陡，反之，则表明分布曲线平缓。对遵从正态分布的变量而言，对应的偏度和峰度值应为零。因此，可以通过计算某一气象要素的偏度和峰度值，考察它们偏离零的程度，以便确定它们是否遵从正态分布。,正态以及偏态分布示意图,平均值,平均值,正/右偏态分布,负/左偏态分布,正态以及峰度示意图,统计量的检验,在气象分析与预报中，为了研究气象要素本身或气象要素之间的关系，我们总是选取一定的样本进行统计分析，那么所得到的结果是否具有普遍意义呢？例如，我们为了研究某地夏季某几年的冷害对农业的影响，分析出这几年夏季的天

11、气形势场在该地上游地区某个区域高空有一低槽，高度值特别低。那么我们要问这几年该区域的低值是否是较常年显著地低，会不会是随机抽样的偶然性的结果？回答这些问题就是概率统计中的显著性检验。,一般的显著性检验过程是给定一个原假设，寻找与假设有关的统计量及其所遵从的概率分布函数，用具体的一次抽样的样本数据代入统计量，在给定的显著水平下（气象上常取）作出对原假设的否定和接受的判定。当然，这种判定也有一定的错误，即所谓第类错误（否定假设时所发生的）和第二类错误（接受假设时所发生的）。这两类错误的概率不等，由于第类错误的概率较小，一般情况下以拒绝假设的结论为好，即犯错误的可能性较小。,小概率原理,一个事件如果

12、发生的概率很小的话，那么它在一次试验中是几乎不可能发生的，但在多次重复试验中几乎是必然发生的，数学上称之小概率原理。统计学中，一般认为等于或小于0.05或0.01的概率为小概率。,置信区间,置信水平 1- 显著水平 ,统计检验流程,明确要检验的问题，提出统计假设。确定显著性水平。针对研究的问题，选取一个适当的统计量。根据观测样本计算有关统计量。对给定的，从统计量分布表查出与水平相应的数值，即确定出临界值。比较统计量计算值与临界值，看其是否落入否定域中，若落入则拒绝原假设。,基本统计量的检验,平均值的显著性检验两组样本平均值差异的检验方差的显著性检验变量的分布检验相关系数的检

13、验,平均值的显著性检验,平均值的显著性检验在概率统计中一般有大样本检验（统计量近似遵从正态分布）和小样本检验（统计量遵从分布）。在气象上，由于通常所使用的样本容量不大，一般情况下，大多使用分布统计量。在气候变化的研究中，常常要研究某些特殊年份有何显著特点。经常使用的方法是将这一特殊年份的气象要素与其它年份的平均值进行比较。,两组样本平均值差异的检验,方差的显著性检验,变量的分布检验,相关系数的检验,相关系数是衡量两个变量之间关系密切程度的量。这个量的大小是否显著也需要作统计检验。对于总体不相关（即总体相关系数）的两个随机变量，由于抽样的缘故，其样本相关系数不一定等于，可能出现其它的数值，

14、因而样本相关系数也是一个随机变量。在假设总体相关系数成立的条件下，样本相关系数的概率密度函数为,上式正好是分布的密度函数。于是，就可以用检验法来检验，即在原假设,自由度的估计,简单估计：随机样本数减2，即n-2 实际上气候变量的一个突出特点就是具有红噪声谱，即不同时间的数据之间不是完全独立的(不是随机的)。气候变量某一时刻的状况对后面的状况是有影响的。因此，序列的有效自由度要比n-2 要小。这会影响对相关系数信度的估计和假设结论的判断。,很多气候变量有很强的持续性或者很高的自相关，例如海温。因此进行相关系数的显著性检验时，需要首先对时间序列的有效自由度进行估计。估计有效自由度的方法有很多。红

15、噪声时间序列的自相关系数随落后时间步长减少，自相关系数越大则独立样本数(有效自由度)越小。,两种估算方法,趋势变化对相关系数的影响,变量带有性质相反的趋势变化, 会使这二个变量之间的相关系数减小(正相关的数值减小, 负相关被夸大). 变量带有性质相同的趋势变化, 会使这二个变量之间的相关系数增加(正相关被夸大, 负相关数值变小).,r=0.001,r=-0.33,（施能等，2007）,无论作气象要素的资料统计量分析，或者作以后陆续介绍的统计方法分析和预报，气象资料的使用是一切分析的出发点。资料的代表性是值得十分注意的。例如我们要预报某地降水量，用太平洋某一海域的海温资料作为因子，就要对该地区

16、的海温资料的取得有一个基本了解。例如资料观测的误差性如何，如果该地区的资料仅是用该月中几次船舶经过时测量得到的观测值平均作为该月平均海温资料，那么这种资料的代表性就较差。,事实上，气候资料的取得有两个经常遇到的问题：一是资料空间分布不均匀，资料大多从密度较大的陆地上取得；另一是时间分布不均匀，观测时间大部分是白天，尤其在海洋地区。不同历史时期，由于观测手段的改进也会使系统误差发生变化，这样一来，资料的可靠性也是值得重视的。因此，强调统计显著性，要求用经典统计理论的不同方法，例如置信区间、假设检验、信号噪音比等等来讨论统计量的显著性，绝不是过份的。,蒙特卡罗检验,前述检验方法都属于统计学中的参

17、数的统计检验，它们需要样本服从正态分布或其它一些假定。非参数检验则不需要样本服从正态分布或其它假定，蒙特卡罗检验为非参数检验。例：相关系数的蒙特卡罗检验,利用蒙特卡罗方法解决数学分析问题的基本思想：建立与描述该问题有相似性的概率模型，利用这种相似性把概率模型的某些特征（如随机事件的概率或随机变量的平均值等）与数学问题的解答（如积分值）联系起来。对模型进行随机模拟或统计抽样，再利用所得结果求出这些特征的统计估计值作为原来的分析问题的近似解。,常见分布随机数的生成函数,蒙特卡罗方法应用实例,圆周率的模拟,程序如下： k=0; %k用于随机点落在1/4圆内的计数 for j=1:100000 %样本个数取为N=100000 a=rand(1,2); %生成区间(0,1)上的均匀分布随机数作取样值 if a(1)2+a(2)2=1 %检查随机数是否满足: k=k+1; end end PI=4*k/j %计算的近似值,本质：分类做法：将某两种不同特征或状态的气象变量进行合成，也就是求不同状态下的某气象要素的平均值，比较它们有没有显著差异？目的：确定前期（或同期）大气环流在不同的天气、气候状态（某要素正、负距平，强、弱季风）下，后期（或同期）另一要素场或环流场有无明显差异，以确定不同气候态的影响程度。,合成分析,D.L. Hartmann 2007,两组样本平均值差异的检验,

展开阅读全文