01第一章背景与异常划分的一元方法(精).doc

上传人:scccc 文档编号:12997194 上传时间:2021-12-10 格式:DOC 页数:13 大小:222KB
返回 下载 相关 举报
01第一章背景与异常划分的一元方法(精).doc_第1页
第1页 / 共13页
01第一章背景与异常划分的一元方法(精).doc_第2页
第2页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《01第一章背景与异常划分的一元方法(精).doc》由会员分享,可在线阅读,更多相关《01第一章背景与异常划分的一元方法(精).doc(13页珍藏版)》请在三一文库上搜索。

1、第一章背景与异常划分的一元方法 地球化学背景与异常划分是化探数据统计分析的基本问题,以后就简称为背景与 异常划分。这方面的具体方法很多,而且正在发展,有的还不完全成熟。本书只 介绍一些常用的或理论上具有一定系统性的方法。本章内容不仅是解决背景与异 常划分的方法基础,也是以后各章有关其它统计方法的基础,因而虽然简单,却 很重要。这里只涉及单个因素,因而是一元方法,且一般不考虑样本的采样位 置。第二章主要讨论与地理位置有关的背景与异常划分问题,也属于一元方法。 背景与异常划分的多元方法将在以后的有关章节中顺便介绍,因为那时我们有了 解多元问题的数学基础。希望在有了这些基础知识后能广阅参考文献,甚至

2、提出 更成熟的方法。 背景与异常划分的基本原理 常用的背景与异常划分方法是以一元正态分布为前提的。只要熟知一元正态分布 的有关性质,背景与异常划分的原理就十分明确。正态分布是最简单的情形。但 一切的复杂情形都可视为简单情况的综合。 对简单问题的讨论是解决复杂问题的 基础, 因而十分重要。 一、一元正态分布的有关性质 设 x 为一元正态随机变量,其概率密度函数为 11(x-卩)2 exp(-),% vxv+x (1.1) f(x)=2 则称2服从参数为卩,c的一元正态分布,记为 xN(卩,c其中卩,分别为一元正态总体 x 的均值与方差,分布图形如图 1-1 所 示。X 的概率密度函数为 F(x)

3、= /x -讯(t)dt (1.2) 其图形如图 1-2 所示。 若用 P(A)表示随机事件 A 发生的概率,则正态分布具有如下重要特性: 图 1-1 一元正态总体的概率密度分布 图 1-2 一元正态总体的概率分布 1、f(卩)=maxf(x); 2、 P(x Wy )=F(卩)=50%; 3、 P(x -pa )=F(-阿)=15.9%; 4、 P(x Wy +2(T )=F(卩 +2(T )=97.7%; 5、 P( -t a& x y +t a- a )=1 6、 P(-x vxv+x )=1; 其中性质 5 更为重要,它表示,若以 y为起点,在 x 轴向左右两边各延伸 t a个

4、单 位长度er,形成一个区间(威ac xy +t,a则)X 在该区间内取值的概率为 1-a,例 如: 当 t a =时,1-a =68.3% a =31.7% 当 t a =2 寸,1-a =95.4% a =4.6% 当 t a =3 寸,1-a =99.7% a =0.3% 这些性质与背景、异常的概念关系十分密切。 二、背景与异常划分的基本原理 根据以上性质并参考图 1-1, 1-2,我们不难得出如下推理: 1、 由性质 1、2 知,x 在点y处的概率密度最大,即 x 在y处的取值机会最多, 于是y作为常见值被用做背景值是当然的,在 x=y点,F(X)=50%,因而 f(x)达极 大值或

5、F(x)= 50%=0.5 时自变量 x 的取值y即为背景值。 2、 由性质 2、3 不难看出,F(x)取 50%与 F(x)取 15.9%分别对应的 x 值之差的绝 对值正好是正态总体的标准离差或均方差 r 3、 由性质 4 易见,x 落在区间(-V y +2(内的概率为 97.7%,而落在该区间右侧 的概率仅为 2.3%,是正态前提下不容易发生的小概率事件,则被视为异常事件, 故y +2 可被看作划分背景与异常的一个界限。 4、 由性质 5 可以得到划分背景与异常的更严格的叙述。当 t a取值足够大或a取 值足够小时,随机变量 x 在区间(yt ar x y +t 取值的概率为 1-a,是

6、一个很大 的概率事件,发生这样的事是不足为奇的,因而该区间的一切取值都认为是属于 正态总体的正常值或背景值;反之,随机变量在该区间两侧取值的机会只有 a, 是一个很小的值,一旦某值落入该区间两侧,则属于异常现象,将此值视为异常 值,可认为它不属于上述正态总体,而可能来自异常总体。当 t a或a取定时,上 述区间亦被确定,称为置信区间,其左右的两个端点称为置信下限和置信上限。 化探中常称左端点为负异常上限,右端点为正异常上限。例如当 t a =时,异常下 限为y +2r这时a =0.046 再看a值的意义。由性质 5 知,当a越小时 t o就越大置信区间就越大,所划出的 异常值与背景值的差异就越

7、显著,即这种差异值属于真正异常的可信度就越大; 而反过来也可以说明置信区间的值属于背景值的可信度就越小。所以 a的大小决 定了背景与异常的可靠性,或者广义的说, a的大小决定了识别任一样品是否属 于某正态总体的可信程度。在数理统计中, a称为置信度。一般a由人为指定, 可分别取 0.1, 0.05, 0.001 等。这一概念在以后经常遇到。值得指出的是,当我 们用统计方法把某个样品划归背景或异常时,严格的应称这种划分是在置信度 。 下所做的推断。 在随后的讨论中我们将看到 t。的意义。它实际上是标准化变量的异常下限。 背景与异常划分的基本方法 由上述讨论知,若 xN(卩,且,卩,已知,则背景与

8、异常划分的方法是显然的。 问题是,我们一般难以得到总体的分布参数 卩和(,也不知道 x 是否是满足正态 分布条件。本节主要讨论这两个问题,并引入很有实用价值的标准化变量的概 念。 一、总体分布参数的估计 在一般实际问题中,我们不是从整体出发而是从样本出发,通常用样本均值来估 计总体的均值仏用样本方差 S 来估计总体方差c于是立刻得到异常界限的估计 值为 Xa =+t a S (1.3) t a为正值时,上式定义了正异常下限;当 t a为负值时上式定义 了负异常上限,其中 t a由可信度a而定。但由上节知,t a般取 2 左右即可,这 时a约为0.046。应用中不必再做严格推算。为简便起见,今后

9、一般不讨论负异 常上限。所剩的问题是如何用样本来估计总体均值与方差,以后简称均值、方 差,分别用 X、S222 来表示。现介绍几种最常用的估计方法。 1、 直接计算方法 在有计算机的条件下,这是最简便的方法。设某正态样本容量为 n 数据为 Xi, i=1,2,,n,则样本均值和均方差分别为 1n=E xi (1.4) ni=1 1n (xi-)2 (1.5) S= 刀 ni=1 当 n 很大时,(1.5)式与常用无偏估计无多大差异。 2、 直方图法 直方图是日常社会活动常见的图形,这里简明介绍其制作方法及有关参数的估 计。设正态样本数据为 xi,i=1,2,小则作图步骤为: 将 n 个数据的取

10、值范围max(xi)-min(xi)分为 K 个子区间(一般为组),方括号表 示区间。K 一般取奇数 5、7、9等,大小视 n 的大小而定。各区间的长度即组距 为 d=1max(xi)-mi n(xi) K 其中第 j 个子区间(组)为 max(xi)+(j-1)d,min(xi)+jd),j=1 ,2,k 其中圆括号表示开区间,方括号表示闭区间,但第 K 区间左右都为闭区间。各区 间的中点值称为组中值。 求出落在第j区间的样品数fj, j=1 , 2,k称为组频数, 进而求出各组频率 fj=fj/n, j=1,2,k 求出各组的累积频率 Fj=* Ef i=1ji , j=1 , 2,k 在

11、方格纸上,以 x 为横坐标,以 fj 为纵坐标可作出频率分布直方图或频率分布 曲线;以 x 为横坐标,以 Fj 为纵坐标,可作出频率累积直方图。上述步骤对程序 设计也是有用的。 图 1-3 是某元素含量分布的频率直方图或频率分布曲线,图 1-4 是相应的累积频 率直方图与累积频率曲线如图所示两条曲线分别与图 1-1、图 1-2 相似,即接近正 态分布。于是可由正态分布的有关性质,从直方图上估计、 S 或 xa。 这里有两个常用的名词。图 1-3 中的 Mo 点称为众值,图 1-4 中的 Me 点称为中位 数。在严格正态分布下不难知道有:x=Mo=Me。 从图 1-4 中还可看出:S=Me-x1

12、,也可看出异常下限值 x a 图 1-3 频率直方图 图 1-4 累积频率直方图 直方图的优点是直观, 实际工作中往往将直方图与计算法结合起来, 即用计算法 求出 x、S、xa,用直方图给予直观表示。有了直方图制作步骤中给出的各种表达 式,编制一个打印直方图的子程序也是容易的。但编制一个实用的直方图子程 序,适用于严重偏离正态分布的数据,还需要考虑本章后面的有关内容。 3、概率格纸法 在制作直方图的第步,若以各子区间的中点,即组中值为横坐标,以各区间累 积频率为纵坐标在概率格纸上作出一组散点,则当正态分布时,这组点大致成一 条直线分布;反之,若这组点呈近似直线分布,则可以认为数据近似正态分布。

13、 这种图形有两种作用,一是用于检验一组数据是否服从正态分布,二是只要把上 述直线当作图 1-4 中的累积频率曲线,则完全可用图 1-4 中示意的方法求出 X、 f 4 5 6 7 Y S、x a,故不多述。 二、 正态检验 正态检验是用统计的方法检验一组数据是否服从正态分布。分布检验的方法有多 种,例如上面的概率格纸法就是其中一种。现介绍另一种方法 一一偏度、峰度检 验法。首先定义两个统计变量,即偏度 r1,和峰度 r2,其中 1n1n 3(xi-x)23 (1.6) r 仁 刀(xi-/ 刀 ni=1 ni=1 1n1n4(xi-x)24 -3 (1.7) r2= 刀(xi-)/ 刀 ni=

14、1 ni=1 其中各记号为熟知的。检验的原理方法如下: 若假设:xN(卩,d则有:r1 N(0, 6/n), r2N(0, 24/n) 于是在信度a =0.06 下,由正态分布的性质显然有|r1|2(6/n)1/2, |r2|1.90+3 32=12.16 是一个异点,将其剔除后用所剩的 36 个数据求 得 2=1.34, 这时,36 个数据中最大的数值为 2.701.34+3 0.47=2.75 再无异点可剔除。因而 取背景值为截尾均值,即 x=x2=1.34,用截尾均方差作为背景均方差,即 S=S2=0.47。若取t a =则得异常下限为x a =+2S=2.28这时, 表1-1中的 2.

15、53, 2.70,22.2可视为异常值。这种结果是否合理呢,从下面的直方图中可以看出。 图 1-7a 是以前面介绍的方法为基础,用初始均方差 S 的一般为组距(即区间长度) 作出的直方图,个别异点的影响,绝大多数数据没有反映出其分布形式,而是被 压缩在一两个区间内,这是上述直方图制作的一个弊病。 为避免上述影响,我们可采用以下两个改进措施。第一,以逐步截尾法为依据, 将长尾部分截掉,用剩下的部分数据做直方图。如果截掉的数据不太多,有时可 以标在直方图的旁侧。第二,我们不采用一般分组方法,而是先求出截尾均值 x 与截尾均方差 S,然后以 0.4 或 0.5 或 0.8 倍 S 为组距进行区间划分

16、。这样分组的 好处之一是可估计出截尾之后分多少组合适。因为截尾后的数据大多数分布在区 间(x-3S, x+3S)之内,少数异常样品分布于该区间之外。 例如,当我们取组距 d=0.5S,分组数为 20 时,上述区间内一般最多占用有 12 个 组,由经验知,负异常一般不会超过这个区间。另外 8 个组则可用于表示较高值 的正异常数据分布。 a b c 组中值频数组中值频数组中值频数 1.05 32 0.51 1 0.67 3 2.75 4 0.75 4 0.86 4 4.46 0 0.88 8 1.05 7 6.17 0 1.22 9 1.24 8 7.88 0 1.45 5 1.43 5 9.58

17、 0 1.69 3 1.62 1 11.29 0 1.93 4 1.81 4 13.00 0 2.16 0 2.00 2 14.71 0 2.40 0 2.19 0 16.42 0 2.64 2 2.38 0 18.12 0 2.87 0 2.57 0 19.83 0 3.11 0 2.76 0 21.54 0 3.35 0 2.94 0 23.25 0 3.58 0 3.13 0 24.95 0 3.82 0 3.32 0 图 1-7 实用直方图制作 说明 t B =3 11=1.9 S=3.42 1=1.34 S=0.47 a 按 0.5S 为组距 b:按 0.5S 为组距 c:按 0.4

18、S 为组距 1 图 1-7b、c 都是使用这种方法作出的。但图 1-7b 用的组距为 d=0.5S,图 1-7c 用的 组距为d=0.4S,分组数都为 15。二者均有一个数据被截掉。 从本例中结合图 1-7 我们可以看出以下几个问题: 1、 若不考虑少数异点,则数据基本接近正态。 2、 截尾法求得的 x, S, x a基本合理。 3、 直方图的形态与分组方法有关。 4、 由截尾法做直方图可以较准确的反映背景分布形式。 值得强调的是,笼统的说 某批数据”服从何种分布是含糊的概念。首先要明确我 们的目的和研究对象。如果我们的目的是要估计背景分布参数,就只需以 背景 部分的数据”作为研究对象的样本,

19、考虑它是否服从某种分布。只要背景部分近 似正态分布,就可以用截尾法或分解法将异点部分去掉,然后用正态假设下的基 本方法估计背景分布参数。 应该避免的是,由于直方图的制作不合理造成背景部分与异常部分难以分清,或 者概念上就没有明白我们的目标是背景总体,从而把背景部分与异常部分混为一 谈,笼统的认为某批数据服从某种分布。例如,当背景部分与异常部分混为一体 时,就很可能呈对数正态分布,而背景部分则可能为正态分布。 由上述方法可见,复杂情况下的背景与异常划分方法是由简单的正态假设下的方 法演化而来的。因而,充分掌握正态分布的有关理论,是灵活运用各种方法的基 础。不应仅注意某种方法的具体计算步骤,把这些

20、方法当作是不能变通的教条。 习题 1 1.1 考察图 1-3,1-4,当样本容量 nx,分组数 k 组距 d0时,这两个图形 将如何变化? n、k、d 的大小对分布参数估计及分布图形有何影响? 1.2 用公式(1.3)、(1.4)、(1.5)估计各参数时,变量 x 应满足什么条件? 1.3 设某元素 y 在某花岗岩体中的含量服从正态分布,且 yN(10, 9)。现任意从 该岩体中取一样本,其含量值为 yi,问: yi 在区间7, 13内外取值的概率各是多少? yi 在区间4,16内外取值的概率各是多少? 当 yi =18,并取 t a =时,yi 是否为异常?这时信度 a为何值? 当 yi =

21、18,并取 t a =时,yi 是否为异常?这时信度 a为何值? 1.4 用大小概率事件的道理,说明用统计方法划分背景与异常的基本原理。 1.5 求证:标准化变量的均值为 0,方差为 1,异常下限为 t a 1.6 设某元素含量为正态分布,其中有一样品中该元素的标准化数值为 1.0 4,那 么当信度a取何值时,它正好能视作异常?当取信度 a为 0.1 时,标准化变量的 异常下限为何值? 1.7 当一批数据中掺杂有少数异点时,对 X, S,Xa的大小有何 影响?计算背景分布参数时为什么要将其剔除?这是否显的不客观? 1.8 设从某一无明显矿化蚀变的地层中取 30 个样本,测得 Hg 的含量(10-9)如下: 16 14 12 13 14 24 156 32 15 13 11 14 14 11 13 14 17 12 13 18 13 14 16 15 16 15 12 15 12 14 用全部数据求出,S,X a 取 t B =3 求出截尾均值、均方差和异常下限。 将以上各结果列表对比。 1.9 设有一批化探样品采自不同的地质体,其采样位置及 Cu 的含量(10-8)如图 1-8 所示。试制定合理划分背景与异常的计算方案。 指出那些点可能是异点。 图 1-8 采样剖面与数据图

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1