多元统计分析及其在烟草学中的应用.docx

上传人:scccc 文档编号:12093180 上传时间:2021-12-01 格式:DOCX 页数:16 大小:20.90KB
返回 下载 相关 举报
多元统计分析及其在烟草学中的应用.docx_第1页
第1页 / 共16页
多元统计分析及其在烟草学中的应用.docx_第2页
第2页 / 共16页
多元统计分析及其在烟草学中的应用.docx_第3页
第3页 / 共16页
多元统计分析及其在烟草学中的应用.docx_第4页
第4页 / 共16页
多元统计分析及其在烟草学中的应用.docx_第5页
第5页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《多元统计分析及其在烟草学中的应用.docx》由会员分享,可在线阅读,更多相关《多元统计分析及其在烟草学中的应用.docx(16页珍藏版)》请在三一文库上搜索。

1、多元统计分析及其在烟草学中的应用 烤烟,烟草,KRK26,津巴布韦烤烟,烘烤,成熟采收,品种,栽培 134中国烟草学报2021年10月 第20卷 第5期 统计分析专栏 多元统计分析及其在烟草学中的应用 杨锦忠,宋希云 青岛农业高校/山东省旱作农业技术重点试验室,青岛 266109 烤烟,烟草,KRK26,津巴布韦烤烟,烘烤,成熟采收,品种,栽培 杨锦忠等多元统计分析及其在烟草学中的应用 方面:第一、烟草学具有客观多元性。烟草的种植系统、加工系统、消费系统都是简单的多组分系统。生态环境、烟草品种、种植措施、工艺等诸多因素,共同影响烟草产品的产量与质量;经济的、管理的、医学的诸多因素,共同影响烟草

2、产品的营销和经营水平。多元统计恰恰就是特地面对多组分系统的数据分析方法。另外,当今科学方法论的进展趋势之一是更加重视科学讨论的整体性和全面性,为了呈现一个多组分系统中变量之间错综简单的关系模式与格局,新型多元统计分析方法不断涌现。其次、多元统计优于一元统计。与一元统计相比,多元统计分析易于发觉处理间微小判别,对事物的认识更深刻,更接近事物原来面目。 多元统计在烟草学中应用的必要性也体现在两个方面。一方面,数据采集手段与方法(环境因子传感器技术、数字图像处理和遥感等波谱技术、DNA测序及基因芯片技术等)进展快速,自动化与半自动化测量仪器应用越来越广泛,多元数据的猎取更加便利,数据量日益增多,这已

3、成为烟草学理论讨论和技术开发的常态,客观上要求采纳多元统计的数据分析方法。另一方面,烟草营销和经营领域与农学等领域不同,通常无法开展掌握条件下的随机化试验讨论,只有“流水帐”式的事实数据。对于此类数据,只有采纳多元统计方法,才能在错综简单的大量数据矿产中挖掘出有价值的信息,阐明不同变量之间的关系,评价各个变量对营销和经营的重要性,探寻变量间作用模式和分布格局。 从现在往前推二三十年,在烟草学中应用多元统计遭受以下障碍:受到讨论手段和仪器设备限制,试验重复次数少或者样品数目小,测定项目少,难以获得大样本数据;计算简单,凭借人工方式或者计算器帮助方式难以完成,必需用法计算机软件,而软件数量少且价格

4、高;分析结果有时不易解读,基本假定时常难以验证。目前形势已发生了很大改变。经典多元统计分析方法在生物学、生态学和农学中的应用已经是常态,而且,随着数据分析新方法的不断消失,各种商用和免费的计算机多元统计软件也同步推出,互联网突破了统计新技术传播的时间和空间限制,大大便利了推广应用。统计软件的多元作图和可视化功能增加,在很大程度上增加了原始数据和分析结果的易读性和直观性。重抽样技术的兴起和普及,在较大程度上突破了一些基本假定的限制。除传统时间序列统计分析领域连续进步外,生态系统固有的空间变异属性受到了前所未有的重视,短短几十年内,空间统计 135 学自诞生以来就始终飞速进展。全部这些都为我国烟草

5、学领域广泛应用多元统计制造了良好条件,我们应当与时俱进,主动认识它,了解它,这对提升烟草学讨论和生产水平具有重要意义。 2多元作图可视化方法 二维和三维的散点图和密度图有助于识别离群点、极端点和聚合点,初步推断关联走向1。由两两变量散点图组成的阵列图能够展现诸多变量之间关联的分布模式和格局。具有动画的散点图软件还可以任意变换视角,选择展现变量关联的最佳角度。值得指出,图中坐标点既可以是原始数据,也可以是多元统计的分析结果。 统计脸谱图1-2,也称Chernoff脸谱图,是多元作图的一种经典方法,能在平面上直观、形象地展现多变量数据的特征,它有多个变种。其中一种可以绘制最多36个变量的数据,一个

6、变量对应面部的一个特征,左右半脸各对应18个变量。应用此技术有两个关键点,一是变量的归一化变换(最小值对应0,最大值对应1),二是面部特征与变量的对比表。利用人类对面部特征微小改变敏感的心理特质,借助脸谱图,既可以同时依据多个变量对样品进行相像性或者相异性的综合直观辨别,也可以识别离群点(例如两个以上变量取值特别生成极端脸形,又如某个变量取值特别,对应面部特征有显著改变)。 平行坐标图3是多元作图的又一种经典方法。平行坐标图与脸谱图一样,突破了笛卡儿坐标系只能表示二维和三维数据的限制,格外适合展现变量数目超过3个的多元数据。其技术原理很简洁,首先对每个变量进行归一化变换,在横坐标轴上依次排列全

7、部变量,变量值为纵坐标,一个样品的各点依次连接为一条折线。离群点看起来是离群的多边形。变量挨次对图形易读性有重要影响,一种挨次可能比另一种挨次更能反映数据改变的态势。用法颜色表示样品类别可以改善图的易读性。 双标图能够在图中同时显示由多个样品多个变量(离散型和连续型)组成的数据,可以展现主成分、典型相关、多维尺度分析、各种对应分析的结果4。 3主成分分析 通俗地讲,主成分分析就是将简单的多元数据进行简化,把多个相互关联的指标化简成少数几个相互独立的综合指标,而且,这些综合指标最大程度地保留了原来数据的信息。一个变量的信息量常用其方差 烤烟,烟草,KRK26,津巴布韦烤烟,烘烤,成熟采收,品种,

8、栽培 136表示,全部变量的方差总和就是多元数据的信息总量。用最简洁的统计语言描述基本原理就是,首先查找变量的线性组合中最大方差的那一个,称为第一主成分;接着,在剩余信息中查找方差最大的、并且与第一主成分独立的变量线性组合,称为其次主成分;如此反复,直到剩余信息等于零为止。可以用法协方差矩阵或者相关系数矩阵计算主成分,这两种计算方法获得的结果并不相同。用法协方差矩阵意味着变量的信息量大小完全取决于其方差大小,而且,当变量量纲不同时,产生分析结果不易说明问题;用法相关系数矩阵则意味着不同变量的信息量相同,并且消退了量纲不同的干扰。主成分的主要用途如下:作为一种化简即所谓降维技术,构造综合指标;在

9、二维或者三维空间中实现多元数据的可视化;作为其它多元统计分析的数据源,例如主成分回来、主成分聚类、主成分判别等。 主成分的简化力量取决于原始变量之间的线性相关性,相关性越强,简化效果越明显。例如,汪显国等6利用主成分方法综合评价烟丝产品中6种加香物质含量的匀称性,前两个主成分的累计方差和达到总方差的98.8%,这意味着已经把6个变量化简为2个新变量,同时几乎保留了原来6个变量的全部信息。 主成分分析最早依据多元联合正态分布推导而来,明显,连续性、正态性和线性相关成为基本假定。赵杰宏等人7的讨论中烟叶变量(外观质量指标和评吸质量指标)都是有序变量而非连续变量,明显不符合主成分分析的连续性和正态性

10、假定,明显不能用法一般相关系数,而应当用法Polychoric相关系数5。随着新型统计技术的消失,主成分分析正在突破早期的假定限制,如投影寻踪主成分等方法解决了主成分对离群点敏感的问题,供应了所谓的稳健主成分,又如核主成分等方法解决了经典主成分无法处理变量间非线性关系的问题,拓展了主成分的应用范围。 鉴于试验或者调查讨论的结果总是样本结果,人们就用样本的主成分近似总体的主成分。样本结果的偶然性必定引起样本主成分的偶然性,这时,如何确定合理的主成分数目和如何精准计算主成分的标准误就成为影响主成分实际应用效果的重要问题。目前看来,Bootstrap等统计重抽样技术供应了一种切实可行的解决方案8。

11、4聚类分析 聚类分析是依据“物以类聚”的思路,对样品或者指标(即变量)进行分类的一种多元统计分析方法。 中国烟草学报2021年10月 第20卷 第5期 聚类分析属于数值分类的范畴,是一种探究性数据挖掘技术。样品聚类分析是在事先不知道应分多少类的状况下,进行探究性分析,对观看对象即样品依据某些数量特征适当分类。变量聚类分析是在事先不知道应分多少类的状况下,进行探究性分析,对观看对象的数量特征挺直分类。样品分类的常用距离有:欧氏距离,马氏距离,闵可夫斯基距离等,样品间距离越小则划入同一类的可能性越大,反之亦然。指标分类的常用相像系数有:夹角余弦,相关系数,指标间相像性越大则划入同一类的可能性越大9

12、。上述情形只限于连续型变量,对于二值变量组成的多元数据,最好构造特别的距离或者相像系数1。为消去变量量纲不同或者变异幅度不同的影响,样品聚类时,要对变量进行标准差标准化或者极差标准化变换,而变量聚类时,同样要对样品进行标准化变换。 聚类分析的功能在于发觉多元数据中自然存在的分组或者类型,广泛用于烟草基因型分类10、产地生态分类11、产品生理生化指标分类、作物性状分类12等领域。聚类分析基本步骤有两个:一是选择距离或者相像系数的计算方法,二是选择合并子类的计算方法。二者都没有公认的选择标准,主要依据聚类结果与专业领域阅历的吻合程度加以推断。经典的聚类分析不考虑分类结果的稳定性,没有确定最终分类数

13、目的准则,使应用效果受到较大影响。针对这些问题,Bootstrap等统计重抽样技术在肯定程度上给出较好的解决方案,关心确定最终分类数目,剖析分类结果的稳定性等13,统计软件的较新版本都具有这种功能14-15。聚类结果通过实践检验以后,就可以进一步付诸判别分析,以解决新样品的归类问题。 5判别分析 判别分析是在多元数据中全部样品分类明确的条件下,建立判别函数和判别准则的一种多元统计分析方法。它的终极目标是依据一个新样品的多指标测量结果,即多变量观测值,推断它归属于已知类型中的哪一类。判别分析在烟草上有广泛应用,例如,依据患病病害或者虫害的烟草植株或者器官或者组织的多个症状,诊断病害或者虫害的种类

14、。依据烟叶或者烟丝的多个理化特性,识别其产地或者产品类别。依据烟草DNA指纹,识别其基因型身份。 判别分析的基本原理是根据肯定的判别准则,建立一个或多个判别函数,用讨论对象的大量资料即多元数据确定判别函数中的待定系数,并计算判别指标。据此即可确定某一新样品属于何类。目前常用的判别 烤烟,烟草,KRK26,津巴布韦烤烟,烘烤,成熟采收,品种,栽培 杨锦忠等多元统计分析及其在烟草学中的应用 准则为极大似然法和贝叶斯法。经典的费雪线性判别函数适用于线性可分的分类和识别问题,并且要求不同类别具有同质的协方差矩阵。当协方差矩阵不同质时,可以用法二次判别函数以完成分类和识别任务9。用法核判别函数则可以解决

15、更简单的非线性分类与识别问题,已经胜利应用于植物的种子识别和花朵识别16。 通过评价判别分析结果的稳定性,可以提高分析结论的劝说力,因此,应当在判别分析时用法Bootstrap等统计重抽样技术,帮助从全部变量中筛选稳健的变量子集,估量误判概率等17-18。 6典型相关分析 典型相关分析是讨论两组变量之间线性相关的一种多元统计方法,通常用于讨论初级阶段的探究性简化分析。用于典型相关分析的多元数据,事先必需将测定指标即变量,根据自然属性划分为两组。若两组变量地位相同,则可以把典型相关看作是讨论它们之间相互关联的一种分析方法。若两组变量有依靠关系,则可以认为典型相关能够通过自变量组说明依变量组的改变

16、。烟草学的不少实际问题可归结为典型相关讨论,如烟草性状与环境因素之间的相关,育种目标性状和选择性状之间的关系9,烟草两组性状,如物理性状和化学性状之间的相关等19-20。 典型相关基本原理是构造互不相关的若干配对的典型变量,每对典型变量分别来自两组原始变量的线性组合。它把简单的组内变量相关和组间变量相关,化简为配对内典型变量间的相关。第一对典型变量间相关性最强,其次对次之,以此类推,典型变量配对数目的最大值等于两组变量数目的最小值,实际应用中只用法前面少数几对重要的典型变量21。从数学角度看,两个变量之间直线相关,以及一个依变量和多个自变量之间的复(线性)相关都是典型相关的特例。 和主成分分析

17、一样,典型相关分析基于总体的联合正态分布假定,利用试验或者调查得到的样本数据,开展有关总体参数的估量和显著性检验。它对非正态数据或者抽样误差的敏感性超过其它多元统计方法。为提高分析结论的劝说力,应当采纳Bootstrap重抽样技术对典型相关、典型系数、典型结构等进行统计检验22。 7其它多元统计方法 还有许多其它多元统计方法可以应用于烟草学理 137 论讨论与技术开发,限于篇幅无法一一介绍。例如,典型变量分析用于剖析多个变量对类别间差异的作用格局12,23,多元方差分析用于检验试验处理间的多变量综合差异23,对应分析在卡平方独立性检验的基础上深化解析行变量和列变量的相互依存格局1,9,因子分析

18、用于发觉对现有观测变量起到制约或者主导作用的一组潜变量24-25。 除上述那些经典方法外,还有一些值得关注的新型多元统计方法,诸如空间统计学用于描述作物各种特性的地理分布模式与格局26-27,支持向量机回来突破了传统非线性回来只能拟合显式方程的限制28,投影寻踪用于判别分析、聚类分析和回来分析,拓宽了这些经典多元统计技术的适用条件29,分类与回来树奇妙利用简易的二叉树来解决变量数目多、彼此关系简单条件下的分类与预报问题30-31,偏最小二乘回来用于解决自变量数目多于样品数目时的多个依变量预报问题32-33,结构方程模型用于一次性构建多个多层次因果关系模型4,21,34,如此等等。 剧烈推举在多

19、元统计分析时用法Bootstrap等统计重抽样技术,以增加分析结果的劝说力。不过,在多元统计分析中用法统计重抽样技术,效果虽然优于不用法,但是,仍旧不如挺直进行验证性的实际重复试验更有劝说力。 烤烟,烟草,KRK26,津巴布韦烤烟,烘烤,成熟采收,品种,栽培 138 2021. 10 刘雷,马炎,梁宇,王勇,等. 四川地方晾晒烟品种叶面样子分析J. 中国烟草学报,2021,17(03):53-57. 11 董贤春,王军,吴东,等. 宜昌兴山烟区土壤主要养分改变分析及用肥分区讨论J. 中国烟草学报,2021,18(06):65-68. 12 李娜娜,杨锦忠,郝建平. 逆境下玉米果穗样子及其与产量

20、的关系J. 应用生态学报,2021(07):1782-1788.13 Kerr M K, Churchill G A. Bootstrapping cluster analysis: assessing the reliability of conclusions from microarray experimentsJ. Proceedings of the National Academy of Sciences, 2021, 98(16): 8961-8965. 14 Suzuki R. Pvclust: An R package for assessing the uncertaint

21、y in hierarchical clusteringJ. Bioinformatics,2021, 22 (12): 1540-1542. 15 Hampl V, Pavlcek A, Flegr J. Construction and bootstrap analysis of DNA fingerprinting-based phylogenetic trees with a freeware program FreeTree: Application to trichomonad parasitesJ. International Journal of Systematic and

22、Evolutionary Microbiology, 2021,51: 731-735. 16 Baudat G, Anouar F. Generalized discriminant analysis using a kernel approachJ. Neural Computation,2021,12 (10): 23852404. 17 Chernick M R. Bootstrap Methods: A Guide for Practitioners and ResearchersM. 2nd Edition. New York:Wiley,2021. 18 陈友义,涂冬生. 判别分

23、析中误判概率的绽开估量、Jackknife估量和Bootstrap估量J. 应用概率统计,1987,03:203-210. 19 邓小华,周清明,周冀衡,等. 烟叶质量评价指标间的典型相关分析J. 中国烟草学报,2021,17(03):17-22.20 Li D, XU Z, CHEN J. Canonical Correlation Analysis between Main Chemical Components and Physical Properties in Flue-Cured Tobacco Leaves J. Journal of Henan Agricultural Uni

24、versity, 2021, 5: 4. 21 Lattin J M, Carroll J D, Green P E. Analyzing multivariate dataM. Pacific Grove, CA: Thomson Brooks/Cole, 2021.22 Oslund E L. Canonical Correlation Analysis: A Step-by- 中国烟草学报2021年10月 第20卷 第5期 Step Example in Commonly Available SoftwareJ. Multiple Linear Regression Viewpoints

25、, 2021, 36(2):29-39. 23 Vu eti A, Petrovi -Obradovi O, Stanisavljevi L . The morphological variation of Myzuspersicae (Hemiptera: Aphididae) from peach and tobacco in Serbia and MontenegroJ. Archives of Biological Sciences, 2021, 62(3): 767-774. 24 林琳,曲亚玲,沈凤兰,等. 真伪卷烟主流烟气指标的因子分析和聚类分析J. 中国烟草学报,2021,16

26、(04):5-8.25 Radzius A, Epstein D H, Gorelick D A, et al. A factor analysis of the Fagerstrm Test for Nicotine Dependence (FTND)J. Nicotine Tobacco Research, 2021, 5(2): 255-260. 26 刘爱利 , 王培法 , 丁园圆. 地统计学概论M.北京:科学出版社, 2021. 27 Fischer M, Leung Y. Geocomputational Modelling: Techniques and Applications

27、 M/ Advances in Spatial Science.Berlin:Springer-Verlag, 2021. 28 张勇,丛茜,谢云飞,等.烟草组分的近红外光谱和支持向量机分析J. 高等学校化学学报,2021(04):697-700.29 成平,李国英. 投影寻踪一类新兴的统计方法J. 应用概率统计,1986,03:267-276. 30 赵萍,傅云飞,郑刘根,等. 基于分类回来树分析的遥感影像土地利用/覆被分类讨论J. 遥感学报,2021(06):708-716. 31 张松林. CART-分类与回来树方法介绍J. 火山地质与矿产,1997(01):67-75. 32 Shao

28、 Y, He Y, Wang Y. A new approach to discriminate varieties of tobacco using vis/near infrared spectraJ. European Food Research and Technology, 2021, 224(5): 591-596. 33 Wang F, Chen D, Shao X G. Application of Wavelet Transform and Partial Least Square in Prediction of Common Chemical Compositions in Tobacco SamplesJ. Tobacco Science Technology/Inspection standard, 2021 (3): 31-34. 34 王酉石,储诚进. 结构方程模型及其在生态学中的应用J. 植物生态学报,2021(03):337-344.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1