[数学]全国大学生数学建模竞赛A题葡萄酒理化指标与质量的评鉴分析_获全国二等奖.doc

上传人:音乐台 文档编号:1983551 上传时间:2019-01-28 格式:DOC 页数:36 大小:1.67MB
返回 下载 相关 举报
[数学]全国大学生数学建模竞赛A题葡萄酒理化指标与质量的评鉴分析_获全国二等奖.doc_第1页
第1页 / 共36页
[数学]全国大学生数学建模竞赛A题葡萄酒理化指标与质量的评鉴分析_获全国二等奖.doc_第2页
第2页 / 共36页
[数学]全国大学生数学建模竞赛A题葡萄酒理化指标与质量的评鉴分析_获全国二等奖.doc_第3页
第3页 / 共36页
亲,该文档总共36页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《[数学]全国大学生数学建模竞赛A题葡萄酒理化指标与质量的评鉴分析_获全国二等奖.doc》由会员分享,可在线阅读,更多相关《[数学]全国大学生数学建模竞赛A题葡萄酒理化指标与质量的评鉴分析_获全国二等奖.doc(36页珍藏版)》请在三一文库上搜索。

1、葡萄酒理化指标与质量的评鉴分析摘 要用好的葡萄也许酿不出好酒,但没人能用劣质葡萄酿出好酒。巧妇难为无米之炊,再优秀的酿酒师,如果没有优质的葡萄,也很难酿出好酒。不同葡萄品种酿制出的葡萄酒是不同的,但是,除了品种间的差异,葡萄自身的质量是酿制高品质葡萄酒的关键。本文通过建立聚类模型、典型相关分析等模型,逐步探求用葡萄和葡萄酒的理化指标来评鉴葡萄酒质量的方法。问题一要求我们分析附件1中两组评酒员的评价结果是否存在显著性差异,为此我们依据小概率原理建立模型-显著性检验模型。首先我们利用检验求解两组评酒员之间是否存在显著性差异,再利用配对检验对检验样本做再次检验,以提高研究效率,确保评价结果的准确性。

2、利用软件处理数据后,进行、的联合检验,当联合检验均被接受,得到两组评酒员的评价结果有显著性差异的结论。同时通过对两组品酒员对55种葡萄酒样品评分的稳定性、统一性分析,确定第二组品酒员的评价结果更可信。针对问题二 本文根据附件2提供的数据,利用模糊数学原理3,建立模型聚类模型,对酿酒葡萄进行分类,再以葡萄酒品尝评分作为质量评价依据,对酿酒葡萄进行分级。首先,考虑到酿酒葡萄的理化指标过多,不便分类,我们利用多元统计分析原理对红、白酿酒葡萄进行主成分分析,得出红、白酿酒葡萄分别有8个和11个主成分,从而大大减少了分类指标。再利用算法求出最佳聚类数,建立聚类模型对各种葡萄样品在各个主成分上的得分进行聚

3、类,将红、白葡萄样品分别划分为3类和4类。最后,根据每个类别中葡萄样品对应的葡萄酒的品尝评分,对各类酿酒葡萄进行分级。 针对问题三 建立模型-典型相关分析模型,定量分析酿酒葡萄与葡萄酒的理化指标之间的联系。我们首先选取酿酒葡萄与葡萄酒皆含有的花色苷、单宁等成分作为理化指标,然后构建典型相关分析模型,研究酿酒葡萄与葡萄酒两组样品的理化指标之间的相关性。得出的结论是:红葡萄与红葡萄酒的理化指标有显著相关性,而因酿造工艺的不同,白葡萄与白葡萄酒的理化指标并无显著相关性。针对问题四 建立模型-多元回归模型。我们在模型给出的结论基础上,对酿酒葡萄的理化指标与葡萄酒理化指标之间的联系作进一步讨论。根据原始

4、数据使用作出红葡萄样品中芳香物的含量与红葡萄酒的芳香物含量的对比图,从图中可明显看出两者之间存在较强的相关性。由于酿造工艺的差异,白葡萄样品中芳香物的含量与白葡萄酒的芳香物含量没有明显的相关性。因此,我们仅以讨论葡萄酒的理化指标与葡萄酒质量的影响,利用最小二乘原理,建立多元回归分析模型,用软件求解得到红葡萄酒的理化指标与红葡萄酒的质量的评价方程,由此得出能够用红葡萄酒的理化指标来评价红葡萄酒的质量。由于无法得出白葡萄和白葡萄酒理化指标对白葡萄酒质量的关系,故无法使用白葡萄和白葡萄酒理化指标来白葡萄酒的质量。本文在问题二中选择影响葡萄酒质量的理化指标时方法具有一定的特点,采用主成分分析法与聚类方

5、法相结合,以较少的综合指标代替较多的原有指标,既简化,又使计算结果具有可靠性。关键词:葡萄酒;理化指标;典型相关分析;聚类分析;1 问题的重述一、背景知识1.葡萄酒的发展历史葡萄酒的酿造起源于公元前6000年古代的波斯,即现今的伊朗。对于葡萄的最早栽培,大约是在7000年前始于前苏联南高加索、中亚细亚、叙利亚、伊拉克等地区。后来随着古代战争、移民传到其它地区。初至埃及,后到希腊,传至法国等欧洲国家时,葡萄酒的发展达到了新的高峰。在被人誉称为浪漫之都的法国,葡萄酒被视为快乐的泉源,幸福的象征。随着中国不断的对外开放,葡萄酒业也随之加快了发展的脚步。加入世界贸易组织,中国葡萄酒行业更是发生巨大变化

6、:生产成本不断降低;全国性品牌减少;行业整流整合,强者愈强,弱者难以为继;生产优质低价的葡萄酒去占领国际市场成为发展的趋势。图1 葡萄酒酿造国家分布图2.葡萄酒的介绍葡萄酒又称红酒,被视为幸福的象征。它是用新鲜的葡萄或葡萄汁经发酵酿成的酒精饮料。葡萄酒的品种很多,因葡萄的栽培、葡萄酒生产工艺条件的不同,产品风格各不相同,通常分红葡萄酒和白葡萄酒两种。前者是红葡萄带皮浸渍发酵而成,有多种的红,根据葡萄酒的年龄的不同,色泽浅到浅3红,深到深褐色;后者是葡萄汁发酵而成的,但白葡萄酒并非就是白色的,只是相对于红葡萄酒而言。色泽浅到浅黄,深到泛金黄,通常为柠檬色;取料是白葡萄或红(黑)葡萄或两者的混合

7、。3.葡萄酒的制作按照国际葡萄酒组织的规定,葡萄酒只能是破碎或未破碎的新鲜葡萄果实或汁完全或部分酒精发酵后获得的饮料,其酒精度一般在8.5到16.2之间;按照我国最新的葡萄酒标准GB15037-2006规定,葡萄酒是以鲜葡萄或葡萄汁为原料,经全部或部分发酵酿制而成的,酒精度不低于7.0%的酒精饮品。因此不同质量的酿酒葡萄酿出的葡萄酒的质量不同,葡萄的品种、成产地区、所含化合物的比重都会在一定程度上使葡萄酒的质量受到影响。但同时,制作葡萄酒的工艺流程对葡萄酒质量的影响也是不可忽视的。发酵的时间、温度、所使用器皿等的不同制出的葡萄酒的品质差异也会很大。葡萄酒制作工艺流程如下图2。图2 葡萄酒工艺流

8、程图二、原始数据1.附件1:两组评酒员对葡萄酒的品尝评分表(含4个表格);2.附件2:葡萄样品和葡萄酒样品的理化指标(含2个表格);3.附件3:葡萄样品和葡萄酒样品的芳香物质(含4个表格)。三、要解决的问题现根据附件中提供的数据,要求建立数学模型以解决以下问题:问题一:建立相关模型分析附件1中两组评酒员的评价结果有无显著性差异,确定评价结果更可信的一组;问题二:根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级;问题三:定量分析酿酒葡萄与葡萄酒的理化指标之间的联系;问题四:分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。2 问题的

9、分析一、相关知识的介绍世界上最有影响力的葡萄酒评论家罗伯特帕克。他创造的葡萄酒评分体系100分制,葡萄酒的打分范围是50-100,基于以下四个主要因素:外观,香气,风味,总体质量或潜力。每瓶葡萄酒最低都能得到50分。具体级别划分为:分数范围96-100为极佳 ;分数范围90-95为优秀;分数范围80-89 为优良;分数范围70-79为一般;分数范围60-69为低于一般;分数范围50-59为次品。如今这种葡萄酒质量的评分标准是国际公认的最权威评分标准,对全世界优质葡萄酒的价格和需求有非常大的影响。二、对问题的总分析在2012年5月25日27日举行的2012中国国际名酒展览会上,展会最大亮点就是中

10、国引入了世界葡萄酒行业公认的鉴酒专家罗伯特帕克的评分标准。国内引入帕克评分标准,将对消费者起到一个权威的指导作用,将有助拨开以往红酒消费迷雾。真正走上理性消费的道路,形成新的葡萄酒消费文化。葡萄酒的质量即葡萄酒优秀的程度,它是产品的一种特性,且决定购买者的可接受性。从消费的角度来看,葡萄酒的质量更多地是通过品尝评分的高低来体现。同时,另一层面上,葡萄酒作为葡萄的发酵产品,它的质量又取决于原料的质量、所采用的加工工艺及相应的陈酿技术等因素。为分析酿酒葡萄和葡萄酒之间的相互影响关系,本文将通过建立典型相关分析模型检验葡萄中理化指标、葡萄酒中理化指标之间的关联度,进而利用多元线性回归方法,分析酿酒葡

11、萄和葡萄酒的理化指标对葡萄酒质量的影响,最后,利用帕克的评分体系检测葡萄酒质量理化指标评定方法的可行性。三、对问题的具体分析1.对问题一的分析问题一要求我们分析本题附件1中两组评酒员的评价结果有无显著性差异,判断两组葡萄酒品尝打分更可信、真实。对于分析显著性差异,我们需要进行显著性检验,利用数理统计的方法来评价一个分析方法的可靠性达到了什么样的水平。而实验这种水平精密度准确度,则是通过、检验它们同时以小概率事件原理为出发点,通过其固有程序仅为达到统计检验的目的。最后对评价结果的可信度可以做出定性的判断。2.对问题二的分析问题二要求我们根据酿酒葡萄的理化指标、葡萄酒的质量对所给葡萄样品进行分级。

12、而对于酿酒葡萄的分级,是依据葡萄质量的好坏程度影响葡萄酒质量的好坏程度进行品质高低的分级的。我们可以根据本文所给葡萄各项指标数据先对酿酒葡萄进行分类,进而根据质量综合评分对酿酒葡萄进行分级。在对酿酒葡萄分类时,我们可以建立聚类算法模型,对酿酒葡萄建立合理的分类体系,在此过程中利用主成分分析法对酿酒葡萄指标数据进行处理;然后,利用文中将葡萄样品的品尝综合得分作为葡萄酒质量评价标准的依据,根据得分的高低顺序对各类酿酒葡萄进行分级划分。3.对问题三的分析问题三要求我们分析酿酒葡萄与葡萄酒的理化指标之间的联系。鉴于红葡萄与红葡萄酒的制作与白葡萄与白葡萄酒制作的不同,我们将红葡萄与白葡萄与其所酿的葡萄酒

13、分别分析其理化指标的关系。首先,选取酿酒葡萄与葡萄酒合理的理化指标,然后构建典型方差分析模型,以酿酒葡萄的理化指标与葡萄酒的理化指标作为两组变量,从整体上分析酿酒葡萄与葡萄酒的理化指标之间的关系4.对问题四的分析要论证能否用葡萄和葡萄酒的的理化指标来评价葡萄酒的质量,必须分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。我们可以根据问题三的结论,分析葡萄酒与葡萄样品中的理化指标的相关性。其次,我们通过建立多元线性回归模型,判定葡萄酒的理化指标对葡萄酒质量的影响。根据回归系数的大小确定葡萄酒中的理化指标对于葡萄酒质量的影响3 模型的假设1.所有葡萄样品的生长环境相同;2.葡萄酒制作工艺环境一样;

14、3.20位品酒员随机分到两组,且每位品酒员的评分公平公正;4.品酒员可信度不受客观因素影响;5.每位品酒员经验丰富,判别能力准确;6.所给样品红葡萄酒或白葡萄酒的制作工艺一致。4 名词解释与符号说明一、名词解释1.理化指标:指物质或产品的物理性质、物理性能、化学成分、化学性质、化学性能等技术指标,也是产品的质量指标。它是对照国家标准要求,按照标准检测方法检测的。2.葡萄酒的理化指标:总酸、挥发酸、酒精度、干浸出物、总浸出物、残糖、单宁、色度、色调、总酚、总、明胶、盐酸、PH、固形物等等。3.花色苷:是花色素与糖以糖苷键结合而成的一类化合物,广泛存在于植物的花、果实、茎、叶和根器官的细胞液中,使

15、其呈现由红、紫红到兰等不同颜色。4.单宁:是英文(Tannins)的译名,是葡萄酒中所含有的二种酚化合物其中的一种物质,尤其在红葡萄酒中含量较多,有益于心脏血管疾病的预防。二、 符号说明序号符号符号说明1各个对子值的差数2差数的平均数3为差数的标准差4为差数的标准误5对子数6置信水平7方差8葡萄的花色苷9葡萄的单宁10葡萄的总酚11葡萄总黄酮12葡萄的白藜芦醇13葡萄的DPPH自由基。14葡萄的L*15葡萄的a*(+红;-绿)16葡萄的b*(+黄;-蓝)17葡萄酒的花色苷18葡萄酒的单宁19葡萄酒的总酚20酒总黄酮21葡萄酒的白藜芦醇22葡萄酒的DPPH半抑制体积,23葡萄酒的L*(D65)2

16、4葡萄酒的a*(D65)25葡萄酒的b*(D65)5 模型的建立与求解一、问题一的分析与求解模型 显著性检验模型1问题的分析在问题一中,我们需要对本题附件1中两组评酒员的评价结果进行数据分析,根据分析结果判断有无显著性差异。而分析显著性差异,则需要显著性检验,利用数理统计的方法来评价一个分析方法的可靠性达到了什么样的水平。作为一种成熟的分析方法,人们对它的精密度、准确度好坏的期望值总是越来越高,而衡量这精密度,准确度好坏的标准则是通过、检验1它们同时以小概率事件的原理为出发点,通过其固有的程序达到统计检验的目的。我们可以利用检验来求解两组评酒员之间是否存在显著性差异,然后利用配对检验对检验样本

17、做再次检验,以提高研究效率。对于两组品酒员评分的可信度,2模型的准备、两种检验法从各自不同的角度对两组或两组以上的数据间有无显著性差异进行检验推断,检验常用于比较两组数据的分布情况,这种比较可以在两种方法之间展开;检验则是通过计算两组数据的方差之比检验它们在精密度上的差异是否显著,亦即检验它们的分析条件是否处在稳定的状态。然而,在实际工作中,常常出现,检验在同一问题,同一置信水平下,两种检验的检验判断不一致,故针对此种情况,本文在进行显著性检验时,同时进行,的联合检验,只有当联合检验一同被接受之后,所作出的结论才是完整的和可以信赖的。3模型的建立与求解1)数据的处理首先利用附件1的数据,求出两

18、组中各品酒员分别对每一酒样的综合得分,再求每一组对某一酒样的平均分。详见附录表1 酒样评价总分表。经软件对数据进行正态分布检验,基本所有数据通过正态分布检验。2)F检验(1)先建立无效假设,两组品酒员对酒样评分的标准差无差异性,即,备择假设,。同时确定显著性水平。(2)先求出两组数据的(标准偏差),再求得方差,把方差大的记为,方差小的记为(3)按下列数学公式求出统计量:利用软件,得到检验的结果,见表1:表1 红、白葡萄评分检验(双样本方差分析)白葡萄酒第一组第二组红葡萄酒第一组第二组平均74.2607176.53214平均73.0555670.51481方差27.0528410.05485方差

19、53.914115.82439观测值2828观测值2727df2727df26262.6905263.407026P(F=f) 单尾0.00623P(=f) 单尾0.00132 单尾临界1.904823单尾临界1.929213对于置信水平,查检验的临界值表知,则根据检验结果,说明第一组,第二组对白葡萄酒,红葡萄酒的品尝评分具有显著性差异。3)配对检验配对检验又称成对检验。是将对子差数看作变量,先假设两种处理的效应相同,即对子差值的总体均值,再检验样本差数的均值与0之间差别有无显著性,推断两种处理因素的效应有无差别或某种处理因素有无作用。由于此设计使影响结果的非被试因素相似或相同,因而提高了研究

20、效率。(1)先建立无效假设,两组品酒员对酒样评分的标准差无差异性,即,备择假设,。同时确定显著性水平,(2)先求出两组数据的(标准偏差),再求得方差,把方差大的记为,方差小的记为(3)按下列数学公式求出统计量:式中为各个对子值的差数,为差数的平均数,为差数的标准差,为差数的标准误,为对子数。利用软件,求出检验的结果,见表2:表2 红、白葡萄评分检验(成对双样本均值分析)白葡萄酒第一组第二组红葡萄酒第一组第二组平均74.2607176.53214平均73.0555670.51481方差27.0528410.05485方差53.914115.82439观测值2828观测值2727泊松相关系数0.2

21、06612泊松相关系数0.699811假设平均差0假设平均差0df27df26t Stat-2.18379Stat2.457626P(T=t) 单尾0.018921P(T=t) 单尾0.010484t 单尾临界1.703288t 单尾临界1.705618P(T=t) 双尾0.037841P(T=t) 双尾0.020968t 双尾临界2.05183t 双尾临界2.055529对于置信水平,,故接受原假设,认为第一组、第二组对白葡萄酒、红葡萄酒的品尝评分具有显著性差异。综上,由检验与检验结果可知,均认为第一组,第二组对白葡萄酒,红葡萄酒的品尝评分具有显著性差异,因此,我们最后认为附件1中两组评酒员

22、的评价结果有显著性差异。 模型 可信度模型模型的建立与求解我们通过对品酒员水平的评价来确定两组品酒员的可信度。一般来说,由于品酒员对葡萄酒的评价常常根据其自身喜好有所不同,但是不同的品酒员对某一种葡萄酒的评价又有一定联系。对同一种葡萄酒,不同品酒员的打分可能不完全相同,但分数应在一个范围内波动,所有分数有一定离散性,又有联系。而对品酒员打分的评价没有任何固定公式来计算,所以评价的方式是比较离散的。但是离散的评价方式又得有联系,并能综合评价品酒员水平的好坏。评价某品酒员水平的方法多种多样,有离散性的分析统计、波动性的分析、统一性的分析等。1、对于数据离散性的分析,由分数偏差来表达,而偏差正负的个

23、数可以反映该品酒员给分偏高还是偏低。然后通过最大分数和最小分数的统计可以辅助评价某品酒员给分的偏差。 2、对波动性的分析,由方差来达某品酒员给分的稳定性。 3、统一性(联系): 在上述两个分析结果后,如果出现不能比较的情况,就对某几位大致相当的选手进行继续分析。因为各个品酒员的分数不应该相差太大。所以用平均偏差和的大小来衡量某品酒员与整体的统一性。 偏差率:平均偏差率:模型的建立与求解1.分析波动性(稳定性):对于品酒员打分的稳定性来说,方差是一个可以评定的方式。使用来统计品酒员打分的方差如表3。表3 白、红葡萄酒品尝评分方差白葡萄品尝总评分方差红葡萄品尝总评分方差葡萄酒样品号第一组得分第二组

24、得分葡萄酒样品号第一组得分第二组得分192.222225.8778192.9000081.877782201.066749.0667239.7888916.222223365.1222142.4889345.8222230.71111444.711142.10004108.044441.288895126.444426.2778562.0111113.655566162.711122.7222659.7333321.12222739.166742.17787103.611162.677788183.600031.1222844.0111165.11111992.7667106.2667932.

25、9444425.7333310212.677870.40001030.4000036.1777811177.122287.82221170.7666738.0444412115.7889140.04441279.6555625.1222213170.766746.76671344.9333315.2888914114.222215.87781436.0000023.1555615131.600054.04441585.5666741.3444416178.000082.23331618.1000020.117144.177838.45561788.011119.16666718156.5444

26、30.23331847.2111150.266671946.400026.04441947.3777855.155562064.400050.04442026.0444439.0666721172.711164.400021116.1000035.5111122138.666753.60002250.6222224.266672343.655611.60002332.4888924.7666724111.122238.54442474.8888910.722222533.8778106.50002564.6222243.733332672.9000102.90002631.2888941.55

27、55627144.400035.55562749.7777820.500002880.455625.3778为更直观地观看两组评酒员对红葡萄酒的品尝总评分方差大小关系,我们利用做出对应评分方差的折线图,见图3。图3 红葡萄总评分方差图为更直观地观看两组评酒员对白葡萄酒的品尝总评分方差大小关系,我们利用做出对应评分方差的折线图,见图4。图4 白葡萄总评分方差图稳定性分析:如方差图所示,第二组对白葡萄酒品尝总评分方差第一组对白葡萄酒品尝总评分方差,第二组对红葡萄酒品尝总评分方差第一组对红葡萄酒品尝总评分方差,显然第二组评分的稳定性明显高于第一组,即第二组品酒员给葡萄酒打分的波动性较小,具有一定的可

28、靠性。2.偏差性分析,即一致性分析:使用来统计品酒员打分的平均偏差率如表4。表4 白、红葡萄酒品尝评分平均偏差率白葡萄总评分平均偏差率红葡萄总评分平均偏差率白葡萄酒样品号第一组第二组红葡萄酒样品号第一组第二组1178.2244-7.4E-171-5E-178.26E-172-3.9E-173.89E-1723.61E-17033.4E-177.63E-173-7.1E-177.6E-174-7.5E-17-7.4E-1748.47E-17-3.6E-1754.16E-18-1.4E-1853.82E-177.7E-176-8.3E-17-1.4E-186-3.6E-174.34E-1772.0

29、8E-18-3.7E-177-5.6E-184.54E-178-8.3E-173.89E-1783.96E-1709-8E-17-7.4E-1796.94E-19-3.6E-17104.23E-173.89E-1710-4E-174.16E-17114.41E-17-8.3E-17118.6E-17-2.3E-17123.47E-17-7.8E-17122.78E-174.02E-1713-8.4E-17-7.6E-17137.49E-174.23E-1714-6.9E-197.36E-171407.96E-1715-7.5E-17-7.2E-1715-3.9E-17-4.6E-17168.3

30、3E-184.23E-1716-7.7E-17-8.3E-17172.78E-173.47E-17173.68E-170187.77E-17-3.6E-17181.94E-17-8.5E-1719-3.9E-17-7.4E-17197.25E-178.22E-17203.54E-177.88E-17207.32E-173.75E-1721-7.1E-17-3.6E-17217.63E-17-3.9E-1722-2.8E-18-7.4E-1722-3.7E-177.91E-1723-7.3E-17-7.4E-17236.8E-177.42E-17244.16E-177.63E-17242.78E

31、-18-3.5E-19257.49E-172.78E-1825-4.2E-17-4.2E-17263.61E-173.89E-17263.61E-172.08E-18275E-17-1E-18270-1.4E-18283.89E-177.22E-17由表4显而易见,第二组的平均偏差率第一组的平均偏差率,说明第二组品酒员的打分更具有统一性。综上,第二组品酒员的评分可信度更高。二、问题二的分析与求解模型 聚类模型1.对问题的分析问题二要求我们根据酿酒葡萄的理化指标、葡萄酒的质量对所给葡萄样品进行分级。而对于酿酒葡萄的分级,则需要根据本文所给葡萄各项理化指标数据对酿酒葡萄进行分类。然而酿酒葡萄各项理

32、化指标多达30项,会影响酿酒葡萄分类的精度。我们采用主成分分析的方法,将我们手中许多相关性很高的葡萄的理化指标转化成彼此相互独立或不相关的变量。选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分。并计算各品种葡萄在各个主成分上的得分。建立聚类算法模型,对每种葡萄样品在各个主成分上的得分进行聚类,从而实现对酿酒葡萄的分类。然后,利用文中将葡萄样品的品尝评分作为葡萄酒质量评价标准的依据,根据每一类葡萄对应葡萄酒的品尝评分,计算出这一类葡萄的平均质量得分,从而根据得分的高低顺序实现对葡萄种类的分级。2.模型的准备影响葡萄品质的主要成分的确定主成分分析4能将许多相关的随机变量压缩

33、成少量的综合指标,同时又能反映原来较多因素的信息。按照主成分分析的理论,若前个主成分的累积贡献率达到了85%的原则,则这个主成分能反映足够的信息。研究对27个红葡萄样品和28个白葡萄样品的30个指标进行主成分分析,从累积贡献率分析并简化评价葡萄品质的主要指标。利用软件编程(求解程序见附录。)分别对27个红葡萄样品和28个白葡萄样品的30个指标数据进行主成分的特征根、贡献率计算,结果见表5、表6:表5 红葡萄样品评价因子的特征根和累积贡献率主成分特征根初始特征值贡献率(%)累积方差累积贡献率(%)14.646215.4915.4924.029313.4328.9233.813412.7141.6

34、343.800112.6754.3052.81319.3863.6862.74719.1672.8472.56948.5681.4082.27207.5788.97根据表5,可看出红葡萄样品前8个主成分的累积贡献率达到88.97%,已主成分分析中主成分的累积贡献率达到了85%的原则,即利用前8个样品足以反映我们想要得到的信息,故选前8个特征值。表6 白葡萄样品评价因子的特征根和累积贡献率主成分特征根初始特征值贡献率(%)累积方差累积贡献率(%)14.405114.6814.6823.70812.3627.0432.89489.6536.6942.76549.2245.9152.1002752.

35、9162.05056.8359.7472.00636.6966.4381.80526.0272.4591.64355.4877.93101.55325.1883.11111.47924.9388.04根据表6,,白葡萄样品中前11个主成分的累积贡献率达到88.04%,大于主成分分析中的累计贡献率需要达到的85%,故白葡萄样品中选前11个特征值,使得主成分能够较全面的反映出果实品质的主要信息。通过主成分分析,分别计算出每种葡萄样品在各个主成分的得分(见附录 ),再根据下面的聚类,通过对每种葡萄样品在各主成分的得分进行聚类,实现对酿酒葡萄的分类。模型的理论准备-均值聚类(K-means clust

36、ering)是Mac Queen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数。该算法原理简单并便于处理大量数据。在算法运行前必须先指定聚类数目和迭代次数或收敛条件,并指定个初始聚类中心,根据一定的相似性度量准则,将每一条基因分配到最近或“相似”的聚类中心,形成类,然后以每一类的平均矢量作为这一类的聚类中心,重新分配,反复迭代直到类收敛或达到最大的迭代次数。首先定量计算两个可比较元素间的相异度,对象间的相似度和相异度是基于两个对象间的距离来计算的。标量也就是无方向意义的数字,也叫标度变量。现在先考虑元素的所有特征属性都是标量的情况。例如,计算和的相异度。一种很自然

37、的想法是用两者的欧几里得距离来作为相异度,欧几里得距离的定义如下:其意义就是两个元素在欧氏空间中的集合距离,因为其直观易懂且可解释性强,被广泛用于标识两个标量元素的相异度。将上面两个示例数据代入公式,可得两者的欧氏距离为:除欧氏距离外,常用作度量标量相异度的还有曼哈顿距离和闵可夫斯基距离,两者定义如下:曼哈顿距离:闵可夫斯基距离:上面这样计算相异度的方式有一点问题,就是取值范围大的属性对距离的影响高于取值范围小的属性。这样不利于真实反映真实的相异度,为了解决这个问题,一般要对属性值进行规格化。所谓规格化就是将各个属性值按比例映射到相同的取值区间,这样是为了平衡各个属性对距离的影响。通常将各个属

38、性均映射到0,1区间,映射公式为:其中和表示所有元素项中第个属性的最大值和最小值。均值算法是基于质心的技术,均值算法以为输入参数,把个对象集合分为个簇,使得簇内的相似度高,簇间的相似度低。簇的相似度是关于簇中对象的均值度量,可以看作簇的质心。均值算法的处理流程如下,首先,随机的选择个对象,每个对象代表一个簇的初始均值,对剩余的每个对象,根据其与各个簇均值的距离。将它指派到最相似的簇。然后计算每个簇的新均值,这个过程不断的重复,直到准则函数收敛。通常采用平方误差准则:这里是数据库中所有对象的平方误差的总和,是空间中的点,表示给定的数据对象,是簇的平均值(和都是多维的)。3模型的建立及求解模型的建

39、立我们将27种红葡萄样品和28种白葡萄样品分别30项理化指标进行聚类。设定元素集合,其中共有30个元素,每个元素有27/28个观察属性。首先对进行规格化处理。然后进行以下步骤:从中随机取个元素,作为个簇的各自的中心。分别计算剩下的元素到个簇中心的相异度,将这些元素分别划归到相异度最低的簇。根据聚类结果,重新计算个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数。将中全部元素按照新的中心重新聚类。重复第步,直到聚类结果不再变化。将结果输出。模型的求解由于葡萄种类存在较大的差异,使用算法时,首先计算的取值。(图5)假定红葡萄样品的最佳聚类数为,白葡萄样品的最佳聚类数为,依据模糊数学原理,

40、利用软件作出两种葡萄样品的最佳聚类数图,见图5图5 、值确定图根据图5,得出红葡萄样品的最佳聚类数、白葡萄样品的最佳聚类数。即将27种红葡萄样品划分为3类、将28种白葡萄样品划分为4类为最佳。依据已确定的最佳聚类数,利用软件编程求解(求解程序见附录四),得出红、白葡萄的具体分类,分类结果见表7、表8: 表7 红葡萄分类表类别红葡萄样本编号第一类16第二类1、 2、3、8、9、12、17、18、24、 25、 26第三类4 5 67、 10、11、13、 14、 15、 19、 20、21、 22、 23、 27表8 白葡萄分类表类别白葡萄样本编号第一类1、 23第二类7、 8、 14、 15、

41、 16、 17、21、 22、 24第三类2、 3、 4、 6、 10、 12、 13、18、 20、25、 26、 28第四类5、 9、 11、19、 27文中提到将葡萄样品的品尝评分作为葡萄酒质量的评价标准。我们以此依据,根据已分类葡萄样本对应葡萄酒的品尝评分,计算出每一类葡萄的平均质量得分,进而根据得分的高低顺序对葡萄种类做出分级,红葡萄分为三级,白葡萄可分为四级,具体等级划分见表9。表9 葡萄等级划分表红葡萄等级红葡萄酒品尝评分白葡萄等级白葡萄酒品尝评分一级70.982一级77.65二级70.213二级77.34三级69.9三级76.3833四级76.0333由表9,我们可看出红葡萄被

42、划分为三个等级。第一等级红葡萄质量最好,共11个葡萄样品,包括样品1、2、3、8、9、12、17、18、24、25、26,所酿出的葡萄酒品尝等分为70.982;第二等级红葡萄质量次之,共有15各个葡萄样本,分别为样品4、5、6、7、10、11、13、14、15、19、20、21、22、23、27,所酿出的葡萄酒品尝等分为70.213;葡萄样品16为第三等级,所酿出的葡萄酒品尝得分最低为69.9。白葡萄被划分为四个等级。第一等级包括样品1、23两种白葡萄;第二等级为包括样品5、9、11、19、27等5种白葡萄;划为第三等级的白葡萄有样品2、3、4、6、10、12、13、18、20、25、26、2

43、8;第四等级的白葡萄共9种,即样品7、8、14、15、16、17、21、22、24。4结论根据表9内容得出,对应的红葡萄酒品尝评分基本上落在的分值范围内,白葡萄酒品尝评分基本上落在的分值范围内。根据国际通用分级标准,本题的红、白葡萄酒样本均处于70-79的分值范围内,属于一般葡萄酒,故制作该级葡萄酒所使用的葡萄样本也属于一般种类的葡萄品种。同时,我们可以看出红、白葡萄对应葡萄酒的等级划分评分相近,葡萄酒得分并未有拉开明显的分值差距,也正体现在了近阶段中国葡萄酒行业的发展现状。近几年,葡萄酒业在中国逐渐发展起来,但对于中国的绝大多数消费者而言,一般等级的葡萄酒是现行消费的主流。三、问题三的分析与求解模型 典型相关分析模型1问题的分析问题三要求我们分析酿酒葡萄与葡萄酒的理化指标之间的联系。我们知道葡萄酒是酿酒葡萄经过酒精发酵,冷冻过滤等一系列过程酿成,因此,酿酒葡萄与葡萄酒之间有一定的相关关系,好的酿酒葡萄能够酿造更好的葡萄酒。虽然利用相关分析法,可以对酿酒葡萄与葡萄酒的理化指标之间的关系进行分析,但相关分析是点对点的分析,只能给出具体的葡萄某一指标和葡萄酒某一指标之间线性关系的大小,不能从总体上说明酿酒葡萄与葡萄酒的理化指标

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1