数学建模-葡萄酒评价.doc

上传人:苏美尔 文档编号:11042389 上传时间:2021-06-21 格式:DOC 页数:24 大小:799.01KB
返回 下载 相关 举报
数学建模-葡萄酒评价.doc_第1页
第1页 / 共24页
数学建模-葡萄酒评价.doc_第2页
第2页 / 共24页
数学建模-葡萄酒评价.doc_第3页
第3页 / 共24页
数学建模-葡萄酒评价.doc_第4页
第4页 / 共24页
数学建模-葡萄酒评价.doc_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《数学建模-葡萄酒评价.doc》由会员分享,可在线阅读,更多相关《数学建模-葡萄酒评价.doc(24页珍藏版)》请在三一文库上搜索。

1、2012高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名

2、号的话): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名): 日期: 年 月 日赛区评阅编号(由赛区组委会评阅前进行编号):2012高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):基于统计分析的葡萄酒评价摘要本文旨在对评酒员葡萄酒品尝评分的基础上,通过对酿酒葡萄以及葡萄酒一些指标间的关系,做出对葡萄酒合理评价。主要进行了4个方面的研究:问题一

3、,在确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评,但是评酒员之间存在评价尺度、标准的差异,导致对酒质量评分存在差异。运用非参数检验模型,对两组评酒员的评价结果做Wilcoxon符号平均秩检验。求得,两组评酒员的评价结果存在显著差异。通过构造标准参考数据组,做出标准差,通过判断两组评分偏离参考标准数据值的程度,以及利用SPSS软件进行可靠性分析,得出信度。说明第二组评酒员对葡萄酒的评价更具有可信度。问题二,为了对酿酒葡萄进行分级,本文建立考虑权重的聚类分析,对传统聚类分析进行改进。基于指标过多,建立单因子方差分析模型,筛选出在聚类分析中发挥显著作用的m个指标,通过聚类模型得到对酿酒葡

4、萄的五级划分。问题三,酿酒葡萄与葡萄酒的理化指标关系,是研究两组变量之间的相关性。通过建立典型相关分析模型,将两组变量分别作为一个整体进行分析。通过数据分析,得出相关表达式,得到酿酒葡萄与葡萄酒的理化指标之间存在重要的相关关系。问题四,为论证葡萄与葡萄酒的理化指标能否评价葡萄酒的质量,本文运用前14个指标建立综合评价模型,运用主成分分析法分3个成分,经过成分重要性计算和相关性确定正负值对标准化后的样本数据加权计算评价得分。最后得出11号样品酒的质量最差,23号样品酒的质量最好,与评酒员的评分相近。故认为葡萄与葡萄酒的理化指标能在一定程度上评价葡萄酒的质量,部分误差是因为芳香物质等感官指标的影响

5、。关键字:综合评价模型信度分析 聚类分析典型相关分析 主成分分析1问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:1)分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2)根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进

6、行分级。3)分析酿酒葡萄与葡萄酒的理化指标之间的联系。4)分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?2问题的分析2.1 问题一由于两组评酒员品尝评分样本属于同一样本,在对同一研究对象进行不同评判标准时,视为对两配对样本的检验,且数据处理之前总体分布情况未知,可建立非参数检验模型进行显著性差异评价,本文采用Wilcoxon符号平均秩检验。在可信度分析上,可通过建立标准参考数据组,两组评酒员评分分别与其进行标准差比较,判断离散程度。或者采用SPSS对两组数据进行可靠性分析处理。利用最终求得的信度系数评判两组评酒员评价结果的可靠性。2.2

7、 问题二将酿酒葡萄理化指标进行单因子方差分析,选取出在聚类分析中发挥明显作用的m个指标。根据酿酒葡萄的好坏与所酿葡萄酒的质量关系有直接关系,把对葡萄酒质量的评分当做特殊的第m+1个指标。由于各指标的对酿酒葡萄分级所发挥作用的效果不同,而传统聚类分析把各指标放在了等同的地位。基于这点,本文提出了考虑权重的聚类分析方法。通过网络查阅资料,对各指标在分级中所起的重要性进行评分。最后对赋权的指标进行聚类分析,对所分类样品数据加权求平均分来分级。2.3 问题三由于葡萄和葡萄酒理化指标之间联系为多对多联系,研究两组变量之间的相关关系,可以通过典型相关分析模型,得到典型相关系数。对数据进行分析,判断两组变量

8、之间关系。2.4 问题四根据对酿酒葡萄与葡萄酒的理化指标大量数据的统计分析,本文选择了四个统计量来分析理化指标对葡萄酒质量的影响。以相关性和P值来初步分析与葡萄酒的质量有显著相关的指标。以通径分析解释指标变量与葡萄酒质量是否为直接作用。以变异系数的大小反映该指标在总体理化指标中的稳定性,变异系数越小,越稳定,就越具有代表性。在四个统计分析中,能总体把握酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。3模型的假设和符号说明31 模型假设:1) 评酒师所评的分数具有客观可信度。2) 所有样品的酿酒工艺一致。32 符号说明:信度系数:观测矩阵:复相关系数:变异系数:随机变量:随机变量:总体协方差阵:相

9、关系数:协方差4模型建立与求解41 问题一411 模型建立1、Wilcoxon符号平均秩检验根据附件1中的数据,分别求得2组红葡萄酒以及2组白葡萄酒评酒员品尝各样品总分的平均分。首先分析红葡萄酒两组评分数据,由于两组样品为同一对象。可将其两组对应数据视为两配对样本。因其总体分布无法确定,可用非参数检验中的两配对样本非参数Wilcoxon符号平均秩检验方法,确定其是否具有显著差异性。(1)假设酒样品来自两配对样本总体的分布无显著差异,将第二组红样本的各个观察值减去第一组红样本对应的观察值,如果得到差值是一个正数,则记为正号;差值为负数,则记为负号。同时保存差值的绝对值数据。(2)然后将绝对差值数

10、据按升序排序,并求出相应的秩.(3)最后分别计算正号秩总合W+、负号秩总合W以及正号平均秩和负号平均秩。如果正号平均秩和负号平均秩大致相当,则可以认为两配对样本数据正负变化程度基本相当,分布差距较小。(4)计算Z统计量,并计算P值 (1)n为总个数,。2、可信度分析(1)样本标准差判别离散程度评判两组评酒员评价结果的可信度,求得每组评酒员分别对葡萄酒样品的评分平均分。再通过构造比较标准参考评分数据组,通过标准差比较两组数据的离散程度,最终判断其评酒的可信度。a. 分别求出第一组评酒员对27组红葡萄酒样品的平均分与第二组评酒员对27组红葡萄酒样品的平均分,以及第一组评酒员对28组白葡萄酒样品的平

11、均分与第二组评酒员对28组白葡萄酒样品的平均分b. 分别对原始数据中,20各评酒员对每个样品评价总分数据中,去掉两个最大值与两个最小值,样本中数据剔除掉部分奇异数据组后将变得更加平稳可靠,求出该葡萄酒样品的平均分与,所得Z值数据组即为构造的标准参考组数据。c. 将X数据组与Z数据组以及Y数据组与Z数据组分别求出标准差 (2) d. 分别比较与,与大小。即两组评酒员分别对红葡萄酒与白葡萄酒的品尝评分标准差。值越小,说明其对于标准参考分值离散程度较小,该组评酒员的品尝评分较为可信。(2)运用SPSS实现信度分析信度又叫可靠性,是指测验的可信程度。它主要表现测验结果的一贯性、一致性、再现性和稳定性。

12、在测量学中,信度被定义为一组测量分数的真变异数功总变异数 (实得变异数)的比率,信度系数=真变异数/总变异数,即: (3)内在信度也称为内部一致性,用以衡量组成量表题项的内在一致性程度如何。运用Cronbachs系数法检测模型,求得两组评酒员品尝评分的信度。其统计原理为 (4)412 模型求解1、将附件1中的数据求出每个样品品尝评分均值后,按照样品顺序排列。处理后数据如下表:表1 每组的均值得分编号第一组红第二组红第一组白第二组白编号第一组红第二组红第一组白第二组白样品162.768.18277.9样品1558.765.772.478.4样品280.37474.275.8样品1674.969.

13、97467.3样品380.474.678.375.6样品1779.374.578.880.3样品468.671.279.476.9样品1859.965.473.176.7样品573.372.17181.5样品1978.672.672.276.4样品672.266.368.475.5样品2078.675.877.876.6样品771.565.377.574.2样品2177.172.276.479.2样品872.36671.472.3样品2277.271.67179.4样品981.578.272.980.4样品2385.677.175.977.4样品1074.268.874.379.8样品2478

14、71.573.376.1样品1170.161.672.371.4样品2569.268.277.179.5样品1253.968.363.372.4样品2673.87281.374.3样品1374.668.865.973.9样品277371.564.877样品147372.67277.1样品2881.379.6建立假设:检验标准:运用SPSS软件,运行结果为:Wilcoxon 带符号秩检验:表2 秩N秩均值秩和第二组红 第一组红负秩22a13.39294.50正秩5b16.7083.50结0c总数27第二组白 第一组白负秩9d11.0699.50正秩19e16.13306.50结0f总数28表3

15、检验统计量c第二组红 第一组红第二组白 第一组白Z-2.535a-2.357b渐近显著性(双侧)0.0110.018结果分析:由运行结果可以看出,对于红葡萄酒,正秩与负秩均值分别为13.39与16.70,大致相当。因此,Wilcoxon符号平均秩检验是可行的。由于,拒绝原假设与无显著差异,即两组评酒员的对红葡萄酒的评价结果有显著性差异。同理,正秩与负秩均值分别为11.06与16.13,大致相当。因此,Wilcoxon符号平均秩检验是可行的。由于,拒绝原假设与无显著差异,即两组评酒员的对白葡萄酒的评价结果有显著性差异。由于两组品酒员对红葡萄酒与白葡萄酒的品尝评分均存在显著差异,因此,可认为两组评

16、酒员的评价结果由显著差异。2、(1)由EXCEL中的SUM函数,求得各评酒员对各葡萄酒样品的评分分值;用AVERAGE函数求得每组评酒员对每个葡萄酒样品的平均分。再运用(SUM(A2:J2)-LARGE(A2:J2,1)-SMALL(A2:J2,1)-LARGE(A2:J2,2)-SMALL(A2:J2,2)/(COUNT(A2:J2)-4)函数,求得标准参考值,所得数据如下表:表4 每组均值得分与标准参考值样品第一组红第二组红红标准参考值第一组白第二组白白参考值162.768.165.68758277.980.0625280.37476.687574.275.876.375380.474.6

17、77.578.375.678.0625468.671.270.187579.476.978.4375573.372.172.56257181.577.5672.266.368.7568.475.573771.565.368.577.574.276.25872.36669.37571.472.372.875981.578.279.562572.980.477.68751074.268.871.2574.379.878.6251170.161.665.812572.371.472.31251253.968.36263.372.469.1251374.668.871.7565.973.971.375

18、147372.673.31257277.175.751558.765.762.187572.478.476.81251674.969.972.43757467.370.8751779.374.575.87578.880.380.31251859.965.462.37573.176.776.18751978.672.67672.276.474.56252078.675.877.577.876.6782177.172.274.062576.479.279.68752277.271.673.8757179.476.18752385.677.181.37575.977.476.75247871.574

19、.062573.376.175.52569.268.268.062577.179.579.56252673.87273.187581.374.378.5625277371.571.937564.87772.252881.379.680.93753.150922.7501123.5625022.263666结果分析:由最终数据可得,即第一组评酒员比第二组评酒员对红葡萄酒的品尝评分与标准比较值偏差较大,可认为第二组评酒员的品尝评分较贴近标准比较值,即第二组评酒员对红葡萄酒的评价结果更可信。又 ,同理可得第二组评酒员对白葡萄酒的品尝评分更具可信力。综上,第二组评酒员对葡萄酒的评价结果更可信。(2)将

20、每个评酒员对每个葡萄酒样本的总体评分按要求输入SPSS数据处理界面,通过可靠性分析处理,结果如下:表5 第一组评酒员可靠性Cronbachs Alpha项数 .89428表6 第二组评酒员可靠性Cronbachs Alpha项数.92328结果分析:由运算结果可得,说明第二组评酒员对葡萄酒评分信度较大,即第二组评酒员对葡萄酒的评价更具有可信度。42 问题二421 模型建立1、单因素方差分析选取理化指标:方差分析就是采用数理统计的方法对所得结果进行分析以鉴别各种因素对研究对象的某些特性值影响大小的一种有效方法。对酿酒葡萄的理化指标进行单因素方差分析,分析F统计量及其相伴概率,选取出在快速聚类中发

21、挥明显作用的m个指标。单因子方差分析基本原理见附录A:2、酒质量的分数选取将问题一中更可信的那组评分结果去除最低最高分取均值作为样品酒质量的标准评分值,并将此作为对酿酒葡萄分级的第m+1个重要指标。3、考虑权重的K-means聚类分析聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。考虑到聚类分析没有考虑指标权重的问题,即将所有的指标的权重视为等同。所以本文以对标准化后的指标赋权重来改进传统的聚类分析法。首先对原始数据进行标准化处理,消除量纲的影响。Z Scores:标准化变换公式为: (5)对指标重要性进行分级赋权:根据查阅书籍与网上资料将m+1个指标分

22、成三个等级,分别给予1-3的分数。如表7:表7 指标重要性等级得分等级一级重要二级重要三级重要得分w(分)321赋权后的数据: (7)处理后的数据再次进行单因素方差分析,选取最合适的n个指标。4、K-means算法:将已经测定n个采样点的m种指标数据列成一个二维矩阵,亦称作观测矩阵: (8)把分成c个组,求出每组的聚类重心,使得组内的方差和达到最小, (9)其中迭代过程:(1)给出初始聚类中心,(2)用下列公式更新 (10)其中l为迭代次数。(3)更新 (11)如果或者则停止;否则,转至(2)。422 模型求解运用spss对酿酒葡萄的理化指标做单因子方差分析,结果见表8.表8 ANOVA表聚类

23、误差FSig.均方df均方df氨基酸总量.89741.01922.880.492蛋白质2.5664.715223.588.021VC含量1.1104.980221.132.367花色苷2.6034.709223.673.019酒石酸1.7254.868221.987.132苹果酸3.7724.496227.603.001柠檬酸2.2174.779222.847.048多酚氧化酶3.0904.620224.983.005褐变度5.1544.2452221.060.000DPPH自由基4.1374.430229.632.000总酚4.6644.3342213.974.000单宁3.3234.578

24、225.754.003葡萄总黄酮4.8874.2932216.662.000白藜芦醇4.7974.3102215.496.000黄酮醇1.6154.888221.819.161总糖2.6704.696223.834.016还原糖2.0524.809222.538.069可溶性固形物1.8444.846222.179.105PH值1.8324.849222.159.107可滴定酸2.0684.806222.567.067固酸比1.0834.985221.100.381干物质含量3.4874.548226.366.001果穗质量.90841.01722.894.484百粒质量1.8214.8512

25、22.140.110果梗比1.3434.938221.432.257出汁率2.0484.809222.530.070果皮质量.80041.03622.772.555果皮颜色L*1.9624.825222.379.083果皮颜色a*6.0244.0872269.576.000果皮颜色b*4.7824.3122215.307.000对第二组葡萄酒的质量得分如表9:表9 葡萄酒样品得分酒样品编号123456789评分68.62573.62575.12571.62572.2566.2566.566.37578.5酒样品编号101112131415161718评分6862.37568.7568.572.

26、7566.2569.62574.7564.875酒样品编号192021222324252627评分72.8757672.571.87577.7572.12567.2571.7571.125将11个葡萄的理化指标与酒的质量进行赋权:酿酒葡萄的好坏与所酿的葡萄酒的质量有直接的关系。好的酿酒葡萄在忽略酿酒工艺等因素影响下可以说与葡萄酒的质量是呈正相关关系的。反过来说葡萄酒的好坏也在很大程度上说明酿酒葡萄的好坏,基于这点,取葡萄酒的质量为一级重要性。葡萄中酸的含量,对葡萄酒的影响也很大。在葡萄酒中,酸除了平衡口感外,还具有抗氧化,保持葡萄酒鲜美的作用。单宁和色素对红葡萄酒的特色和风味作用也是显著的。单

27、宁是很好的抗氧化物质。葡萄果中的五大要素物质的含量及构成比例起着非常重要的作用。可以说葡萄果中的糖、酸、单宁、芳香物质和色素是判断酿酒葡萄品质的指标性物质。据此可对包含这些物质的指标给予二级重要性。表10 指标重要性评分结果指标苹果酸多酚氧化酶褐变度DPPH自由基总酚单宁重要性得分211112指标白藜芦醇干物质含量果皮颜色a+果皮颜色b+葡萄总黄酮酒的质量重要性得分112213对赋权后的数据再次做单因素方差分析,结果如下:表11 ANOVA表聚类误差均方df均方dfFSig.V618.97141.2782214.845.000V82.0884.802222.602.064V93.8574.48

28、1228.027.000V104.0374.448229.018.000V115.0094.2712218.483.000V1214.77742.041227.242.001V134.5304.3582212.645.000V144.4314.3762211.778.000V22.41941.10622.379.821V2924.3764.2952282.553.000V3017.49041.5472211.304.000V3150.46941.4602234.564.000再次选择sig0.01的指标,得到最终的苹果酸、褐变度、DPPH自由基、总酚、单宁、葡萄总黄酮、白藜芦醇、果皮颜色a+、

29、b+、酒的质量共10个赋权指标。根据选取的10个指标做分类的树状图如下:图1 聚类树状图由树状图可以看出将样本分为5类是比较合适的。用spss的k-均值聚类结果显示如附录B附表1。因为10个变量的sig0.01聚类效果是比较理想的。分类后的葡萄依据所酿葡萄酒质量的平均得分,分级如表12.表12 红葡萄分级结果第一级第二级第三级第四级第五级样品号得分样品号得分样品号得分样品号得分样品号得分273.625471.625168.625666.251162.375375.125572.25866.375766.5978.51472.7510682377.751774.751268.751972.875

30、1368.520761566.252172.51669.6252271.8751864.8752472.1252567.252671.752771.125平均分76.25平均分72.693182平均分67.5平均分67.333333平均分62.375根据同样的方法对白葡萄酒分级:表13 白葡萄所选指标及得分所选取指标重要性得分DPPH自由基总酚葡萄总黄酮黄酮醇总糖11112可溶性固形物果穗质量百粒质量果皮颜色L*果皮颜色b*葡萄酒质量111223表14 白葡萄分级结果第一级第二级第三级第四级第五级样品号得分样品号得分样品号得分样品号得分样品号得分273.625471.625168.625666

31、.251162.375375.125572.25866.375766.5978.51472.7510682377.751774.751268.751972.8751368.520761566.252172.51669.6252271.8751864.8752472.1252567.252671.752771.125平均分76.25平均分72.693182平均分67.5平均分67.333333平均分62.37543 问题三431 模型建立典型相关分析复相关系数描述两组随机变量与之间的相关程度。其思想是先将每一组随机变量作线性组合,成为两个随机变量: (12)再研究u,v的相关系数。由于u,v与投

32、影向量a,b有关,所以与a,b有关, (13)这个为复相关系数。当总体的均值向量及总体协方差阵未知时需要根据从总体抽取的一个样本,对其进行估计,进而求出样本典型相关系数和典型相关变量。设为来自总体的一个样本,其中,对应的样本数据可以表示成 (14)则总体协方差阵的极大似然估计为 (15)其中 (16) (17)式中, (18)432 模型求解现将划分后的酿酒葡萄指标苹果酸 x1,多酚氧化酶活力 x2,褐变度 x3,DPPH自由基1/IC50 x4,总酚 x5,单宁 x6,葡萄总黄酮 x7,白藜芦醇 x8,干物质含量 x9,果皮颜色 x10,b* x11。花色苷 y1,单宁 y2,总酚 y3,酒

33、总黄酮 y4,白藜芦醇 y5,DPPH半抑制体积 y6,色泽L* y7,a* y8, b* y9。在SPSS中调用Cancorr函数。在“Syntax Editor”窗口中输入下列语句:INCLUDE C:Program FilesSPSSCanonical correlation.sps.CANCORR SET1= y1 to y9 / SET2= x1 to x11 /.部分运行结果为:Correlations Between Set-1 and Set-2X1 X2 X3 X4 X5 X6 X7 X8 X9 X11Y1 .6926 .4779 .7659 .5666 .6043 .659

34、6 .4411 -.0350 .2297 -.1022Y2 .2984 .1344 .4436 .7532 .8118 .7096 .6829 .0490 .4153 -.0946Y3 .3532 .1484 .4573 .8145 .8742 .7364 .8152 .0761 .2969 -.0645Y4 .2667 .1188 .4422 .7638 .8791 .6858 .8219 .0469 .2456 -.1554Y5 -.1864 -.1216 -.0930 .4205 .4667 .3102 .5675 .0135 .0765 -.2669Y6 .2452 .0688 .37

35、93 .7785 .8734 .6904 .8132 .0728 .3305 -.1035Y7 -.3462 -.4088 -.5633 -.7070 -.7517 -.6717 -.6085 .1621 -.2039 .3401Y8 -.5588 .0022 -.3325 -.1227 -.1600 -.0947 -.0673 -.4494 -.2488 -.6468Y9 -.3102 .0953 -.2434 -.0552 .0620 -.2097 .0474 -.1101 .3922 .0106 可以看出y2与各变量间的相关系数非常接近于y4与各变量间的相关系数,说明Y中涵盖信息的重叠性

36、。Canonical Correlations1 .9772 .9573 .9104 .8275 .7876 .6287 .5178 .3719 .171Test that remaining correlations are zero: Wilks Chi-SQ DF Sig.1 .000 161.510 99.000 .0002 .001 113.771 80.000 .0083 .008 75.418 63.000 .1364 .045 48.136 48.000 .4675 .141 30.314 35.000 .6946 .372 15.348 24.000 .9107 .614 7.568 15.000 .9408 .837 2.753 8.000 .9499 .971 .4

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1