考试模拟样题数据分析应用附答案解析.doc

资源描述

《考试模拟样题数据分析应用附答案解析.doc》由会员分享，可在线阅读，更多相关《考试模拟样题数据分析应用附答案解析.doc（13页珍藏版）》请在三一文库上搜索。

1、WORD格式可编辑专业知识整理分享1 （50.0 分）移动公司想结合用户通话行为，推荐相应套餐，或者结合用户现有套餐优化用户套餐，提供个性化套餐，从而对客户进行精准营销，增加客户粘性。为此，移动公司收集了下列数据，移动公司收集到的数据包含下列字段：变量名称变量标签Customer_ID用户编号Peak_mi ns工作日上班时间电话时长OffPeak_mi ns工作日下班时间电话时长Weeke nd_mins周末电话时长In ternatio nal_mi ns国际电话时长Total_mi ns总通话时长average_m ins平均每次通话时长移动用户细分聚类data-移动用户细分聚类.xls

2、x请你根据这些客户数据，进行数据的预处理（数据预处理过程中可以根据现有变量构造新变量进行分析），预处理之后选择合适变量进行分析，分析算法自行选择，写出分析思路和过程，通过数据分析对客户进行细分，将客户分为5类。并为移动公司提供客户精准营销的相关建议。（请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议）答案解析:根据题意解读本题可以选用聚类方式对客户进行类别划分，此处采用Kmea ns聚类进行模型假设。1、对数据进行预处理，数据均为数值型，此项不用处理；检验数据可知没有缺失值，故此项不用处理；将数据导入datehoop平台进行异常值处理可以看到虽然异常值较多但考虑到可能是特殊人

3、群，故此项不做处理。聚类对变量相关性影响较为敏感，因此将数据通过datehoop平台进行相关性分析结果如下：Pedk_iniinQllPedk.minsWeekend_minsInternational minslotdl_minsavefageminsPcakmins"501210.14480.6915C'.MIS匚*"OffPpk min*0.12110.0247O.2&20.44； 50.0034Welkend mini014430.024710.12 &20.2006-0.1066Inter national minsQ.?W0.12821

4、0.71?)034Total minsQ.WIS0.425a71231average.mins-D.03G70,0091-0.1D6G-C.0J4-0,0 3M1从相关矩阵可以看出Peak_mins和Total_mins相关性显著。此处利用比值法构建新的变量peak_mins/total_mins ，因为变量之间取值范围差异较大，因此进行聚类时需要进行标准化（datehoop平台可以自动标准化，此处不单独处理）。2、对变量进行聚类，选择变量 peak_mins/total_mins ，offpeak_mins ， weekend_mins, international_mins，total

5、_mins ，average_mins；根据题目要求，聚类个数选择5,聚类结果如下：平均轮廓系数0,2485粪中心点坐桩00.214324479711-0.17430953222-1300938252730.9002961421754-0-65915626203平均轮廓系数为0.2485 ,虽然轮廓系数并没有接近1,但也是合理的。在实际聚类过程中并不是每次聚类都会达到较高的轮廓系数，轮廓系数不高说明类之间区分性不是特别明显，但并不代表类之间没有区分3、针对聚类结果分析每一类客户在现有变量上的特征，这里选取平均值作为参考依据，每一类针对每一个变量的类中心点如下：行标菱Peak_>i

6、nsOffPeak_ainsVeekend _BinsInterna tiiori已 1_ sinsTotal_B insaverage_ ins01S2G.03340541.872223 123.E21858.192盹qg37.12247.841162.3012.90270 E053 4127 4日144.742.453877.84470.705&.71300.371405,253/314111S .6717b LVE&.93293,861351 673 090类：工作日通话时长、国际通话时长、总通话时长都最长，周末通话时长也较长，可以定义为高端商务客户；1类：平均每次通话时

7、长最长，其他通话时长处于中等水平，可以定义为长聊客户；2类：所有通话时长都最低，命名为不常使用客户；3类：下班班时间通话时长最长，总通话时长和上班时间通话时长较长，可以命名为中端日常客户；4类：周末通话时长最长，上班时间通话时长仅次于高端商务客户，国际通话时长和总通话时长都较长，可以命名为中端商务客户；4、根据以上客户细分的结果和特征分析，移动产品开发部门有针对性的开发设计套餐品类，满足不同类型客户的实际需求，增加客户黏性，提高客户满意度，最终提高客户的生命周期价值。针对不同的类别客户给出相应的营销建议。按照老师课堂讲解，可以发挥想象力针对每一类客户设置不同的营销策略，(1) 对于

8、0类高端商务客户，移动公司可以推出较为优惠的电话资费以保证客户可以长期使用。在保证国内通话时长的前提下，可以推出优惠的国际漫游资费。(2) 对于1类长聊客户，移动公司可以推出相应的畅聊套餐或者开设亲情号以吸引客户的眼光。(3)对于4类中端商务客户可以推出和高端商务客户相似的套餐，以吸引顾客的目光。(4)对于2类不常使用客户可以开设包月低价套餐，以增加客户使用率和客户粘性。2 （50.0 分）通过游戏用户相关行为数据预测用户是否会付费某游戏公司，根据收集的2016年上半年的用户行为数据对用户是否会付费进行预测，根据预测结果对可能付费用户进行精准营销。该公司一共收集了用户的编号，以及用户的

9、注册时间和最后一次登录时间，以及用户退出时的等级还有用户是否付费等数据。user_ idin stall_ datelast_logi n_datelevel_ endo sis_payeractive_daysavg_sessio n_cnt用户编号游戏安装时间最后一次登录游戏时间用户退出时的游戏等级登录手机系是否付费活跃天数每天登录频次userdin stall_ datelast_logi n_datelevel_ endosis_payeractive_daysavg_sessio n_cnt字符型日期型如：2015/5/4日期型数值型字符型，取值为：An droid和iO

10、S是否付费1代表付费，0代表未付费数值型数值型数据及数据类型解释游戏数据训练集游戏数据测试集游戏测试数据.xlsx游戏预测数据.xlsx游戏训练数据.xlsx请根据原始数据，对数据进行预处理（包括对类别型变量进行数值化处理、重新构造新的变量），然后根据原始数据，自行选择变量和分析算法进行分析（数据提供包含训练数据、测试数据、预测数据、其中测试数据的模型检验结果的计算提供了相应的excel表格，表名为：测试数据结果计算，只需把测试结果拷贝到第二类数下面，相应的指标即可计算出来），写出分析过程和思路，并且根据模型进行预测。答案：1、由题意可知本题是分析用户是否会付费这一问题，可以考虑用

11、逻辑回归建立模型进行预测。本题中level_end、 os、 active_days 、avg_session_cnt、duration、为自变量，i is_payer 为因变量2、对数据进行预处理，因为登录手机系统OS为字符型数据，故进行数值化编码如下：osos编码An droid1iOS2经检验数据可知无缺失值，故此项不用处理；数据样本均衡，符合建模要求；异常值分析：将所有变量导入 datahoop平台进行异常值分析，由箱型图可知虽然存在异常数据，但是考虑到可能是分类所致，故此项不做处理。逻辑回归对多种共线性敏感，因此需要进行共线性分析，将所有变量导入 datahoop平台进行相关系数

12、分析，得到相关系数矩阵如下：相关系数矩阵level_eos数值active_davg_sessi on_duratiis_paynd化aysentonerlevel_e nd10.08350.88860.70530.72790.6825os数值化0.083510.06280.00440.06840.1237active_days0.88860.062810.52810.76720.5323avg_sessi on_0.70530.00440.528110.38060.5184entdurati on0.72790.06840.76720.380610.4497is_payer0.68250.1

13、2370.53230.51840.44971由矩阵可以看出变量之间虽然具有相关性，但是相关性不强，可以进行逻辑回归分析。3、设定自变量 level_end、os、active_days 、 avg_session_cnt 、duration 分别为x1, x2, x3, x4, x5,因变量is_payer 为y，假设回归方程In-=aixi+a2X2+ax3+a4X4+ax5+b将训练集和测试集的数据分别导入 datahoop平台，选择相应的自变量和因变量, 进行逻辑回归分析（迭代次数1000次）模型结果及检验情况如下：Interceptle/el endO£active days

14、avg session cndurati on-5.62670.12070 5375-0.00090.117-0.0016AccuracyAUC0.8720.93PrecisionRecallSupport00.86650.89830.8821207410.8/890.84210.86011818Accuracy和AUC值，准确率和召回率都比较高，模型拟合效果较好，训练误差不大。回归方程为 ln （）=0.1207x 1+0.5375x2-0.0009x 3+0.117x4-0.0016x 5-3.6267 将测试结果和原测试集中的实际分类进行对比，得到如下混淆矩阵和计算出相应的准确率召回

15、率，结果如下:Accuracy实86碍TRUELFrecisi onRecallFl-scorePredict10国1010. R4花0F 343R0. 3637山 30370. 84380. BS3710760由混淆矩阵可知Accuracy和准确率召回率都比较大，模型预测效果较好，泛化误差不大。可以用该模型进行预测。平台答案解析答案解析：提示：根据题目可以选取聚类方法对客户进行细分，这里选取k-means聚类方法进行分析。k-means聚类要求，纳入的聚类变量一般为数值型变量，而且聚类变量之间不应该有较强的线性相关关系，如果变量间存在较高的线性关系且能够相互替代，那么计算距离时，这些变

16、量会对距离重复贡献，一定程度上影响到聚类结果。对数据进行预处理，数据无缺失值，异常值分析显示异常值较多，结合实际情况认为有可能是特殊人群，所以在此不作处理。通过查看相关系数矩阵看到 peak_mins和total_mins相关性很高，所以只选取其中一个，然后构造一个新的变量peak_mins/total_mins ，由于新构造的变量取值与其他变量取值范围相差较大，因此，在聚类分析时，选择标准化处理之后的数据进行聚类（ datahoop 可以在分析时默认进行标准化处理）；对数据进行聚类分析，选取变量为：peak_mins/total_mins ,offpeak_mins， weekend

17、_mins, international_mins ，total_mins ，average_mins，聚类个数为 5。平均轮廓系数为0.246左右，虽然轮廓系数并没有接近 1,但也是合理的。在实际聚类过程中并不是每次聚类都会达到较高的轮廓系数，轮廓系数不高说明类之间区分性不是特别明显，但并不代表类之间没有区分。根据聚类结果分析每一类客户在现有变量上的特征，这里选取平均值作为参考依据。对类进行特征分析：1类：总通话时间(Total_mins)最长，上班通话通话时间(Peak_mins)最长，国际通话(International_mins)最长，命名为高端商用客户；0类：下班通话时间(O

18、ffPeak_mins)最长，周末通话时间(Weekend_mins) 最长，上班和国际通话时间居中，命名为中端日常客户；2类：上班通话通话时间(Peak_mins)和国际通话(International_mins)仅次于第1类，周末通话时间(Weekend_mins)居中，总通话时间(Total_mins) 较长，命名为中端商用客户；4类：平均每次通话(average_mins )时长最长，命名为长聊客户；3类：各项通话时间均很低，命名不常使用客户。综上，根据以上客户细分的结果和特征分析，移动产品开发部门有针对性的开发设计套餐品类，满足不同类型客户的实际需求。比如：高端用户推荐各项指标偏高

19、，套餐费用也偏高的套餐；中端用户和中高端用户可以较高端用户偏低一点进行套餐推荐，常聊用户可以推荐符合常聊特点的套餐，比如通话次数优惠类套餐，低端用户可以推荐资费便宜的套餐。从而增加客户黏性，提高客户满意度，最终提高客户的生命周期价值。答案解析：分析不同特点的用户是否会付费，属于分类问题，这里选取逻辑回归算法来进行分析。逻辑回归算法需要考虑是否存在异常值和共线性，因此进行异常值分析和相关系数矩阵分析。由分析结果可以看出异常值所占比例太多，可能是分类的某种趋势导致，因此不做处理。自变量之间存在相关性，但不是特别强，所以可以直接进行逻辑回归分析。以 is_payer 为因变量，level_end、os、active_days、avg_session_cnt和duration为自变量进行逻辑回归分析。写出逻辑回归方程和各个指标，说明训练误差不大。接下来用测试数据进行检验，说明泛化误差不大，因此可以用来预测。最后预测分析。

展开阅读全文