投资理财数据挖掘.ppt

上传人:本田雅阁 文档编号:2990923 上传时间:2019-06-21 格式:PPT 页数:82 大小:7.09MB
返回 下载 相关 举报
投资理财数据挖掘.ppt_第1页
第1页 / 共82页
投资理财数据挖掘.ppt_第2页
第2页 / 共82页
投资理财数据挖掘.ppt_第3页
第3页 / 共82页
投资理财数据挖掘.ppt_第4页
第4页 / 共82页
投资理财数据挖掘.ppt_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《投资理财数据挖掘.ppt》由会员分享,可在线阅读,更多相关《投资理财数据挖掘.ppt(82页珍藏版)》请在三一文库上搜索。

1、数据挖掘在投资理财分析中的运用,基于CATI的数据挖掘模型,目 录,投资理财分析中的数据挖掘技术,1.绪 论,1.1 研 究 背 景,台湾经济状况:,1.1 研 究 背 景,台湾经济状况:,台湾股市:,1.1 研 究 背 景,1.1 研 究 背 景,由于市场竞争日益激烈,再加上民众投资热情减退,证券公司要如何挖掘潜在的客户,创造客户的需求,针对客户的行为做出适当的营销决策,最大化自己和盈利,建立自身的核心竞争力,对于证券公司的发展乃至生存都是至关重要的。,1.1 研 究 背 景,1.2 研 究 动 机,2 数据挖掘流程简介,2.1 商务智能,商业信息,商务智能是一系列商业活动行为的数据 收集与

2、信息转化作业,协助企业制订出 最佳的策略主题与策略目标。,商务智能能透过数据的淬取、整合及分 析,支持决策过程的技术和商业处理流程,商务智能是企业利用现代信息收集、管 理和分析结构化和非结构化的商务数据 和信息,增强综合竞争力的智慧和能力”,2.2 数据挖掘,2.3 数据挖掘标准流程,数据挖掘标准流程(CRISP-DM),3 投资理财分析中的数据挖掘技术,3.1 数据挖掘技术在证券行业的应用,3.2 客户关系管理,3.3 本文采用的数据挖掘算法,3.3 本文采用的数据挖掘算法,3.3 本文采用的数据挖掘算法,3.3 本文采用的数据挖掘算法,模型评估方法提升图,红线表示理想模型,3.3 本文采用

3、的数据挖掘算法,模型评估方法分类矩阵,4.投资理财建模分析,4.1 数据准备,4.1 数据准备,4.1 数据准备,4.1 数据准备,数据分析结构,4.2 购买和未购买股票各占一半的调查者行为分析,分析购买者及未购买者共同的问题,4.2 购买和未购买股票各占一半的调查者行为分析,变量的筛选和模型的建立 我们将所有个人信息变量输入作为自变量,来作为判断其是否购买股票的标准。我们采取SQL的建议(SQL内部从中抽取一部分样本,进行验证),选择“年龄”,“教育程度”,“职业”,和“收入”作为自变量,分别建立决策树,逻辑回归,贝叶斯模型来预测被访者是否购买股票。,模型的精确度分析 三个模型都能预测出被访

4、者是否购买股票,我们对三个模型进行对比,分别用提升图和分类矩阵方法进行筛选。 提升图:,4.2 购买和未购买股票各占一半的调查者行为分析,分类矩阵:,4.2 购买和未购买股票各占一半的调查者行为分析,选择决策树作为我们最终模型,4.2购买和未购买股票各占一半的调查者行为分析,相依程度:,影响投资者是否购买股票因素由强到弱为:收入教育程度职业年龄,4.3股票购买者投资行为分析,对于购买的股票的人群来说,考虑的最主要的因素分析如下:,4.3股票购买者投资行为分析,Q5-Q23针对5类股票中的100只股票,均为多选题,我们在数据预处理中将选择了一种股票的记为1,未选择的记为0,通过多选题分析的方法得

5、到其比率,Q5,Q9,Q13,Q17,Q21为在未提醒被访 者的情况下让被访者说出至多5只股票 ,我们认为被访者对这些股票比较熟悉,Q7,Q11,Q15,Q19,Q23为是否购买 这只股票,最大选择个数为5,4.3.2股票投资者的购买行为分析,数据的处理:Q8,Q12,Q16,Q20,问投资者分别对金融板块,纺织板块,钢铁板块, 这几家上市公司的主要经营项目是否熟悉。如果投资者对每一个板块,我们记为1,否则为0。然后将四个板块的值加权重,形成新的变量Q30(清楚业务汇总). Q6,Q10,Q14,Q18,问题为:以下我将念出金融保险类股(或其他四个板块)的股票,请问您听过哪几家?复选,随机提1

6、-20项。在访问员说出这只股票,如果被访者听说过,我们就将其记为1,说明他对这只股票有印象,否则为0。 我们假定听说过的股票越多,对证券市场越了解。将被访者对各个板块听说过的股票数量加总起来,作为衡量被访者对股市的了解程度。但是这个指标的范围在0-90之间,分布图如下:我们根据这个指标的分布,将选择数量在0-40记为1(一般了解),31-50的记为2(比较了解),50-70的记为3(很了解),70以上的记为4(非常了解)。还有一个重要的指标即是股票购买金额。下面我们用这些指标建立聚类分析。,4.3.2股票投资者的购买行为分析,4.3.2股票投资者的购买行为分析,4.3.2股票投资者的购买行为分

7、析,教育程度较高的男性,对股票非常了解,年龄主要在30-39岁间,职业大多为管理阶层和白领,月收入介于3-7万,中高等的,受教育程度较低,高中或高职,男性居多,收入较低,年龄处于30-39岁,大多在大专以上,年龄在20-29岁间的白领上班族,收入在3-5万每月,工作不久,年龄在30-50岁的家庭主妇,由于这一类投资者收入较低,大都在1万以下每月,所以投资金额相对较低,在50万以下,管理阶层的男性,对股票也非常了解,教育程度也较高,收入大多在10万每月以上,所以这类人购买股票的金额很大,在100-500万,4.3.2股票投资者的购买行为分析,关联程度分析:,普通客户和潜在优质客户,这两类目前购买

8、的股票金额都差不多,但是一类会逐渐成为潜在优质客户或者上升为优质客户,一类可能停滞不前,作为证券公司要挖掘出潜在优质客户,为他们提供细致的理财服务,赢取未来的优质客户。其次第1类比较优质客户和第3类潜在优质客户的关联程度很高,因为他们大多有着相同的背景。,4.4 美金购买者行为分析,4.4.1 美金购买者的描述性统计分析,4.4.1 美金购买者的描述性统计分析,4.4.2 购买美金金额分析,变量的筛选和模型的建立 将所有个人信息的变量输入作为自变量,SQL从中抽取一部分样本,进行验证,根据SQL的建议选择“年龄”,“教育程度”,“职业”,“性别”和“收入”作为自变量,分别建立决策树,逻辑回归,

9、贝叶斯模型来预测被访者是否购买股票。,三个模型的精确度分析 提升图:,4.4.2 购买美金金额分析,分类矩阵:,选择决策树作为我们最终模型,4.4.2 购买美金金额分析,相依程度:,影响投资者购买美金金额的因素由强到弱为:收入年龄教育程度性别职业。,4.4.2 购买美金金额分析,模型分析决策树,4.4.2 购买美金金额分析,模型分析决策树,4.4.2 购买美金金额分析,4.4.3 美金投资者中股票购买行为分析,变量的筛选和模型的建立 有41.21%的美金购买者购买了股票,下面分析是什么样的投资者既投资股票也投资美金。,4.4.3 美金投资者中股票购买行为分析,变量的筛选和模型的建立 我们仍然以

10、SQL内部筛选的变量作为自变量,来进行预测。发现只有年龄和职业决定美金购买者是否购买股票。,三个模型的精确度分析 提升图:,4.4.3 美金投资者中股票购买行为分析,分类矩阵:,选择决策树作为我们最终模型,4.4.3 美金投资者中股票购买行为分析,相依程度:,对于购买美金的投资者,影响其是否购买股票的主要因素依据重要程度排序分别是年龄和职业。,4.4.3 美金投资者中股票购买行为分析,相依程度,模型分析决策树,4.4.3 美金投资者中股票购买行为分析,4.5 期货购买者行为分析,4.5.1 期货投资者的描述统计分析,4.5.2 期货购买金额分析,变量的筛选和模型的建立 前面分析得出期货投资者中

11、,83.4%的投资金额在50万台币以下,16.6%的在101-500之间。现在我们来看是哪些因素影响期货购买的金额。将所有个人信息的变量输入作为自变量,SQL从中抽取一部分样本,进行验证,根据SQL的建议选择“性别”,“年龄”,“是否购买股票”,“职业”和“收入”作为自变量,分别建立决策树,逻辑回归,贝叶斯模型来预测投资者购买的期货金额。,三个模型的精确度分析 提升图:,4.5.2 期货购买金额分析,分类矩阵:,三种方法的预测精度预测效果都很好,模型的得分都达到了1,分类矩阵可以看出,每一个都预测准确。所以我们可以任意选择一个模型来进行分析。我们选择贝叶斯模型来分析购买期货金额的影响因素的强弱

12、,用逻辑模型来分析哪些投资者投资金额为1, 哪些为3。,4.5.2 期货购买金额分析,相依程度:,从贝叶斯的依赖关系网络来看,影响投资者购买期货金额的因素由强到弱为职业性别教育程度年龄收入。,4.5.2 期货购买金额分析,4.5.3 期货投资者中股票购买行为分析,变量的筛选和模型的建立 对期货购买者而言,我们有必要分析他们其他的投资行为,看其是否购买股票,以作为我们挖掘期货购买者中潜在的股票购买者的依据。,4.5.3 期货投资者中股票购买行为分析,变量的筛选和模型的建立 我们仍然以SQL内部筛选的变量作为自变量,来进行预测。发现“期货金额”,“性别”,“年龄”,“教育程度”,“职业”和“收入”

13、等变量都可以作为自变量来影响期货购买者是否购买股票。,三个模型的精确度分析 提升图:,4.5.3 期货投资者中股票购买行为分析,分类矩阵:,由于模型的准确率达到了99.24%,预测效果较好。可以任意选择一个选择决策树作为分析模型。,4.5.3 期货投资者中股票购买行为分析,模型,在购买了期货的人群中,决定他们是否购买股票的主要因素是他们的职业。由上图可以看出蓝领工作者和家庭主妇全部没有购买股票,白领工作者全部购买了股票。,4.5.3 期货投资者中股票购买行为分析,第五章 研究结论及其建议,5.1 研究总结,1.数据量大,数据复杂:台湾辅仁大学统计资讯学系的电话调查中心获得的490088,在32

14、个问题中数据中有18题是多选题,而且其中一半的选项达到23项,形成了350 490088数据。 2.变量细分: 将其归为筛选变量(用以划分数据集);证券投资变量,用以反映被访者对证券行业的了解和购买情况;其他金融产品(美金和期货)投资行为分析以及个人信息变量(被访者的性别,年龄,学历,职业和收入等)。 3.数据集的细分 83.7%是未购买股票的,抽出样本组成购买和未购买股票的人数比例为1:1的样本,组成数据集1,来分析是什么因素影响被访者是否购买股票。股票购买者,我们将其提出作为数据集2,分析其购买特征9243个购买美金的投资者,将其抽出作为数据集3,分析其购买美金的行为特征63个期货投资者,

15、将其抽出作为数据集4,看其购买期货的行为特征,及其购买美金和购买其他金融品种之间的关系.,5.2 对证券公司的建议,5.2.1 挖掘客户,5.2.1 挖掘客户,证券公司想要不断壮大,很重要的一部分提高自己的客户,那么如何挖掘出客户。比如可以和一些其他金融机构合作,比如商业银行,期货公司合作,因为他们手中有相关客户,和他们联合,给投资者建议多种投资品种,不仅使客户觉得服务更到位,而且为公司赢得客户,这种方式成本也相对较低。也可以通过宣传,得到公众的认可,赢得客户。,5.2.2 细分客户,5.2.3 与其他金融机构合作,在对美金投资者的分析中,有41.21%的美金投资者同时也购买股票。年龄介于20

16、到29岁的,白领购买股票的可能性最大,达到79.86%,其次是家庭主妇为50%。而学生和蓝领几乎不购买;年龄介于30到39岁的,购买股票的可能性只有36.7%,只有蓝领工作者相对较高,达到66.67%其他都很低;年龄介于40到49岁的购买股票的可能性为61.97%,其中蓝领工作者最高,达到99.77%;年龄介于50到59岁的99.89%都不购买股票;职业为蓝领工作者的有662人,这些人99.96%不购买股票;年龄介于60到69岁的只有家庭主妇购买股票的概率为50%,其他都99.77%不够买股票。 期货投资者分析中,33.19%的人同时也购买了股票,66.03%的人未购买股票。决定他们是否购买股

17、票的主要因素是他们的职业。期货投资者中蓝领工作者和家庭主妇全部没有购买股票,白领工作者全部购买了股票。,5.2 对证券公司的建议,5.3 对美金承销商的建议,职业,根据前面的客户细分信息,得到不同的客户,并对其采取不同的服务和营销策略,更好地留住客户。,5.4 对期货公司的建议,收入,这个跟美金和期货的风险程度不同有关,美金的风险相对于期货的风险小很多有关。,5.5 对上市公司的建议,在股民怎样选股的问题中,对于上市公司来说,60.7%的投资者看重价值投资的,他们注重公司的运营情况。从投资者对金融保险,纺织,钢铁,电子,证券五个板块的了解和购买程度看,公司在业界的影响力和成长性都是投资者考虑的

18、重要因素。所以上市公司唯有做大做强,才会得到投资者的亲睐。但是宣传也是公司成长的另一个方面,因为有28%的股民相信台湾第四电视台的推荐,所以上市公司要定期对自己做正面的宣传,在公众中形成良好的影响。,5.5 对上市公司的建议,在金融保险板块,电子板块,纺织纤维板块,钢铁板块,证券板块五个板块的分析中,可以看出电子板块的知名度和购买度是最大的,其次是金融保险板块,这和台湾的电子板块企业和金融保险板块企业的实力息息相关。纺织纤维板块的,钢铁板块,证券板块的知名度和购买率都很低,都没有超过10%,但台湾中钢除外,他的知名度为84.74%,是所有股票中知名度最高的, 购买率达到24.07%,而其他钢铁的购买率都不到4%。这和它本身的实力有关,台湾中钢作为台湾钢铁的龙头企业和世界钢铁领域的重要企业,堪称台湾企业的一面旗帜。 上市公司要得到投资者的认可,做大做强企业最为重要,但是同时企业的形象,美誉度和宣传也很重要,有32.8%的股民相信亲友的推荐,故其在公众中的影响力也很重要。,陈铮(组长) 厦门大学计划统计系05级本科生 王艺红 厦门大学计划统计系05级本科生 王登凌 厦门大学计划统计系05级本科生 曾鑫 厦门大学计划统计系05级本科生 何海鹰 厦门大学计划统计系06级博士生,研究人员,数据挖掘在投资理财中的应用,Thank You !,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1