移动大数据技术在互联网金融获客及经营中的应用.pdf

资源描述

《移动大数据技术在互联网金融获客及经营中的应用.pdf》由会员分享，可在线阅读，更多相关《移动大数据技术在互联网金融获客及经营中的应用.pdf（36页珍藏版）》请在三一文库上搜索。

1、移动大数据技术在互联网金融获客移动大数据技术在互联网金融获客及经营中的应用及经营中的应用互联网金融面对的互联网金融面对的？什么是互联网金融什么是互联网金融互联网金融 “宝宝” 网上金融超市 P2P 互联网金融需要解决的问题互联网金融需要解决的问题问题产品销售线上平台流量案例分析案例分析诸多诸多的功能的功能，在客户的喜好和公司利润方面在客户的喜好和公司利润方面如何平衡如何平衡？诸多诸多的投放渠道的投放渠道，如何选择如何选择，大咖一定高效大咖一定高效吗吗？诸多诸多的页面的页面，页面顺序与客户习惯的关系页面顺序与客户习惯的关系？诸多诸多的用户的用户，在异常出

2、现时如何在漫天吐槽在异常出现时如何在漫天吐槽前发现前发现？诸多诸多的用户的用户，如何精准找到金融产品的目标如何精准找到金融产品的目标客户群客户群？解决方案解决方案数据处数据处理技术理技术移动移动数据数据大数大数据据大数据技术以及架构大数据技术以及架构大数据大数据处理技术处理技术大数据大数据处理技术处理技术传统技术体系和缺陷传统技术体系和缺陷 u 大集群构建大集群构建成本高昂成本高昂 u 多维交叉多维交叉计算能力低效计算能力低效 u 架构不灵活架构不灵活无法自定义指标无法自定义指标 u 数据二义性数据二义性标实时指标和批标实时指标和批指标不一致指标不

3、一致第一代大数据处理架构第一代大数据处理架构：大数据大数据处理技术处理技术查询和多维交叉高效率（性能）：需要多维交叉的数据通过bitmap技术进行存储和计算更好的业务扩展能力（高扩展性）：系统架构采用以OLAP引擎为核心的设计思想，将数据统计分析的视角从离散的数字问题，转化成高度抽象的，基于的模型结构。将业务指标转化成的描述，更好的支持数据支持和业务指标计算能力。解决数据一致性问题（高最终一致性）：系统将指标包含在OLAP引擎中，数据的出处将只有唯一的出口，确保数据的一致性。更快的异常处理能力和数据恢复能力（高效调度）：数据的计算过程中，将中间数据以的形式处理，

4、每个处理单元都能快速恢复到某个时间点，以达到快速处理的目的。新一代技术和架构的目标新一代技术和架构的目标：大数据大数据处理技术处理技术 Bitmap的生成的生成 u ConciseSet https:/ u 参考 http:/ 新一代大数据新一代大数据处理技术架构处理技术架构统计分析系统统计分析系统/标签标签d,sessionId,star collector data schema 自定义指标（页面访问自定义指标（页面访问） ETL Fact Table 字段名称字段名称类型类型约束约束 developerid int productid int platformi

5、d int partnerid int appversion string 50 tduserid long refpagenameid int pagenameid int duration int sessionid string 128 starttime long starttime_hour int 自定义指标（页面访问自定义指标（页面访问）计算引擎计算引擎 Metric Metric Name 字段字段引擎引擎计算类型计算类型 pagecount pagenameid counter count durationsum duration counter sum pag

6、eusergroup tduserid bitmap group Dimension Name 字段字段 1 productid,platformid,refpagenameid,pagenameid,starttime_day 2 developerid,productid,platformid,pagenameid,starttime_day 计算引擎计算引擎 Dimension 自定义指标（页面访问自定义指标（页面访问）计算引擎计算引擎 Cube Cube Name Metric Name Dimension Name Page_refer_visit pagecount 1 Pag

7、e_visit pagecount 2 Page_stay_duraFon durationsum 2 Page_visit_user pageusergroup 2 Cube表结构示例表结构示例自定义指标（页面访问自定义指标（页面访问）查询指标查询指标 (Hql) 页面访问次数页面访问次数 Select count（ metric_value ） from Page_visit where starKme_day=20150401; 页面停留时长页面停留时长 Select count（ metric_value ） from Page_stay_duraFon where starKm

8、e_day=20150401; 页面访问人数页面访问人数 Select sum（ metric_value ） from Page_visit_user where starKme_day=20150401; 标签标签兴趣兴趣= “爱电影爱电影” 性别性别= “男性男性” 地点地点= “北京北京” 0 1 1 0 0 1 AND 0 1 1 0 0 1 0 1 1 1 1 1 AND 0 1 1 0 0 1 = Bitmap完成人群洞察完成人群洞察结果结果标签关联度标签关联度标签关联度标签关联度/ /人群预测人群预测模型算法模型算法LogisFc Regression 其中其中，

9、X为特征向量（如标签集合）为特征向量（如标签集合）。在确定了各个特征的系数后在确定了各个特征的系数后，给定一个用户的特给定一个用户的特征向量征向量，模型可以给出这个用户为正样本的概率是多少模型可以给出这个用户为正样本的概率是多少。而模型的训练过程就是使用训练数据确定最优的特征系数的过程而模型的训练过程就是使用训练数据确定最优的特征系数的过程。为了支持并行化计为了支持并行化计算算，采用了随机梯度下降法采用了随机梯度下降法。模型的输入就是给定的包含正负样本数据的训练集模型的输入就是给定的包含正负样本数据的训练集，每个样本数据有一个特征向量每个样本数据有一个特征向量。模型训练完后模型训练完

10、后，就能给出各个特征的系数就能给出各个特征的系数，这个系数反映了特征对模型目标的关联程这个系数反映了特征对模型目标的关联程度度。做预测时做预测时，就可以使用这组特征系数就可以使用这组特征系数，和模型的公式计算预测数据集合里的用户为正和模型的公式计算预测数据集合里的用户为正样本的概率样本的概率，然后降序排序后取得需要的然后降序排序后取得需要的Top N个用户个用户。标签关联度标签关联度/ /人群预测人群预测算法输入数据算法输入数据： d1: a1,a2,a3,a5 d2: a2,a4,a5 d3: a1,a4,a5 d4: a3,a4,a5 d5: a1,a2,a3,a5 d6: a2,a3,a4,a5 d7: a1,a2,a4 d8: a2,a3,a5 d9: a4,a5 d10:a3,a5 模型算法模型算法LogisFc Regression 数据闭环流程数据闭环流程多数据源整合和管理统一用户身份行为规则规签化智能分群人群洞察获新客定向营销跨界营销精准营销效果优化官网 / 微博 / TalkingData 微信 / TalkingData 服务支持 / Q&A

展开阅读全文