互联网金融的企业大数据之应用.pdf

上传人:西安人 文档编号:3332029 上传时间:2019-08-13 格式:PDF 页数:33 大小:2.09MB
返回 下载 相关 举报
互联网金融的企业大数据之应用.pdf_第1页
第1页 / 共33页
互联网金融的企业大数据之应用.pdf_第2页
第2页 / 共33页
互联网金融的企业大数据之应用.pdf_第3页
第3页 / 共33页
互联网金融的企业大数据之应用.pdf_第4页
第4页 / 共33页
互联网金融的企业大数据之应用.pdf_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《互联网金融的企业大数据之应用.pdf》由会员分享,可在线阅读,更多相关《互联网金融的企业大数据之应用.pdf(33页珍藏版)》请在三一文库上搜索。

1、互联网金融企业的互联网金融企业的 大数据应用案例分享 大数据应用案例分享 联动优势联动优势 孟鑫孟鑫 2013.9 2013.9 * 概述 * 大数据挑战 * 平台现状 * HBase应用 * 推荐系统 * 用户信用评分&支付交易监测 主题 * 2013年第二季度第三方移动支付市场份额11.6%列第二位 * 某核心业务数据每日1.5亿条,实际数据量每日200GB * 互联网支付交易每日200万笔 概述-背景 概述-数据平台建设 关系型数据关系型数据 中心 中心 Hadoop * 关系型数据中心 * 基于IBM Netezza和商业BI软件构建 * 支持公司上百个重要业务指标计算和展现 * 20

2、11年上线 * Hadoop * 提供海量数据挖掘,实时访问服务 * 为Netezza提供数据备份、ETL等支持 * 2012年上线,规模50+ 大数据挑战-长期诟病 多备份多备份 成本低成本低 高可用性高可用性 数据在线数据在线 日志处理日志处理 集中计算集中计算 多业务线数据共享多业务线数据共享 保存数据范围广保存数据范围广 响应速度快响应速度快 支持高并发访问支持高并发访问 存储存储 数据访问数据访问 数据处理数据处理 数据共享数据共享 智能系统智能系统 基于数据的运营基于数据的运营 数据整合数据整合 * 数据恢复在线状态 * 承担大数据的离线统计分析 * 提供海量数据库给非OLTP系统

3、 * 为智能应用提供数据挖掘支持 大数据挑战-Hadoop平台的目标 平台现状-架构 HDFS MapReduce HBase HIVE Mahout Flume Zookeeper 自动化部署 集群监控 任务调度 WEB CLI API REST 元数据管理 Sync4NoSql * 系统规模50+ * 8核,128G或32G内存,SATA硬盘,单台16TB,多网卡 绑定 * 平台基于CDH3U3版本 * 公司内部开放HDFS、Hive、HBase * 基于共享存储的NameNode HA * Flume tail文件断点续传 * Hive权限控制 * 数据访问中间层 平台现状-线上系统 *

4、 目前在测试环境进行Hadoop2.0新特性研究和开发 * YARN * 基于QJM的HA * Hadoop安全 * HBase 0.94 * 二级索引 * 类SQL支持 * 事务支持 平台现状-测试系统 * 2012年客服系统第一个尝鲜 * 2013年客服系统全部迁移到HBase上,通过Filter和数 据访问中间层处理实现绝大部分功能 * 商户服务系统,用户服务系统逐步迁移到HBase,部 分实现ANSI SQL92标准 * 数据同步由非实时向准实时过渡 HBase应用-发展 特点特点:数据量大数据量大,写多读少写多读少,查询条件简单 查询条件简单 特点特点:读多读多,查询条件复杂 查询条

5、件复杂 * 单张表数据200亿,要求响应时间等 HBase应用-复杂查询 HBase应用-商户服务系统 HBase应用-商户服务系统 HBase应用-商户服务系统 HBase应用-商户服务系统 * 通过SQL解析器将SQL语句转换成HBase scan操作 * 通过Coprocessor执行聚合操作 * 在RegionServer端尽早过滤数据 * 自定义Filter HBase应用-数据实时同步 * Flume * 同步日志文件 * 可靠性问题 * 断点续传 * 公司自研的关系型数据库同步工具 * 增加关系型数据库到HBase同步 数据同步实时性需求越来越多数据同步实时性需求越来越多 * 年

6、交易增长率稳定在15%左右且很难有突破 * 传统营销方式成本太高、效果不佳 * 长尾商品 推荐系统-起因 推荐系统-架构 用户信息用户信息 推荐引擎推荐引擎 商品信息商品信息 。 交易信息交易信息 推荐引擎推荐引擎 离线数据仓库离线数据仓库 推荐引擎推荐引擎 过滤过滤 排名排名 风控风控 展现展现 * 热门榜 * 商品聚类、分类 * TopN商品销售量 * 过滤:违规商品、分地区、限额等 * 适用于新用户,每个类别挑选一件商品进行推荐 推荐系统-默认推荐 商品信息 商品信息 类别 价格 商家 是否包月 销售地区 聚类聚类 商品集1 商品集2 商品集3 分类分类 新商品新商品 * 根据用户购买行

7、为 * 适用于有过交易的用户 * ItemCF:协同过滤 * 用户单一消费商品习惯? 推荐系统-相关推荐 * 客户端商品信息不丰富 * 用户行为数据太少,无法做基于用户行为的推荐 推荐系统-制约因素 * 发现优质用户 * 降低业务风险 * 预测用户好坏概率 用户信用评分-意义 * 逻辑回归 求解系数,将用户特征属性值带入公式,计算概率 用户信用评分-理论 用户信用评分-流程 数据源数据源 设定目标变量设定目标变量 变量选择变量选择 数据处理数据处理 模型建立模型建立 验证应用验证应用 数据整合数据整合 训练集训练集 验证集验证集 K-S指标法指标法 用户信用评分-结果 * 某省预测结果 * 好

8、用户8.18% * 关键变量:实名,准确率98.09% * 有9个变量对预测有重要影响 支付交易监测 * 立足于监测可疑支付交易立足于监测可疑支付交易,为打击洗钱和欺诈等犯罪活动为打击洗钱和欺诈等犯罪活动 提供信息支持提供信息支持。 从洗钱的一贯做法来看,通过银行支付结算,短期内转移巨额资金并使之从形式上 合法化,是犯罪分子进行洗钱犯罪活动的主要特征之一。支付交易监测系统的建设 ,要根据洗钱的特征,对银行办理的大额支付交易进行有效监测,从中发现可疑支 付交易线索,打击洗钱犯罪活动,促进支付结算业务健康发展。 支付交易监测由支付交易信息采集和支付交易信息分析两部分组成。 支付交易信息采集系统通过

9、与业务处理系统连接,自动采集高频支付交易信息,形 成高频支付交易数据库;通过开发和建立异常支付交易分析模型进行异常支付交易 信息的搜集、接收、整理、监测和分析,形成异常支付交易数据库;通过与身份识 别系统的连接和其他手段对异常支付交易信息进行进一步分析后,最终形成可疑支 付交易数据库 监测分析模型 n 资金流动频繁的账号 资金流动频繁的账号 模型一模型一:分散转入分散转入,集中转出集中转出 设立该分析模型的目的,用于监测短期内资金分散转入,集中转出的情况。 模型二模型二:集中转入集中转入,分散转出 分散转出 设立该分析模型的目的:用于监测短期内资金集中转入,分散转出的情况 模型三模型三:资金快

10、速流动资金快速流动 设立该分析模型的目的:用于监测一笔资金通过某一账号迅速流动的情况 模型四模型四:通过充值方式集中转入通过充值方式集中转入,分散转出资金 分散转出资金 设立该分析模型的目的:用于监测短期内相近资金以充值的方式集中转入,分 散转出的情况 n 资金流动频繁的客户 资金流动频繁的客户 监测分析模型 模型一模型一:同一客户短期内频繁发生收付 同一客户短期内频繁发生收付 设立该分析模型的目的:用于监测短期内频繁发生收付业务的客户 模型二模型二:同一客户在短期内以充值方式频繁发生收付同一客户在短期内以充值方式频繁发生收付 设立该分析模型的目的:用于监测短期内频繁发生大额充值的资金收付。 其他场景其他场景 资金流向分析:重点地区资金流向、重点行业资金流向、频繁且相近额度资金流向、季节 资金流向、节假日资金流向、偶尔大额资金流向。 A Any QQuestions * 大数据应用沙龙官网 * http:/ * 阿里技术沙龙官网 * http:/club.alibabatech.org 玩数据,常联系!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 装饰装潢


经营许可证编号:宁ICP备18001539号-1