“打怪升级”之数仓困境二三事-刘鸿超.pdf

上传人:椰子壳 文档编号:3331439 上传时间:2019-08-13 格式:PDF 页数:34 大小:2.50MB
返回 下载 相关 举报
“打怪升级”之数仓困境二三事-刘鸿超.pdf_第1页
第1页 / 共34页
“打怪升级”之数仓困境二三事-刘鸿超.pdf_第2页
第2页 / 共34页
“打怪升级”之数仓困境二三事-刘鸿超.pdf_第3页
第3页 / 共34页
“打怪升级”之数仓困境二三事-刘鸿超.pdf_第4页
第4页 / 共34页
“打怪升级”之数仓困境二三事-刘鸿超.pdf_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《“打怪升级”之数仓困境二三事-刘鸿超.pdf》由会员分享,可在线阅读,更多相关《“打怪升级”之数仓困境二三事-刘鸿超.pdf(34页珍藏版)》请在三一文库上搜索。

1、“打怪升级”“打怪升级” 之 数仓困境二三事 Overwrite 统一的架构 我们的困境 最终的方向 大数据平台 大数据平台 理想 现实 怪兽 之 三足鼎立 当时是这样的 整合数据抽取 Sqoop 将 Hadoop 和 关系型数据库 中的数据相互 转移的工具 封装到开发工具箱中 Sqoop Sqoop 现象:抽取不稳定 每日抽取变化量 正常5分钟以内 异常30min以上 Sqoop 原因:数据不均 Sqoop 原因:数据不均 min, max) 数据不均匀数据不均匀 select from tabName where key = min and key = min0 and key = min

2、1 and key = min2 and key = and key ) Sqoop 方案:重新打散,实现Splitter 怪兽 之 报表快跑 数据及时性 数据量增长/大促 重要报表延迟 原因 凌晨数据同步占据计算时间 数据及时性 分而治之 分钟作业分钟作业 数据完整监测数据完整监测 小时同步小时同步 数据及时性 调度资源管理 作业组 并行数 队列 优先级 怪兽 之 Hadoop危机 Hadoop危机 NameNode宕机 Hadoop危机 影响 所有内部、外部数据产品流量数据 搜索、广告、推荐 Hadoop危机 方案 尝试重启系统 3个月前的镜像 尝试恢复 Hadoop危机 解决 尝试修复EditLog 怪兽 之 密集恐惧症 历史问题 剪不断理还乱 需求&报表 指标混乱 数据孤岛 僵尸报表 如何解决 我们需要什么 指标口径统一 知识管理 生命周期 如何解决 我们需要什么 元数据管理 整合BI应用 最终的方向

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 装饰装潢


经营许可证编号:宁ICP备18001539号-1