代志远：HBase系统故障恢复的优化实践分享.pdf

资源描述

《代志远：HBase系统故障恢复的优化实践分享.pdf》由会员分享，可在线阅读，更多相关《代志远：HBase系统故障恢复的优化实践分享.pdf（32页珍藏版）》请在三一文库上搜索。

1、支付宝HBase系统故障恢复的优化实践分享支付宝支付宝-数据平台架构师数据平台架构师-代志远代志远自我介绍支付宝-数据平台-架构组-代志远 (网名：国宝) 从事过分布式文件系统、MapReduce框架研发后加入支付宝后从事海量计算工作，主导分布式存储、搜索、计算系统的研发和架构工作，开发和维护支付宝 Hadoop集群与HBase集群，分布式搜索集群 HBase权威指南译者简要介绍 HBase系统中存在的可用性风险存储容灾但RegionServer服务不容灾。 Failover流程复杂，消耗时间长 HDFS的NameNode存在单点故障监控不完善，监控粒度太粗对以上问题我们进

2、行了针对性优化。我们以支付宝的消费记录项目为技术优化切入点来跟大家分享这些经验。大纲支付宝消费记录背景-HBase RegionServer宕机恢复的关键流程 RegionServer宕机failover的优化 HDFS NameNode的HA优化监控优化支付宝消费记录项目背景-HBase 2011 2012 一期上线0.90.x版本，解决解决海量数据的在线实时查询问题。二期规划上线，使用 HBase0.92 -coprocessors 解决解决online count与sum 的需求支付宝消费记录背景-HBase 业务规模业务规模技术要求技术要求选择选择 HBase 业

3、务系统现状业务系统现状数百亿条数据，近百T存储空间（压缩后，并且不算冗余三份）索引表数千亿条数据数据增长高速（随支付宝业务高速增长而高速成长）支付宝消费记录背景-HBase 业务规模业务规模技术要求技术要求选择选择 HBase 业务系统现状业务系统现状用户按时间范围顺序查询占据90%以上的查询要求相应延时较低面向用户在线查询支付宝消费记录背景-HBase 业务规模业务规模技术要求技术要求选择选择 HBase 业务系统现状业务系统现状之前MySQL集群存在高频率人为分库、扩容性较差等问题。（MySQL是传统集中式数据库的典型代表） HBase 水平拓展能力强满足

4、强一致性读写可pre-sharding 满足实时读写，吞吐量大，支持海量数据存储 Rowkey排序支付宝消费记录背景-HBase 业务规模业务规模技术要求技术要求选择选择 HBase 业务系统现状业务系统现状 5W个Region Rowkey设计：userid 0 timestamp 0 tradetype 0 tradeno HBase基于版本0.90.1 读延时：20ms/request RegionServer宕机恢复的关键流程 Regionserver宕机后 - 完整的故障处理流程有哪几步 1) 等待ZNode失效 2) 重做Edit Log恢复数据（Split Hlog）

5、3) 扫描元数据表 4) 宕机服务器的Region再次上线 3 min + 5 min + 2-6 min + 1 min + 15 min HBase RegionServer宕机恢复的优化优化强依赖ZooKeeper的宕机超时判断已申请专利。 Mirror Process（每台RegionServer启动镜像监控进程） 1）Check PID（检查进程是否存在 - loop） 2）PING （Ping服务端口是否可用） 3）Delete ZNode （删除对应的ZNode） HBase RegionServer宕机恢复的优化优化强依赖ZooKeeper的宕机超时判断 RegionS

6、erver的启动流程 RS 自身的逻辑启动一个 ServerSocket 判断zk上是否有关于本机的监控节点主动向该节点发送pid数据。是否结束结束注册zk HBase RegionServer宕机恢复的优化优化强依赖ZooKeeper的宕机超时判断监控进程的启动流程启动 ServerSocket 判断zk上是否有本机的RS节点等待RS传pid 过来是是删掉zk上该pid 对应的RS节点否关掉HDFS句柄主动去RS拉去pid 否注册zk 检查RS的ipc服务是否关掉，以确定RS已经挂掉接到pid，放到本地内存检查该pid是否存在于本机

7、。是否 HBase RegionServer宕机恢复的优化优化强依赖ZooKeeper的宕机超时判断-结构图。 HBase RegionServer宕机恢复的优化优化强依赖ZooKeeper的宕机超时判断我们的Patch： https:/issues.apache.org/jira/browse/HBASE- 5075 社区的Patch： https:/issues.apache.org/jira/browse/HBASE- 5844 HBase RegionServer宕机恢复的优化小结当前的方案只能解决进程级的服务监控，不能解决进程内OOM或其他阻塞的场景。 HBase

8、RegionServer宕机恢复的优化 Split HLog时间过长优化 0.90.x系列，WAL重做是单进程单线程我们使用的解决方案是，并行Split Hlog（多进程并行）社区Patch： https:/issues.apache.org/jira/browse/HBASE- 1364 注意：不要直接使用社区的Patch，需要与HBase trunk中的Split HLog逻辑进行代码同步 HBase RegionServer宕机恢复的优化扫描元数据表时间过长的优化注意：当前场景与实际的生产中元数据的大小有关，元数据越大这个问题就越凸显，我们的恢复时间是基于我们当前系统的元数据

9、量得来（读者自测时请参考自己的实际情况） 1) HBase RPC Client tcpNoDelay 默认设置更改为true （该过程只针对部分场景有效） 2) 扫描META表时设置caching为100（默认为1） HBase RegionServer宕机恢复的优化宕机服务器的Region再次上线过程的优化注意：二次上线的Region消耗的时间与实际宕机服务的Region数量成线性关系，当前数值以我们实际生产环境的Region为准（读者可自测），单台服务 Region数量1000+。现有版本单线程串行上线Region 解决方法：并行批量上线这些Region 见：Bulk ass

10、ign HBase RegionServer宕机恢复的优化单体效果等待ZNode失效，耗时：3min - 0s split log；32个log files，耗时：5min - 10s 扫描整张meta表（5w个region），耗时：6分-10s 分配region；1000个region；耗时：1分钟-5s 总体效果 15分钟-20+ s HBase RegionServer宕机恢复的优化效果对比 0 100 200 300 400 500 600 700 800 900 1000 对比 1 对比 2 对比 3 优化前系优化后 HDFS NameNode的HA优化为什么要优化Name

11、Node HA？ - 不停机服务为什么不做无状态分布式NameNode? - HBase依赖的NameNode性能无压力 - 难度较高我们的HA与社区的关系？ - 我们是踩在巨人的肩膀上前进，社区提供了非常多的优秀解决方案，如AvatarNode，Backup Node，BooKeeper等。但出于考虑有的需要依赖硬件，有的则是成熟度不够，再则是出于人工干涉不能自动运行。我们集合了社区的力量做了代码整合，吸收了AvatarNode和社区HA重试机制优点和代码，做了代码合并。 HDFS NameNode的HA优化目标热备热切自动热切 HBase不停机服务 HDFS Name

12、Node的HA优化架构图-整体结构 HDFS NameNode的HA优化架构图 NameNode Active Standby HDFS NameNode的HA优化要点 Active NameNode将editlog写入NFS某块磁盘， Standby读取NFS的该磁盘editlog数据消费重做到内存中 Active Node与Standby Node通过ZooKeeper选举确定状态 DataNode blockReport、heartbeat同时到Active与 standby Node DFSClient具有RPC重试invoke，用于切换访问Active 与Standby N

13、ode HDFS NameNode的HA优化社区相关 Avatar Node HDFS-1623 对比与关系吸收了Avatar Node消费editlog与datanode双心跳汇报的优点（基于AvatarNode） Avatar Node需要VIP（需要硬件支持），我们采用 ZooKeeper选举策略决定Active与Standby，并吸收 HDFS-1623中的HA NameNode RPC 的retryInvoke （基于HDFS-1623 ）监控优化监控优化显示单个region的wps与qps以及每秒写入量（单位字节）与每秒读取量（单位字节）显示单个regionserver的wps与qps（排除meta的请求访问）显示单个regionserver的每秒写入量（单位字节）与每秒读取量（单位字节）显示某张表的每秒写入量（单位字节）与每秒读取量（单位字节）显示某张表的wps与qps 监控优化监控优化 Region细粒度监控示例图监控优化监控优化集群细粒度监控示例图 Q&AQ&A 谢谢谢谢！

展开阅读全文