概述:
此分享包括:HBase_介绍和HBase云存储的汇总
汇总点:
HBASE基于HDFS存储; Hbase实时随机读写; Hbase是线性扩展,自动分表,支持MapReduce Hbase Client使用HBase的RPC机制与Master和RegionServer进行通信,对于管理类操作,Client与Master进行RPC;对于数据读写类操作,Client与RegionServer进行RPC。 Client工作过程:从ZooKeeper上获取元数据和ROOT信息;在元数据中查找Region信息;与Region获取数据;缓存元数据相关信息; Hbase的Master非单节点的,利用选举机制保证一个主Master; Hbase的Master在功能上主要负责Table和Region的管理工作; RegionServer主要负责响应用户I/O请求,向HDFS文件系统中读写数据同时向主服务器(Master Server)上报自己的状; HRegion对应了Table中的一个Region,HRegion中由多个HStore组成。每个HStore对应了Table中的一个Column Family的存储; HBase存储的核心Store由两部分组成:一部分是MemStore,另一部分是StoreFiles; MemStore->StoreFile(Compact)->StoreFile->Region Split; Master通过分发遗留HLog,然后RegionServer通过感知HLog并Replay HLog来保障数据不丢失; Hbase的行的写操作是始终是“原子”的,只对一行上“锁”; Hbase适用场景:储海量数据(TB级以上);对大数据集合进行高效的随机访问(主键查询);对于结构化和非结构化的数据存储同时不涉及jion操作; Hbase的Cell为:Row,Column,Version和Value; Hbase的操作:PUT,DELETE,GET和SCAN; Region操作:Flush MemStore,Compact,Major Compact和split; 使用技巧:Column Family的数量最好为1;Key的设计避免单调递增,最小化;最小化Column; MR操作时:Region数=Mapper数;Region数=Reducer数和Reducer写Hfile,再 BulkLoad; Hbase开发调优:尽可能是使用Bulk Load;Put使用客户端Cache和Scan使用Cache/Batch; HBASE部署中内存分配:RegionServer 12GB(MemStore <=40%,HFile DataIndex 和BlockCache <=20%),Master 4GB和ZooKeeper 1GB; Region管理:预创建Region,Region的大小(hbase.hregion.max.filesize=256MB,1GB,4GB,手动Split,交错负载); Region合并:hbase.hstore.compactionThreshold=3,hbase.hstore.blockingStoreFiles=7(阻塞,超时),hbase.hstore.compaction.max=10和hbase.hregion.majorcompaction=86400,0; MemStore Flush:hbase.regionserver.global.memstore.upperLimit和hbase.regionserver.global.memstore.lowerLimit;
运维调优:
Java GC: JVM GC调整(ParNewGC+CMS) Full GC-10s/GB MemStore本地分配(2MB,减少碎片) LZO压缩: 压缩单位为Block 提高性能 并发数调整: hbase.regionserver.handler.count Cache设置: hfile.block.cache.size
更多详情参见附件
相关推荐
Hadoop_and_Hbase_搭建_云存储_概述
NULL 博文链接:https://snv.iteye.com/blog/1893863
Apache HBase™是Hadoop数据库,这是一个分布式,可伸缩的大数据存储。当您需要对大数据进行...正如Bigtable利用Google文件系统提供的分布式数据存储一样,Apache HBase在Hadoop和HDFS之上提供类似于Bigtable的功能。
Apache HBase™是Hadoop数据库,是一个分布式,可扩展的大数据存储。 当您需要对大数据进行... 正如Bigtable利用Google文件系统提供的分布式数据存储一样,Apache HBase在Hadoop和HDFS之上提供类似Bigtable的功能。
大数据项目的基础数据存储项目,整合hbase存储,并通过中间件作为存储缓冲区
HBase是一个分布式的、面向列的开源数据库,该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储...
│ Day1501_Hbase的介绍及其发展.mp4 │ Day1502_Hbase中的特殊概念.mp4 │ Day1503_Hbase与MYSQL的存储比较.mp4 │ Day1504_Hbase部署环境准备.mp4 │ Day1505_Hbase伪分布式配置文件的修改.mp4 │ Day1506_Hbase伪...
HBase是一个分布式的、面向列的开源数据库,该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储...
Hadoop+Hbase搭建云存储总结
曹龙(封神) 阿里云技术专家、架构师 专注在大数据领域,有6年分布式引擎研发经验 先后研发上万台Hadoop、...云HBase服务. 阿里大数据三大组件 • 云 最佳实践 • 云 部署模式 • 云 真实案例 • 云 内核特性 • 云 未来
从HBase的集群搭建、HBaseshell操作、java编程、架构、原理、涉及的数据结构,并且结合陌陌海量消息存储案例来讲解实战HBase 课程亮点 1,知识体系完备,从小白到大神各阶段读者均能学有所获。 2,生动形象,化繁为...
其中HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制。 此外,Pig和Hive还为HBase提供了...
分数不让我设定(最好是0)包含原理概念、架构、单机安装、分布式安装,HBase的优化及Phoenixd的一点拓展知识,二叉树,B树等等。。
HBase是一个分布式的、面向列的开源数据库,该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储...
1 HBase简介及其在大数据生态圈的位置 2-2 HBase数据存储模型及与关系型数据库的区别 2-3 Hadoop伪分布式集群安装 2-4 HBase伪分布式集群安装 2-5 HBase基础架构 2-6 HBase阶段小结 第3章 HBase原理与实战 介绍HBase...
简单的介绍了habse存储数据的样子和简单的hbase shell 使用
注意:zookeeper3.4.13和hbase2.3.5都是采用docker-compose方式部署 原文链接:https://blog.csdn.net/m0_37814112/article/details/120915194 说明:使用外部zookeeper3.4.13之hbase2.3.5一键部署工具,支持部署、...
HBase(hbase-2.4.9-bin.tar.gz)是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System...
本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等。