"Hadoop/MapReduce/HBase"分享总结

小网客

浏览: 1216088 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

分享汇总

概述：

此分享是关于hadoop生态系统的简单介绍包括起源到相对应用

技术点：

1.hadoop核心包括Common，HDFS和MapReduce；
2.Pig，Hbase，Hive，Zookeeper；
3.Hadoop日志分析工具Chukwa；
4.MR解决的问题：海量输入数据，简单任务划分和集群计算环境；
5.执行流程：FileSplit / Map / Combine(Partition)和Copy / Sort / Reduce 
6.分布式计算包括:作业和任务调度和执行，预测执行，故障处理和针对不同应用环境的优化
7.HDFS可靠性措施：NameNode备份，多数据结点(冗余)，数据结点的心跳检测，块报告和完整性检验，NameNode的日志文件和镜像文件；
8.两个系列版本：Apache和Cloudera；
9.SSH无密码访问；
10.内置web服务器：
JobTrackerIP:50030 
TaskTrackerIP:50060 
NamenodeIP:50070 
DatanodeIP:50075 
11.HBase以以Region为单位管理region(startKey,endKey)；
12.HBase的每个Column Family单独存储：storeFile；
13.HBase的RegionServer为Region读写操作的场所；
14.HBase的Master管理Region的分配和基于zookeeper来保证HA；
15.HBase的强一致性：同一行数据的读写只在同一台regionserver上进行；
16.HBase的水平伸缩：region的自动分裂以及master的balance，只用增加datanode机器即可增加容量和增加regionserver机器即可增加读写吞吐量；
17.HBase的行事务；
18.HBase三维有序rowKey (ASC) + columnLabel(ASC) + Version (DESC)  --> value 
19.HBase支持范围查询和高性能随机写 ；
20.HBase基于Hadoop；
21.HBase不支持二级索引和join操作;
22.Hbase具有特定的适用场景;

详情参见附件

Hadoop和HBase.pdf (2.1 MB)
下载次数: 90

0
顶

2
踩

分享到：

"Namenode瓶颈解决方案"分享总结 | "淘宝Java版的存储和搜索介绍"分享总结

2013-06-08 17:37
浏览 1876
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

"Hadoop/MapReduce/HBase"分享总结

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

"Hadoop/MapReduce/HBase"分享总结

评论

发表评论

相关推荐

"宜信大数据金融实践分享"汇总

"一种新的基于相似度计算的本体映射算法"分享

"基于本体实现网页规则分类的方法"分享

"推荐系统的工程挑战"分享

“基于用户兴趣分析的网页生命周期建模”分享

“基于大规模日志分析的网络搜索引擎用户行为研究”分享

“基于验证码破解的 HTTP 攻击原理与防范”分享

Node.js社区：一个人称代词引发的论战(转)

coder我想对你说

4399曹政：中国互联网

基于goagent 上网步骤

"Hadoop集群监控与Hive高可用"分享总结

"Hadoop在ebay中的使用历程"分享总结

"Twitter突发新闻事件监测跟踪"分享总结

"鹰眼下的淘宝-分布式调用跟踪系统介绍"分享总结

"实时流计算应用开发框架-天罡"分享总结

"大数据产品中的异构数据源整合"分享总结

"高性能Web服务器Nginx及相关新技术的应用实践"分享总结

"证券交易的低延迟挑战"分享总结

"打造支持上千万http长连接的应用"分享总结

最近访客更多访客>>