浅谈Hive vs HBase

HBase能在大数量联机实时查询场合大展身手。例如:Fackbook就应用其对用户间的传递的音信举行联合实时分析。

Hive适用于网络日志等数据量大、静态的多寡查询。例如:用户消费行为记录,网站访问足迹等。不过不适用于同台实时在线查询的场地。

HBase的多寡查询是有一套属于本人看似SQL的操作语言的,那么些必要自然的学习来控制。别的,要运行HBase,ZooKeeper是索要配备的。ZooKeeper是一个针对性大型分布式系统的可信协调系统,提供的功用包含:配置维护、名字服务、分布式同步、组服务等。

Apache
HBase
是运行于HDFS顶层的NoSQL(=Not Only
SQL,泛指非关系型的数据库)数据库系统。不同于Hive,HBase具备随即读写效率,是一种面向列的数据库。HBase以表的格局储存数据,表由行和列组成,列划分为多少个列簇(row
family)。例如:一个新闻列簇包罗了发送者、接受者、发送日期、新闻标题以及信息内容。每一对键值在HBase会被定义为一个Cell,其中,键由row-key(行键),列簇,列,时间戳构成。而在HBase中每一行代表由行键标识的键值映射组合。Hbase目标根本借助横向扩展,通过持续追加廉价的商用服务器,来充实统计和仓储能力。

Hive与HBase两者是基于Hadoop上区其余技术。Hive是一种能进行MapReduce作业的类SQL编程接口,Hbase是一种非关系型的数据库结构。结合这二者自个儿的特征,相互结合使用恐怕能接受相得益彰的功效。例如:利用Hive处理静态离线数据,利用HBase举行协同实时查询,而后对两者间的结果集进行整合归并,从而使得数据总体且永葆青春,为更为的买卖分析提供不错帮衬。

小结

 

HBase是什么?

 Hive是什么?

特性

坚守JDBC的Hive不但可以让具SQL知识的用户来直接进行MapReduce作业,同时内部也结合了近来根据SQL的操作工具。然而,由于默许的数额读取是全表遍历的,其时间的损耗也不可防止地相对较大。尽管如此,大相径庭的Hive分区方法,其遍历读取的数据量也是可以拥有限制的。Hive分区同意对存储在单身文件上的数量开展筛选查询,重回的是筛选后的数目。例如针对日期的日记文件访问,前提是此类文件的文本名包括日期新闻。

Hive不协理常规的SQL更新语句,如:数据插入,更新,删除。因为其对数据的操作是本着所有数据表的。同时该特点也使得数据查询用时以数秒钟甚至数时辰来拓展总结。其它,其MapReduce转换进度必须信守预约义的转换规则。

 

列音讯可用以获取数据变动前的取值(透过HBase压缩策略可以去除列音信历史记录来刑满释放存储空间)。

  1. 累加或更新数据行
  2. 环视获得某范围内的cells
  3. 为某一现实数额行重回对应的cells
  4. 从数量表中删除数据行/列,或列的叙述新闻

Apache
Hive
是一个创设于Hadoop(分布式系统基础架构)顶层的数据仓库,注意那里不是数据库。Hive能够当做是用户编程接口,它本身不存储和测算数据;它依靠于HDFS(Hadoop分布式文件系统)和MapReduce(一种编程模型,映射与化简;用于大数据交互运算)。其对HDFS的操作看似于SQL—名为HQL,它提供了丰硕的SQL查询办法来分析存储在HDFS中的数据;HQL经过编译转为MapReduce作业后透过祥和的SQL
去询问分析须要的内容;那样一来,即便不熟知MapReduce
的用户也得以很有益地应用SQL
语言查询、汇总、分析数据。而MapReduce开发人士可以把己写的mapper
和reducer 作为插件来支撑Hive 做更复杂的多少解析。

限制

HBase以键值对的款型储存数据。其蕴藉了4种紧要的数额操作办法:

运用举例

网站地图xml地图