NoSQL大数目~说说Hadoop

Hadoop是一个由Apache基金会所支付的分布式系统基础架构。

用户可以在不掌握分布式底层细节的动静下,开发分布式程序。充足利用集群的威力进行连忙运算和存储。

 Hadoop实现了一个分布式文件系统(Hadoop Distributed File
System),简称HDFS。HDFS有高容错性的特色,并且计划用来部署在物美价廉的(low-cost)硬件上;而且它提供高吞吐量(high
throughput)来做客应用程序的数据,适合这个负有超大数据集(large data
set)的应用程序。HDFS放宽了(relax)POSIX的渴求,能够以流的花样拜访(streaming
access)文件系统中的数据。

Hadoop的框架最基本的宏图就是:HDFS和MapReduce。HDFS为海量的数据提供了储存,则MapReduce为海量的数量提供了统计。

优点

Hadoop是一个力所能及对大气数目举行分布式处理的软件框架。 Hadoop
以一种保险、高效、可伸缩的法门举行多少处理。

Hadoop
是轻而易举的,因为它假若总计元素和仓储会失利,因而它珍贵两个干活数据副本,确保可以针对破产的节点重新分布处理。

Hadoop 是疾速的,因为它以互相的主意行事,通过并行处理加快处理速度。

Hadoop 还是可伸缩的,可以处理 PB 级数据。

另外,Hadoop 依赖于社区服务,因而它的工本相比较低,任何人都得以接纳。

Hadoop是一个可知让用户轻松架构和采取的分布式统计平台。用户可以轻松地在Hadoop上支付和运行处理海量数据的应用程序。它根本有以下多少个优点:

  1. 高可靠性。Hadoop按位存储和处理数据的能力值得人们相信。

  2. 高扩展性。Hadoop是在可用的处理器集簇间分配数据并形成统计任务的,这一个集簇可以一本万利地扩张到数以千计的节点中。

  3. 高效性。Hadoop可以在节点之间动态地移动数据,并保管各类节点的动态平衡,由此处理速度相当快。

  4. 高容错性。Hadoop可以自行保存数据的四个副本,并且可以自动将破产的职责重新分配。

  5. 低成本。与一体机、商用数据仓库以及QlikView、Yonghong
    Z-Suite等数码集市相相比较,hadoop是开源的,项目的软件成本由此会大大降低。

Hadoop带有用Java语言编写的框架,由此运行在 Linux
生产平台上是非凡卓绝的。Hadoop 上的应用程序也得以拔取任何语言编写,比如
C++。

hadoop大数额处理的意思

Hadoop得以在大数据处理利用中广泛应用得益于其本人在数据提取、变
形和加载(ETL)方面上的原始优势。Hadoop的分布式架构,将大数额处理引擎尽可能的濒临存储,对诸如像ETL这样的批处理操作相对合适,因为接近
这样操作的批处理结果可以一贯走向存储。Hadoop的MapReduce效用实现了将单个任务打碎,并将散装任务(Map)发送到四个节点上,之后再以
单个数据集的花样加载(Reduce)到数据仓库里。

子项目

Hadoop Common:
在0.20及从前的本子中,包含HDFS、MapReduce和其它类型集体内容,从0.21开首HDFS和MapReduce被分开为独立的子项目,别的内容为Hadoop
Common

HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (Hadoop
Distributed File System)

MapReduce:并行总结框架,0.20前使用 org.apache.hadoop.mapred
旧接口,0.20本子伊始引入org.apache.hadoop.mapreduce的新API

HBase: 类似GoogleBigTable的分布式NoSQL列数据库。(HBase和Avro已经于二〇一〇年五月改成头等
Apache 项目)

Hive:数据仓库工具,由非死不可贡献。

Zookeeper:分布式锁设施,提供类似GoogleChubby的效果,由非死不可贡献。

Avro:新的数量类别化格式与传输工具,将渐次取代Hadoop原有的IPC机制。

Pig: 大数据解析平台,为用户提供多种接口。

Ambari:Hadoop管理工具,可以快速的监督、部署、管理集群。

Sqoop:于在HADOOP与价值观的数据库间举办数量的传递。

伯父总计

透过下面相关阅读,让大家领略到hadoop是一个硕大的工具集,里面有分布式文件存储,并行云总计,分布式事务锁,大数目解析等一系列工具,确实够你喝一壶的!

自然,假诺您认为它好,依旧越早迈出第一步越好!

 

网站地图xml地图