酷数目上资源集中

眼下,整个互联网在从IT时代向DT时代形成,大数量技术为着助力企业及公众敲起DT世界大门。当今“大数据”一乐章之要紧其实早就不仅仅在于数量规模的概念,它重表示正信息技术提高进来了一个新的时代,代表着爆炸性的数码信息被风的乘除技术和信息技术带来的技能挑战同艰苦,代表在大数额处理所用的初的技艺及措施,也意味着正在非常数量解析与下所带来的初发明、新劳动同新的开拓进取会。

为扶持大家还好深入了解非常数额,云栖社区组织翻译了GitHub Awesome Big Data资源,供大家参考。本资源类型主要包括:大数量框架、论文等实用资源聚集。

 

资源列表:

 

  •   关系数据库管理体系(RDBMS)
  •   框架
  •   分布式编程
  •   分布式文件系统
  •   文件数据模型
  •   Key
    -Map 数据模型
  •   键-值数据模型
  •   图形数据模型
  •   NewSQL数据库
  •   列式数据库
  •   时间序列数据库
  •   类SQL处理
  •   数据摄取
  •   服务编程
  •   调度
  •   机器上
  •   基准测试
  •   安全性
  •   系统安排
  •   应用程序
  •   搜索引擎以及框架
  •   MySQL的子和演化
  •   PostgreSQL的分支和演化
  •   Memcached的道岔和嬗变
  •   嵌入式数据库
  •   商业智能
  •   数据可视化
  •   物联网和传感器
  •   文章
  •   论文
  •   视频

 

关系数据库管理网(RDBMS)

 

  •  SQLServer:世界太有生气的数据库;  
  •   MySQL:世界最为风靡的开源数据库;
  •   PostgreSQL:世界太先进的开源数据库;
  •   Oracle 数据库:对象-关系项目数据库管理体系。

 

框架

 

  •   Apache
    Hadoop:分布式处理架构,结合了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统);
  •   Tigon:高吞吐量实时流处理框架。

 

分布式编程

 

  •   AddThis
    Hydra :最初当AddThis上开发之分布式数据处理以及存储系统;
  •   AMPLab
    SIMR:用在Hadoop
    MapReduce v1上运行Spark;
  •   Apache
    Beam:为联合之模子与同样效仿用于定义和实行多少处理工作流的一定SDK语言;
  •   Apache
    Crunch:一个简练的Java API,用于执行于通常的MapReduce实现时较平淡的连续、数据聚合等任务;
  •   Apache
    DataFu:由LinkedIn开发的针对性Hadoop
    and 和Pig的用户定义之函数集合;
  •   Apache
    Flink:具有强性能的推行时与机关程序优化;
  •   Apache
    Gora:内存中的数据模型和持久性框架;
  •   Apache
    Hama:BSP(整体一并并行)计算框架;
  •   Apache
    MapReduce :在集群达以并行、分布式算法处理非常数据集的编程模型;
  •   Apache
    Pig :Hadoop中,用于拍卖多少分析程序的高等级查询语言;
  •   Apache
    REEF :用来简化和集合低层大数据系统的保留性评估执行框架;
  •   Apache
    S4 :S4中流淌处理及实现之框架;
  •   Apache
    Spark :内存集群计算框架;
  •   Apache
    Spark
    Streaming :流处理框架,同时是Spark的同等组成部分;
  •   Apache
    Storm :Twitter流处理框架,也只是用于YARN;
  •   Apache
    Samza :基于Kafka和YARN的流处理框架;
  •   Apache
    Tez :基于YARN,用于实践任务中之复杂DAG(有向无环图);
  •   Apache
    Twill :基于YARN的抽象概念,用于减少支出分布式应用程序的复杂度;
  •   Cascalog:数据处理同查询库;
  •   Cheetah :在MapReduce之上的过人性能、自定义数据仓库;
  •   Concurrent
    Cascading :在Hadoop上之数码管理/分析框架;
  •   Damballa
    Parkour :用于Clojure的MapReduce库;
  •   Datasalt
    Pangool :可选取的MapReduce范例;
  •   DataTorrent
    StrAM :为实时引擎,用于因尽量畅通的道、最小之支出及对性最小的震慑,实现分布式、异步、实时的外存大数据测算;
  •   Facebook
    Corona :为Hadoop做优化处理,从而免去单点故障;
  •   Facebook
    Peregrine :MapReduce框架;
  •   Facebook
    Scuba :分布式内存数据存储;
  •   Google
    Dataflow :创建数量管道,以支援夫分析框架;
  •   Netflix
    PigPen :为MapReduce,用于编译成Apache
    Pig;
  •   Nokia
    Disco :由Nokia开发之MapReduc获取、转换与剖析数据;
  •   Google
    MapReduce :MapReduce框架;
  •   Google
    MillWheel :容错流处理框架; 
  •   JAQL :用于拍卖结构化、半结构化和无结构化数据工作之声明性编程语言;
  •   Kite :为同组库、工具、实例和文档集,用于使在Hadoop的生态系统上树立系统越来越爱;
  •   Metamarkets
    Druid :用于大数据集的实时e框架;
  •   Onyx :分布式云计算;
  •   Pinterest
    Pinlater :异步任务履行系统;
  •   Pydoop :用于Hadoop的Python
    MapReduce和HDFS
    API;
  •   Rackerlabs
    Blueflood :多租户分布式测度处理体系;
  •   Stratosphere :通用集群计算框架;
  •   Streamdrill :用于计算基于不同时窗口的波流的活动,并找到最好活跃的一个;
  •   Tuktu :易于使的用来分批处理以及流动计算的阳台,通过Scala、 Akka和Play所修建;
  •   Twitter
    Scalding:基于Cascading,用于Map Reduce工作的Scala库;
  •   Twitter
    Summingbird :在Twitter上使用Scalding和Storm串流MapReduce;
  •   Twitter
    TSAR :Twitter上的日序列聚合器。

 

分布式文件系统

 

  •   Apache
    HDFS:在差不多台机器上囤积大型文件之方式;
  •   BeeGFS:以前是FhGFS,并行分布式文件系统;
  •   Ceph
    Filesystem:设计之软件囤积平台;
  •   Disco
    DDFS:分布式文件系统;
  •   Facebook
    Haystack:对象存储系统;
  •   Google
    Colossus:分布式文件系统(GFS2);
  •   Google
    GFS:分布式文件系统;
  •   Google
    Megastore:可扩大的、高度可用之贮存;
  •   GridGain:兼容GGFS、Hadoop内存的文件系统;
  •   Lustre
    file
    system:高性能分布式文件系统;
  •   Quantcast
    File System
    QFS:开源分布式文件系统;
  •   Red
    Hat
    GlusterFS:向他扩展的附网存储(Network-attached Storage)文件系统;
  •   Seaweed-FS:简单的、高度可扩大的分布式文件系统;
  •   Alluxio:以保险的储存速率在跨集群框架达成文件共享;
  •   Tahoe-LAFS:分布式云存储系统;

 

文本数据模型

 

  •   Actian
    Versant:商用的面向对象数据库管理网;
  •   Crate
    Data:是一个开源的泛可扩大的多少存储,需要零管理模式;
  •   Facebook
    Apollo:Facebook的Paxos算法,类似于NoSQL数据库;
  •   jumboDB:基于Hadoop的面向文档的数据存储;
  •   LinkedIn
    Espresso:可横向扩张的面向文档的NoSQL数据存储;
  •   MarkLogic:模式不可知的营业所版NoSQL数据库技术;
  •   MongoDB:面向文档的数据库系统;
  •   RavenDB:一个事务性的,开源文档数据库;
  •   RethinkDB:支持连查询以及群组依据等查询的文档型数据库。

 

Key Map 数据模型

在意:业内有有的术语混乱,有三三两两独不等的物都称之为“列式数据库”。这里列有的来部分凡是环绕“key-map”数据模型而建造之分布式、持续型数据库,其中拥有的数目还发(可能综合了)键,并跟照中的键-值对相互关联。在局部系遭到,多只如此的值映射可以与键相关联,并且这些映射被称作“列族”(具有映射值的键被称为“列”)。

其他一样组也可是称“列式数据库”的技术为其储存数据的章程如别前同一组,它在磁盘上或者在存储器中——而未是坐民俗艺术,即有既定键的键值都相邻着、逐行存储。这些体系吧竞相相邻来储存所有列值,但是如果得到给定列的所有值却未欲先那么复杂的劳作。

面前同组在这里被叫做“key map数据模型”,这两边和Key-value 数据模型中间的边是相当模糊的。后者对数据模型有重复多的仓储格式,可于列式数据库蒙列有。若想了解再多关于这简单种植模型的分,可看Daniel
Abadi的博客:Distinguishing
two major types of Column
Stores。

 

  •   Apache
    Accumulo:内置在Hadoop上之遍布式键/值存储;
  •   Apache
    Cassandra:由BigTable授权,面向列的分布式数据存储;
  •   Apache
    HBase:由BigTable授权,面向列的分布式数据存储;
  •   Facebook
    HydraBase:Facebook所付出的HBase的衍化品;
  •   Google
    BigTable:面向列的分布式数据存储;
  •   Google
    Cloud
    Datastore:为全管理型的无模式数据库,用于存储在BigTable上非关系型数据;
  •   Hypertable:由BigTable授权,面向列的分布式数据存储;
  •   InfiniDB:通过MySQL的接口访问,并应用大规模并行处理进行相互查询;
  •   Tephra:用于HBase处理;
  •   Twitter
    Manhattan:Twitter的实时、多租户分布式数据库。

 

键-值数据模型

 

  •   Aerospike:支持NoSQL的闪存优化,数据存储在内存。开源,“’C’(不是Java或Erlang)中的服务器代码可精确地调动从而避免上下文切换和内存拷贝”。
  •   Amazon
    DynamoDB:分布式键/值存储,Dynamo论文的贯彻;
  •   Edis:为替Redis的协议兼容的服务器;
  •   ElephantDB:专门研究Hadoop中数导出的分布式数据库;
  •   EventStore:分布式时间序列数据库;
  •   GridDB:适用于储存于时刻序列中的传感器数据;
  •   LinkedIn
    Krati:简单的持久性数据存储,拥有小顺延和大吞吐量;
  •   Linkedin
    Voldemort:分布式键/值存储系统;
  •   Oracle
    NoSQL
    Database:Oracle公司支付之分布式键值数据库;
  •   Redis:内存中的键值数据存储;
  •   Riak:分散式数据存储;
  •   Storehaus:Twitter开发的异步键值存储的库;
  •   Tarantool:一个高速的NoSQL数据库暨Lua应用服务器;
  •   TiKV:由Google
    Spanner和HBase授权,Rust提供技术支持的分布式键值数据库;
  •   TreodeDB:可复制、共享的键-值存储,能提供多行原子写入。

 

图表数据模型

 

  •   Apache
    Giraph:基于Hadoop的Pregel实现;
  •   Apache
    Spark
    Bagel:可实现Pregel,为Spark的平部分;
  •   ArangoDB:多层模型分布式数据库;
  •   DGraph:一个只是扩大的、分布式、低时延、高吞吐量的图形数据库,旨在为Google生产水平规模及吞吐量提供足够的亚顺延,用于TB级的结构化数据的实时用户查询;
  •   Facebook
    TAO:TAO是facebook广泛用来囤积和劳动被交际图形的分布式数据存储;
  •   GCHQ
    Gaffer:GCHQ中的Gaffer是一个善存储大规模图形的框架,其中节点和边缘都产生统计数据;
  •   Google
    Cayley:开源图形数据库;
  •   Google
    Pregel :图形处理框架;
  •   GraphLab
    PowerGraph:核心C ++ GraphLab API和确立以GraphLab API之上的强性能机器上和数量挖掘工具确保之会师;
  •   GraphX:Spark中的弹性分布式图形系统;
  •   Gremlin:图形追踪语言;
  •   Infovore:以RDF为骨干的Map / Reduce框架;
  •   Intel
    GraphBuilder:在Hadoop上构建大图形的家伙;
  •   MapGraph:用于在GPU上常见并行图形处理;
  •   Neo4j:完全用Java写副的图纸数据库;
  •   OrientDB:文档和图片数据库;
  •   Phoebus:大型图形处理框架;
  •   Titan:建被Cassandra的分布式图形数据库;
  •   Twitter
    FlockDB:分布式图形数据库。

 

NewSQL数据库

 

  •   Actian
    Ingres:由买卖支持,开源之SQL关系数据库管理网;
  •   Amazon
    RedShift:基于PostgreSQL的数据仓库服务;
  •   BayesDB:面向统计数值的SQL数据库;
  •   CitusDB:通过分区和复制横向扩张PostgreSQL;
  •   Cockroach:可扩大、地址可复制、交易型的数据库;
  •   Datomic:旨在产生而扩大、灵活的智能应用之分布式数据库;
  •   FoundationDB:由F1暗示的分布式数据库;
  •   Google
    F1:建立在Spanner上之分布式SQL数据库;
  •   Google
    Spanner:全球性的分布式半涉项目数据库;
  •   H-Store:是一个试验性主存并行数据库管理网,用于共同事务处理(OLTP)应用的优化;
  •   Haeinsa:基于Percolator,HBase的线性可扩大多行多表交易库;
  •   HandlerSocket:MySQL/MariaDB的NoSQL插件;
  •   InfiniSQL:无限可扩大的RDBMS;
  •   MemSQL:内存中的SQL数据库,其中起优化的闪存列存储;
  •   NuoDB:SQL / ACID兼容的分布式数据库;
  •   Oracle
    TimesTen in-Memory
    Database:内存中具有持久性和而恢复性的涉项目数据库管理体系;
  •   Pivotal
    GemFire
    XD:内存中低延时的分布式SQL数据存储,可为外存列表数据提供SQL接口,在HDFS中比持久化;
  •   SAP
    HANA:是于内存中面向列的干项目数据库管理体系;
  •   SenseiDB:分布式实时半结构化的数据库;
  •   Sky:用于行为数据的灵活、高性能分析的数据库;
  •   SymmetricDS:用于文书及数据库同步的开源软件;
  •   Map-D:为GPU内存数据库,也也很数目解析与可视化平台;
  •   TiDB:TiDB是分布式SQL数据库,基于谷歌F1之设计灵感;
  •   VoltDB:自称为极端抢的内存数据库。

 

列式数据库

注意:请在键-值数据模型 阅读相关注释。

 

  •   Columnar
    Storage:解释啊是排存储和何时会用动用它;
  •   Actian
    Vector:面向列的分析型数据库;
  •   C-Store:面向列的DBMS;
  •   MonetDB:列存储数据库;
  •   Parquet:Hadoop的列存储格式;
  •   Pivotal
    Greenplum:专门设计之、专用的剖析数据仓库,类似于人情的因行之家伙,提供了一个列式工具;
  •   Vertica:用来保管大规模、快速增长的恢宏多少,当用于数据仓库时,能够提供好急匆匆之询问性能;
  •   Google
    BigQuery :谷歌的云产品,由该于Dremel的创始工作提供支持;
  •   Amazon
    Redshift :亚马逊的云产品,它为是因柱状数据存储后端。

 

岁月序列数据库

 

  •   Cube:使用MongoDB来囤积时序列数据;
  •   Axibase
    Time Series
    Database:在HBase之上的分布式时间序列数据库,它概括内置的Rule
    Engine、数据预测与可视化;
  •   Heroic:基于Cassandra和Elasticsearch的不过扩大的时光序列数据库;
  •   InfluxDB:分布式时间序列数据库;
  •   Kairosdb:类似于OpenTSDB但会考虑到Cassandra;
  •   OpenTSDB:在HBase上之分布式时间序列数据库;
  •   Prometheus:一栽时序列数据库与劳务监测系统;
  •   Newts:一种基于Apache
    Cassandra的辰序列数据库。

 

类SQL处理

 

  •   Actian
    SQL for
    Hadoop:高性能交互式的SQL,可看具有的Hadoop数据;
  •   Apache
    Drill:由Dremel授意的交互式分析框架;
  •   Apache
    HCatalog:Hadoop的表和存储管理层;
  •   Apache
    Hive:Hadoop的类SQL数据仓库系统;
  •   Apache
    Optiq:一种植框架,可容高效之查询翻译,其中囊括异构性及联合性数据的询问;
  •   Apache
    Phoenix:Apache Phoenix 是 HBase 的 SQL 驱动;
  •   Cloudera
    Impala:由Dremel授意的交互式分析框架;
  •   Concurrent
    Lingual:Cascading中之类SQL查询语言;
  •   Datasalt
    Splout
    SQL:用于大数据集的完整的SQL查询工具;
  •   Facebook
    PrestoDB:分布式SQL查询工具;
  •   Google
    BigQuery:交互式分析框架,Dremel的实现;
  •   Pivotal
    HAWQ:Hadoop的类SQL的数据仓库系统;
  •   RainstorDB:用于存储大规模PB级结构化和一半结构化数据的数据库;
  •   Spark
    Catalyst:用于Spark和Shark的查询优化框架;
  •   SparkSQL:使用Spark操作结构化数据;
  •   Splice
    Machine:一个清一色效的Hadoop上之SQL RDBMS,并带有ACID事务;
  •   Stinger:用于Hive的交互式查询;
  •   Tajo:Hadoop的分布式数据仓库系统;
  •   Trafodion:为铺面级的SQL-on-HBase针对生数量的工作或作业工作负荷的缓解方案。

 

数据摄取

 

  •   Amazon
    Kinesis:大规模数据流的实时处理;
  •   Apache
    Chukwa:数据收集系统;
  •   Apache
    Flume:管理大量日记数据的劳动;
  •   Apache
    Kafka:分布式发布-订阅消息网;
  •   Apache
    Sqoop:在Hadoop和结构化的数量存储区之间传送数据的家伙;
  •   Cloudera
    Morphlines:帮助 Solr、HBase和HDFS完成ETL的框架;
  •   Facebook
    Scribe:流日志数据聚合器;
  •   Fluentd:采集事件以及日志的家伙;
  •   Google
    Photon:实时连接多只数据流的分布式计算机系统,具有强而扩展性和低延迟性;
  •   Heka:开源流处理软件系统;
  •   HIHO:用Hadoop连接不同数据源的框架;
  •   Kestrel:分布式消息队列系统;
  •   LinkedIn
    Databus:对数据库更改捕获的事件流;
  •   LinkedIn
    Kamikaze:压缩已分类整型数组的主次包;
  •   LinkedIn
    White
    Elephant:日志聚合器和仪表板;
  •   Logstash:用于管理事件以及日志的工具;
  •   Netflix
    Suro:像因Chukwa 的Storm和Samza一样的日志聚合器;
  •   Pinterest
    Secor:是促成Kafka日志持久性的服务;
  •   Linkedin
    Gobblin:LinkedIn的通用数据摄取框架;
  •   Skizze:是平等种多少存储略图,使用概率性数据结构来拍卖计数、略图等有关的题材;
  •   StreamSets
    Data
    Collector:连续好数额收集的底蕴设备,可略地动IDE。

劳动编程

 

  •   Akka
    Toolkit:JVM中分布性、容错事件驱动应用程序的运作时刻;
  •   Apache
    Avro:数据序列化系统;
  •   Apache
    Curator:Apache
    ZooKeeper的Java库;
  •   Apache
    Karaf:在任何OSGi框架之上运行的OSGi运行时;
  •   Apache
    Thrift:构建二进制协议的框架;
  •   Apache
    Zookeeper:流程管理集中式服务;
  •   Google
    Chubby:一栽松耦合分布式系统锁服务;
  •   Linkedin
    Norbert:集群管理器;
  •   OpenMPI:消息传递框架;
  •   Serf:服务意识跟协调的分散化解决方案;
  •   Spotify
    Luigi:一种构建批处理作业的纷繁管道的Python包,它亦可处理依赖性解析、工作流管理、可视化、故障处理、命令执行完全等等问题;
  •   Spring
    XD:数据摄取、实时分析、批量甩卖及多少导出的分布式、可扩大系统;
  •   Twitter
    Elephant
    Bird:LZO压缩数量的工作库;
  •   Twitter
    Finagle:JVM的异步网络堆栈。

 

调度

 

  •   Apache
    Aurora:在Apache Mesos之上运行的劳动调度程序;
  •   Apache
    Falcon:数据管理框架;
  •   Apache
    Oozie:工作流作业调度程序;
  •   Chronos:分布式容错调度;
  •   Linkedin
    Azkaban:批处理工作流作业调度;
  •   Schedoscope:Hadoop作业敏捷调度的Scala
    DSL;
  •   Sparrow:调度平台;
  •   Airflow:一个以编程方式编写、调度以及监控工作流的平台。

 

机上

 

  •   Apache
    Mahout:Hadoop的机械上库;
  •   brain:JavaScript中的神经网络;
  •   Cloudera
    Oryx:实时大规模机器上;
  •   Concurrent
    Pattern:Cascading的机械上库;
  •   convnetjs:Javascript中的机上,在浏览器中训练卷积神经网络(或普通网络);
  •   Decider:Ruby中灵活、可扩大的机械上;
  •   ENCOG:支持多进取算法的机上框架,同时支持类的准以及处理数量;
  •   etcML:机器上文件分类;
  •   Etsy
    Conjecture:Scalding中只是扩大的机械上;
  •   Google
    Sibyl:Google中之大机器上系统;
  •   GraphLab
    Create:Python的机械上平台,包括ML工具确保、数据工程以及布局工具的大面积聚集;
  •   H2O:Hadoop统计性的机械上和数学运行时;
  •   MLbase:用于BDAS堆栈的分布式机器上库;
  •   MLPNeuralNet:针对iOS和Mac
    OS X的飞速多重合感知神经网络库;
  •   MonkeyLearn:使文本挖掘更为容易,从文本中领取分类数据;
  •   nupic:智能计算的Numenta平台,它是一个启发大脑的机器智力平台,基于皮质学习算法的精准的浮游生物神经网络;
  •   PredictionIO:建为Hadoop、Mahout和Cascading上之机器上服务器;
  •   SAMOA:分布式流媒体机器上框架;
  •   scikit-learn:scikit-learn为Python中的机器上;
  •   Spark
    MLlib:Spark中有些常用之机械上(ML)功能的落实;
  •   Vowpal
    Wabbit:微软以及雅虎发起的求学系统;
  •   WEKA:机器上软件套件;
  •   BidMach:CPU和加快GPU的机学习库。

 

条件测试

 

  •   Apache
    Hadoop
    Benchmarking:测试Hadoop性能的微基准;
  •   Berkeley
    SWIM
    Benchmark:现实非常数目工作负荷基准测试;
  •   Intel
    HiBench:Hadoop基准测试套件;
  •   PUMA
    Benchmarking:MapReduce应用之极测试套件;
  •   Yahoo
    Gridmix3:雅虎工程师团队的Hadoop集群基准测试。

 

安全性

 

  •   Apache
    Knox
    Gateway:Hadoop集群安全访问的单点;
  •   Apache
    Sentry:存储于Hadoop的数码安全模块。

 

系布局

 

  •   Apache
    Ambari:Hadoop管理之运行框架;
  •   Apache
    Bigtop:Hadoop生态系统的安排框架;
  •   Apache
    Helix:集群管理框架;
  •   Apache
    Mesos:集群管理器;
  •   Apache
    Slider:一栽YARN应用,用来布局YARN中存活的分布式应用程序;
  •   Apache
    Whirr:运行云服务之库集;
  •   Apache
    YARN:集群管理器;
  •   Brooklyn:用于简化应用程序部署和保管之库;
  •   Buildoop:基于Groovy语言,和Apache
    BigTop类似;
  •   Cloudera
    HUE:和Hadoop进行互的Web应用程序;
  •   Facebook
    Prism:多数据主导复制系统;
  •   Google
    Borg:作业调度和监察体系;
  •   Google
    Omega:作业调度以及监察系统;
  •   Hortonworks
    HOYA:可每当YARN上布置HBase集群的运用;
  •   Marathon:用于长远运行服务之Mesos框架。

 

应用程序

 

  •   Adobe
    spindle:使用Scala、Spark和Parquet处理的下一代web分析;
  •   Apache
    Kiji:基于HBase,实时采集和分析数据的框架;
  •   Apache
    Nutch:开源网络爬虫;
  •   Apache
    OODT:用于NASA科学档案中数据的捕获、处理和共享;
  •   Apache
    Tika:内容分析工具确保;
  •   Argus:时间序列监测与报警平台;
  •   Countly:基于Node.js和MongoDB,开源之无绳电话机和网络分析平台;
  •   Domino:运行、规划、共享和配备模型——没有外基础设备;
  •   Eclipse
    BIRT:基于Eclipse的告诉体系;
  •   Eventhub:开源的事件分析平台;
  •   Hermes:建为Kafka上的异步消息代理;
  •   HIPI
    Library:在Hadoop’s
    MapReduce上实施图像处理任务的API;
  •   Hunk:Hadoop的Splunk分析;
  •   Imhotep:大规模解析平台;
  •   MADlib:RDBMS的用于数据解析的数目处理库;
  •   Kylin:来自eBay​​的开源分布式分析工具;
  •   PivotalR:Pivotal HD / HAWQ和PostgreSQL中的R;
  •   Qubole:为活动缩放Hadoop集群,内置的多少连接器;
  •   Sense:用于数据是及坏数据解析的云平台;
  •   SnappyData:用于实时运营分析的分布式内存数据存储,提供建立在Spark单一集成集群中的数额流分析、OLTP(联机事务处理)和OLAP(联机分析处理);
  •   Snowplow:企业级网络以及波分析,由Hadoop、Kinesis、Redshift 和Postgres提供技术支持;
  •   SparkR:Spark的R前端;
  •   Splunk:用于机器生成的数的剖析;
  •   Sumo
    Logic:基于云的分析仪,用于分析机器生成的数码;
  •   Talend:用于YARN、Hadoop、HBASE、Hive、HCatalog和Pig的联结开源环境;
  •   Warp:利用大数据(OS
    X app)的实例查询工具。

 

找寻引擎和框架

 

  •   Apache
    Lucene:搜索引擎库;
  •   Apache
    Solr:用于Apache
    Lucene的搜寻平台;
  •   ElasticSearch:基于Apache Lucene的追寻与剖析引擎;
  •   Enigma.io:为免费增值的健壮性web应用,用于探索、筛选、分析、搜索以及导出来自网络的广阔数据集;
  •   Facebook
    Unicorn:社交图形搜索平台;
  •   Google
    Caffeine:连续索引系统;
  •   Google
    Percolator:连续索引系统;
  •   TeraGoogle:大型搜索索引;
  •   HBase
    Coprocessor:为Percolator的兑现,HBase的等同片;
  •   Lily
    HBase
    Indexer:快速、轻松地搜索存储于HBase的其它内容;
  •   LinkedIn
    Bobo:完全由Java编写的分面搜索的贯彻,为Apache
    Lucene的延;
  •   LinkedIn
    Cleo:为一个一个灵活的软件库,使得部分、无序、实时预输入的找实现了快捷腾飞;
  •   LinkedIn
    Galene:LinkedIn搜索架构;
  •   LinkedIn
    Zoie:是因此Java编写的实时搜索/索引系统;
  •   Sphinx
    Search
    Server:全文检索引擎

 

MySQL的子和演化

 

  •   Amazon
    RDS:亚马逊云的MySQL数据库;
  •   Drizzle:MySQL的6.0的演化;
  •   Google
    Cloud
    SQL:谷歌云的MySQL数据库;
  •   MariaDB:MySQL的提高版嵌入式替代品;
  •   MySQL
    Cluster:使用NDB集群存储引擎的MySQL实现;
  •   Percona
    Server:MySQL的增进版嵌入式替代品;
  •   ProxySQL:MySQL的胜性能代理;
  •   TokuDB:用于MySQL和 MariaDB的积存引擎;
  •   WebScaleSQL:运行MySQL时面临类似挑战的几乎下店铺,它们的工程师之间的协作。

 

PostgreSQL的分段和演化

 

  •   Yahoo
    Everest –
    multi-peta-byte database / MPP derived by PostgreSQL.
  •   HadoopDB:MapReduce和DBMS的混合体;
  •   IBM
    Netezza:高性能数据仓库设备;
  •   Postgres-XL:基于PostgreSQL,可扩大的开源数据库集群;
  •   RecDB:完全成立以PostgreSQL内部的开源推荐引擎;
  •   Stado:开源MPP数据库系统,只对数据仓库和数目会的应用程序;
  •   Yahoo
    Everest:PostgreSQL可以推导多字节P比特数据库/MPP。

 

Memcached的分和演化

 

  •   Facebook
    McDipper:闪存的键/值缓存;
  •   Facebook
    Memcached:Memcache的分支;
  •   Twemproxy:Memcached和Redis的神速、轻型代理;
  •   Twitter
    Fatcache:闪存的键/值缓存;
  •   Twitter
    Twemcache:Memcache的分支。

 

嵌入式数据库

 

  •   Actian
    PSQL:Pervasive Software公司出之ACID兼容的DBMS,在应用程序中置放了优化;
  •   BerkeleyDB:为键/值数据提供一个胜似性能的嵌入式数据库的一个软件库;
  •   HanoiDB:Erlang
    LSM BTree存储;
  •   LevelDB:谷歌写的一个快速键-值存储库,它提供了由字符串键到字符串值的有序映射;
  •   LMDB:Symas开发的超快、超紧凑的键-值嵌入的仪仗数据存储;
  •   RocksDB:基于性LevelDB,用于快速囤积的嵌入式持续性键-值存储。

 

商业智能

 

  •   BIME
    Analytics:商业智能云平台;
  •   Chartio:精益业务智能平台,用于可视化和探讨数据;
  •   datapine:基于云的自助服务商业智能工具;
  •   Jaspersoft:功能强大的商业智能套件;
  •   Jedox
    Palo:定制的商业智能平台;
  •   Microsoft:商业智能软件和平台;
  •   Microstrategy:商业智能、移动智能与网络采用软件平台;
  •   Pentaho:商业智能平台;
  •   Qlik:商业智能和分析平台;
  •   Saiku:开源之辨析平台;
  •   SpagoBI:开源商业智能平台;
  •   Tableau:商业智能平台;
  •   Zoomdata:大数据解析;
  •   Jethrodata:交互式大数量解析。

 

多少可视化

 

  •   Airpal:用于PrestoDB的网页UI;
  •   Arbor:利用网络工作者及jQuery的图纸可视化库;
  •   Banana:对存储在Kibana中Solr.
    Port的日志与时戳数据开展可视化;
  •   Bokeh:一个功能强大的Python交互式可视化库,它对要显的现世web浏览器,旨在为D3.js风格底离奇的图样提供优雅凝练的统筹,同时于广阔数据还是流动多少集中,通过大性能交互性来表达这种力量;
  •   C3:基于D3而重复使用的图表库;
  •   CartoDB:开源或免费增值的虚拟主机,用于带有强大的前端编辑功能以及API的地理空间数据库;
  •   chartd:只带Img标签的反射灵敏、兼容Retina的图样;
  •   Chart.js:开源之HTML5图形可视化效果;
  •   Chartist.js:另一个开源HTML5图片可视化效果;
  •   Crossfilter:JavaScript库,用于在浏览器被探索多首位特别数据集,用Dc.js和D3.js.效果很好;
  •   Cubism:用于时间序列可视化的JavaScript库;
  •   Cytoscape:用于可视化复杂网络的JavaScript库;
  •   DC.js:维度图表,和Crossfilter一起使用,通过D3.js呈现出,它比擅长连接图/附加的长数据,从而徘徊在D3的风波附近;
  •   D3:操作文件的JavaScript库;
  •   D3.compose:从可重复使用的图样以及零部件构成复杂的、数据驱动之可视化;
  •   D3Plus:一组相当强劲的可是选用的图形,还有D3.js的体制;
  •   Echarts:百度企业状况图表;
  •   Envisionjs:动态HTML5可视化;
  •   FnordMetric:写SQL查询,返回SVG图表,而休是表明;
  •   Freeboard:针对IOT和其它Web混搭的开源实时仪表盘构建;
  •   Gephi:屡获荣誉的开源平台,可视化和决定大型图形和网络连接,有接触像Photoshop,但是本着被图表,适用于Windows和Mac OS X;
  •   Google
    Charts:简单的图形API;
  •   Grafana:石墨仪表板前端、编辑器和图表组合器;
  •   Graphite:可扩大的实时图表;
  •   Highcharts:简单而活的图API;
  •   IPython:为交互式计算提供丰富的架构;
  •   Kibana:可视化日志与时标记数据;
  •   Matplotlib:Python绘图;
  •   Metricsgraphic.js:建立在D3之上的库房,针对时序列数据开展极端优化;
  •   NVD3:d3.js的图样组件;
  •   Peity:渐进式SVG修形图,折线和饼图;
  •   Plot.ly:易于使的Web服务,它同意快速创建于热图到直方图等繁杂的图样,使用图表Plotly的在线电子表格上传数据开展创办及统筹;
  •   Plotly.js:支持plotly的开源JavaScript图形库;
  •   Recline:简单不过功能强大的库,纯粹以JavaScript和HTML构建数据运用;
  •   Redash:查询以及可视化数据的开源平台;
  •   Shiny:针对R的Web应用程序框架;
  •   Sigma.js:JavaScript库,专门用来图形绘制;
  •   Vega:一个可视化语法;
  •   Zeppelin:一个笔记本式的通力合作数据解析;
  •   Zing
    Charts:用于深数量的JavaScript图表库。

 

物联网与传感器

 

  •   TempoIQ:基于云的传感器分析;
  •   2lemetry:物联网平台;
  •   Pubnub:数据流网络;
  •   ThingWorx:ThingWorx 是吃商家快速创建同运行互联应用程序平台;
  •   IFTTT:IFTTT 是一个受称为 “网络自动化神器”
    的创新型互联网服务,它的全是 If this then that,意思是“如果这么,那么尽管那样”;
  •   Evrythng:Evrythng则是一样舒缓真正意义上之大众物联网平台,使得身边的众成品变得智能化。

 

章援引

 

  •   NoSQL
    Comparison(NoSQL
    比较)- Cassandra
    vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs
    Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs
    Scalaris comparison;
  •   Big
    Data
    Benchmark(不行数据标准)- Redshift,
    Hive, Shark, Impala and Stiger/Tez的基准;
  •   The
    big data successor of the
    spreadsheet(电子表格的非常数目继承者) – 电子表格之传人应该是十分数额。

 

 

论文

2015

  • 2016

 

  •   2015 – Facebook – One
    Trillion Edges: Graph Processing at Facebook-Scale.(一兆边:Facebook规模的图像处理)

 

2013

  • 2014

 

  •   2014 – Stanford – Mining
    of Massive Datasets.(海量数据集挖掘)
  •   2013 – AMPLab – Presto:
    Distributed Machine Learning and Graph Processing with Sparse
    Matrices. (Presto: 稀疏矩阵的分布式机器上及图像处理)
  •   2013 – AMPLab – MLbase:
    A Distributed Machine-learning System. (MLbase:分布式机器上体系)
  •   2013 – AMPLab – Shark:
    SQL and Rich Analytics at Scale. (Shark: 大规模的SQL 和添加的解析)
  •   2013 – AMPLab –  GraphX:
    A Resilient Distributed Graph System on Spark. (GraphX:基于Spark的弹性分布式图计算体系)
  •   2013 – Google – HyperLogLog
    in Practice: Algorithmic Engineering of a State of The Art
    Cardinality Estimation Algorithm. (HyperLogLog实践:一个道造型的基数估算算法)
  •   2013 – Microsoft – Scalable
    Progressive Analytics on Big Data in the Cloud.(云端大数额的可是扩展性渐进分析)
  •   2013 – Metamarkets – Druid:
    A Real-time Analytical Data Store. (Druid:实时分析数据存储)
  •   2013 – Google – Online,
    Asynchronous Schema Change in F1.(F1吃在线、异步模式之成形)
  •   2013 – Google – F1:
    A Distributed SQL Database That Scales. (F1: 分布式SQL数据库)
  •   2013 – Google – MillWheel:
    Fault-Tolerant Stream Processing at Internet Scale.(MillWheel: 互联网界下之容错流处理)
  •   2013 – Facebook – Scuba:
    Diving into Data at Facebook. (Scuba: 深入Facebook的数码世界)
  •   2013 – Facebook – Unicorn:
    A System for Searching the Social Graph. (Unicorn: 一种植搜索社交图的系)
  •   2013 – Facebook – Scaling
    Memcache at Facebook. (Facebook 对 Memcache 伸缩性的增进)

 

2011

  • 2012

 

  •   2012 – Twitter –
    The Unified Logging Infrastructure for Data Analytics at
    Twitter. (Twitter数据解析的统一日志基础结构)
  •   2012 – AMPLab –Blink
    and It’s Done: Interactive Queries on Very Large Data. (Blink及其形成:超大规模数据的交互式查询)
  •   2012 – AMPLab –Fast
    and Interactive Analytics over Hadoop Data with Spark. (Spark上 Hadoop数据的飞交互式分析)
  •   2012 – AMPLab –Shark:
    Fast Data Analysis Using Coarse-grained Distributed
    Memory. (Shark:使用粗粒度的分布式内存快速数据解析)
  •   2012 – Microsoft –Paxos
    Replicated State Machines as the Basis of a High-Performance Data
    Store. (Paxos的复制状态机——高性能数据存储的根底)
  •   2012 – Microsoft –Paxos
    Made Parallel. (Paxos算法实现相互之间)
  •   2012 – AMPLab –
    BlinkDB:BlinkDB:
    Queries with Bounded Errors and Bounded Response Times on Very Large
    Data.(超大规模数据被简单误差与有界响应时间的查询)
  •   2012 – Google –Processing
    a trillion cells per mouse click.(每次点击处理一兆个单元格)
  •   2012 – Google –Spanner:
    Google’s Globally-Distributed Database.(Spanner:谷歌的中外分布式数据库)
  •   2011 – AMPLab –Scarlett:
    Coping with Skewed Popularity Content in MapReduce
    Clusters.(Scarlett:应本着MapReduce集群中的偏向性内容)
  •   2011 – AMPLab –Mesos:
    A Platform for Fine-Grained Resource Sharing in the Data
    Center.(Mesos:数据主导遭遇仔细粒度资源共享的平台)
  •   2011 – Google –Megastore:
    Providing Scalable, Highly Available Storage for Interactive
    Services.(Megastore:为交互式服务提供可扩大,高度可用的囤积)

 

2001

  • 2010

 

  •   2010 – Facebook – Finding
    a needle in Haystack: Facebook’s photo storage.(探究Haystack中的轻的处: Facebook图片存储)
  •   2010 – AMPLab – Spark:
    Cluster Computing with Working Sets.(Spark:工作组上的集群计算)
  •   2010 – Google – Storage
    Architecture and Challenges.(存储架构和挑战)
  •   2010 – Google – Pregel:
    A System for Large-Scale Graph Processing.(Pregel: 一种植大型图形处理系统)
  •   2010 – Google – Large-scale
    Incremental Processing Using Distributed Transactions and
    Notifications base of Percolator and Caffeine.(使用基于Percolator 和 Caffeine平台分布式事务及通的大增量处理)
  •   2010 – Google – Dremel:
    Interactive Analysis of Web-Scale Datasets.(Dremel: Web规模数据集的并行分析)
  •   2010 – Yahoo – S4:
    Distributed Stream Computing Platform.(S4:分布式流计算平台)
  •   2009 – HadoopDB:An
    Architectural Hybrid of MapReduce and DBMS Technologies for
    Analytical Workloads.(混合MapReduce和DBMS技术用于分析工作负荷的的架)
  •   2008 – AMPLab – Chukwa:
    A large-scale monitoring system.(Chukwa: 大型监控网)
  •   2007 – Amazon – Dynamo:
    Amazon’s Highly Available Key-value Store.(Dynamo: 亚马逊之赛可用之重要性价值贮存)
  •   2006 – Google – The
    Chubby lock service for loosely-coupled distributed
    systems.(面向松散耦合的分布式系统的缉服务)
  •   2006 – Google – Bigtable:
    A Distributed Storage System for Structured Data.(Bigtable: 结构化数据的分布式存储系统)
  •   2004 – Google – MapReduce:
    Simplied Data Processing on Large Clusters.(MapReduce: 大型集群达简化数据处理)
  •   2003 – Google – The
    Google File System.(谷歌文件系统)

 

 

视频

多少可视化

 

  •   数据可视化的美
  •   Noah
    Iliinsky的数码可视化设计
  •   Hans
    Rosling’s 200 Countries, 200 Years, 4
    Minutes
  •   冰桶挑战的数额可视化

原文:https://yq.aliyun.com/articles/37308
https://github.com/onurakpolat/awesome-bigdata

 

网站地图xml地图