Zookeeper

Zookeeper是Google的Chubby一个开源的实现,是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

Hadoop Common

Hadoop是一个开源的数据分析工具,优越的横向扩展性让企业可以在商业服务器上构建处理集群,大幅降低了大数据处理的门槛和开销。在引入了YARN特性后,同集群运行不同的处理框架让Hadoop适用范围更加广阔。

Hadoop是原Yahoo的Doug Cutting根据Google三大论文(GFS、MapReduce和BigTable)研究而来,而在2006年Doug Cutting将其贡献给了Apache Software Foundation,并于同年4月2日发布了0.1.0正式版。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,其具备高可靠、高扩展、高效、高容错等众多特性,让用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。

HDFS

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。

HDFS是Google File System论文的开源实现,从2009年9月1日(0.2.0版本)起,HDFS从Hadoop Common中脱离,被划分为一个独立的子项目。

HDFS 的架构是基于一组特定的节点构建的,由唯一的NameNode(HDFS内部提供元数据服务)及一组DataNode(为HDFS提供存储块)组成。由于仅存在唯一的 NameNode,从而造成了HDFS一个不可忽视的缺陷——单点故障。

宙斯Zeus

宙斯Zeus是一个完整的淘宝Hadoop的作业平台。从Hadoop任务的调试运行到生产任务的周期调度,宙斯支持任务的整个生命周期。

Spark

Spark是个开源的数据分析集群计算框架,最初由加州大学伯克利分校AMPLab开发,建立于HDFS之上。Spark与Hadoop一样,用于构建大规模、低延时的数据分析应用。

Spark采用Scala语言实现,使用Scala作为应用框架,首个正式版Spark 0.2发布于2011年5月24日。

Spark采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。与Hadoop不同的是,Spark和Scala紧密集成,Scala像管理本地collective对象那样管理分布式数据集。Spark支持分布式数据集上的迭代式任务,实际上可以在Hadoop文件系统上与Hadoop一起运行(通过YARN、Mesos等实现)。

Sheepdog

牧羊犬(Sheepdog) 是一个基于C/C++语言开发的第三方的KVM开源项目,提供分布式存储管理功能。提供高可用性的KVM提供块级存储卷类似亚马逊电子交易系统(弹性块存储虚拟 机)的客户机。

Sqoop

"Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL

Gfarm

Gfarm 是一个分布式的文件系统,主要用于大规模的集群计算。

Spring Hadoop

Spring Hadoop 基于Java开发的跨平台的,提供了 Spring 框架,是 Spring Data 的子模块之一,用于创建和运行 Hadoop MapReduce、Hive 和 Pig 作业的功能,包括HDFS 和 HBase。

sapphire
暂无描述。。。