License:

Eclipse Public License 1.0

链接:

讨论

同类项目

Zookeeper
Zookeeper是Google的Chubby一个开源的实现,是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
Hadoop Common
Hadoop是一个开源的数据分析工具,优越的横向扩展性让企业可以在商业服务器上构建处理集群,大幅降低了大数据处理的门槛和开销。在引入了YARN特性后,同集群运行不同的处理框架让Hadoop适用范围更加广阔。 Hadoop是原Yahoo的Doug Cutting根据Google三大论文(GFS、MapReduce和BigTable)研究而来,而在2006年Doug Cutting将其贡献给了Apache Software Foundation,并于同年4月2日发布了0.1.0正式版。 Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,其具备高可靠、高扩展、高效、高容错等众多特性,让用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。
HDFS
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。 HDFS是Google File System论文的开源实现,从2009年9月1日(0.2.0版本)起,HDFS从Hadoop Common中脱离,被划分为一个独立的子项目。 HDFS 的架构是基于一组特定的节点构建的,由唯一的NameNode(HDFS内部提供元数据服务)及一组DataNode(为HDFS提供存储块)组成。由于仅存在唯一的 NameNode,从而造成了HDFS一个不可忽视的缺陷——单点故障。
宙斯Zeus
宙斯Zeus是一个完整的淘宝Hadoop的作业平台。从Hadoop任务的调试运行到生产任务的周期调度,宙斯支持任务的整个生命周期。
Spark
Spark是个开源的数据分析集群计算框架,最初由加州大学伯克利分校AMPLab开发,建立于HDFS之上。Spark与Hadoop一样,用于构建大规模、低延时的数据分析应用。 Spark采用Scala语言实现,使用Scala作为应用框架,首个正式版Spark 0.2发布于2011年5月24日。 Spark采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。与Hadoop不同的是,Spark和Scala紧密集成,Scala像管理本地collective对象那样管理分布式数据集。Spark支持分布式数据集上的迭代式任务,实际上可以在Hadoop文件系统上与Hadoop一起运行(通过YARN、Mesos等实现)。

相关讨论组

该项目还没有关联的讨论组