HDFS

项目介绍:

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。

HDFS是Google File System论文的开源实现,从2009年9月1日(0.2.0版本)起,HDFS从Hadoop Common中脱离,被划分为一个独立的子项目。

HDFS 的架构是基于一组特定的节点构建的,由唯一的NameNode(HDFS内部提供元数据服务)及一组DataNode(为HDFS提供存储块)组成。由于仅存在唯一的 NameNode,从而造成了HDFS一个不可忽视的缺陷——单点故障。

License:

Apache License Version 2.0

链接:

附录

HDFS详解

HDFS API详解

hadoop中HDFS详解

暂无版本信息

讨论

同类项目

Zookeeper
Zookeeper是Google的Chubby一个开源的实现,是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
Hadoop Common
Hadoop是一个开源的数据分析工具,优越的横向扩展性让企业可以在商业服务器上构建处理集群,大幅降低了大数据处理的门槛和开销。在引入了YARN特性后,同集群运行不同的处理框架让Hadoop适用范围更加广阔。 Hadoop是原Yahoo的Doug Cutting根据Google三大论文(GFS、MapReduce和BigTable)研究而来,而在2006年Doug Cutting将其贡献给了Apache Software Foundation,并于同年4月2日发布了0.1.0正式版。 Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,其具备高可靠、高扩展、高效、高容错等众多特性,让用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。
宙斯Zeus
宙斯Zeus是一个完整的淘宝Hadoop的作业平台。从Hadoop任务的调试运行到生产任务的周期调度,宙斯支持任务的整个生命周期。
Spark
Spark是个开源的数据分析集群计算框架,最初由加州大学伯克利分校AMPLab开发,建立于HDFS之上。Spark与Hadoop一样,用于构建大规模、低延时的数据分析应用。 Spark采用Scala语言实现,使用Scala作为应用框架,首个正式版Spark 0.2发布于2011年5月24日。 Spark采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。与Hadoop不同的是,Spark和Scala紧密集成,Scala像管理本地collective对象那样管理分布式数据集。Spark支持分布式数据集上的迭代式任务,实际上可以在Hadoop文件系统上与Hadoop一起运行(通过YARN、Mesos等实现)。
Sheepdog
牧羊犬(Sheepdog) 是一个基于C/C++语言开发的第三方的KVM开源项目,提供分布式存储管理功能。提供高可用性的KVM提供块级存储卷类似亚马逊电子交易系统(弹性块存储虚拟 机)的客户机。

相关项目

OS_Mirror / hadoop-hdfs
Mirror of Apache Hadoop HDFS
水果杀手呵呵 / spark-app
玖月启程 / Visualization_Analysis
可视化分析平台对大数据的处理分析越来越重要。本文针对时序大数据可视化分析的需求,分析出现有的可视化分析工具操作繁琐、重复、耗时,以及在时序大数据(即随着时间序列变化特征的数据)场景下存储和查询性能下降时的问题。为此,借助开源的Zenvisage可视化分析平台,提出了基于Spark的时序大数据分析方案,将其集成于Zenvisage的可视化分析平台底层中,解决了上述问题
aspirefhaha / HDFStoDataPipe
get data form hdfs and put then into datapipe

相关讨论组

该项目还没有关联的讨论组