Hadoop分布式文件系统和OpenStack对象存储的区别

有关Hadoop分布式文件系统和OpenStack对象存储的不同，有些人经常会想到这个问题。

问题原文如下：

“HDFS （Hadoop分布式文件系统）和OpenStack对象存储（OpenStack Object Storage）似乎都有着相似的目的：实现冗余、快速、联网的存储。什么样的技术特性让这两种系统因而不一样？这两种存储系统最终趋于融合是否大有意义？”

回答一：
虽然HDFS与Openstack对象存储（Swift）之间有着一些相似之处，但是这两种系统的总体设计却大不一样。

1. HDFS使用了中央系统来维护文件元数据（Namenode，名称节点），而在Swift中，元数据呈分布式，跨集群复制。使用一种中央元数据系统对HDFS来说无异于单一故障点，因而扩展到规模非常大的环境显得更困难。

2. Swift在设计时考虑到了多租户架构，而HDFS没有多租户架构这个概念。

3. HDFS针对更庞大的文件作了优化（这是处理数据时通常会出现的情况），Swift被设计成了可以存储任何大小的文件。

4. 在HDFS中，文件写入一次，而且每次只能有一个文件写入；而在Swift中，文件可以写入多次；在并发操作环境下，以最近一次操作为准。

5. HDFS用Java来编写，而Swift用Python来编写。

另外，HDFS被设计成了可以存储数量中等的大文件，以支持数据处理，而Swift被设计成了一种比较通用的存储解决方案，能够可靠地存储数量非常多的大小不一的文件。

回答二：

Chuck刚才详细介绍了两者的技术差异，但是没有讨论两者可想而知的融合，OpenStack设计峰会上抛出了融合这个话题。简而言之，HDFS被设计成可以使用Hadoop，跨存储环境里面的对象实现MapReduce处理。对于许多OpenStack公司（包括我自己的公司）来说，支持Swift里面的处理是路线图上面的一个目标，不过不是每个人都认为MapReduce是解决之道。

我们已讨论过为HDFS编写包装器，这将支持OpenStack内部存储应用编程接口（API），并且让用户可以针对该数据来执行Hadoop查询。还有一个办法就是在Swift里面使用HDFS。但是这些方法似乎没有一个是理想的。

OpenStack社区方面也在开展研究开发方面的一些工作，认真研究其他替代性的MapReduce框架（Riak和CouchDB等）。

来自群组: openstack技术组

图文精华

Hadoop分布式文件系统和OpenStack对象存储的区别

活跃会员

热心会员

优秀版主

论坛元老

推荐 /2