hadoop archive ?

hadoop archive 相关的资料有不少，可没有一个详细介绍 arichive 是怎么运作的。生成.HAR文件后是按照HDFS原来的方法分割存储吗吗？
能不能把arichive详细的读写过程介绍一下吗？
谢谢各位大虾们了！

yaojiank · 发表于 2013-10-25 10:42:49

唉！自己的自己答下吧。刚学的不对请更正。
archive是一种特别的归档文件格式，在HDFS的基础上把小文件打包成为一个扩展名为.har的归档文件。
.har文件由metadata（_index & _masterindex）和data part(part-*)两部分组成。
下面是猜测：
把_index & _masterindex 存储在namenode的内存里，data part部分复制成3个副本存到datanode里。

bob007 · 发表于 2013-10-25 10:42:49

不支持压缩，感觉就是打个包，碰到文件琐碎的情况，还是不能提高速度。

jooli · 发表于 2013-10-25 10:42:49

har主要是用来压缩inode占用量的，将海量的小文件合成一个大文件。_index&&_masterindex是两个索引文件存储在hdfs上的，副本数为10，加强副本的可靠性。

图文精华

hadoop archive ?

已有(3)人评论

浏览过的版块

推荐 /2