分享

hadoop archive ?

top_gloria 发表于 2013-10-25 10:42:49 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 5993
hadoop archive 相关的资料有不少,可没有一个详细介绍 arichive 是怎么运作的。生成.HAR文件后是按照HDFS原来的方法分割存储吗吗?
能不能把arichive详细的读写过程介绍一下吗?
谢谢各位大虾们了!

已有(3)人评论

跳转到指定楼层
yaojiank 发表于 2013-10-25 10:42:49
唉!自己的自己答下吧。刚学的不对请更正。
archive是一种特别的归档文件格式,在HDFS的基础上把小文件打包成为一个扩展名为.har的归档文件。
.har文件由metadata(_index & _masterindex)和data part(part-*)两部分组成。
下面是猜测:
把_index & _masterindex 存储在namenode的内存里,data part部分复制成3个副本存到datanode里。
回复

使用道具 举报

bob007 发表于 2013-10-25 10:42:49
不支持压缩,感觉就是打个包,碰到文件琐碎的情况,还是不能提高速度。
回复

使用道具 举报

jooli 发表于 2013-10-25 10:42:49
har主要是用来压缩inode占用量的,将海量的小文件合成一个大文件。_index&&_masterindex是两个索引文件存储在hdfs上的,副本数为10,加强副本的可靠性。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条