分享

为什么Hadoop处理的是大文件?

nextuser 发表于 2013-10-25 10:45:28 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 4861
HDFS构建的第一个假设就是存放和处理的是大文件,但是直观的来看google出来的文件应该是小文件,这个大文件怎么理解呢吗?这些大文件包含是些什么内容呢吗?

已有(2)人评论

跳转到指定楼层
lijian123841314 发表于 2013-10-25 10:45:28
常见的文件有日志文件,通过分析日志文件,可以得到很多用户信息,比如:使用不同操作系统和浏览器的用户比例,不同地区的用户比例等。
大文件有多个好处:
1、简化设计,每个块采用短连接处理即可,不需要维护过多状态
2、I/O更高效
3、元数据存储空间小
4、其它
回复

使用道具 举报

easthome001 发表于 2013-10-25 10:45:28
比如网页文件,可以合并成一个1T的大文件
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条