为什么Hadoop处理的是大文件？

HDFS构建的第一个假设就是存放和处理的是大文件，但是直观的来看google出来的文件应该是小文件，这个大文件怎么理解呢吗？这些大文件包含是些什么内容呢吗？

lijian123841314 · 发表于 2013-10-25 10:45:28

常见的文件有日志文件，通过分析日志文件，可以得到很多用户信息，比如：使用不同操作系统和浏览器的用户比例，不同地区的用户比例等。
大文件有多个好处：
1、简化设计，每个块采用短连接处理即可，不需要维护过多状态
2、I/O更高效
3、元数据存储空间小
4、其它

easthome001 · 发表于 2013-10-25 10:45:28

比如网页文件，可以合并成一个1T的大文件

图文精华