分享 hadoop mapreduce数据去重
veike 2015-10-10 10:06
假设我们有下面两个文件,需要把重复的数据去除。 file0 2012-3-1 a 2012-3-2 b 2012-3-3 c 2012-3-4 d 2012-3-5 a 2012-3-6 b 2012-3-7 c 2012-3-3 c file1 2012-3-1 b ...
个人分类: hadoop|1937 次阅读|0 个评论
分享 HBase 使用场景和成功案例
veike 2015-10-9 16:54
典型互联网搜索问题: BigTable 发明的原因 搜索是一个定位你所关心的信息的行为:例如,搜索一本书的页码,其中含有你想读的主题,或者网页,其中含有你想找的信息。搜索含有特定词语的文档,需要查找索引,该索引提供了特定词语和包含该词语的所有文档的映射。为了能够搜索,首先必须建立索引。 Google 和其他搜 ...
个人分类: hadoop|797 次阅读|0 个评论
关闭

推荐上一条 /2 下一条