分享

如何使用mapreduce过滤处理数据

desehawk 发表于 2014-10-8 20:20:07 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 11055
hadoop中的wordcount都是逐行读入的,每次map中的value都代表一行数据,对该行数据转化成字符串后进行处理。
我现在手头的数据每组有四行,其中只有第二行是有用的,第134行都是没用的,请问怎么样处理这种情况。
我现在的处理方法是,读入一行后检测该行数据,如果发现不是第二行,就直接return,不过貌似会出错。请问各位大神帮我想想办法

已有(2)人评论

跳转到指定楼层
howtodown 发表于 2014-10-8 20:20:52
自定义inputformat
对inputformat重写

回复

使用道具 举报

星星星星笑 发表于 2014-11-29 08:24:46
重写Recodreader,将输入的键值对进行修改,可以把键修改为行数,值为每行内容,也可以只保留第三行内容,其他的都不要
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条