分享 利用hadoop分析复杂的数据集(Tomcat developer mailing list archives)
maizhu 2014-10-29 16:52
在本文中,将对Tomcat developer mailing list archives的数据中每个人发送的邮件的回复数量进行统计,因为在原数据中所需要得到的值在不同的行,因此需要自定应inputformat和recordreader。利用自定义的inputformat和recordreader获取到邮件的subject,from,date,然后通过map过程,以subject为key,以from#date为value, ...
个人分类: HADOOP_MAPRED|1279 次阅读|0 个评论
分享 hadoop中counter的使用
maizhu 2014-10-27 21:59
hadoop中counter的使用
1、首先定义一个枚举类型 public static enum LOG_PROCESSOR_COUNTER { BAD_RECORDS }; 2、在mapper或者reducer中增加计数器 context.getCounter(LOG_PROCESSOR_COUNTER.BAD_RECORDS). increment(1); 3、在driver当中获取定义的counters Job ...
个人分类: HADOOP_MAPRED|1072 次阅读|0 个评论
分享 添加mapreduce的job之间的依赖
maizhu 2014-10-27 18:29
1、创建第一个job Job job1 = new Job(getConf(), "log-grep"); job1.setJarByClass(RegexMapper.class); job1.setMapperClass(RegexMapper.class); FileInputFormat.setInputPaths(job1, new Path(inputPath)); FileOutputFormat.setOutputPath(job1, new Path(intermedPath)); 2、创建第二个job Job job2 ...
个人分类: HADOOP_MAPRED|1241 次阅读|0 个评论
分享 通过复用java 虚拟机提高性能
maizhu 2014-10-20 10:55
当 mapred.job. reuse.jvm.num.tasks=-1的时候,表示使用同一个jvm bin/hadoop jar hadoop-examples-1.0.0.jar wordcount –D mapred.job. reuse.jvm.num.tasks=-1 /data/input1 /data/output1
个人分类: HADOOP_MAPRED|939 次阅读|0 个评论
分享 hadoop 中配置文件参数
maizhu 2014-10-20 10:44
hadoop 中配置文件参数
个人分类: HADOOP_MAPRED|476 次阅读|0 个评论
分享 修改hadoop logs的存储路径以及修改map 、 reduce的任务数
maizhu 2014-10-20 10:34
1. Create a directory to store the logfiles. For example, /root/hadoop_logs . 2. Uncomment the line that includes HADOOP_LOG_DIR in HADOOP_HOME/conf/ hadoop-env.sh and point it to the new directory. 3. Add the following lines to the HADOOP_HOME/conf/mapred-site.xml file ...
个人分类: HADOOP_MAPRED|864 次阅读|0 个评论
关闭

推荐上一条 /2 下一条