图文精华

hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...

About云-梭伦科技 › 日志

日志

mahout| HADOOP_HDFS| HADOOP_MAPRED| hbase| 数据挖掘的R实现|

分享利用hadoop分析复杂的数据集(Tomcat developer mailing list archives): maizhu 2014-10-29 16:52; 在本文中，将对Tomcat developer mailing list archives的数据中每个人发送的邮件的回复数量进行统计，因为在原数据中所需要得到的值在不同的行，因此需要自定应inputformat和recordreader。利用自定义的inputformat和recordreader获取到邮件的subject，from，date，然后通过map过程，以subject为key，以from#date为value， ...; 个人分类: HADOOP_MAPRED|1279 次阅读|0 个评论

分享 hadoop中counter的使用: maizhu 2014-10-27 21:59; 1、首先定义一个枚举类型 public static enum LOG_PROCESSOR_COUNTER { BAD_RECORDS }; 2、在mapper或者reducer中增加计数器 context.getCounter(LOG_PROCESSOR_COUNTER.BAD_RECORDS). increment(1); 3、在driver当中获取定义的counters Job ...; 个人分类: HADOOP_MAPRED|1072 次阅读|0 个评论

分享添加mapreduce的job之间的依赖: maizhu 2014-10-27 18:29; 1、创建第一个job Job job1 = new Job(getConf(), "log-grep"); job1.setJarByClass(RegexMapper.class); job1.setMapperClass(RegexMapper.class); FileInputFormat.setInputPaths(job1, new Path(inputPath)); FileOutputFormat.setOutputPath(job1, new Path(intermedPath)); 2、创建第二个job Job job2 ...; 个人分类: HADOOP_MAPRED|1241 次阅读|0 个评论

分享通过复用java 虚拟机提高性能: maizhu 2014-10-20 10:55; 当 mapred.job. reuse.jvm.num.tasks=-1的时候，表示使用同一个jvm bin/hadoop jar hadoop-examples-1.0.0.jar wordcount –D mapred.job. reuse.jvm.num.tasks=-1 /data/input1 /data/output1; 个人分类: HADOOP_MAPRED|939 次阅读|0 个评论

分享 hadoop 中配置文件参数: maizhu 2014-10-20 10:44; 个人分类: HADOOP_MAPRED|476 次阅读|0 个评论

分享修改hadoop logs的存储路径以及修改map 、 reduce的任务数: maizhu 2014-10-20 10:34; 1. Create a directory to store the logfiles. For example, /root/hadoop_logs . 2. Uncomment the line that includes HADOOP_LOG_DIR in HADOOP_HOME/conf/ hadoop-env.sh and point it to the new directory. 3. Add the following lines to the HADOOP_HOME/conf/mapred-site.xml file ...; 个人分类: HADOOP_MAPRED|864 次阅读|0 个评论

推荐 /2

关于我们· 联系我们· 加入我们· 小黑屋· 合作伙伴

Copyright © 2001-2024 About云-梭伦科技 Powered by Discuz! X3.4 Licensed Discuz Team.

简书 / 京ICP备2020039040号简书网举报电话：021-34700000

意见
反馈