立即注册登录

About云-梭伦科技返回首页

maizhu的个人空间 https://www.aboutyun.com/?8077 [收藏] [复制] [分享] [RSS]

日志

mahout| HADOOP_HDFS| HADOOP_MAPRED| hbase| 数据挖掘的R实现|

分享利用java_api+hbase写的userdao: 2014-11-2 22:13; 1、 HBaseIA.TwitBase.model package HBaseIA.TwitBase.model; public abstract class User { public String user; public String name; public String email; public String password; public long tweetCount; @Override public String toString() ...; 个人分类: hbase|1092 次阅读|0 个评论

分享 hbase学习_java操作: 2014-11-2 21:19; 翻译自HBase_in_action 2.1.3建立连接 Configuration conf=new HBaseConfiguration.create(); conf.set("hbase.zookeeper.quonum",serverip); //serverip为在配置文件中配置的master的ip地址 con.set("hbase.zookeeper.property.clientPort","218 ...; 个人分类: hbase|1152 次阅读|0 个评论

分享利用hadoop分析复杂的数据集(Tomcat developer mailing list archives): 2014-10-29 16:52; 在本文中，将对Tomcat developer mailing list archives的数据中每个人发送的邮件的回复数量进行统计，因为在原数据中所需要得到的值在不同的行，因此需要自定应inputformat和recordreader。利用自定义的inputformat和recordreader获取到邮件的subject，from，date，然后通过map过程，以subject为key，以from#date为value， ...; 个人分类: HADOOP_MAPRED|1278 次阅读|0 个评论

分享 hadoop中counter的使用: 2014-10-27 21:59; 1、首先定义一个枚举类型 public static enum LOG_PROCESSOR_COUNTER { BAD_RECORDS }; 2、在mapper或者reducer中增加计数器 context.getCounter(LOG_PROCESSOR_COUNTER.BAD_RECORDS). increment(1); 3、在driver当中获取定义的counters Job ...; 个人分类: HADOOP_MAPRED|1072 次阅读|0 个评论

分享添加mapreduce的job之间的依赖: 2014-10-27 18:29; 1、创建第一个job Job job1 = new Job(getConf(), "log-grep"); job1.setJarByClass(RegexMapper.class); job1.setMapperClass(RegexMapper.class); FileInputFormat.setInputPaths(job1, new Path(inputPath)); FileOutputFormat.setOutputPath(job1, new Path(intermedPath)); 2、创建第二个job Job job2 ...; 个人分类: HADOOP_MAPRED|1240 次阅读|0 个评论

分享通过复用java 虚拟机提高性能: 2014-10-20 10:55; 当 mapred.job. reuse.jvm.num.tasks=-1的时候，表示使用同一个jvm bin/hadoop jar hadoop-examples-1.0.0.jar wordcount –D mapred.job. reuse.jvm.num.tasks=-1 /data/input1 /data/output1; 个人分类: HADOOP_MAPRED|939 次阅读|0 个评论

分享 hadoop 中配置文件参数: 2014-10-20 10:44; 个人分类: HADOOP_MAPRED|476 次阅读|0 个评论

分享修改hadoop logs的存储路径以及修改map 、 reduce的任务数: 2014-10-20 10:34; 1. Create a directory to store the logfiles. For example, /root/hadoop_logs . 2. Uncomment the line that includes HADOOP_LOG_DIR in HADOOP_HOME/conf/ hadoop-env.sh and point it to the new directory. 3. Add the following lines to the HADOOP_HOME/conf/mapred-site.xml file ...; 个人分类: HADOOP_MAPRED|864 次阅读|0 个评论

分享 fs -getmerge: 2014-10-20 10:15; 可以通过以下命令把HDFS当中指定路径的多个文件，合并下载到本地当中 bin/hadoop fs -getmerge /user/foo/demofiles merged.txt; 个人分类: HADOOP_HDFS|450 次阅读|0 个评论

分享设置replication factor: 2014-10-19 23:34; 1、可以在$HADOOP_HOME/conf/hdfs-site.xml 设置 property namedfs.replication/name value2/value /property 2、也可以在上传文件的时候进行指定 bin/hadoop fs -D dfs.replication=1 -copyFromLocal non-critical- file.txt /use ...; 个人分类: HADOOP_HDFS|599 次阅读|0 个评论

12 / 2 页下一页

maizhu

推荐 /2

关于我们· 联系我们· 加入我们· 小黑屋· 合作伙伴

Copyright © 2001-2024 About云-梭伦科技 Powered by Discuz! X3.4 Licensed Discuz Team.

简书 / 京ICP备2020039040号简书网举报电话：021-34700000

意见
反馈