立即注册 登录
About云-梭伦科技 返回首页

sbrui的个人空间 https://www.aboutyun.com/?60855 [收藏] [复制] [分享] [RSS]

日志

分享 验证hdfs路径是否存在
2017-8-9 10:42
hadoop fs -test -e /user/hive/warehouse/yhd_gmv_month/ds=$yesterday
841 次阅读|0 个评论
分享 log4j
2017-8-9 10:27
log4j .appender.file=org.apache. log4j .DailyRollingFileAppender # log4j .appender.file.File=hibernate.log log4j .appender.file.File=../logs/ log_ log4j .appender.file.DatePattern=yyyy-MM-dd'.txt' #后缀可为.txt / .log / .html等等 log4j .appender.file.layout=org.apache ...
1717 次阅读|0 个评论
分享 2017-08-04
2017-8-4 11:17
一些问题的随笔纪录 1.数据量 延迟 ,数据量大的情况下的处理 2.数据中字段含有特殊字符 3.导历史数据的验证标准,数据量一致,数据字段的值一致 4.小文件合并 5.时间转化 6.增量的纪录 7.程序有问题的反馈,自动运行
773 次阅读|0 个评论
分享 日常
2017-7-28 17:06
这几天操作 shell 感觉很好 后台用法 ; nohup 离线后台运行 http://www.cnblogs.com/ggjucheng/archive/2012/10/21/2733028.html cut -c 按字符切;cut -d 按指定字符切 eg : cut -d "." -f1 ,其中f 是获取切后的哪个字符 awk '{print $1}' 获取 按空格切号后的 第一个字符 文字描述符 用户
914 次阅读|0 个评论
分享 spark RowToCol 行转列 的例子
2017-7-25 15:48
举个栗子 为什么要行转列 1.table----------------------------------------------------------------------------------------------------------------- uid e1 e2 e3 e4 .................................e100 0 0 1 1& ...
个人分类: spark|2438 次阅读|0 个评论
分享 sparkSQl的心得
2017-6-12 15:23
利用sparkSQL 做数据的逻辑处理 得到结论的 代码 并不复杂 原因是 因为 1.spark 本身分布式的原理,并不涉及多线程的代码编写 & ...
个人分类: spark|739 次阅读|0 个评论
分享 spark从sqlserver读取数据、sqoop从sqlserver中导入数据
2017-6-12 15:06
spark连接sqlserver,从中读取数据 1.数据量大约2千多万,字段列 400个 2.spark 分配资源 5core 5executor executor-Memory20G 3.利用 read.jdbc(url,"tableName",prop).saveAsTable 存储在hive上 时间 转了一个小时 还没有结果,果断放弃拉 利用sqoop全表导入 sqoop --import --connect.... 时间 大约3min 导入完毕 思考 ...
个人分类: sqoop|928 次阅读|0 个评论
分享 Hive中Boolean值转为Int值的一些问题纪录
2017-6-12 12:38
1.首先建立一个有分区的外部表 create external table `test_boolean`( `id` int, `bool` boolean )partitioned by ( `year` int, `month` int, `day` int) location 'hdfs://...../test_boolean'; 2.往分区表中插入值 insert into table test_boolean partition(year=2017,month=4,day=1) values(1,1); 结果 显示: 1 ture ...
个人分类: hive|1457 次阅读|0 个评论
关闭

推荐上一条 /2 下一条