日志
- 分享
验证hdfs路径是否存在
-
2017-8-9 10:42
-
hadoop fs -test -e /user/hive/warehouse/yhd_gmv_month/ds=$yesterday
-
841 次阅读|0 个评论
- 分享
log4j
-
2017-8-9 10:27
-
log4j .appender.file=org.apache. log4j .DailyRollingFileAppender # log4j .appender.file.File=hibernate.log log4j .appender.file.File=../logs/ log_ log4j .appender.file.DatePattern=yyyy-MM-dd'.txt' #后缀可为.txt / .log / .html等等 log4j .appender.file.layout=org.apache ...
-
1717 次阅读|0 个评论
- 分享
2017-08-04
-
2017-8-4 11:17
-
一些问题的随笔纪录 1.数据量 延迟 ,数据量大的情况下的处理 2.数据中字段含有特殊字符 3.导历史数据的验证标准,数据量一致,数据字段的值一致 4.小文件合并 5.时间转化 6.增量的纪录 7.程序有问题的反馈,自动运行
-
773 次阅读|0 个评论
- 分享
日常
-
2017-7-28 17:06
-
这几天操作 shell 感觉很好 后台用法 ; nohup 离线后台运行 http://www.cnblogs.com/ggjucheng/archive/2012/10/21/2733028.html cut -c 按字符切;cut -d 按指定字符切 eg : cut -d "." -f1 ,其中f 是获取切后的哪个字符 awk '{print $1}' 获取 按空格切号后的 第一个字符 文字描述符 用户
-
914 次阅读|0 个评论
- 分享
spark RowToCol 行转列 的例子
-
2017-7-25 15:48
-
举个栗子 为什么要行转列 1.table----------------------------------------------------------------------------------------------------------------- uid e1 e2 e3 e4 .................................e100 0 0 1 1& ...
-
个人分类: spark|2438 次阅读|0 个评论
- 分享
sparkSQl的心得
-
2017-6-12 15:23
-
利用sparkSQL 做数据的逻辑处理 得到结论的 代码 并不复杂 原因是 因为 1.spark 本身分布式的原理,并不涉及多线程的代码编写 & ...
-
个人分类: spark|739 次阅读|0 个评论
- 分享
spark从sqlserver读取数据、sqoop从sqlserver中导入数据
-
2017-6-12 15:06
-
spark连接sqlserver,从中读取数据 1.数据量大约2千多万,字段列 400个 2.spark 分配资源 5core 5executor executor-Memory20G 3.利用 read.jdbc(url,"tableName",prop).saveAsTable 存储在hive上 时间 转了一个小时 还没有结果,果断放弃拉 利用sqoop全表导入 sqoop --import --connect.... 时间 大约3min 导入完毕 思考 ...
-
个人分类: sqoop|928 次阅读|0 个评论
- 分享
Hive中Boolean值转为Int值的一些问题纪录
-
2017-6-12 12:38
-
1.首先建立一个有分区的外部表 create external table `test_boolean`( `id` int, `bool` boolean )partitioned by ( `year` int, `month` int, `day` int) location 'hdfs://...../test_boolean'; 2.往分区表中插入值 insert into table test_boolean partition(year=2017,month=4,day=1) values(1,1); 结果 显示: 1 ture ...
-
个人分类: hive|1457 次阅读|0 个评论
- 新手帮助
- 新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »