分享 Hive小文件解决方案汇总
2020 2020-9-3 11:11
hive小文件,很多生产中会遇到,这里汇总下 https://blog.csdn.net/weixin_42582592/article/details/85084575 https://blog.csdn.net/a5685263/article/details/102668532 https://www.qdcto.com/archives/537 https://www.matools.com/blog/190227027 https://www.iteye.com/blog/studen ...
724 次阅读|0 个评论
分享 Hive UDF,UDAF,UDTF如何系统了解及使用
pig2 2019-7-6 09:12
Hive UDF,UDAF,UDTF这个知识点并不大,所以一篇文章足够了,如果想系统的学习,我们弄明白下面四个问题足够了: 一、它是什么? 二、为何产生? 三、它的作用? 四、如何使用 ———————————————— 这里我们回答前三个问题: 一、它是什么? 1、UDF函数:用户定义函数 2、UDAF函数:用户定义聚集 ...
956 次阅读|0 个评论
分享 数据仓库T+1模型思想
nettman 2019-5-27 22:43
首先什么是T+1模型 可以简单理解为数据中的1,2,3,4 ...T, T + 1. 可以理解为,今天之前是一个 T单位的数据,新加一天就是(T + 1)单位的数据。 这里的T可以理解为每天。 然后基本仓库可以分为 1.ODS层: |-sdm每日的增量表数据 |-fdm部分需要保存全量数据的表。 注 ...
2261 次阅读|0 个评论
分享 不让发帖的第一天~
Fang_cjzdk 2019-4-16 16:00
CREATE TABLE f ( id int comment '哈哈' , name string comment '呵呵' )comment '我去' PARTITIONED BY(mydate string comment '嘿嘿') ;
676 次阅读|1 个评论 热度 1
分享 hive sql性能优化
s060403072 2019-1-12 19:24
hive sql运行慢耗时很长时间该如何优化? 可以把小表放到内存,使用map join;可以把大表拆分为小表,分别取join
984 次阅读|0 个评论
分享 Python连接到HiveServer2(KERBEROS和非KERBEROS)
yaojiank 2019-1-2 21:31
代码样例 import pyhs2 # PLAIN with pyhs2.connect(host='n5.cluster', port=10000, authMechanism="PLAIN", ...
1504 次阅读|0 个评论
分享 hive窗口函数
Aningorg 2018-10-18 10:19
在 sql 中有一类函数叫做聚合函数 , 例如 sum() 、 avg() 、 max() 等等 , 这类函数可以将多行数据按照规则聚集为一行 , 一般来讲聚集后的行数是要少于聚集前的行数的 . 但是有时我们想要既显示聚集前的数据 , 又要显示聚集后的数据 , 这时我们便引入了窗口函数 . 在深入研究 Over 字句之前 ...
1031 次阅读|0 个评论
分享 hive错误总结
阿飞 2018-10-15 14:16
error1. 执行./hive命令,出现 Missing Hive Execution Jar Missing Hive MetaStore Jar Missing Hive CLI Jar 执行find $HIVE_HOME/* -name hive*.jar 添加/hive-exec-*.jar hive-metastore-*.jar /hive-cli-*.jar 添加三个tar包到$HIVE_HOME/lib下,解决问题 error2. Excep ...
1269 次阅读|0 个评论
关闭

推荐上一条 /2 下一条