分享 ClickHouse 连表update
hyj 2021-7-8 14:10
CREATE TABLE table2_join Engine = Join(ANY, INNER, id) INSERT INTO table2_join SELECT * from table2 ALTER TABLE table1 UPDATE name= joinGet('table2_join', 'name', id)
1856 次阅读|0 个评论
分享 面试必备Hive stage划分
hyj 2021-3-25 07:31
面试必备Hive stage划分
Hive stage划分见下图: 更多细节可参考 https://blog.csdn.net/weixin_43878293/article/details/102648655 https://blog.csdn.net/jiayuanv_127/article/details/50936964
1460 次阅读|0 个评论
分享 Azkaban安装
hyj 2021-2-2 09:52
Azkaban安装
Azkaban安装 1 Azkaban介绍 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种kv文件格式来建立任务之间的关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有如下功能特点: Web用户界面 方便上传工作流 方便设 ...
768 次阅读|0 个评论
分享 解决开发中由于group by造成数据倾斜解决办法
hyj 2021-1-19 18:42
解决开发中由于group by造成数据倾斜解决办法
如果设置hive.map.aggr为true,hive.groupby.skewindata为true,执行流程如下: 会生成两个job来执行group by,第一个job中,各个map是平均读取分片的,在map阶段对这个分片中的数据根据group by 的key进行局部聚合操作,这里就相当于Combiner操作。 在第一次的job中,map输出的结果随机分区,这样就可以平均分 ...
1428 次阅读|0 个评论
分享 Python 3.7 下安装face_recognition必须先有dlib库
hyj 2020-5-7 20:32
Python 3.7 下安装face_recognition必须先有dlib库,而一般方式安装很麻烦,使用whl文件就可以直接安装,无需编译。 安装办法:下载资源文件,解压出dlib-19.17.0-cp37-cp37m-win_amd64.whl,然后通过CMD进入到该目录下,执行 pip3 install dlib-19.17.0-cp37-cp37m-win_amd64.whl 。不出现红色 ...
1509 次阅读|0 个评论
分享 Hadoop(MapR)分布式安装及自动化脚本配置
hyj 2020-2-2 11:50
 MapR的分布式集群安装过程还是很艰难的,远远没有计划中的简单。本人总结安装配置,由于集群有很多机器,手动每台配置是很累的,编写了一个自动化配置脚本,下面以脚本为主线叙述(脚本并不完善,后续继续完善中)。  编写脚本需要shell基础的,还要掌握awk和sed等统计手段为佳。操作系统是CentOS7。  准备:安装Cent ...
1153 次阅读|0 个评论 热度 1
分享 hive instr使用及例子
hyj 2019-12-25 13:10
instr(string str, string substr) 查找字符串str中子字符串substr出现的位置,如果查找失败将返回0,如果任一参数为Null将返回null,注意位置为从1开始的 来自About云7群552029443(枫,dual) hive如何匹配字符串第一个中文,返回第一个中文匹配下标 selectinstr('aaaa报表asf',regexp_extract('a ...
7127 次阅读|0 个评论
分享 在 Kafka内部存在两种默认的分区分配策略
hyj 2019-10-22 11:34
以下内容,来自About云VIP--笑笑分享的分区策略记录: 在 Kafka内部存在两种默认的分区分配策略:Range和 RoundRobin。 Range是默认策略。Range是对每个Topic而言的(即一个Topic一个Topic分),首先对同一个Topic里面的分区按照序号进行排序,并对消费者按照字母顺序进行排序。然后用Partitions分区的个数除以消 ...
970 次阅读|0 个评论
分享 大数据Hadoop Yarn Hbase Hive Zookeeper默认端口汇总
hyj 2019-10-22 11:34
以下内容来自About云VIP 生辉,比较宝贵,记录保存下。 HDFS DataNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DataNode 50075 dfs.datanode.http.address http服务的端口 HDFS DataNode 50475 dfs.datanode.https.address https服务的端口 HDFS DataNode 50020 df ...
975 次阅读|0 个评论
分享 spark io.eofexception:unexpected end of input stream
hyj 2019-5-25 17:34
spark io.eofexception:unexpected end of input stream 原因: 数据源的问题,比如一些非常规的文件需要考虑进入,比如gz包等
1254 次阅读|0 个评论
1234下一页
关闭

推荐上一条 /2 下一条