立即注册 登录
About云开发 返回首页

hyj的个人空间 https://www.aboutyun.com/?2 [收藏] [复制] [分享] [RSS]

日志

分享 解决开发中由于group by造成数据倾斜解决办法
2021-1-19 18:42
解决开发中由于group by造成数据倾斜解决办法
如果设置hive.map.aggr为true,hive.groupby.skewindata为true,执行流程如下: 会生成两个job来执行group by,第一个job中,各个map是平均读取分片的,在map阶段对这个分片中的数据根据group by 的key进行局部聚合操作,这里就相当于Combiner操作。 在第一次的job中,map输出的结果随机分区,这样就可以平均分 ...
12 次阅读|0 个评论
分享 Python 3.7 下安装face_recognition必须先有dlib库
2020-5-7 20:32
Python 3.7 下安装face_recognition必须先有dlib库,而一般方式安装很麻烦,使用whl文件就可以直接安装,无需编译。 安装办法:下载资源文件,解压出dlib-19.17.0-cp37-cp37m-win_amd64.whl,然后通过CMD进入到该目录下,执行 pip3 install dlib-19.17.0-cp37-cp37m-win_amd64.whl 。不出现红色 ...
538 次阅读|0 个评论
分享 Hadoop(MapR)分布式安装及自动化脚本配置
2020-2-2 11:50
 MapR的分布式集群安装过程还是很艰难的,远远没有计划中的简单。本人总结安装配置,由于集群有很多机器,手动每台配置是很累的,编写了一个自动化配置脚本,下面以脚本为主线叙述(脚本并不完善,后续继续完善中)。  编写脚本需要shell基础的,还要掌握awk和sed等统计手段为佳。操作系统是CentOS7。  准备:安装Cent ...
372 次阅读|0 个评论 热度 1
分享 hive instr使用及例子
2019-12-25 13:10
instr(string str, string substr) 查找字符串str中子字符串substr出现的位置,如果查找失败将返回0,如果任一参数为Null将返回null,注意位置为从1开始的 来自About云7群552029443(枫,dual) hive如何匹配字符串第一个中文,返回第一个中文匹配下标 selectinstr('aaaa报表asf',regexp_extract('a ...
5521 次阅读|0 个评论
分享 在 Kafka内部存在两种默认的分区分配策略
2019-10-22 11:34
以下内容,来自About云VIP--笑笑分享的分区策略记录: 在 Kafka内部存在两种默认的分区分配策略:Range和 RoundRobin。 Range是默认策略。Range是对每个Topic而言的(即一个Topic一个Topic分),首先对同一个Topic里面的分区按照序号进行排序,并对消费者按照字母顺序进行排序。然后用Partitions分区的个数除以消 ...
367 次阅读|0 个评论
分享 大数据Hadoop Yarn Hbase Hive Zookeeper默认端口汇总
2019-10-22 11:34
以下内容来自About云VIP 生辉,比较宝贵,记录保存下。 HDFS DataNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DataNode 50075 dfs.datanode.http.address http服务的端口 HDFS DataNode 50475 dfs.datanode.https.address https服务的端口 HDFS DataNode 50020 df ...
419 次阅读|0 个评论
分享 spark io.eofexception:unexpected end of input stream
2019-5-25 17:34
spark io.eofexception:unexpected end of input stream 原因: 数据源的问题,比如一些非常规的文件需要考虑进入,比如gz包等
534 次阅读|0 个评论
分享 java spfa 算法 demo 最短路径双向
2019-5-21 15:47
import java.util.ArrayList; import java.util.HashMap; import java.util.LinkedList; import java.util.List; import java.util.Map; public class MySpfa { public static void main(String ") ); } } //点集合 public int ; if(tt==st){ dist.put(st, 0); / ...
392 次阅读|0 个评论
分享 大数据之进程出现process information unavailable
2019-4-28 20:02
大数据之进程出现process information unavailable
1.在/tmp目录下还有没有这些目录,把所有安装对应进程的客户端都删掉这些文件将爱 2.出现的进程号也删掉 即可解决
365 次阅读|0 个评论
分享 Spark task完成,却一直不结束原因分析
2019-2-15 17:50
经常看到一些老铁问这么个一个问题。 明明我的task已经完成了,为什么作业就是不结束那? 遇到这个问题,如果没有经验,那么最有效的办法就是去跟踪日志。可是很多老铁可能觉得跟踪日志比较麻烦,然后这个问题就根本无法解决了。 这里简单总结下。 其中一个原因可能是Spark与Hadoop相结合,在保存saveAsHadoop ...
536 次阅读|0 个评论
1234下一页
关闭

推荐上一条 /5 下一条