搜索
搜 索
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
›
日志
发布
日志
上传
相册
添加
分享
记录
日志
好友的日志
我的日志
随便看看
发表新日志
分享
ClickHouse 连表update
hyj
2021-7-8 14:10
CREATE TABLE table2_join Engine = Join(ANY, INNER, id) INSERT INTO table2_join SELECT * from table2 ALTER TABLE table1 UPDATE name= joinGet('table2_join', 'name', id)
1856 次阅读
|
0
个评论
分享
面试必备Hive stage划分
hyj
2021-3-25 07:31
Hive stage划分见下图: 更多细节可参考 https://blog.csdn.net/weixin_43878293/article/details/102648655 https://blog.csdn.net/jiayuanv_127/article/details/50936964
1460 次阅读
|
0
个评论
分享
Azkaban安装
hyj
2021-2-2 09:52
Azkaban安装 1 Azkaban介绍 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种kv文件格式来建立任务之间的关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有如下功能特点: Web用户界面 方便上传工作流 方便设 ...
768 次阅读
|
0
个评论
分享
解决开发中由于group by造成数据倾斜解决办法
hyj
2021-1-19 18:42
如果设置hive.map.aggr为true,hive.groupby.skewindata为true,执行流程如下: 会生成两个job来执行group by,第一个job中,各个map是平均读取分片的,在map阶段对这个分片中的数据根据group by 的key进行局部聚合操作,这里就相当于Combiner操作。 在第一次的job中,map输出的结果随机分区,这样就可以平均分 ...
1428 次阅读
|
0
个评论
分享
Python 3.7 下安装face_recognition必须先有dlib库
hyj
2020-5-7 20:32
Python 3.7 下安装face_recognition必须先有dlib库,而一般方式安装很麻烦,使用whl文件就可以直接安装,无需编译。 安装办法:下载资源文件,解压出dlib-19.17.0-cp37-cp37m-win_amd64.whl,然后通过CMD进入到该目录下,执行 pip3 install dlib-19.17.0-cp37-cp37m-win_amd64.whl 。不出现红色 ...
1509 次阅读
|
0
个评论
分享
Hadoop(MapR)分布式安装及自动化脚本配置
hyj
2020-2-2 11:50
MapR的分布式集群安装过程还是很艰难的,远远没有计划中的简单。本人总结安装配置,由于集群有很多机器,手动每台配置是很累的,编写了一个自动化配置脚本,下面以脚本为主线叙述(脚本并不完善,后续继续完善中)。 编写脚本需要shell基础的,还要掌握awk和sed等统计手段为佳。操作系统是CentOS7。 准备:安装Cent ...
1153 次阅读
|
0
个评论
热度
1
分享
hive instr使用及例子
hyj
2019-12-25 13:10
instr(string str, string substr) 查找字符串str中子字符串substr出现的位置,如果查找失败将返回0,如果任一参数为Null将返回null,注意位置为从1开始的 来自About云7群552029443(枫,dual) hive如何匹配字符串第一个中文,返回第一个中文匹配下标 selectinstr('aaaa报表asf',regexp_extract('a ...
7127 次阅读
|
0
个评论
分享
在 Kafka内部存在两种默认的分区分配策略
hyj
2019-10-22 11:34
以下内容,来自About云VIP--笑笑分享的分区策略记录: 在 Kafka内部存在两种默认的分区分配策略:Range和 RoundRobin。 Range是默认策略。Range是对每个Topic而言的(即一个Topic一个Topic分),首先对同一个Topic里面的分区按照序号进行排序,并对消费者按照字母顺序进行排序。然后用Partitions分区的个数除以消 ...
970 次阅读
|
0
个评论
分享
大数据Hadoop Yarn Hbase Hive Zookeeper默认端口汇总
hyj
2019-10-22 11:34
以下内容来自About云VIP 生辉,比较宝贵,记录保存下。 HDFS DataNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DataNode 50075 dfs.datanode.http.address http服务的端口 HDFS DataNode 50475 dfs.datanode.https.address https服务的端口 HDFS DataNode 50020 df ...
975 次阅读
|
0
个评论
分享
spark io.eofexception:unexpected end of input stream
hyj
2019-5-25 17:34
spark io.eofexception:unexpected end of input stream 原因: 数据源的问题,比如一些非常规的文件需要考虑进入,比如gz包等
1254 次阅读
|
0
个评论
1
2
3
4
/ 4 页
下一页
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈