分享 数据仓库笔记
pig2 2020-8-1 12:39
数据仓库的设计为何与传统数据库设计不一样: 因为他们的特点不一样 数据库是面向事务的设计,数据仓库是面向主题设计的。集成的、不可更新的 数据一般存储业务数据,数据仓库存储的一般是历史数据。 数据库设一是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用户名,密码等简单数 ...
703 次阅读|0 个评论
分享 Spark任务倾斜解决方案
pig2 2020-8-1 11:09
About云技术交流群,spark进行etl,session.read.text读取hdfs文件,但是hdfs文件大小不均匀,造成个别task运行特别慢或者内存溢出。对于这种数据源端的倾斜问题,如何解决。 一、Spark推测执行spark.speculation(谨慎使用) task倾斜原因比较多,网络io,cpu,mem都有可能造成这个节点上的任务执行缓慢,可以去看 ...
704 次阅读|0 个评论
分享 Spark3.0 preview预览版尝试GPU调用(本地模式不支持GPU)
阿飞 2020-7-16 15:47
Spark3.0 preview预览版可以下载使用,地址:https://archive.apache.org/dist/spark/spark-3.0.0-preview/,pom.xml也可以进行引用,如下: dependencies dependency groupIdjunit/groupId & ...
994 次阅读|0 个评论
分享 k8s搭建大数据平台资源汇总
nettman 2020-7-8 10:30
k8s搭建大数据平台资源汇总
有些公司向通过k8s搭建大数据集群,这里汇总下相关资料 https://blog.csdn.net/karamos/article/details/80127564 https://cubepaas.com/2020/02/22/%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%AE%B9%E5%99%A8%E5%8C%96/ https://www.cnblogs.com/xiaodf/p/11611970.html 在K8S中集成大数据服务 ...
1269 次阅读|0 个评论
分享 CDH集群修改IP后,无法启动默认postgre元数据库
Aningorg 2020-6-4 14:05
由于CDH集群迁移, 涉及到 IP修改 , 故准备登陆postgre数据库进行信息修改 1.执行service cloudera-scm-server-db status 查看数据库是否启动: 提示:pg_ctl: no server running 2.执行service cloudera-scm- server -db start 报错: DB initialization done. waiting for server to st ...
824 次阅读|0 个评论
分享 java实现向word文档中插入柱状图,并更改颜色
阿飞 2020-5-14 19:28
java实现向word文档中插入柱状图,并更改颜色。 将docx转化为xml文件在进行操作 链接: https://pan.baidu.com/s/1432R3wUnu4SIxivcoTVapg 提取码: 9kha
1184 次阅读|0 个评论
分享 基于spark sql引擎的即席查询服务
阿飞 2020-5-13 17:12
English | 简体中文 基于SparkSQL实现了一套即席查询服务,具有如下特性: 优雅的交互方式,支持多种datasource/sink,多数据源混算 spark常驻服务,基于zookeeper的引擎自动发现 负载均衡,多个引擎随机执行 多session模式实现并行查询 采用spark的FAIR调度,避免资源被大任务独占 基于spark的动态资源 ...
1005 次阅读|0 个评论
分享 shell实现:输入密码不回显
阿飞 2020-5-10 19:03
#!/bin/bash #输入密码不回显 function enterPass() { local PASSWORD="" stty -echo #设置输入不回显 read -p "Please input PASSWORD: " PASSWORD echo -e "\r" #换行 stty echo #取消不回显 echo "Entered password is ...
789 次阅读|0 个评论
分享 Python 3.7 下安装face_recognition必须先有dlib库
hyj 2020-5-7 20:32
Python 3.7 下安装face_recognition必须先有dlib库,而一般方式安装很麻烦,使用whl文件就可以直接安装,无需编译。 安装办法:下载资源文件,解压出dlib-19.17.0-cp37-cp37m-win_amd64.whl,然后通过CMD进入到该目录下,执行 pip3 install dlib-19.17.0-cp37-cp37m-win_amd64.whl 。不出现红色 ...
1512 次阅读|0 个评论
分享 大数据学习记录
nettman 2020-4-15 16:47
大数据学习记录
Apache Kylin 解决了大数据多维度查询速度慢,多维查询数据返回不及时的问题 开源ETL调度工具Apache Dolphin Scheduler
1082 次阅读|0 个评论
关闭

推荐上一条 /2 下一条