分享 Spark任务倾斜解决方案
pig2 2020-8-1 11:09
About云技术交流群,spark进行etl,session.read.text读取hdfs文件,但是hdfs文件大小不均匀,造成个别task运行特别慢或者内存溢出。对于这种数据源端的倾斜问题,如何解决。 一、Spark推测执行spark.speculation(谨慎使用) task倾斜原因比较多,网络io,cpu,mem都有可能造成这个节点上的任务执行缓慢,可以去看 ...
703 次阅读|0 个评论
分享 Spark3.0 preview预览版尝试GPU调用(本地模式不支持GPU)
阿飞 2020-7-16 15:47
Spark3.0 preview预览版可以下载使用,地址:https://archive.apache.org/dist/spark/spark-3.0.0-preview/,pom.xml也可以进行引用,如下: dependencies dependency groupIdjunit/groupId & ...
990 次阅读|0 个评论
分享 基于spark sql引擎的即席查询服务
阿飞 2020-5-13 17:12
English | 简体中文 基于SparkSQL实现了一套即席查询服务,具有如下特性: 优雅的交互方式,支持多种datasource/sink,多数据源混算 spark常驻服务,基于zookeeper的引擎自动发现 负载均衡,多个引擎随机执行 多session模式实现并行查询 采用spark的FAIR调度,避免资源被大任务独占 基于spark的动态资源 ...
1003 次阅读|0 个评论
分享 Spark SQL与Hive On MapReduce速度比较
阿飞 2019-10-31 18:45
Spark SQL与Hive On MapReduce速度比较
1.运行spark-sql shell aboutyun@aboutyun:/opt/spark-1.6.1-bin-hadoop2.6/bin$ spark-sql spark-sql create external table cn(x bigint, y bigint, z bigint, k bigint) row format delimited fields terminated by ',' &nbs ...
850 次阅读|0 个评论
分享 Spark Streaming中复杂的多流Join方案的一个实现
阿飞 2019-7-7 11:52
Spark Streaming中复杂的多流Join方案的一个实现
问题:多个不同流根据一定规则join的问题(例如:网约车中订单发单流与接单流join问题) 问题 描述:多个不同流根据一定规则join的问题(例如:网约车中订单发单流与接单流join问题) 特点: 不同流需要join的数据时间跨度较长(例如:发单与接单时间跨度最长一周之久) 数据源格式不定 (例如:binlog数据和业务 ...
1756 次阅读|0 个评论
分享 Spark Streaming三种Join方式实践
阿飞 2019-7-7 11:50
Spark Streaming三种Join方式实践
多数据源Join思路 多数据源Join大致有以下三种思路: 数据源端Join,如Android/IOS客户端在上报用户行为数据时就获取并带上用户基础信息。 计算引擎上Join,如用Spark Streaming、Flink做Join。 结果端Join,如用HBase/ES做Join,Join键做Rowkey/_id,各字段分别写入列簇、列或field。 三种思路各有优劣 ...
847 次阅读|0 个评论
分享 Spark sql写法的重要性
s060403072 2019-6-28 21:47
下面写法: select * from where set=0 limit 500 union select * from t b where b.sex=1 limit 5000 产生错误: mismatched input union expection eof 改成: (select * from where set=0 limit 500) union (select * from t b where b.sex=1 limit 5000) 即可解决
776 次阅读|0 个评论
分享 Spark streaming如何停止不丢失数据
admin 2019-6-19 15:18
Spark streaming如何停止不丢失数据
如何优雅的停止Spark streaming,由于Spark streaming一直是运转的,但是有时候我们是需要停止Spark streaming,但是如果强行停止是可能丢失数据的,所以为了保证数据不丢失,停止的时候需要注意,不能使用kill -9,这样会丢数据的。 停止的方法很多种,这里给大家介绍下: 第一种: spark.streaming.stopGracefully ...
1204 次阅读|0 个评论
分享 spark io.eofexception:unexpected end of input stream
hyj 2019-5-25 17:34
spark io.eofexception:unexpected end of input stream 原因: 数据源的问题,比如一些非常规的文件需要考虑进入,比如gz包等
1254 次阅读|0 个评论
分享 Spark处理多少数据是否需要多少内存
jixianqiuxue 2019-4-30 12:40
Spark处理1Tb数据不需要1Tb的内存。 具体需要多少内存是根据executor的core数量和每次读取数据集的block大小决定的。以读取hdfs上1tb大文件为例:若每个block大小为128mb,则一共有8192个block,产生的task也有8192个。假如executor的core为2,内存为1g,则executor同时可运行2个task,此时每个task可获得的堆内存最大约为1 ...
1985 次阅读|0 个评论
12下一页
关闭

推荐上一条 /2 下一条