用户组:游客
感觉是超时被中断了,每次都是耗时240000ms后报错,请各位大神指导!
内容简介 本书基于Spark 2.3.x、Spark 2.4.x系列版本,采用“理论+实践”的形式编写。全书共有90个实例,1个完整项目。 第1 ...
内容简介 本书的广度与深度兼备、理论与实战兼顾的分布式事务专著,它从基础知识、解决方案、原理分析、源码实现、工程实战5个 ...
val freq = model.freqItemsets.withColumn("rate", col("freq") / lit(count)) freq.orderBy(org.apache.spark.sql. ...
本帖最后由 linux_oracle 于 2020-12-4 15:52 编辑 一.RDD创建1.从集合创建 1.1 parallelize 1.2 makerdd 2.从外部创 ...
1.为什么会产生Shuffle?2.如何进行Shuffle调优? 3.Shuffle调优最佳实践? 在Spark程序中,Shuffle是性能的 ...
pyspark streaming 消费kafka的时候一直报这个错误,查了好多资料也不知道怎么解决,希望大神帮我看看,非常感谢。 [mw_shl_c ...
1.什么是数据本地性?2.数据本地性有哪些策略? 数据本地性指的是数据与执行的代码的远近程度。基于数据与执行的代 ...
1.怎么设置RDD缓存?2.RDD缓存有哪些策略? 3.Checkpoint和Cache的区别有哪些? Spark程序执行的特性,即延迟执 ...
1.广播为什么能提升性能?2.什么样的情景下需要广播? 3.广播可能会遇到哪些问题? 有时在开发过程中,会遇 ...
1.如何设置Spark程序的并行度? 2.并行度和分区数的关系? 3.如何正确设置RDD分区数?4.分区数设置的最佳实践? ...
编写Spark程序需要注意哪些基本的原则? 遇到性能瓶颈如何优化? 1. 准则一:从同一个数据源尽量只创建一个RDD ...
sparkstreaming 读取kafka日志数据,窗口处理为1分钟,日志数据自带时间戳,想根据日志时间戳进行分钟级别的数据统计,这个怎么 ...
Hi,路过的大神 我用Spark 1.6 去读一个Hive表,一天的数据:1.1T左右。 scala代码如下: [mw_shl_code=scala,true]val sql ...
最近在验证spark streaming 读取mysql库表的测试。下面是我的代码@Slf4j public class StreamingDemo { private static ...
[mw_shl_code=java,true]public class GetRank { public static void rank(String stuID,ArrayList list){ HashMa ...
hiveserver2有基于sql based 权限控制,metasore 没有权限控制 sparksql 访问hive 是通过hive的hcatlog 然后访问metastore服务 ...
本文给想进入大数据领域的朋友提供了一系列的资源,由浅入深,比如“需要了解的51条大数据术语”、“学习python的四个理由”、 ...
使用scala写的spark任务,基本流程是从kafka读取信息,然后根据条件到elasticsearch中进行检索,最后整理入库ORIENTDB 每一步单 ...
RT 用的spark2.4 默认parquet压缩为snappy,我想在shell启动后动态调整压缩方式 请问大佬们 如何解决。。
//val kafkaStream1 = KafkaUtils.createStream(ssc, zks, group, topicmaptmp) println("---------------kafk ...
各位大神,最近在使用Spark Graphx做一些图相关计算,遇到了 java.lang.ArrayIndexOutOfBoundsException: -1问题,大概的异常信 ...
RT 我想搭建一个HADOOP3.0.X+HIVE2.X/3.X+SPARK2.4的环境 请问是否需要对SPARK2.4的源码进行编译,以便于支持HIVE2/3
现在有个数据表:店铺 订单 sku详情(sku编号:数量) xxx旗舰店 ECO001 [SKU1:8,sku2:3,sku3:5] xxx旗舰店 ...
感谢您,点进来,作为学校第一届大数据相关专业,导师对于毕业设计题目也没有什么眉头,请求各位探讨一些方案,离线的项目太过简 ...
在尝试用sparkstreaming消费kafka topic数据时,在生产环境上编译发现程序卡住不执行。在虚拟机环境一切正常。代码如下: packa ...
我已经配置好Spark2.3.1 使用hive1.2.2元数据,但是运行spark-shell时,经常会出现一个WARN。具体情况如下:==============Hive ...
目的:一次读取很多不同的目录,每个目录生成不同的orc格式文件,输出到不同的目录下 请教如何实现生成不同的orc格式文件输出到 ...
我已经把hive-site.xml 扔到resource下面了
本版积分规则 发表帖子
查看 »