用户组:游客
val freq = model.freqItemsets.withColumn("rate", col("freq") / lit(count)) freq.orderBy(org.apache.spark.sql. ...
各位大佬早上好,有个问题想咨询一下,我现在做实时数据流处理,用flume进行数据采集,然后将采集的数据放到kafka,然后在用spar ...
sparkstreaming 读取kafka日志数据,窗口处理为1分钟,日志数据自带时间戳,想根据日志时间戳进行分钟级别的数据统计,这个怎么 ...
Hi,路过的大神 我用Spark 1.6 去读一个Hive表,一天的数据:1.1T左右。 scala代码如下: [mw_shl_code=scala,true]val sql ...
最近在验证spark streaming 读取mysql库表的测试。下面是我的代码@Slf4j public class StreamingDemo { private static ...
[mw_shl_code=java,true]public class GetRank { public static void rank(String stuID,ArrayList list){ HashMa ...
hiveserver2有基于sql based 权限控制,metasore 没有权限控制 sparksql 访问hive 是通过hive的hcatlog 然后访问metastore服务 ...
RT 用的spark2.4 默认parquet压缩为snappy,我想在shell启动后动态调整压缩方式 请问大佬们 如何解决。。
RT 我想搭建一个HADOOP3.0.X+HIVE2.X/3.X+SPARK2.4的环境 请问是否需要对SPARK2.4的源码进行编译,以便于支持HIVE2/3
我是用hive+hbase+hadoop+spark 在使用spark sql执行语句的时候启动的task的数量与设置的hbase 的numregions是一致,并不是和had ...
目的:一次读取很多不同的目录,每个目录生成不同的orc格式文件,输出到不同的目录下 请教如何实现生成不同的orc格式文件输出到 ...
我已经把hive-site.xml 扔到resource下面了
用spark-submit 提交python程序,里面需要引用pywt的module,现在集群每个节点的python环境都安装了pywt,每个节点运行python,i ...
头大了。。。。。下面这个map在循环里面有值,到循环外的map里就没有值了。。。 object Test { def main(args: Array[Stri ...
我看官方文档说Structured Streaming是通过checkpoint和WAL来保证容错的,并且通过数据源的可重复消费以及幂等来保证端到端的exa ...
kafka的一个topic里面来了几条消息,sparkstreaming需要按照顺序处理,但是topic是有多个分区的,除了把这几条消息放到一个分区 ...
各位老师,我用breeze的pinv求矩阵伪逆,为什么结果是错的?下面是一段测试代码: package AE_LOC import breeze.linalg.{De ...
使用spark开发程序,需要从大量如下格式的txt文本中读取数据,编写程序以后发现只能操作其中单个文本,操作多个文本时只操作了第 ...
版本: sparkstreaming 2.2 kafka 0.10sparkstreaming 集成kafka后(Direct模式),同一个groupid下的多个spark-streaming ...
hi,想问一下大家有用过Structured Streaming消费kafka数据吗?它能自己管理kafka offset吗?
1. 获取配置文件中的配置1.1. 简述在实际的开发中,工程中的一些配置会放在classpath下的配置文件中,然后在程序代码中,会对配 ...
各位老师,我在intellij idea中添加了spark插件,使用Scala语言开发spark程序,请问在编程的时候怎么用Scala计算微积分呢?需不 ...
大家有用过spring和sparksql一块用吗?我从github上找了一个demo(https://github.com/Zhuinden/spring-spark-example),打成ja ...
近日有一个需求:读取HBase数据库的用户行为数据表,根据用户的浏览书籍数据,计算用户相似度,然后根据用户相似度进 ...
请问各位叔叔阿姨大哥大姐,怎么在spark中实现LOF(局部异常因子)的计算?,我在网上看到的是“new LOF()”,通过导入操作import ...
在spark编程中,遇到了一个问题,需要对一个二维数组进行读写操作,那么怎么才能实现像广播变量和累加器类似的功能呢?
在集群中,spark从hdfs中是怎么加快读取数据的?另外spark分区在集群中是怎么分布的? 1、spark从hdfs中读取数据是从各个节点读 ...
现在有一个问题,就是统计shuffle阶段消耗的时间占程序运行总时间的百分比,可是怎么通过代码实现统计shuffle阶段消耗的时间呢? ...
我用spark 的start-thriftserver.sh脚本启动Thrift服务,但用beeline登录hiveserver2登录不了,试了一些用户 但还是登录不了。
下载好了vmware版的cloudera-quickstart-vm-5.13.0-0,解压后,使用虚拟机打开cloudera-quickstart-vm-5.13.0-0-vmware.vmx,然 ...
本版积分规则 发表帖子
查看 »