疑问解答 - Spark-About云-梭伦科技

About云-梭伦科技»专题 › 交流区› 技术交流› Spark

Spark

收录了 595 篇文章 · 3 人关注

版块操作

关注本版 RSS订阅

发布新帖

新窗

spark排序以后写入单个文件

val freq = model.freqItemsets.withColumn("rate", col("freq") / lit(count)) freq.orderBy(org.apache.spark.sql. ...

ighack 2020-12-9 0 2317
Spark streaming 消费数据延迟

各位大佬早上好，有个问题想咨询一下，我现在做实时数据流处理，用flume进行数据采集，然后将采集的数据放到kafka，然后在用spar ...

xiaobaiyang 2018-8-19 2 11339
sparkstreaming 读取kafka日志数据，如何根据日志时间进行统计

sparkstreaming 读取kafka日志数据，窗口处理为1分钟，日志数据自带时间戳，想根据日志时间戳进行分钟级别的数据统计，这个怎么 ...

iot-lee 2019-7-29 6 6831
Spark读Hive表慢？

Hi，路过的大神我用Spark 1.6 去读一个Hive表，一天的数据：1.1T左右。 scala代码如下： [mw_shl_code=scala,true]val sql ...

Danny_nd4du 2019-6-3 3 7348
Spark streaming 拉取mysql数据库表问题

最近在验证spark streaming 读取mysql库表的测试。下面是我的代码@Slf4j public class StreamingDemo { private static ...

xiaobaiyang 2019-6-3 1 4053
求解 sparksql 得出结果后遍历将结果放入 hashmap 为什么放不进去

[mw_shl_code=java,true]public class GetRank { public static void rank(String stuID,ArrayList list){ HashMa ...

o13674976542 2019-5-20 8 5315
sparksql 访问hive 怎么控制权限

hiveserver2有基于sql based 权限控制，metasore 没有权限控制 sparksql 访问hive 是通过hive的hcatlog 然后访问metastore服务 ...

半杯水 2019-4-19 1 5687
spark-shell 如何在运行时选择parquet压缩方式

RT 用的spark2.4 默认parquet压缩为snappy，我想在shell启动后动态调整压缩方式请问大佬们如何解决。。

Tesla 2019-1-7 3 8024
Spark2.3/2.4可以直接使用hive2/3的元数据吗，是否需要重新编译

RT 我想搭建一个HADOOP3.0.X+HIVE2.X/3.X+SPARK2.4的环境请问是否需要对SPARK2.4的源码进行编译，以便于支持HIVE2/3

Tesla 2018-12-5 4 8768
spark sql启动的task数量和hbase 设置的numregion数量一致，如何自定义task数量

我是用hive+hbase+hadoop+spark 在使用spark sql执行语句的时候启动的task的数量与设置的hbase 的numregions是一致，并不是和had ...

tt_tt 2018-8-13 3 8123
同时输出多个orc文件

目的:一次读取很多不同的目录,每个目录生成不同的orc格式文件,输出到不同的目录下请教如何实现生成不同的orc格式文件输出到 ...

jinwensc 2018-9-12 5 5215
spark2.X 访问不到hive 数据库，求帮忙

我已经把hive-site.xml 扔到resource下面了

JQKA2 2018-8-23 4 5886
spark-submit 提交python程序，运行出现module未发现

用spark-submit 提交python程序，里面需要引用pywt的module，现在集群每个节点的python环境都安装了pywt，每个节点运行python，i ...

ltne 2018-8-23 4 12941
spark循环中的变量问题，，foreach里面向map填值，在循环外面值没有了

头大了。。。。。下面这个map在循环里面有值，到循环外的map里就没有值了。。。 object Test { def main(args: Array[Stri ...

未央不见 2018-7-29 5 24150
Structured Streaming容错

我看官方文档说Structured Streaming是通过checkpoint和WAL来保证容错的，并且通过数据源的可重复消费以及幂等来保证端到端的exa ...

zstu 2018-7-25 2 5305
sparkstreaming消费kafka 多分区如何保证顺序

kafka的一个topic里面来了几条消息，sparkstreaming需要按照顺序处理，但是topic是有多个分区的，除了把这几条消息放到一个分区 ...

哦润吉 2018-7-19 5 22245
各位老师，我用breeze的pinv求矩阵伪逆，为什么结果是错的？

各位老师，我用breeze的pinv求矩阵伪逆，为什么结果是错的？下面是一段测试代码： package AE_LOC import breeze.linalg.{De ...

1601365 2018-7-14 6 7221
请教各位老师，文件操作出现问题！

使用spark开发程序，需要从大量如下格式的txt文本中读取数据，编写程序以后发现只能操作其中单个文本，操作多个文本时只操作了第 ...

1601365 2018-7-4 4 4460
sparkstreaming多consumer消费kafka报错问题

版本： sparkstreaming 2.2 kafka 0.10sparkstreaming 集成kafka后（Direct模式），同一个groupid下的多个spark-streaming ...

qq824203453 2018-6-28 1 9981
Structured Streaming Kafka Offset

hi，想问一下大家有用过Structured Streaming消费kafka数据吗？它能自己管理kafka offset吗？

zstu 2018-6-28 4 8358
sparksql利用ConfigFactory获取配置文件

1. 获取配置文件中的配置1.1. 简述在实际的开发中，工程中的一些配置会放在classpath下的配置文件中，然后在程序代码中，会对配 ...

qq824203453 2018-6-26 0 4281
各位老师，请问如何使用Scala计算微积分

各位老师，我在intellij idea中添加了spark插件，使用Scala语言开发spark程序，请问在编程的时候怎么用Scala计算微积分呢？需不 ...

1601365 2018-6-22 2 7536
spring和sparksql

大家有用过spring和sparksql一块用吗？我从github上找了一个demo（https://github.com/Zhuinden/spring-spark-example），打成ja ...

zstu 2018-6-13 9 9459
请教，基于用户浏览情况如何计算用户相似度

近日有一个需求：读取HBase数据库的用户行为数据表，根据用户的浏览书籍数据，计算用户相似度，然后根据用户相似度进 ...

听太阳说话 2018-6-5 4 10921
关于LOF(局部异常因子)的问题,请教各位大神，感激不尽！

请问各位叔叔阿姨大哥大姐，怎么在spark中实现LOF(局部异常因子)的计算？，我在网上看到的是“new LOF()”，通过导入操作import ...

1601365 2018-6-2 4 6426
在Spark中怎么实现对一个二维数组的读与写

在spark编程中，遇到了一个问题，需要对一个二维数组进行读写操作，那么怎么才能实现像广播变量和累加器类似的功能呢？

星语心愿 2018-5-25 5 9959
在集群中，spark从hdfs中是怎么加快读取数据的，另外spark分区在集群中是怎么分布的

在集群中，spark从hdfs中是怎么加快读取数据的？另外spark分区在集群中是怎么分布的？ 1、spark从hdfs中读取数据是从各个节点读 ...

星语心愿 2018-5-24 2 12914
如何通过代码统计spark在shuffle阶段所消耗的时间

现在有一个问题，就是统计shuffle阶段消耗的时间占程序运行总时间的百分比，可是怎么通过代码实现统计shuffle阶段消耗的时间呢？ ...

星语心愿 2018-5-22 5 6564
SparkSql thriftserver

我用spark 的start-thriftserver.sh脚本启动Thrift服务，但用beeline登录hiveserver2登录不了，试了一些用户但还是登录不了。

zstu 2018-5-21 5 5014
如何关掉Cloudera quickStart-vm-5.13里面不需要的服务

下载好了vmware版的cloudera-quickstart-vm-5.13.0-0，解压后，使用虚拟机打开cloudera-quickstart-vm-5.13.0-0-vmware.vmx，然 ...

星语心愿 2018-5-6 3 10509