用户组:游客
本帖最后由 丫丫 于 2016-12-26 16:00 编辑 问题导航 1、localizedPath是怎么得到的呢? 2、distribute函数里面的参数,分 ...
sparkStreaming中的textFileStrem()监控一个目录,需要使用inputStream数据流(如java的BufferWriter、liux下的mv命令等)向监控 ...
在Spark 程序中怎们能消除kafka自带的log4j的INFO的信息?????,网上查的很多都试过了 现在就是想在Spark local程序中消除I ...
这是我在运行spark报的一个错误。总是运行一段时间之后就报错了,请问大家是哪的问题?有人说数据处理不过来, 望大神帮助, 1 ...
使用ambari2.6.1.0-129版本搭建环境。ambari 2.6.1.0 java openjdk version "1.8.0_141" spark 2.1.1 kafka 0.10.1.1 使用 ...
/** * Created by Administrator on 2016/9/24 0024. */ package com.keduo import java.util.Properties import o ...
通过Spark Streaming获取不到HDFS上面的数据, val conf = new SparkConf().setMaster("local").setAppName("RDDTest"); v ...
业务需求:现有一个用户访问系统数据的数据集,因为系统硬盘承载能力有限,想根据数据集统计出用户访问的热点数据,将热点数据存 ...
val rdd = sc.textFile("..").map(x => x.split(",")).map(x => (x(0), x(1).toLong)) val df = rdd.toDF df.show df.cache ...
scala代码 package org.apache.spark.test import kafka.serializer.StringDecoder import kafka.common.TopicAndPartiti ...
Spark sql 读取hive 里的数据为什么可以连上Spark 集群,但是读取不了hive里面的数据????????
这个是较长时间的数据, 对比时间较短的数据 在task上没有出现数据不均匀的情况,只是在各个executor节点上的数据出现不均 ...
问题1:java 从各种数据源 如mysql es读取表数据转换成 Map保存在内存l中 这个数据怎么转换为rdd
spark job history 显示的时间不正确,如图 ,大家知道是什么原因吗,有什么解决方案吗?大神求解答
额这个问题个人感觉好奇怪,可能又是我哪里疏漏了什么 如上图,这个时候rdd.saveAsNewAPIHadoopFile时没问题的,但在执行时 ...
spark版本2.2 在处理spark kafka streaming时,需要用到reducebykey时,发现居然没有这个方法…… 加了import org.apache.sp ...
在spark中,设置多分区,多分区里的数据并行处理,并且需要并行地访问共享数组和修改数组里的数据。在spark中这个共享数组该怎么 ...
进入spark-shell正常,但是在执行 spark.read.json("/people.json") 报错如下 [mw_shl_code=bash,true]WARN scheduler.TaskSc ...
spark 在拆分数据是遇见有多颗分割符这种情况怎么拆分数据,比如说分隔符各有(,| /)这些
wordcounts.foreachRDD(new VoidFunction (){ private static final long serialVersionUID = 1L; @Override p ...
弱弱请教以下各位大神: 我现在有个场景,sqlserver里的数据每时每刻都在增加,现在想用sparkstreaming把增量的数据读 ...
怎么利用pyspark累加器 accumulator统计文档中访问jpg元素日志行出现的次数,最好有具体步骤,刚学不知道该怎么使用。
用什么函数可以是的kbdoc-00001只对应一个值了
原数据:(NaNNaNNaN234443,iptv7710679406) (NaNNaNNaN234141,iptv7810273420) (NaNNaNNaN233922,iptv7710682349) (NaNNaNNaN2 ...
是这样的,项目中用的scala写的spark任务,有用到json与map互转,找到了一个工具:play-json,这个工具是scala写的。 项目本地 ...
在做数据清洗的时候,在论坛了找了好久数据没有找到,哪个同仁可以告诉我地址,或者发给我一份,不胜感激。 是《about云日志清 ...
hive上的表t2,信息如下: spark-sql> desc formatted t2; OK 16/09/05 09:58:57 WARN LazyStruct: Extra bytes detected at ...
怎们用Scala 编写一个通过时间找到对应的ip..........,然后按时间排序
本人小白,求助大神! 本人在将单机板的计算程序改写成分布式spark计算程序,由于我的程序需要根据数据集前后两条数据关系进行 ...
大家好,我在spark 1.3环境编程时,遇到下述错误原因: Exception in thread "main" java.lang.NoSuchFieldError: defaultVal ...
本版积分规则 发表帖子
查看 »