用户组:游客
为了hive on spark,重新编译了spark-without-hive,按照hive官网上的编译命令:make-distribution.sh --name"hadoop2-without-h ...
spark小白,我用的sogo查询资料库,var rdd2=rdd1.map(_.split("\t")) 为啥第四个数据和第五个没法用,隔开啊 求助~求助 ...
Stack trace: ExitCodeException exitCode=10: at org.apache.hadoop.util.Shell.runCommand(Shell.java:538) at org.apach ...
在spark编程中,遇到了一个问题,需要对一个二维数组进行读写操作,那么怎么才能实现像广播变量和累加器类似的功能呢?
现在有一个问题,就是统计shuffle阶段消耗的时间占程序运行总时间的百分比,可是怎么通过代码实现统计shuffle阶段消耗的时间呢? ...
import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf objec ...
spark saveastextfile 执行结束后会自动生成文件名part-00000--part-0n ,怎么自定义名称呢?谢谢
kafka的一个topic里面来了几条消息,sparkstreaming需要按照顺序处理,但是topic是有多个分区的,除了把这几条消息放到一个分区 ...
我上传文件了,在hdfs上,在IDEA跑时,他说HDFS路径不存在
因为在用Spark 的Mllib我在LinearRegression.scala文件的头部加上了 import org.apache.spark.internal.Logging 来打印里面的 ...
接上一贴 id, ip, version : 有效数据 有效数据 36271934 ...
头大了。。。。。下面这个map在循环里面有值,到循环外的map里就没有值了。。。 object Test { def main(args: Array[Stri ...
spark-shell进入后,一直出现下列日志,不知道怎么回事,请大牛给讲解下。 scala> 14/12/18 14:48:39 INFO SparkDeploySchedu ...
主要是I/O,磁盘之类的
各位大佬: DC_DIAGNOSISDF(263 MB) DC_LAB_RESULT_MASTERDF(899.04 MB) DC_ENCOUNTERDF(1.75 GB) DC_VITAL_S ...
在使用SparkStreaming+Kafka+Redis做一个实时的需求。测试的过程中遇到以下的问题 用DirectStream读取kafka,数据经过处理后for ...
环境为hadoop HA集群,yun01-nn-01、 yun01-nn-02为namenode,状态分别是ACTIVE和STANDBY,如下运行: bin/spark-submit --maste ...
spark2.10.6 用newHadoopFile来读取parquet文件 val rdd = sc.newHadoopFile(path,classOf],classOf[Void],classOf[String]) ...
我想实时统计一个app系统的每个页面每小时的新增用户数并保存到hbase表中,有什么好的方法可以减少对于hbase表的请求?
我的SparkSQL计算10G以内的数据,速度比Hive慢好多,理论上不是应该更快吗,就算数据量小,是不是也应该速度差不多嘛? 执行语 ...
spark开发环境搭建,如何找到spark-assembly-1.3.0-hadoop2.5.0-cdh5.3.0.jar
--master yarn --deploy-mode client --driver-memory 8g --executor-memory 8g --executor-cores 5 五个节点,三个dat ...
spark监控hdfs的时候,在hdfs中新增文件,在sparkStreaming程序代码中能否得到这个新增文件的路径 ,应该如何获取这个路径?
如题:Spark mllib在做模型训练的时候,数据一般都是 double型的,而我们大多数的数据都是String 举例说明: 比如我现在要用贝叶 ...
spark怎么进行数据挖掘,谢谢大家
我写了一个spark的小程序,用的是IDEA自带的打包功能,结果出现这种内存溢出错误:Error:Artifact 'xxx:jar': java.lang.OutOfMe ...
我的需求是: 取出DataFrame中的某行某列的位置上的数据。 [mw_shl_code=java,true]JavaSparkContext sc = new JavaSparkContex ...
我再这行DataFrame之前做个多次unionAll操作。这个count的DataFrame是经过多次unionAll出来的一个DataFrame。 请问为什么会 ...
各位大神: 我要在java中读取sqlserver里的表,然后对hbase进行循环插入 这是我的代码 但是一运行就出这 ...
我用Phoenix存储spark计算的结果,在本地local模式下运行可以,但我用spark-submit提交到集群运行后,spark-submit --class com. ...
本版积分规则 发表帖子
查看 »