用户组:游客
在程序中使用了第三方的jar包,打包一提交就出现以下异常: 执行的命令为: spark-submit --master yarn-client --class tax ...
sparkstreaming 读取kafka日志数据,窗口处理为1分钟,日志数据自带时间戳,想根据日志时间戳进行分钟级别的数据统计,这个怎么 ...
改完SPARK_DEAMON_JAVA_OPTS,在各个节点上ps看进程启动信息,没有我加的gc选项。 正确的做法是在哪里设置gc的参数?
在spark-submit提交job的时候,会有一些依赖包,通过 SPARK_CLASSPATH配置指明依赖包位置可以方便很多,但是在 standalone clust ...
最近使用cdh的spark on yarn,除了cdh中给出的spark配置之外,打算增加spark相关配置。如 spark.driver.cores 等。在Apache版本 ...
各位老师,我用breeze的pinv求矩阵伪逆,为什么结果是错的?下面是一段测试代码: package AE_LOC import breeze.linalg.{De ...
求一spark详细实例
我现在有5台机器,要求我调整原来的参数以适应现在的集群,以前集群的机器比较多,,,,, 新手小白查了参数的含义以后也完全 ...
报如下错误 16/03/07 14:59:27 INFO BlockManagerInfo: Added broadcast_7_piece0 in memory on 2.2.2.30:53524 (size: 2.0 KB, ...
Spark写了一个统计分析的例子,分析网站日志的受欢迎访问的字页面排名。现在运行报错。 java.lang.NoSuchMethodError: scala ...
SparkSql运行后,会生成很多小文件200个task就生成200个文件,有什么好办法解决? 补充内容 (2016-11-14 03:55): package mai ...
现在有个项目要求: 需要每隔五秒提交一个作业,处理传入spark集群最近的1000条数据,所以这里经过streaming传入的数据必须要先 ...
谁有炼数成金 第六周及其以后的视频,淘宝上买的从第六周开始视频都播放不了了。或者推荐其它spark 机器学习的视频,有实例讲解 ...
在spark-shell中,执行如下代码: val sqlContext=new org.apache.spark.sql.SQLContext(sc) import sqlContext._ case c ...
启动:bin/spark-shell --master yarn-client --executor-memory 1g --num-executors 3 部分日志: 日志上已经有提示U ...
大家好,我是spark初学者,想用spark streaming求出在9999端口输入的若干数据的方差,弄了两天了也没弄出来,可能是spark的某些 ...
这是我在运行spark报的一个错误。总是运行一段时间之后就报错了,请问大家是哪的问题?有人说数据处理不过来, 望大神帮助, 1 ...
问题: spark-shell运行命令,action后: sc.stop() exit 退出后再到WEB UI上查看: 然而:直接到hdfs文件系统中查看是生 ...
效果如下:谢谢指点,急
按照官网例子监听TCP 9999测试结果如下: 1、 nc -lk 9999 启动后,自身发消息,spark可以接受消息。 2、开nc -lk 9999和spa ...
我在eclipse里面添加spark编译的library后,提示:
因为在用Spark 的Mllib我在LinearRegression.scala文件的头部加上了 import org.apache.spark.internal.Logging 来打印里面的 ...
XXX.reduceByKeyAndWindow((srcMid1: List[String], srcMid2: List[String]) => srcMid1 ::: srcMid2, Seconds(120), Seconds( ...
各位大佬: DC_DIAGNOSISDF(263 MB) DC_LAB_RESULT_MASTERDF(899.04 MB) DC_ENCOUNTERDF(1.75 GB) DC_VITAL_S ...
接上一贴 id, ip, version : 有效数据 有效数据 36271934 ...
saveAsTextFile保存到HDFS后,会生成part-00000之类的文件,并且如果文件存在的话会覆盖,那么spark streaming这种周期执行的代 ...
大家好,请问Spark 2里,是否类似pandas的groupby函数,达到split-apply-combine的效果。简单的说,是 DataFrame.groupby(column ...
今天在cloudera上部署了spark on YARN,查看spark的状态,发现Gateway全部是灰色,而且都是“不适用”的状态,在网上搜了一下, ...
本人无意中发现了sparkta的安装文件。仅会简单安装部署,有需要的联系我。我给你下载链接地址。。。 仅供参考学习,出现任何法 ...
从GitHub上clone了spark的工程到本地,想要导入idea读读源码,但是在导入工程的时候报错: 查看日志: [mw_shl_code=java,tr ...
本版积分规则 发表帖子
查看 »