用户组:游客
如题:Spark mllib在做模型训练的时候,数据一般都是 double型的,而我们大多数的数据都是String 举例说明: 比如我现在要用贝叶 ...
本人在试验过程中发现,为Executor分配更大内存(不超过每个节点总内存的75%),会报OOM错误,但是内存分配更小时反而正常运行。 ...
spark在yarn模式下,若在spark-env.sh中加入了如下的配置 [mw_shl_code=xml,true] export SPARK_EXECUTOR_MEMORY=1000m exp ...
我的服务器本身是2核的,如果我将spark-env.sh 里面的SPARK_WORKER_CORES设为5了,我也能在web页面上看到确实给这个节点分 ...
下面是我要处理的日志,每个元素以|分开,最后的元素是域名,我要统计每个域名有多少条日志。 49|17825793|2887524685|0|303058 ...
[mw_shl_code=scala,true]def main(args : Array[String]) : Unit = { var test : Map[String, String] = Map() te ...
跪求大神们带领小渣渣入门spark。编写应用程序时候使用的是parallellize方法,传入的对象明明是List(Vector)类型的,但是在指 ...
请问各位叔叔阿姨大哥大姐,怎么在spark中实现LOF(局部异常因子)的计算?,我在网上看到的是“new LOF()”,通过导入操作import ...
如上图启动后没有work进程,什么原因呢? spark-env.sh配置如下: export JAVA_HOME=/application/hadoop/jdk export SC ...
运行spark自带示例没报错,但在web界面看不到效果?还有其它方法验证吗?或者谁发个程序来测试下?
我知道key排序用sortbykey 数据value排序用啥呢?我现在的rdd里数据如下。 (file.baixing.net,3) (60.167.59.160,3) h ...
spark-shell 执行代码val rdd2=rdd1.flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_) 报错: org.apache.hadoop.ipc. ...
拜托!拜托!哪位大神能帮我解决如下所述问题: 我的远程shell连接不上虚拟机了,但我看了看防火墙关着呢,ssh服务正常(并且我还 ...
各位大神额,这是我在windows下用idea写的。 import org.apache.spark._ object WordCount { def main(args: Array[Stri ...
有10亿的测试数据分别存储在hdfs和hbase,想试下用spark测试下对两种存储方式下spark数据分析的性能,hdfs的没问题,但是读取hba ...
hi,想问一下大家有用过Structured Streaming消费kafka数据吗?它能自己管理kafka offset吗?
maven项目,AnalysisSimulation模块依赖commons模块,打包之后运行报ClassNotFoundException: analysis.DangerLevelTop10肯定没 ...
现在做一个spark数据存取优化的课题,请问要搭建哪种模式来做。
我代码执行如下: [mw_shl_code=scala,true] val sparkConf = new SparkConf().setAppName("FemaleInfo") val sc = new ...
刚接触Spark想用Java先练练手。 集群是CentOS6.5,装的是CDH5.0.1,里面的spark版本是0.9.0 现在在windows系统上用eclipse向集 ...
近日有一个需求:读取HBase数据库的用户行为数据表,根据用户的浏览书籍数据,计算用户相似度,然后根据用户相似度进 ...
在运行spark的测试程序SparkPi时,点击运行,出现了如下错误: Exception in thread "main" org.apache.spark.SparkException: ...
查看集群环境 http://master:8080/ 访问正常 进入spark-shell $spark-shell 执行正常如下图 查看jobs等信息 ...
大家好。 我现在的应用场景是 kafka+ spark streaming 近实时处理数据。 spark streaming处理的数据是近两个小时的数 ...
spark监控hdfs的时候,在hdfs中新增文件,在sparkStreaming程序代码中能否得到这个新增文件的路径 ,应该如何获取这个路径?
执行spark-sql创建好表后 执行insert语句报错 Unsupported language features in query: INSERT INTO Persons VALUES ('Gate ...
我用Phoenix存储spark计算的结果,在本地local模式下运行可以,但我用spark-submit提交到集群运行后,spark-submit --class com. ...
我搭建spark集群时,在master上 ./start-all.sh,发现一个slave节点起不来,一个slave节点能起来;错误如下Spark Command: /usr/java ...
[wxj@elephant bin]$ ./pyspark /usr/local/lib/python3.4/site-packages/IPython/core/history.py:226: UserWarning: IPython ...
本人小白,求助大神! 本人在将单机板的计算程序改写成分布式spark计算程序,由于我的程序需要根据数据集前后两条数据关系进行 ...
本版积分规则 发表帖子
查看 »