用户组:游客
结合时出现了问题,求大神告知。。。。。。。。。。在线等。。。 通过sparkStreaming的拉模式拉去flume中的数据flume中的配置是 ...
我之前测试验证的时候都是一个app把所有core都占用,现在我要很多个app同时跑,这样每个app占用的core就很少了。而且是这些app大 ...
4台集群下,spark on yarn, 3 千万mongodb数据 慢死 估计1小时 什么原因啊 前辈们 如何使用sparkSQL(spark)快速 处理mongod ...
请大神,帮我看看这个问题, 1.我自己写的WordCount在本地能跑,在spark-shell上能跑,但是在spark-submit上报错 2.排除scala ...
本人刚刚接触intellijidea这块今天写的代码报错,搞了半天也出问题,求大神给我指点一下。
linux下安装 Intellij idea 14 ,解压后启动报错。 报错内容,Startup Error: Unable to detect graphics environment ...
如图,idea.sh时,提示错误,本人刚接触,不是很了解,希望大神们不吝赐教,万分感谢!
我的机器 master: 3G centos7 slave1:3G centos slave2:3G ubuntu 我计算的是五亿条人口信息,版主连接 Spark SQL ...
需求:spark streaming kafka 通过 updateStateByKey 能定时统计出结果来,因为需要每天的0点需要重新统计结果。 那么该如何将 ...
2017-07-31 16:28:08,364 INFO org.apache.spark.executor.CoarseGrainedExecutorBackend: Got assigned task 5 2017-07-31 16: ...
我用sparkstreaming对数据库里的数据做分析,然后输出分析结果。 我之前测试验证都是用netcat输入查询条件,sparkstreamin ...
错误信息如下: org.apache.hadoop.hbase.DoNotRetryIOException: Failed after retry of OutOfOrderScannerNextException: was ...
现有简单的hadoop程序,想将其转为spark程序,对于hadoop的map函数的转换没有什么问题,但是对于reduce的转换却出现问题,本人使 ...
求大神指教一下
背景需求: 基于实时的用户点击日志,计算出当天的pv、uv。 pv很好说了....UV这种需要按照用户唯一标识去重的如何计算呢? ...
请问各位大神这是什么情况。。 从网上看了一个例子 用spark向hbase写数据 抛出的异常:java.lang.IllegalArgumentExce ...
用Spark Streaming对数据进行处理时,使用了sortByKey进行排序,但报了一个NullPointerException异常 [mw_shl_code=java,true]u ...
写了一个从Hbase中读数据处理后再保存回Hbase的程序,但是运行会出现Task not serializable报错 代码如下: [mw_shl_code=scal ...
windows下eclipse运行Java的Spark程序不进call方法如何解决? [mw_shl_code=java,true]JavaPairRDD levels = hBaseRDD.mapToPai ...
通过Spark向HBase添加记录,主要代码如下 String tableName = "test"; conf.set(TableOutputFormat.OUTPU ...
spark可以通过增加计算机数量来提高速度。我做了测试,单节点处理(1亿行*20字节/行)的文件用时27s,双节点用时19s,这是想要 ...
没找到对应方法,应该有人用过吧
数据集如下; A字段,B字段,C字段 1,"","ddd" 2,"","cccc" 其中,B字段可能包含有回车符号,使得本来只有两行的数据变成 ...
大家好,有个问题想咨询下,使用spark streaming无法接收kafka中自定义的对象,具体情况见下: 环境:spark 1.3.1, kafka 0.8. ...
如图:
如何从sqlserver里把数据导入到hbase里,这个问题纠结了我一个月,各种方法的取舍,以及判断 还是有点迷糊,目前想尝试以下方法 ...
在Linux服务器上跑了一个SparkStreaming程序,需要统计程序在数据集上的运行时间,可是linux没有图形化界面,没法查看网页UI界面 ...
应用场景: 间隔一个时间段来一次数据,使用spark做数据的清洗。有效数据写到hive表中,但是有一部分数据只有开始,结束 ...
怎们用Scala 编写一个通过时间找到对应的ip..........,然后按时间排序
hive上的表t2,信息如下: spark-sql> desc formatted t2; OK 16/09/05 09:58:57 WARN LazyStruct: Extra bytes detected at ...
本版积分规则 发表帖子
查看 »