用户组:游客
弱弱请教一下各位大神: dataframe是我从sqlserver里拉出来的,请问 1. dataframe如何保存到hbase,这个datafra ...
我通过网上开源的类库来读取mongodb的数据,这样子的话,就会把mongodb中的某个Collection读取成一个RDD,那么问题来了,我的集 ...
求解 如果不加过滤条件是可以拿到数据的,应该代表取数据这块儿没有问题吧?但是这个where有问题吗? 注: 数据库里 ...
我运行spark的spark.example.SparkPi例子,用yarn-cluster提交是可以运行的,但用yarn-client提交,日志一直打印[mw_shl_code=ja ...
chsong@Master:/spark/spark-1.4.0-bin-hadoop2.6/bin$ ./spark-shell --master spark://Master:7077 15/10/03 08:25:24 WARN u ...
sparkStreaming程序使用standalone模式的集群提交模式启动1秒就自动关闭,检查stedrr发现以下信息 17/11/03 14:34:08 INFO ex ...
最近要做大数据平台下的视频图像处理,不知道Spark计算框架可以对视频图像数据处理吗?与MapReduce区别大吗?
集群版本:spark1.4+hbase0.96+hadoop2.6,分为spark集群和hadoop集群, 在standalone模式下提交spark-submit报错, ...
本人的 spark 版本为1.4.1 ,hadoop 版本为 2.5.0-cdh5.3.2 。现在编译的遇到的错误情况如下: 编译语句为:./make-distributi ...
RDD默认持久方式是MEMORY_ONLY,无法通过persist进行修改持久方式,提示“Cannot change storage level of an RDD after it was ...
在使用SparkStreaming写入Hbase时,出现下面的错误。 提交命令: spark-submit\ --master yarn-client \ --driver-m ...
关于KeyValue的排序以及HFile可否存在重复KeyValue 各位大佬 小弟早上又操作了一下。 从关系型数据库读取数据集,通 ...
spark的master和worker通过SSH进行通讯连接,但是为了保证系统安全性,SSH端口不采用默认端口22,改用其他端口。 这个时候spark ...
集群部署: master: node0 slave: node0, node1, node2 数据存放: node0: /home/uname/data/t_0.txt node1: /home/uname ...
sparksql 可以修改map数吗
使用kafka+sparkstreaming(spark版本1.4.1),存到hdfs中时,按时间格式存储文件,我想要的结果是每一个批次存成一个文件, ...
弱弱请教以下各位大神: 我现在有个场景,sqlserver里的数据每时每刻都在增加,现在想用sparkstreaming把增量的数据读 ...
take(num)会取出n条元素。 因为take是action所以会驱动前边依赖的stage和transfrom运行,我的疑问是他会驱动前边的rdd里所有 ...
问题:比如我有八个数据0 1 2 3 4 5 6 7迭代多次,比如: 第一次: 0和4:位置的两个元素运算生成两个新的元素放到0和4位置上 ...
想请教下textfile这个函数是在driver上执行还是会被分配到task中执行? 如果在wordcount.scala中加入这一段 val startti ...
val rdd = sc.textFile("..").map(x => x.split(",")).map(x => (x(0), x(1).toLong)) val df = rdd.toDF df.show df.cache ...
如上题,我晚上有四个计划任务,分别是凌晨一点与凌晨两点执行,但是在spark-histroy-server的监控上的时间是错的,怎么调 ...
如题,单个Partition里的数据是不是直接从原文件里面范围顺序抽取的(比如原文件里是(1,2,3,4),形成的Partition是(1,2) ...
启动:bin/spark-shell --master yarn-client --executor-memory 1g --num-executors 3 部分日志: 日志上已经有提示U ...
现在有个项目要求: 需要每隔五秒提交一个作业,处理传入spark集群最近的1000条数据,所以这里经过streaming传入的数据必须要先 ...
我本地调试想直接从服务器把表的数据查出来,hive是可以的。setMaster我指向了服务器 打印日志提示没有表 val sc = new SparkCo ...
在spark-submit提交job的时候,会有一些依赖包,通过 SPARK_CLASSPATH配置指明依赖包位置可以方便很多,但是在 standalone clust ...
关于dag 有一点一致不理解,如下: 针对环形图,那当我们的需要执行 D.collect 操作的时候,就会引发一个死循环了。 请问 ...
SparkSql运行后,会生成很多小文件200个task就生成200个文件,有什么好办法解决? 补充内容 (2016-11-14 03:55): package mai ...
在spark-shell中,执行如下代码: val sqlContext=new org.apache.spark.sql.SQLContext(sc) import sqlContext._ case c ...
本版积分规则 发表帖子
查看 »