分享

想用scala程序操作spark时遇到了问题

395455030 发表于 2016-1-12 11:14:39 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 15 26258
395455030 发表于 2016-1-12 21:03:15
regan 发表于 2016-1-12 20:10
spark数据清洗,机器学习,大量的迭代计算。SparkStreaming流处理,分布式解码。
java和scala编写的代码 ...

(要点回复的时候点成了反对)
spark-submit的日志不就是上面说的初始化sc错误吗。
这好为难。一个工程大部分都是别人做,只有数据分析这么一小部分是我做的。别人做了主函数,别人也习惯于java Program启动程序,对spark不了解,希望我写好一个函数,别人直接调用就可以了。现在给别人说以后运行主函数不能用java了,要进到spark文件夹用spark-submit,那好麻烦。
一整个团队能全部是做大数据的吗,分工比较细的话可能就少数人在做大数据,很多人还是习惯传统的java吧。
回复

使用道具 举报

regan 发表于 2016-1-13 10:08:57
395455030 发表于 2016-1-12 21:03
(要点回复的时候点成了反对)
spark-submit的日志不就是上面说的初始化sc错误吗。
这好为难。一个工程 ...

你是说别人做了主函数,想调用你写的SPARK部分的代码进行大数据分析,是吧?
那你叫调用你的那个人在他写的main函数里面写一个线程,专门用于启动spark(你写的那部分)。
如: p_cmd = Runtime.getRuntime().exec(“ spark-submit xx xx xx xx xx ”)启动你的spark进程。

回复

使用道具 举报

395455030 发表于 2016-1-13 10:30:53
regan 发表于 2016-1-13 10:08
你是说别人做了主函数,想调用你写的SPARK部分的代码进行大数据分析,是吧?
那你叫调用你的那个人在他 ...

想要获取返回值,看了一下,p_cmd.getInputStream()获取子进程的标准输出流,那是在spark这边的程序写println(output),就能被getInputStream()读到output?spark运行时也会在屏幕输出一堆INFO,这些会被getInputStream()读到吗?
回复

使用道具 举报

regan 发表于 2016-1-13 11:10:12
395455030 发表于 2016-1-13 10:30
想要获取返回值,看了一下,p_cmd.getInputStream()获取子进程的标准输出流,那是在spark这边的程序写pri ...

spark中没有提供回写流的API,在spark中计算完了,直接存文件了。要么存HDFS,要么存Tachyon。它们要用数据,就从HDFS或者Tachyon中读取。
得到InputStream毫无意义。

回复

使用道具 举报

395455030 发表于 2016-1-13 14:49:13
regan 发表于 2016-1-13 11:10
spark中没有提供回写流的API,在spark中计算完了,直接存文件了。要么存HDFS,要么存Tachyon。它们要用数 ...

getInputStream()获取子进程的标准输出流,标准输出流是指System.out.println()这个吗?如果是,spark用scala,scala怎么会没有标准输出流?如果不是,java中是怎么写值回去的?
回复

使用道具 举报

regan 发表于 2016-1-13 15:49:09
395455030 发表于 2016-1-13 14:49
getInputStream()获取子进程的标准输出流,标准输出流是指System.out.println()这个吗?如果是,spark用s ...

你妹,都跟你说了Spark中没有提供写流的API,RDD操作完了之后就保存数据了。还写毛的流阿,既然没有写,你JAVA得到了InputStream,InputStream里面只有毛,其他什么都没有!!!!Spark结果保存到HDFS或Tachyon供其他业务部门共享。。。。。。我无言以对了。。。。。。。。多实践,不要做伸手党

回复

使用道具 举报

12
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条