用户组:游客
求大神们给小弟介绍一下。hadoop和spark。。。感激不尽。
spark-env.sh配置 export SPARK_LOCAL_DIRS=/mnt/diske/sparklocal,/mnt/diskb/sparklocal,/mnt/diskc/sparklocal,/mnt/diskd/s ...
大家好,请问下,我用insert overwrite 删除了hive的表数据,而且select 也为空,但是hdfs 路径下仍然有文件,一般是什么原因啊 ...
现在大数据这个行业里,用什么脚本语言比较多? 我刚学没多久,只对shell熟悉些,但听别人说现在已经没人用shell写脚本了,是这 ...
希望各位大牛给点意见和建议!!!!
kettle 嵌套java 脚本后,可以集成redis 或其他缓存服务吗?
执行如下hive语句,map任务没有错误,reduce任务如下错误: Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.me ...
Class ClusterStatus ==================================================================== ClusterStatus provides cl ...
如题,或者获取split ID in the mapfunction。 ========================================= InputSplit is = context.getInput ...
kettle 怎么连接Hbase ,并插入数据?
Hadoop 3.0.0-alpha1已经发布了 http://hadoop.apache.org/releases.html#03+September%2C+2016%3A+Release+3.0.0-alpha1+ava ...
spark streaming的某个DStream因为与外部交互,所以处理很慢,处理一条大约2s。这就导致整个流程都在等这个RDD处理完成之后才能 ...
按照坛子里的教程http://www.aboutyun.com/thread-8130-1-1.html 编译hadoop2.5.2时编译到Apache Hadoop Common失败了 环境 ...
其实就是跟hue中oozie的编辑器差不多 ,但有一些问题,前台拖拽组件形成工作流后怎么传给后台?传的形式是什么,oozie中web api怎 ...
因为有数据统计的需要,准备使用累加器Accumulator进行统计,totalCount =jssc.sparkContext().accumulator(0, "totalCounter"); ...
我通过Spark Streaming从Kafka中读取数据的时候遇到这么一个问题,如果我总是读取最新的数据,程序能够正常跑,但是如果我的程序 ...
各位大神,我的spark streaming程序的DSteam有A->B->C ,A->B->D,A->B->E三个支线。当我运行程序的时候,如果只是单独的一条线, ...
在命令行输入kinit认证或使用.keytab认证过后,在命令行可以进行操作,放到脚本中可以执行,但是使用cronta每天定时执行,到第二 ...
最近在测试spark streaming,里面有个业务需要用到对总数据量的统计,这个在sparkstreaming中怎么实现呢?用updatestatebykey吗 ...
旁边同事要给实习生讲如何使用Git,画了张图,我感觉很有用,甚至当桌面都可以,大家可以参考参考
因为已经配置好了hadoop的,所以在官网下载了spark-1.6.1-bin-without-hadoop.tgz 但执行spark-sql时提示: Failed to load m ...
1、通过网络上的各种教程,我搭建了一个hadoop的开发环境,3台CentOS6.5的虚拟机,分别安装了hadoop2.5.2的版本,一个namenode和 ...
听说最近spark升级到2.0了 是不是直接把原来的spark1.6目录替换了就行了? 有人试过吗 有哪些需要修改的? 大概试了下 感 ...
大家好,想问一下,使用gangglia监控hadoop集群,但是有些节点变化不大,可能是什么原因啊,
Exception in thread "main" java.lang.NoSuchFieldError: INSTANCE at org.apache.http.conn.ssl.SSLConnectionSocketFact ...
本帖最后由 S|C 于 2016-8-23 09:33 编辑 问题导读: 1.hadoop在分析数据时怎么过滤文件?2.hadoop过滤文件的输入路径配置需 ...
使用ganglia监控集群中的机器,按照Hadoop ,Hbase等进行分组,使用的是单播方式,配置gmetad.conf 是data_source "Hadoop" node1 ...
sqoop2中,一开始job,start job -j X,就会在hadoop用户的家目录下产生大量的链接文件 lrwxrwxrwx 1 hadoop hadoop 7 ...
通过kinit 产生的效期只有一分钟,有办法延长吗? 如下: $ kinit -kt op.keytab op [op@TEST-BDD-063 ~]$ klist Ticket c ...
请教大神们一个问题,master主机和两个slave机器启动之后,master上通过50070端口为嘛看不见两个slave的信息 (三个机器可以ssh ...
本版积分规则 发表帖子
查看 »