分享 spark-submit提交作业报错:Caused by: java.lang.NoClassDefFoundError: scala/runti ...
一颗银杏树 2017-6-2 14:58
这个问题折磨了我一周都不止,梦里、坐地铁无时不刻都在思考着解决这个报错。今天终于解决了,写个日志分享出来。 首先贴程序代码: package com.zhangcheng import org.apache.spark._; import java.net.InetAddress /** * Created by zhangcheng on 2017/6/1. */ object test1 { de ...
个人分类: spark|3882 次阅读|0 个评论
分享 举例说明spark中为什么需要使用累加器和广播变量
一颗银杏树 2017-5-25 10:52
看了很多文章好多并没有举例来说明变量回传这一工作机制。虽说简单,但对于初学者来理解这一概念还是很重要。 所以在这里举例说明一下。 1.在本地开启多个executor线程 先生成一批文件到/home/hadoop/userdata/files/log/ $for i in `seq 1 9`;do echo $i$i$i$i $i.log;done ...
个人分类: spark|1427 次阅读|0 个评论 热度 1
分享 《spark快速数据分析》读书笔记之第五章:数据读取与保存
一颗银杏树 2017-5-22 14:46
5.1 动机 数据量可能大到无法放在一台机器中,这时就需要探索别的数据读取和保存的方法了 spark基于hadoop生态圈构建,因此可以通过Hadoop MapReduce所使用的InputFormat和OutPutFromat接口访问如下文件格式及存储系统: * 文件格式与文件系统 文本文 ...
个人分类: spark|1505 次阅读|0 个评论
分享 《spark快速数据分析》读书笔记之第二章:spark下载与入门
一颗银杏树 2017-5-12 16:00
2.1 下载spark http://spark.apache.org/downloads.html 注意:Windows 用户如果把Spark 安装到带有空格的路径下,可能会遇到一些问题。 tar开即可用 2.2 Spark中Python和Scala的shell Spark 带有交互式的shell,可以作即时数据分析。类似R、Python、Scala 所提供的shell,或操作系 ...
个人分类: spark|827 次阅读|0 个评论
分享 《spark快速数据分析》读书笔记之第一章:spark数据分析导论
一颗银杏树 2017-5-11 15:28
1.1 spark是什么? spark是一个用来实现快速而通用的集群计算的平台。 扩展了MR计算模型,除了可以批处理,还包括交互式查询和流处理,迭代算法等。 spark可以和其他大数据工具密切配合使用,比如运行在hadoop集群上,访问包括Cassandra在内的任意hadoop数据源。 1.2 一个大一统的软件栈 spa ...
个人分类: spark|818 次阅读|0 个评论
关闭

推荐上一条 /2 下一条