立即注册 登录
About云-梭伦科技 返回首页

一颗银杏树的个人空间 https://www.aboutyun.com/?53709 [收藏] [复制] [分享] [RSS]

日志

分享 大数据学习经典书籍
2017-6-8 17:04
下面是大数据学习的基本经典书籍,有兴趣的同仁可以买来翻翻 1. 深入浅出数据分析 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。 难易程度:非常易。 2.啤酒与尿布 通过案例来说事情,而且是最经典的例子。 难易程度:非常易。 3.数据之美 一本介绍性的书籍,每章都解决一个 ...
个人分类: 学习心得|916 次阅读|0 个评论
分享 如果想以后从事云计算或大数据方面的事情,应该学习什么知识?有哪些书可以推荐?
2017-6-8 15:45
1.参与有关Hadoop的课程培训(当然并非一定要报培训班,可以网络搜索很多在线视频资料,对于入门者来说已经足够了) 2.了解大数据处理原理以及应用场景 一般来说,大数据的处理无外乎以下几点: 1)摸清数据源,了解数据结构以及数据类型 2)进行数据清 ...
个人分类: 学习心得|859 次阅读|0 个评论
分享 大数据经典学习路线(及供参考)
2017-6-7 18:14
1.Linux基础和分布式集群技术 在大数据领域,使用最多的操作系统就是Linux系列,并且几乎都是分布式集群。该课程为大数据的基础课程,主要介绍Linux操作系统、Linux常用命令、Linux常用软件安装、Linux网络、防火墙、Shell编程等。 2.离线计算系统课程阶段 2.1、通过对 ...
个人分类: 学习心得|1162 次阅读|0 个评论
分享 spark-submit提交作业报错:Caused by: java.lang.NoClassDefFoundError: scala/runti ...
2017-6-2 14:58
这个问题折磨了我一周都不止,梦里、坐地铁无时不刻都在思考着解决这个报错。今天终于解决了,写个日志分享出来。 首先贴程序代码: package com.zhangcheng import org.apache.spark._; import java.net.InetAddress /** * Created by zhangcheng on 2017/6/1. */ object test1 { de ...
个人分类: spark|3881 次阅读|0 个评论
分享 举例说明spark中为什么需要使用累加器和广播变量
2017-5-25 10:52
看了很多文章好多并没有举例来说明变量回传这一工作机制。虽说简单,但对于初学者来理解这一概念还是很重要。 所以在这里举例说明一下。 1.在本地开启多个executor线程 先生成一批文件到/home/hadoop/userdata/files/log/ $for i in `seq 1 9`;do echo $i$i$i$i $i.log;done ...
个人分类: spark|1427 次阅读|0 个评论 热度 1
分享 《spark快速数据分析》读书笔记之第五章:数据读取与保存
2017-5-22 14:46
5.1 动机 数据量可能大到无法放在一台机器中,这时就需要探索别的数据读取和保存的方法了 spark基于hadoop生态圈构建,因此可以通过Hadoop MapReduce所使用的InputFormat和OutPutFromat接口访问如下文件格式及存储系统: * 文件格式与文件系统 文本文 ...
个人分类: spark|1505 次阅读|0 个评论
分享 《快学scala》学习笔记之第五章:类
2017-5-16 23:04
5.1简单类和无参方法 定义类 class Counter{ //不声明为public,但仍具有公共可见性 private var value = 0 //必须初始化字段 def increment(){value += 1} //方法是公有的 def current() = value //这里也可 ...
个人分类: scala|1054 次阅读|0 个评论 热度 1
分享 《spark快速数据分析》读书笔记之第二章:spark下载与入门
2017-5-12 16:00
2.1 下载spark http://spark.apache.org/downloads.html 注意:Windows 用户如果把Spark 安装到带有空格的路径下,可能会遇到一些问题。 tar开即可用 2.2 Spark中Python和Scala的shell Spark 带有交互式的shell,可以作即时数据分析。类似R、Python、Scala 所提供的shell,或操作系 ...
个人分类: spark|827 次阅读|0 个评论
分享 《spark快速数据分析》读书笔记之第一章:spark数据分析导论
2017-5-11 15:28
1.1 spark是什么? spark是一个用来实现快速而通用的集群计算的平台。 扩展了MR计算模型,除了可以批处理,还包括交互式查询和流处理,迭代算法等。 spark可以和其他大数据工具密切配合使用,比如运行在hadoop集群上,访问包括Cassandra在内的任意hadoop数据源。 1.2 一个大一统的软件栈 spa ...
个人分类: spark|817 次阅读|0 个评论
分享 《快学scala》学习笔记之第四章:映射和元组
2017-5-11 09:27
映射是对偶的集合,对偶就是两个值构成的组,比如("Alice",10) 4.1 构造映射 不可变 val scores = Map("Alice" - 10,"Bob" - 3,"Cindy" - 8) //其值不可变 可变 val scores = new scala.collection.mutable.HashMap //空映射需要给定类型参数 val scores = scala.co ...
个人分类: scala|692 次阅读|0 个评论
12下一页
关闭

推荐上一条 /2 下一条