日志

《spark快速数据分析》读书笔记之第一章：spark数据分析导论

已有 817 次阅读2017-5-11 15:28 |个人分类:spark| spark, 导论

1.1 spark是什么？

spark是一个用来实现快速而通用的集群计算的平台。

扩展了MR计算模型，除了可以批处理，还包括交互式查询和流处理，迭代算法等。

spark可以和其他大数据工具密切配合使用，比如运行在hadoop集群上，访问包括Cassandra在内的任意hadoop数据源。

1.2 一个大一统的软件栈

spark软件库，可以根据自己需要随时调用spark软件库中的软件功能，各软件组件的关系密切，所有程序库和高级组件都可以从下层中改进中获益。

1.2.1 spark核心：

是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。

1.2.2 spark SQL

spark SQL是spark用来操作结构化数据的程序包。

1.2.3 spark streaming

Spark Streaming 是Spark 提供的对实时数据进行流式计算的组件.

1.2.4 MLlib

Spark 中还包含一个提供常见的机器学习（ML）功能的程序库，叫作MLlib.MLlib 提供了很多种机器学习算法，

包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。

1.2.5 GraphX

GraphX 是用来操作图（比如社交网络的朋友关系图）的程序库，可以进行并行的图计算。能用来创建一个顶点和边都包含任意属性的有向图.

1.2.6　集群管理器

Spark 支持在各种集群管理器（cluster manager）上运行，包括Hadoop YARN、Apache Mesos，以及Spark 自带的一个简易调度器，叫作独立调度器。

1.3 Spark的用户和用途

Spark 是一个用于集群计算的通用计算框架，本书的两大目标读者人群：数据科学家和工程师。数据科学应用和数据处理应用

1.4　Spark简史

Spark 是于2009 年作为一个研究项目在加州大学伯克利分校RAD 实验室（AMPLab 的前身）诞生。实验室中的一些研究人员曾经用过Hadoop MapReduce。

他们发现MapReduce 在迭代计算和交互计算的任务上表现得效率低下。因此，Spark 从一开始是为交互式查询和迭代算法设计的，同时还支持内存式存储和高效的容错机制。

1.5　Spark的版本和发布

Spark 最早在2010 年3 月开源，并且在2013 年6 月交给了Apache 基金会，现在已经成了Apache 开源基金会的顶级项目。

1.6　Spark的存储层次

Spark 不仅可以将任何Hadoop 分布式文件系统（HDFS）上的文件读取为分布式数据集，也可以支持其他支持Hadoop 接口的系统，比如本地文件、亚马逊S3、Cassandra、Hive、HBase 等。

我们需要弄清楚的是，Hadoop 并非Spark 的必要条件，Spark 支持任何实现了Hadoop 接口的存储系统。Spark 支持的Hadoop 输入格式包括文本文件、SequenceFile、Avro、Parquet 等。

我们会在第5 章讨论读取和存储时详细介绍如何与这些数据源进行交互。