分享

about云系列spark入门1:初步介绍及相关文档、安装包、例子、spark库等初步介绍


问题导读

1.spark速度快的原因是什么?
2.spark有哪些组件?
3.spark可以使用哪些开发语言?






Apache Spark™ 是一个快速的通用的大数据处理工具


速度

运行程序,在内存中是mapredcue 100倍,磁盘中是mapreduce的10倍。

spark有一个DAG引擎,支持循环数据流和内存计算

logistic-regression.png


使用简单


可以使用Java, Scala, Python, R语言编写spark程序,


SparkPython API版wordcount
[mw_shl_code=python,true]text_file = spark.textFile("hdfs://...")

text_file.flatMap(lambda line: line.split())
    .map(lambda word: (word, 1))
    .reduceByKey(lambda a, b: a+b)[/mw_shl_code]

通用性强

Combine SQL, streaming, 和复杂分析.

spark包括:

Spark SQL, MLlib机器学习, GraphX, 和 Spark Streaming. 在同一个应用程序中,可以整合这些库

spark-stack.png



spark运行

可以运行在Hadoop, Mesos, 独立运行或则运行在云中。它可以访问多个数据源,包括HDFS, Cassandra, HBase, 和 S3.

spark-runs-everywhere.png


##########################################

spark下载

地址:
http://spark.apache.org/downloads.html

downspark.png



spark组件


Spark SQL, 机器学习(MLlib), GraphX, 和 Spark Streaming. 第三方包

spark文档

http://spark.apache.org/documentation.html

spark例子

http://spark.apache.org/examples.html

后面陆续出相关内容



下一篇:

about云系列spark入门2:spark最新源码包、安装包、git源码、maven等下载介绍


已有(3)人评论

跳转到指定楼层
levycui 发表于 2015-7-1 09:06:05
支持spark文章
回复

使用道具 举报

不朽 发表于 2015-7-1 10:15:44
都是官方英文例子啊  我多虑了
回复

使用道具 举报

sun128837 发表于 2015-7-1 19:50:17
写的太简单了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条