立即注册 登录
About云-梭伦科技 返回首页

pig2的个人空间 https://www.aboutyun.com/?61 [收藏] [复制] [分享] [RSS]

日志

about云系列spark入门1:初步介绍及相关文档、安装包、例子、spark库等初步介绍

已有 1134 次阅读2015-6-30 18:55 | about

问题导读

1.spark速度快的原因是什么?
2.spark有哪些组件?
3.spark可以使用哪些开发语言?







Apache Spark™ 是一个快速的通用的大数据处理工具


速度

运行程序,在内存中是mapredcue 100倍,磁盘中是mapreduce的10倍。

spark有一个DAG引擎,支持循环数据流和内存计算

 


使用简单


可以使用Java, Scala, Python, R语言编写spark程序,


SparkPython API版wordcount
[Python] 纯文本查看 复制代码
1
2
3
4
5
text_file = spark.textFile("hdfs://...")
  
text_file.flatMap(lambda line: line.split())
    .map(lambda word: (word, 1))
    .reduceByKey(lambda a, b: a+b)


通用性强

Combine SQL, streaming, 和复杂分析.

spark包括:

Spark SQL, MLlib机器学习, GraphX, 和 Spark Streaming. 在同一个应用程序中,可以整合这些库

 



spark运行

可以运行在Hadoop, Mesos, 独立运行或则运行在云中。它可以访问多个数据源,包括HDFS, Cassandra, HBase, 和 S3.

 


##########################################

spark下载

地址:
http://spark.apache.org/downloads.html

 



spark组件


Spark SQL, 机器学习(MLlib), GraphX, 和 Spark Streaming. 第三方包

spark文档

http://spark.apache.org/documentation.html

spark例子 

http://spark.apache.org/examples.html

后面陆续出相关内容

路过

雷人

握手

鲜花

鸡蛋

评论 (0 个评论)

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 立即注册

关闭

推荐上一条 /2 下一条