立即注册
登录
About云-梭伦科技
返回首页
pig2的个人空间
https://www.aboutyun.com/?61
[收藏]
[复制]
[分享]
[RSS]
空间首页
动态
记录
日志
相册
主题
分享
留言板
个人资料
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
首页
Portal
专题
BBS
面试
办公|编程助手
更多
我的空间
好友
帖子
收藏
道具
勋章
任务
动态
日志
相册
分享
记录
留言板
群组
导读
日志
about云系列spark入门1:初步介绍及相关文档、安装包、例子、spark库等初步介绍
已有 1134 次阅读
2015-6-30 18:55
|
about
问题导读
1.spark速度快的原因是什么?
2.spark有哪些组件?
3.spark可以使用哪些开发语言?
Apache Spark™ 是一个快速的通用的大数据处理工具
速度
运行程序,在内存中是mapredcue 100倍,磁盘中是mapreduce的10倍。
spark有一个DAG引擎,支持循环数据流和内存计算
使用简单
可以使用Java, Scala, Python, R语言编写spark程序,
SparkPython API版wordcount
[Python]
纯文本查看
复制代码
?
1
2
3
4
5
text_file = spark.textFile("
hdfs://...
")
text_file.flatMap(lambda line: line.split())
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a+b)
通用性强
Combine SQL, streaming, 和复杂分析.
spark包括:
Spark SQL, MLlib机器学习, GraphX, 和 Spark Streaming. 在同一个应用程序中,可以整合这些库
spark运行
可以运行在Hadoop, Mesos, 独立运行或则运行在云中。它可以访问多个数据源,包括HDFS, Cassandra, HBase, 和 S3.
##########################################
spark下载
地址:
http://spark.apache.org/downloads.html
spark组件
Spark SQL, 机器学习(MLlib), GraphX, 和 Spark Streaming. 第三方包
spark文档
http://spark.apache.org/documentation.html
spark例子
http://spark.apache.org/examples.html
后面陆续出相关内容
路过
雷人
握手
鲜花
鸡蛋
收藏
分享
邀请
举报
全部
作者的其他最新日志
•
种用于单张图像大尺度人脸三维重建的VRN算法
•
基于 Openpose 实现人体动作识别
•
基于OpenCV使用OpenPose进行多个人体姿态估计
•
《DensePose: Dense Human Pose Estimation In The Wild》阅读笔记
•
Field types of query result and registered TableSink do not match
•
Clickhouse bug DB::Exception: PeekableReadBuffer: Memory limit exceed
评论 (
0
个评论)
涂鸦板
您需要登录后才可以评论
登录
|
立即注册
评论
pig2
加为好友
给我留言
打个招呼
发送消息
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈