About云-梭伦科技»专题 › 技术学习(版主发帖区) › 大数据学习 › Spark › Spark 实时计算整合案例

Spark 实时计算整合案例

查看数: 11655 | 评论数: 10 | 收藏 1

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

PeersLee

发布时间: 2017-10-4 14:56

正文摘要:

本帖最后由 PeersLee 于 2017-10-4 15:00 编辑问题导读： 1. 如果将 Storm 替换为 Spark 那么业务实现流程是什么？ 2. 如何实现该业务逻辑？解决方案： 1.概述　　最近有同学问道，除了使用 S ...

liuyou2036 发表于 2020-7-17 09:04:45

scala需要补充一下

ledasion 发表于 2017-10-9 10:36:48

yht 发表于 2017-10-8 13:13
嗯嗯早上群里看到了十分感谢等下就拜读下

将rdd保存成 parquet格式，可以指定 mode为 append，可以将多个batch数据写入到一个文件

美丽天空 发表于 2017-10-9 00:18:07

感谢分享

yht 发表于 2017-10-8 13:13:01

einhep 发表于 2017-10-7 18:14
这篇文章有介绍的，楼主可以尝试下。
用Hadoop的FileSystem实现在已有目录下用一个文件保存Spark数据
h ...

嗯嗯早上群里看到了十分感谢等下就拜读下

einhep 发表于 2017-10-7 18:14:02

yht 发表于 2017-10-6 09:59
这种方式多个partition会聚合成一个输出,但是对于多个batch每次都saveasfile 貌似不行。。每个batch都会 ...

这篇文章有介绍的，楼主可以尝试下。
用Hadoop的FileSystem实现在已有目录下用一个文件保存Spark数据
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22855

yht 发表于 2017-10-6 09:59:05

desehawk 发表于 2017-10-6 08:23
序列化应该是封装了。产生细碎文件，spark应该有设置的保存为一个文件。
[mw_shl_code=scala,true]rddx. ...

这种方式多个partition会聚合成一个输出,但是对于多个batch每次都saveasfile 貌似不行。。每个batch都会保存为一个文件

desehawk 发表于 2017-10-6 08:23:35

yht 发表于 2017-10-5 12:44
关键是在实现过程中需要注意的一些问题，比如对象的序列化问题这个代码体现哪里呢。。。。spark的RDD运算 ...

关键是在实现过程中需要注意的一些问题，比如对象的序列化问题这个代码体现哪里呢。。。。spark的RDD运算确实比storm逻辑实现能力强大很多。不过两者实时性还是感觉有区别,一个batch 一个一条一条处理。前两天也在做类似的操作，用sparkStream 入平台HDFS但是发现出现大量细碎文件（我每个batch设置5秒）,请问spark stream下有米方便的方法让batch追加到同一个文件。还是自己要去写文件操作？

序列化应该是封装了。产生细碎文件，spark应该有设置的保存为一个文件。
[mw_shl_code=scala,true]rddx.repartition(1).saveAsTextFile("test/test.txt")
rddx.coalesce(1).saveAsTextFile("test/test.txt")[/mw_shl_code]

美丽天空 发表于 2017-10-5 23:03:02

感谢分享

yht 发表于 2017-10-5 12:44:07

关键是在实现过程中需要注意的一些问题，比如对象的序列化问题这个代码体现哪里呢。。。。spark的RDD运算确实比storm逻辑实现能力强大很多。不过两者实时性还是感觉有区别,一个batch 一个一条一条处理。前两天也在做类似的操作，用sparkStream 入平台HDFS但是发现出现大量细碎文件（我每个batch设置5秒）,请问spark stream下有米方便的方法让batch追加到同一个文件。还是自己要去写文件操作？

图文精华

Spark 实时计算整合案例

正文摘要:

回复

推荐 /2