其它 - Spark-About云-梭伦科技

About云-梭伦科技»专题 › 交流区› 技术交流› Spark

Spark

收录了 595 篇文章 · 3 人关注

版块操作

关注本版 RSS订阅

发布新帖

新窗

Spark大数据分析源码解析与实例详解

内容简介本书基于Spark 2.3.x、Spark 2.4.x系列版本，采用“理论+实践”的形式编写。全书共有90个实例，1个完整项目。第1 ...

admin 2021-11-8 0 1380
新书发布：深入理解分布式事务

内容简介本书的广度与深度兼备、理论与实战兼顾的分布式事务专著，它从基础知识、解决方案、原理分析、源码实现、工程实战5个 ...

阿飞 2021-11-2 0 1191
Spark性能调优(五):缓存与Checkpoint

1.怎么设置RDD缓存？2.RDD缓存有哪些策略？ 3.Checkpoint和Cache的区别有哪些？ Spark程序执行的特性，即延迟执 ...

regan 2019-12-9 1 4156
Spark性能调优（六）：数据本地性

1.什么是数据本地性？2.数据本地性有哪些策略？数据本地性指的是数据与执行的代码的远近程度。基于数据与执行的代 ...

regan 2019-12-9 1 4288
Spark算子总结

本帖最后由 linux_oracle 于 2020-12-4 15:52 编辑一.RDD创建1.从集合创建 1.1 parallelize 1.2 makerdd 2.从外部创 ...

linux_oracle 2020-12-4 0 2110
Spark性能优化(八):Shuffle调优

1.为什么会产生Shuffle?2.如何进行Shuffle调优？ 3.Shuffle调优最佳实践？在Spark程序中，Shuffle是性能的 ...

regan 2019-12-16 0 5264
Spark性能优化（一）：并行度优化

1.如何设置Spark程序的并行度？ 2.并行度和分区数的关系？ 3.如何正确设置RDD分区数？4.分区数设置的最佳实践？ ...

regan 2019-11-22 1 5799
压榨Spark程序性能的八大原则

编写Spark程序需要注意哪些基本的原则？遇到性能瓶颈如何优化？ 1. 准则一：从同一个数据源尽量只创建一个RDD ...

regan 2019-11-21 0 2909
从术语到Spark，10篇必读大数据学习资源

本文给想进入大数据领域的朋友提供了一系列的资源，由浅入深，比如“需要了解的51条大数据术语”、“学习python的四个理由”、 ...

梦蝶大数据 2019-4-4 0 4464
调试本地spark sql环境

1.准备hadoop环境 1.1 官网下载hadoop-2.7.3.tar.gz解压http://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/ ...

abc50319 2018-8-14 0 5371
Spark调度模式-FIFO和FAIR

Spark中的调度模式主要有两种：FIFO和FAIR。默认情况下Spark的调度模式是FIFO（先进先出），谁先提交谁先执行，后面的任务需要等 ...

dragon111111 2018-3-16 0 4605
找不扯淡的人一起学习spark

我在学习spark，目前版本：hadoop2.6，spark2.1，hive1.1，想找志同道合的们，qq284678311

zhuqitian 2017-1-19 0 5761
大数据分析平台Hadoop与Spark之争

有人把大数据称为信息资产、有人称为金矿、甚至社会财富。而大数据，即，无法在可承受的时间范围内用常规软件工具进行捕捉、管 ...

Newhorizons 2015-9-18 0 8700