用户组:游客
内容简介 本书基于Spark 2.3.x、Spark 2.4.x系列版本,采用“理论+实践”的形式编写。全书共有90个实例,1个完整项目。 第1 ...
内容简介 本书的广度与深度兼备、理论与实战兼顾的分布式事务专著,它从基础知识、解决方案、原理分析、源码实现、工程实战5个 ...
1.怎么设置RDD缓存?2.RDD缓存有哪些策略? 3.Checkpoint和Cache的区别有哪些? Spark程序执行的特性,即延迟执 ...
1.什么是数据本地性?2.数据本地性有哪些策略? 数据本地性指的是数据与执行的代码的远近程度。基于数据与执行的代 ...
本帖最后由 linux_oracle 于 2020-12-4 15:52 编辑 一.RDD创建1.从集合创建 1.1 parallelize 1.2 makerdd 2.从外部创 ...
1.为什么会产生Shuffle?2.如何进行Shuffle调优? 3.Shuffle调优最佳实践? 在Spark程序中,Shuffle是性能的 ...
1.如何设置Spark程序的并行度? 2.并行度和分区数的关系? 3.如何正确设置RDD分区数?4.分区数设置的最佳实践? ...
编写Spark程序需要注意哪些基本的原则? 遇到性能瓶颈如何优化? 1. 准则一:从同一个数据源尽量只创建一个RDD ...
本文给想进入大数据领域的朋友提供了一系列的资源,由浅入深,比如“需要了解的51条大数据术语”、“学习python的四个理由”、 ...
1.准备hadoop环境 1.1 官网下载hadoop-2.7.3.tar.gz解压http://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/ ...
Spark中的调度模式主要有两种:FIFO和FAIR。默认情况下Spark的调度模式是FIFO(先进先出),谁先提交谁先执行,后面的任务需要等 ...
我在学习spark,目前版本:hadoop2.6,spark2.1,hive1.1,想找志同道合的们,qq284678311
有人把大数据称为信息资产、有人称为金矿、甚至社会财富。而大数据,即,无法在可承受的时间范围内用常规软件工具进行捕捉、管 ...
本版积分规则 发表帖子
查看 »