Spark3.0中文官网文档

本帖最后由 hanyunsong 于 2020-7-16 17:21 编辑

Apache Spark是用于大规模数据处理的统一分析引擎. 它提供Java，Scala，Python和R中的高级API，以及支持常规执行图的优化引擎. 它还支持一组丰富的更高级别的工具，包括星火SQL用于SQL和结构化数据的处理， MLlib机器学习， GraphX用于图形处理，以及结构化流的增量计算和流处理.

Security

默认情况下，Spark中的安全性处于关闭状态. 这可能意味着您默认情况下容易受到攻击. 下载并运行Spark之前，请参阅Spark Security .

Downloading

从项目网站的下载页面获取Spark. 本文档适用于Spark版本3.0.0. Spark将Hadoop的客户端库用于HDFS和YARN. 下载是为少数流行的Hadoop版本预先打包的. 用户还可以下载"免费的Hadoop"二进制文件，并通过扩展 Spark 的classpath在任何Hadoop版本上运行Spark. Scala和Java用户可以使用其Maven坐标将Spark包含在他们的项目中，而Python用户可以从PyPI安装Spark.

如果您想从源代码构建Spark，请访问Building Spark .

Spark可在Windows和类似UNIX的系统（例如Linux，Mac OS）上运行，并且应在运行受支持的Java版本的任何平台上运行. 这应该包括x86_64和ARM64上的JVM. 在一台机器上本地运行很容易-您所需要做的就是在系统PATH上安装java或指向Java安装的JAVA_HOME环境变量.

Spark可在Java 8/11，Scala 2.12，Python 2.7 + / 3.4 +和R 3.1+上运行. 从Spark 3.0.0开始不推荐使用Java 8之前的版本8u92. 从Spark 3.0.0开始不推荐使用3.6版之前的Python 2和Python 3. 从Spark 3.0.0开始不推荐使用3.4版之前的R. 对于Scala API，Spark 3.0.0使用Scala 2.12. 您将需要使用兼容的Scala版本（2.12.x）.

对于Java 11，Apache Arrow库还需要-Dio.netty.tryReflectionSetAccessible=true . 这样可以防止java.lang.UnsupportedOperationException: sun.misc.Unsafe or java.nio.DirectByteBuffer.(long, int) not available当Apache Arrow内部使用Netty时java.lang.UnsupportedOperationException: sun.misc.Unsafe or java.nio.DirectByteBuffer.(long, int) not available .

Running the Examples and Shell

Spark附带了几个示例程序. Scala，Java，Python和R的示例位于examples/src/main目录中. 要运行Java或Scala示例程序之一，请使用顶级Spark目录中的bin/run-example <class> [params] . （在后台，这将调用更通用的spark-submit脚本来启动应用程序）. 例如，

[mw_shl_code=bash,true]./bin/run-example SparkPi 10[/mw_shl_code]

您还可以通过修改后的Scala shell版本以交互方式运行Spark. 这是学习框架的好方法.

[mw_shl_code=bash,true]./bin/spark-shell --master local[2][/mw_shl_code]

--master选项指定分布式集群的主URL ，或者local可以通过一个线程在local运行，或者local[N]可以通过N个线程在本地运行. 您应该首先使用local进行测试. 有关选项的完整列表，请使用--help选项运行Spark shell.

Spark还提供了Python API. 要在Python解释器中交互式运行Spark，请使用bin/pyspark ：

[mw_shl_code=bash,true]./bin/pyspark --master local[2][/mw_shl_code]

Python还提供了示例应用程序. 例如，

[mw_shl_code=bash,true]./bin/spark-submit examples/src/main/python/pi.py 10[/mw_shl_code]

从1.4开始，Spark还提供了R API （仅包含DataFrames API）. 要在R解释器中交互式运行Spark，请使用bin/sparkR ：

[mw_shl_code=bash,true]./bin/sparkR --master local[2][/mw_shl_code]

R中还提供了示例应用程序.例如，

[mw_shl_code=bash,true]./bin/spark-submit examples/src/main/r/dataframe.R[/mw_shl_code]

Launching on a Cluster

Spark 集群模式概述介绍了在集群上运行的关键概念. Spark既可以单独运行，也可以在多个现有集群管理器上运行. 当前，它提供了几种部署选项：

独立部署模式：在私有集群上部署Spark的最简单方法
Apache Mesos
Hadoop YARN
Kubernetes

Where to Go from Here

编程指南：

快速入门：Spark API快速入门；从这里开始！
RDD编程指南：Spark基础概述-RDD（核心但旧的API），累加器和广播变量
Spark SQL，数据集和数据帧：使用关系查询（比RDD更新的API）处理结构化数据
结构化流：使用关系查询处理结构化数据流（使用数据集和数据帧，比DStreams更新的API）
Spark Streaming ：使用DStreams处理数据流（旧API）
MLlib ：应用机器学习算法
GraphX ：处理图形

API文件：

部署指南：

集群概述：在集群上运行时的概念和组件概述
提交应用程序：打包和部署应用程序
部署方式：
- Amazon EC2 ：可使您在大约5分钟内在EC2上启动集群的脚本
- 独立部署模式：无需第三方集群管理器即可快速启动独立集群
- Mesos ：使用Apache Mesos部署私有集群
- YARN ：在Hadoop NextGen（YARN）之上部署Spark[url=]代码[/url]
- Kubernetes ：在Kubernetes之上部署Spark

其他文件：

配置：通过其配置系统自定义Spark
监视：跟踪应用程序的行为
调优指南：优化性能和内存使用的最佳做法
作业调度：在Spark应用程序之间和内部调度资源
安全性：Spark安全性支持
Hardware Provisioning: recommendations for cluster hardware
与其他存储系统集成：
- 云基础架构
- OpenStack迅捷
迁移指南：Spark组件的迁移指南
构建Spark ：使用Maven系统构建Spark
Contributing to Spark
第三方项目：相关的第三方Spark项目

外部资源：

Spark Homepage
Spark社区资源，包括本地聚会
StackOverflow tag apache-spark
邮件列表：在此处询问有关Spark的问题
AMP营地：加州大学伯克利分校的一系列训练营，其中包含有关Spark，Spark Streaming，Mesos等的讲座和练习. 视频，幻灯片和练习可在线免费获得.
代码示例：Spark的examples子文件夹（ Scala ， Java ， Python ， R ）中也提供更多examples

原文链接
http://spark0apache0org.icopy.site/docs/latest/

图文精华

Spark3.0中文官网文档

推荐 /2