Spark 教程

Spark SQL

Spark 笔记

Spark MLlib

Spark 安装


Spark 是由 Scala 编写的,所以在安装 Spark 的过程中,首先必须确保 Java 环境的安装和 Scala 的安装。

Spark 运行模式

Spark 可以运行在多种模式之上,主要有以下几种运行模式:

  • 本地单机模式(local):主要用于本地开发测试 Spark 代码;
  • 独立分布式模式(standalone):以 master-worker 架构,master 负责调度,worker 负责具体 task 的执行;
  • 基于 Mesos 或 YARN 模式:运行在 Mesos/YARN 等资源管理框架之上,Mesos/YARN 提供资源管理,Spark 提供计算调度,并可与其他计算框架(如 MapReduce/MPI/Storm)共同运行在同一个集群之上;
  • 基于云容器(Cloud):如运行在 AWS 的 EC2 之上。

Spark 安装

首先介绍在各个平台上,Spark 的安装。

准备工作

不管在什么平台安装,都要确保几点如下:

  • java 环境的安装;
  • scala 的安装。

Mac OS 安装 Spark

Mac 平台下可以通过2种方式安装 Spark:

  • 基于 homebrew 安装;
  • 通过安装包安装。

通过 homebrew 安装

brew install apache-spark